Разметка аудио для машинного обучения | Статья от экспертов компании «Training Data»

Многие приложения с искусственным интеллектом, начиная от чат-ботов и голосовых помощников типа Алисы и заканчивая системами безопасности с возможностью распознавания речи, автомобильными навигаторами, являются продуктами машинного обучения. И эти дополнительные возможности смартфонов и компьютеров, в свою очередь, возможны только благодаря разметке аудио.

Разметка (аннотация) аудио — процесс классификации компонентов звуковой дорожки и проставления тегов и меток, например, чтобы определить голос человека, шум автомобилей, лай собаки или музыкальный жанр композиции.

Для разметки используются аудиозаписи в формате MP3, FLAC, AAC и т. д. Операция выполняется специалистами вручную и с помощью специального программного обеспечения. Далее данные передаются в обучаемую модель NLP — с возможностью интерпретировать, понимать и анализировать речь. Метаданные могут включать информацию о дате и времени записи, дикторе, содержании и любую другую.

Где применяется разметка аудио?

Цели могут быть различны — например, классификация звуковых файлов по автору, продолжительности, жанру. Или быстрый поиск и переход к нужной части в интервью, обучающих материалах, создание расшифровок или субтитров для видео. Но самое важное — разработка и обучение систем распознавания речи.

Еще недавно голосовые помощники были чем-то за гранью фантастики. Сегодня Алиса есть почти в каждом доме. Мы спрашиваем у нее погоду, просим показать фильм, поставить чайник или запустить робота-пылесоса. То, как она понимает ваши запросы, отличает речь ребенка от взрослого и подстраивает контент — заслуга машинного обучения на основе размеченных аудио.

По данным исследования Industry Research Biz, объем мирового рынка услуг NLP в 2021 году оценивался в 2114,74 млн долларов США, а к 2027 году вырастет до 4358,76 млн долларов США. Аналитическая компания Analytics Vidhya называет NLP одним из актуальных трендов в области машинного обучения в 2023 году.

Статистики именно по разметке аудио в России нет. АНО «Цифровая экономика» оценивает российский рынок ИИ в 2022 году в 635 млн руб. Основной игрок — Сбербанк, по заявлению аналитиков компании, за 4 года использования ИИ финансовый эффект увеличился в 5 раз, с 45 млрд руб. в 2019 году до 230+ млрд руб. в 2022 году. Это огромный рынок с точки зрения стоимости. Следовательно, разметка аудио — одна из основных задач сейчас.

Как это применяется в реальности:

Голосовые помощники повышают качество жизни пожилых людей и лиц с ограниченными возможностями. Например, тех, кто по каким-то причинам не может печатать.
Чат-боты отвечают мгновенно, в любое время суток — если у вашей компании будет чат-бот с ИИ и навыком распознавания речи, довольных клиентов станет больше.
Способность ИИ определить эмоции речи — радость, гнев, удивление, разочарование и т. д. — автоматизирует процесс контроля качества обслуживания в колл-центрах.
Классификация мельчайших деталей речи — специалисты по разметке данных сделают метки для распознавания интонации, диалектов, семантики, других нюансов, например, для изучения иностранного языка.
Преобразование речи в текст и текста в речь — используется в самых разных сферах, от диктовки путевых заметок до прослушивания учебников.

Типы разметки аудио

Тип разметки зависит от цели модели машинного обучения. Выделяют пять основных:

Определение и классификация голоса. Машину учат различать голоса на датасетах с записями людей разного возраста и пола.
Речевая маркировка. Для этого специалист по аннотации данных помечает посторонние звуки и речь. Так, даже если человек говорит в шумном месте, голосовой бот опознает речь и поймет, что от него требуется.
Музыкальная классификация. В этом случае размечаются жанры и/или инструменты. Метод используется в музыкальных библиотеках, для формирования рекомендаций на основании интересов пользователя.
Определение языка и диалекта. Например, для мультиязычных голосовых помощников и чат-ботов. Встроенные алгоритмы обработки естественного языка анализируют человеческую речь до мельчайших деталей: семантика, диалект, контекст, интонация, после чего ИИ переходит на нужный язык и даже может подстроиться под особенности речи. Например, будет использовать сленговые словечки при разговоре с тинейджером. Разумеется, для обучения нужна соответствующая разметка аудио.
Транскрипция речи в текст и обратно. В этом случае разметчик данных помечает не только слова, но и звуки, а также знаки пунктуации.

Какие технологии применяются?

Для аннотации аудиоданных можно использовать ПО с открытым исходным кодом, например ELAN, и настроить его под нужды вашего бизнеса. Этот инструмент бесплатный, но работа выполняется вручную. Есть автоматические платформы, например LIUM SpkDiarization — позволяет идентифицировать разных дикторов и делит входной аудиофайл на сегменты по личности говорящего.

Кроме того, вы можете:

Разработать собственное программное обеспечение для разметки аудио. Плюс — безопасность данных. Минус — долго и дорого.
Передать задачу на платформы краудсорсинга (Toloka, OneForma и т. д.). Плюс — самый экономичный вариант. Минус — аннотацию выполняют разные люди, возможны неточности и различия в формате данных.
Обратиться к компании, специализирующейся на сборе и разметке данных. Плюс — крупные подрядчики, такие как Training Data, имеют больше возможностей и решений для модерации и разметки чувствительного контента, чем частные исполнители. Минус — вам понадобится проджект-менеджер, который будет делать выгрузки данных, составлять ТЗ, но это тоже можно включить в обязанности подрядчика.

Готовы ответить на все вопросы по разметке аудио по телефону или в телеграм. Оставьте заявку, пришлем тестовый датасет бесплатно.