TRAINING DATA
Детская речь
Аудио и транскрибация детской речи. Русский, английский, испанский и другие языки
Кейс

Кейс Детская речь

NLP
Технология машинного обучения для интерпретации компьютером речи человека
Machine Learning
Возможность системы автоматически интерпретировать данные и прогнозировать результат
ASR
Технология преобразования речи в текстовый формат
Сбор данных
Сбор подходящих данных для последующей разметки
1 000
аудиозаписей
8 нелель
срок выполнения
Описание КЕЙСa
Датасет состоит из 5 000 аудиоматериалов, собранных с помощью краудсорсинговых платформ и внутреннего штата AI - тренеров. Тема аудио - детские вопросы, или “Почемучка”
Каждый ребенок записал:
1 видео (для проверки) 
6 зачитанных готовых предложений
3 импровизации
Формат данных:
mp3  и xml - файл с расшифровкой
НАМ ДОВЕРЯЮТ
Область применения датасета
для разработки системы автоматического распознавания и транскрибирования детских речевых записей
ASR
для систем автоматического определения возраста или возрастной категории пользователей
NLP и классификация данных
для внутренней базы LLM сервисов, которые работают с детской аудиторией
Cбор данных
Training Data оказывает полный цикл услуг по работе с аудио данными на 40+ языках, наречиях, акцентах при разных фоновых условиях для качественного обучениях Ваших нейронных сетей
В Training Data мы предоставляем полный цикл работы с данными для обучения, оценки и тестирования LLM моделей по 12 индустриям
Похожие датасеты
НА ИТОГОВУЮ СТОИМОСТЬ ПРОЕКТА ВЛИЯЮТ:
Объем работ
Сложность разметки
Сроки
Качество разметки
Гарантия качества наших данных 95%. При заказе разметки с качеством выше 95% мы предлагаем enterprise решения
ВАМ Понравится
Многие приложения с искусственным интеллектом, начиная от чат-ботов и голосовых помощников типа Алисы и заканчивая системами безопасности с возможностью распознавания речи, автомобильными навигаторами, являются продуктами машинного обучения
Автоматическое распознавание речи представляет собой технологию обработки голоса и преобразования аудиоинформации в текстовый формат