Юрий Майер

DataMarket project manager

"Что такое датасеты и как они связаны с нейронными сетями?" Разбираем по полочкам с проджект-менеджером TD

В контексте искусственного интеллекта качественные датасеты играют определяющую роль в обучении нейронных сетей. Но как они создаются и как их можно правильно использовать? Чтобы разобраться глубже, мы побеседовали с Юрой Майером, проджект-менеджером Датамаркета в Training Data.

В этой статье мы задали Юре самые важные вопросы о создании, значении данных и работе с датасетами.

-Юра, расскажи, для чего вообще нужны датасеты?

-Датасеты нужны в первую очередь для того, чтобы эффективно решать задачи машинного обучения и больших данных. К примеру, искать регрессии или новую информацию.

Хотя Data Schience часто ассоциируется с математикой, в основании концепции машинного обучения лежит именно мануальная работа, то есть разметка данных.

Если весь процесс машинного обучения представить в виде пирамиды, то в ее основании будут лежать именно данные. Без качественно собранных и тщательно размеченных данных даже хорошо настроенный и математически выверенный алгоритм не даст результатов.

-Все ясно! А как и кем создаются датасеты?

-Они могут собираться с помощью Crowd площадок (такие сервисы решают задачи заказчиков с помощью тысяч удалённых сотрудников) или in-house.

Особенность данных, которые собираются с помощью Crowd платформ — это большое количество ответов, их могут быть десятки тысяч. Именно так Training Data собирает масштабные датасеты по биометрии.

С помощью платформ можно сделать выборку не просто сотрудников своей компании, к примеру, 200 разметчиков, но собрать действительно огромное количество данных.

Особенность in-house датасетов заключается в том, что данные очень качественные. Выборка может быть не такой большой (к примеру, 50 ответов), но зато можно очень внимательно следить за качеством ответов. Так вы получаете данные, за которые действительно можете ручаться.

Но идеальный вариант – это именно собранные на Crowd платформе данные, которые имеют качество in-house датасетов. Именно над этим работает наша команда: большой датасет, собранный при помощи таких площадок, мы приводим к качеству in-house разметки, то есть 95% и выше.

-Очень интересно! С какими видами датасетов ты сталкиваешься в работе каждый день?

-Датасет зависит от того, какие задачи он решает. По сути это просто набор данных. Он может быть использован для той или иной задачи, если алгоритм настроен на решение задачи при помощи этого набора данных. Поэтому можно сказать, что все зависит от алгоритмов.

Алгоритмы computer vision лучше всего работают с изображения и медиа файлами. Есть текстовые алгоритмы, для которых требуется текст и разметка. Есть алгоритмы в 3D пространстве: лидарная разметка настроена как раз на этот тип алгоритма.
(«Лидар» (LIDAR) с английского расшифровывается как «Light Detection and Ranging». Так называется технология измерения расстояний с помощью светового луча).

То есть какая задача появляется в машинном обучении, такой тип разметки мы под нее и подбираем.

-Можешь кратко рассказать об этапах работы с датасетами?

Компания проходит несколько этапов работы с датасетами. Первое — это коллекционирование, то есть сбор данных. Потом начинается процесс разметки данных, проставление метаданных и обработка данных. В него может входить классификация, сегментация или треккинг. После разметки датасет преобразовывают в единое целое: метаданные и данные соединяются вместе. Потом датасет хранится и предоставляется заказчику.

Какие сложности у тебя появлялись во время работы?

Сначала я совершал много ошибок, в основном из-за неоднозначных моментов в техническом задании. Тогда я работал над проектом, где нужно было делать транскрибацию для одного из крупных клиентов. Иногда я не совсем понимал, нужно ли ставить дефис, если он должен стоять по правилам русского языка. К примеру, в слове “подойди-ка”.
Но в остальном трудностей не было: все очень подробно объяснялось во время онбординга, а потом, когда попадаешь на конкретный проект, все детали можешь найти в техническом задании.

-Юра, спасибо за быстрый и понятный экскурс в мир подготовки данных для обучения нейронных сетей! В следующих интервью поговорим о каждом пункте более подробно!

(Интервью провела SMM менеджер - Евгения Трофимова)