TRAINING DATA

Тенденции в разметке данных для клиентов

Ринат Назмеев, Head of Sales

Бизнес постоянно ищет способы использовать данные для усовершенствования своих моделей AI. Поэтому роль аннотации данных, процесса разметки и категоризации данных для алгоритмов машинного обучения стала ключевой для обеспечения их точности. Как эффективно решать эти задачи, чтобы повысить эффективность моделей и получить положительные отзывы от клиента?
Чтобы обсудить главные тренды и принципы в разметке данных для клиентов, мы пообщаемся с Ринатом Назмеевым, Head of Sales в Training Data, компании по разметке данных №1 в России.

Вы можете поделиться примерами, как разметка данных повысила точность моделей AI в ваших предыдущих проектах?

Например, один из наших клиентов обратился к нам с проектом по улучшению его системы отслеживания людей по видео. Клиент предоставил нам начальный набор данных, включающий 100 часов видеозаписей. Вместе нам удалось достичь значительного улучшения метрик на 14%.
В рамках другого проекта нам удалось посотрудничать с одним из трех крупнейших банков Восточной Европы. Основное внимание в этом проекте уделялось обработке звонков, поступающих в их колл-центр. Банк хотел использовать потенциал нейронных сетей для того, чтобы классифицировать и автоматизировать запросы клиентов по разным категориям, к примеру, дебетовые карты, кредиты и депозиты.
После банк смог успешно обучить нейронную сеть выполнять эту задачу с точностью 96%, и система научилась правильно определить тему запросов. Это позволило ускорить работу call центра на 27%.

Какие основные тенденции вы наблюдаете в области искусственного интеллекта в настоящее время и как они влияют на разметку данных?

Сейчас мы можем выделить 5 основных тенденций, формирующих мир AI:
1. Deep Learning продолжает расширять свои границы. Техники Deep Learning, такие как CNN и RNN, активно используются для различных задач. К примеру, они нужны для компьютерного зрения, обработки языка и распознавание речи. Они значительно улучшили точность моделей AI.
CNN, напоминающие связи в мозге человека, лежат в основе способности AI расшифровывать визуальные данные. Они позволяют компьютерам видеть и анализировать изображения таким образом, который ранее считался возможным только для человеческого восприятия. CNN воссоздает способность мозга распознавать образы, будь то лица или идентификация объектов.
RNN же дает машинам способность понимать язык, анализируя последовательности данных, такие как слова в предложении или ноты в песне. Сейчас этот их навык используется для переводчиков и чат-ботов.
2. Generative AI models: особенно много обсуждаются GAN и VAE. Эти модели способны генерировать новые данные, изучая уже существующие наборы. Они применяются в создании контента, но также и в других областях. Эти модели выходят за рамки алгоритмических конструкций и открывают множество возможностей, которые могут изменить всю цифровую среду.

3. Обсуждение этики в использовании AI: Так как AI все заметнее влияет на нашу жизнь, обсуждения его этической стороны и возможных последствий получают все больше внимания. В частности, все важнее становятся вопросы прозрачности и конфиденциальности.
4. Edge computing и IoT: Сейчас появляется растущий спрос на запуск моделей AI на устройствах ограниченными ресурсами и связью. Эта тенденция требует техник разметки данных, которые могут оптимизировать модели для эффективного вывода и адаптироваться к ограничениям.
5. Автоматизированная разметка данных: По мере того, как AI все больше используется в мире, увеличивается и потребность в размеченных данных. Автоматизированные или полуавтоматизированные техники для этого процесса, такие как active learning и weak supervision, становятся популярными для эффективной обработки данных большого масштаба.

Сейчас мы видим увеличивающийся интерес к подготовке данных для моделей GPT и LLM. В Training Data мы проводим классификацию и оценку ответов GPT в течение 3 месяцев для различных банков, онлайн-рынков, компаний EdTech и даже поисковых систем.

Какие подходы в разметке данных для AI, на ваш взгляд, наиболее многообещающие и почему?

Синтетические данные - это сгенерированные данные. Рассмотрим сценарий, в котором клиент хочет разработать программу, способную отвечать на запросы пользователей в чат-интерфейсе. Для этого ему нужен полный набор данных, включающий разнообразные взаимодействия в чате. Ресурс, которого у компании нет. Самостоятельно создавая такие диалоги, мы создаем синтетические данные.
Значительным потенциалом обладают платформы предварительной разметки. Эти платформы способны ускорить и упростить процесс аннотации данных. При этом синтетические данные могут сделать существующий набор данных разнообразнее и актуальнее, снизив затраты.
Также это Generative AI, AI в медицине, edge cases и биометрические данные. Государство и бизнес сталкиваются с новыми задачами, связанными с безопасностью и здравоохранением. Поэтому для машинного обучения появляется все большая потребность в высококачественных, разнообразных данных, содержащих личную и конфиденциальную информацию.

Какие стратегии вы используете для оптимизации эффективности и скорости процесса аннотации данных?

Для этих целей мы используем три основные стратегии:

1. Модель "Segment Anything" (SAM) в SVAT - это инновационный подход, который изменит анализ видео. SAM отлично идентифицирует и выделяет различные объекты и сегменты в видео. Он также позволяет пользователям SVAT эффективнее размечать контент.
2. Собственные нейронные сети, которые мы разрабатываем для внутренних решений и проектов клиентов.
3. Чат GPT и нейронные сети, к примеру, Mind Journey. Мы внедряем их в работу не только валидаторов, но и менеджеров в различных сегментах. Нейронные сети не могут полностью заменить нашу работу, так как для решения трудностей, edge cases, а также адаптации к изменяющимся условиям требуются специалисты.

Узнать больше про то, как искусственный интеллект уже сейчас влияет на дизайн и как этим можно воспользоваться, можно в этой статье: https://trainingdata.solutions/how-to-get-the-most-out-of-artificial-intelligence

Как удается всегда оправдывать ожидания клиентов, учитывая растущий спрос на данные и необходимость высочайшей точности?

Для этого можно использовать следующие подходы:

1. Четкая коммуникация: Установление эффективной коммуникации с клиентом является важнейшим моментом. Часто приходится объяснять сложности и комплексность разметки данных, а также обсуждать многие детали: объем данных, необходимость обеспечения качества и точности данных, а также время, необходимое для завершения проекта.

2. Точная оценка времени: Важно провести точную оценку времени, необходимого для разметки данных. Нужно оценить возможности команды, объемы данных и сложность проекта. Чтобы избежать разочарований, важно не давать нереалистичных обещаний.

3. Масштабирование: Чтобы справиться с растущим спросом, часто можно расширить команды разметчиков или использовать услуги аутсорсинга.

4. Эффективное управление рабочим процессом: Важно определить соответствующие приоритеты для проектов и отслеживать прогресс,чтобы оптимизировать распределение ресурсов.

5. Открытость: Мы всегда остаемся на связи с клиентом и честно рассказываем о ходе выполнения проекта, даже если появляются какие-то сложности.

6. Постоянная обратная связь: Прежде всего это дает возможность улучшить процесс разметки данных для того, чтобы всегда оправдывать ожидания клиента.

7. Автоматизация: Хорошей опцией является использование специализированных инструментов автоматизации для ускорения процесса аннотации данных. Это повышает эффективность и сокращает время, необходимое на выполнение задач. Однако важно не забывать о качестве работы, она должна оставаться приоритетом даже при автоматизации процессов.

8. Гибкость: Часто требования и запросы клиентов могут меняться. Необходимо всегда адаптироваться и корректировать стратегии: внедрять новые технологии, обучать команду и постоянно улучшать процессы.

Какие меры вы принимаете для обеспечения безопасности данных в процессе разметки?

Одной из таких мер является подпись NDA. Безопасность также обеспечивает целый ряд закрывающих документов, где прописаны наши обязательства по защите данных. В случае, когда это необходимо, мы работаем в инфраструктуре клиента, тогда внешние риски сводятся к минимуму. Наконец, все передачи данных происходят исключительно через безопасные хранилища.