TRAINING DATA JORNAL  
Переводы

5 трендов в аннотировании данных в 2021 году

Методики Разметка данных
Бум искусственного интеллекта продолжается, поэтому развиваются технологии разметки и аннотирования данных. Какой бы ни была область машинного обучения, от computer vision до автономных автомобилей, ей обычно требуется аннотировать огромное количество данных. По данным Cognilytica, рынок решений подготовки данных для машинного обучения к концу 2024 года вырастет до 3,5 миллиарда долларов. Чтобы справляться с этим растущим спросом, поставщики услуг разметки данных стратегически продумывают способы возможного масштабирования процессов аннотирования, функций инструментов и количества сотрудников с сохранением точности и качества. В этой статье мы перечислим внедряемые в рабочий процесс новшества, способные повысить его эффективность и скорость.

1. Инструменты предиктивного аннотирования


Вместе с расширением рынка искусственного интеллекта и машинного обучения растут и требования к аннотациям данных. Всё большее внимание получают инструменты предиктивного аннотирования, т. е. инструменты, позволяющие автоматически распознавать и размечать элементы на основании схожих аннотаций, созданных вручную. Например, в рабочем процессе подготовки компьютерного зрения стал бы очень ценным дополнением инструмент, способный аннотировать последующие кадры после ручного аннотирования нескольких первых кадров. Вмешательство человека всё равно может требоваться в виде мелких правок, однако в целом сэкономленные время и труд окажут огромное влияние на скорость обработки. Разработка предиктивного инструментария с широкими возможностями станет ключевым аспектом экосистемы аннотирования данных.

2. Гибко настраиваемая отчётность


Процесс аннотирования состоит из множества рабочих процессов, особенно в случае взаимодействия с крупными командами специалистов по аннотированию. Для анализа продуктивности процесса и принятия продуманных решений необходима подробная отчётность (в особенности о качестве и объёме выполненных работ). Использование API и инструментов в open source позволит полностью настраивать отчётность при помощи фильтров с возможностью подключения drag and drop. Отчёты с подробностями вплоть до уровня аннотирования сотрудника станут частью набора инструментов отчётности. Для динамического устранения колебаний в нагрузке будет использоваться мониторинг активности персонала при помощи отчётности в реальном времени и систем распределения ресурсов. Ценность таких инструментов заключается и в повышении эффективности процесса аннотирования благодаря выявлению паттернов и анализа трендов с течением времени, что позволяет экономить средства.


3. Повышение внимания к контролю качества


В будущем повысятся требования к контролю качества масштабных процессов обработки данных. Благодаря появлению новых решений для разметки данных на этапе контроля качества обучения модели будет распознаваться и обрабатываться большее количество пограничных случаев. Будут создаваться команды, занимающиеся исключительно контролем качества; они будут состоять из специалистов, имеющих глубокое понимание данных и их сути. Эти специализированные команды будут способны работать без подробных инструкций и целиком сосредоточатся на выявлении и устранении проблем в огромных наборах данных.


4. Использование узких специалистов


В процессе распространения применения ИИ на новые отрасли будет расти спрос на команды аннотирования узкоспециализированных данных. Прошедшие особый курс обучения команды будут использоваться в узкоспециализированных областях здравоохранения, финансовой отрасли и государственного сектора, постепенно наращивая свою компетентность. Узконаправленная, но глубокая специализация сотрудника, занимающегося разметкой данных, повышает эффективность всего процесса аннотирования, от освоения инструкций до времени подготовки обработанных данных.


5. Экосистема специализированных партнёров


В сфере аннотирования данных экосистема надёжных партнёров уже формируется, и в будущем она по-прежнему будет необходима. Способность быстрого выбора специализированных навыков в большой экосистеме будет критически важной задачей для реализации ИИ. Когда каждый поставщик услуг в рамках экосистемы будет предоставлять специализированную экспертизу в разметке данных, создании метаданных или в организации гибких и продуктивных рабочих процессов, понадобится меньше времени на решение уже решённых задач. Когда заказчик работает с компанией из экосистемы, она может давать ему рекомендации по оптимальным сочетаниям специализированных инструментов и навыков под конкретный проект и рабочий процесс.