TRAINING DATA


Краткая история сбора и аннотации данных: с начала до последних трендов.

В быстро развивающемся мире AI и машинного обучения роль качественных данных просто нельзя недооценить. Но как же она развивалась и какие тренды формируют разметку данных сейчас? Сегодня мы рассмотрим историю сбора данных и обсудим последние тренды, которые появляются в этой сфере.

Как всё началось?
Развитие услуг сбора данных и аннотации можно проследить до появления машинного обучения и искусственного интеллекта как областей исследования и практического применения. Понятие сбора данных и аннотации развивалось со временем по мере роста спроса на точно размеченные данные для обучения моделей искусственного интеллекта.

1950-1960 годы: Возникновение машинного обучения

Многие считают, что Machine learning появилось совсем недавно, но уже в этот период исследователи заложили основы машинного обучения и искусственного интеллекта. Хотя концепция услуг по сбору данных и аннотации еще не была полностью сформирована, уже тогда предпринимались усилия по сбору и организации данных для ранних вычислительных моделей.
1970-1980 годы: Рост баз данных
Появление структурированных баз данных и систем  управления ими в это время способствовало более организованному хранению и извлечению данных. Данные начали собираться и храниться в цифровом виде, что подготовило почву для системных подходов к их обработке.
1990-е годы: Интернет становится популярнее
Широкое распространение интернета привело к увеличению доступности цифровых данных. Исследователи и бизнесы начали собирать данные из онлайн-источников, создавая потребность в кураторских и аннотированных данных.

2000-е годы: Краудсорсинг и Web 2.0
С появлением Web 2.0 важную роль начал играть пользовательский контент и рост платформ краудсорсинга. Amazon Mechanical Turk, запущенный в 2005 году, повлиял на формирование аннотации данных. Это заложило основу для более системных подходов к разметке данных.
2010-е годы: Пролиферация машинного обучения
Невероятно быстрое развитие приложений машинного обучения и искусственного интеллекта в 2010-х годах стало поворотным моментом для этой сферы. Поскольку модели стали более сложными и требовали большие и разнообразные наборы данных, стала очевидной потребность в аннотированных данных высокого качества. Компании начали предоставлять специализированные услуги по сбору данных и аннотации, чтобы удовлетворить этот спрос.
2010 - настоящее время: Специализированные компании по аннотации данных
Появился спрос на создание точных и разнообразных наборов данных для обучения моделей искусственного интеллекта, поэтому с середины 2010-х годов начали появляться компании, уделяющие особое внимание предоставлению услуг по аннотации и маркировке данных. Они объединили краудсорсинг, автоматизацию и участие специалистов, чтобы предоставить клиентам размеченные данные действительно высокого качества.
На протяжении всей истории разметки данных развитие услуг по сбору и аннотации данных тесно связано с эволюцией технологий искусственного интеллекта, увеличивающейся сложностью моделей AI. По мере развития сферы искусственного интеллекта услуги по сбору данных и аннотации остаются неотъемлемой частью обучения надежных и точных моделей искусственного интеллекта в различных областях.


Настоящее время: Основные тренды в аннотации данных
В последние годы интересные инновации и подходы появляются в сфере разметки данных. Так, сегодня активно обсуждаются синтетические датасеты, Pre-labeling и Human In The Loop.
Синтетические датасеты
Когда реальные данные трудно собрать или это стоит дорого, часто прибегают к синтетическим датасетам. Благодаря этому можно генерировать наборы данных практически любого размера.
Pre-labelling
В таком случае данные обрабатываются с помощью prediction нейронной сети, а разметчикам нужно только подправить эти результаты, что позволяет ускорить разметку до 10 раз.
Human In The Loop
Эта концепция объединяет искусственный и человеческий интеллект. Обычно она внедряется в компании, где стоимость ошибки очень высока, чтобы достичь высочайшей точности. Тогда ML выполняет большинство работы, а разметчики размечают самые сложные случаи. Все данные, которые разметили исполнители, также добавляются в обучающую выборку и каждую неделю модель переобучается.