TRAINING DATA
 
TRAINING DATA JORNAL  
Авторские статьи
Краудсорсинг

Крауд-эксперт, или Как стать сертифицированным партнёром Толоки

На днях в Яндекс. Толоке появился новый сертифицированный партнёр — Роман Куцев. У Романа большой опыт работы с данными и широкая экспертиза в Толоке, и теперь он помогает создавать задачи нашим заказчикам.


Мы поговорили с Ромой и попросили его ответить на вопросы.


— Роман, привет! Расскажи, как ты стал экспертом в области краудсорсинга, что привело тебя в Толоку и как ты получил статус сертифицированного партнёра?


— Экспертом в области краудсорсинга я, можно сказать, стал благодаря случаю. Это было больше двух лет назад, я учился на 4-м курсе ВМК МГУ, увлекался машинным обучением, участвовал в различных соревнованиях и хакатонах. Закончив стажировку в Тинькофф Банке, я искал работу, которую можно было бы совмещать с учебой. Как-то, листая ленту в соцсети, наткнулся на интересную вакансию. В студию машинного обучения Prisma требовался удалённый сотрудник — навыки в программировании приветствовались, опыт работы не требовался. Я пришёл на собеседование, меня сразу же взяли.


Предложенная работа заключалась в том, чтобы проверять качество разметки. Фрилансеры из Донецка выделяли людей в фотошопе, а мне нужно было определять, верно ли они выделили человека или нет. Полученный датасет затем использовался для обучения нейронной сети в приложении Sticky AI. В компании я быстро вырос и скоро стал полностью отвечать за все размечаемые данные. В начале 2018 года мы поняли, что нам нужно очень много данных и наши внутренние специалисты по разметке уже не справляются. Тогда я и начал интересоваться краудсорсингом. Так как в то время никаких статей и курсов по работе с Толокой не было, приходилось во всём разбираться самостоятельно. Таким образом, создав в компании более десятка датасетов, я получил достаточный опыт, чтобы стать сертифицированным партнёром Толоки.


— В чём должен разбираться сертифицированный партнёр Толоки?


— В основном я создаю датасеты для машинного обучения. Для этого нужно знать, какие алгоритмы существуют, какие задачи они решают и какие данные необходимы, чтобы обучить алгоритм. Также нужно понимать основные принципы декомпозиции, контроля качества, агрегации результатов. А ещё — иметь желание общаться с людьми и опыт написания инструкций и технических заданий.


— Расскажи, как строится работа с заказчиками?


—  Самая сложная часть работы — понять, чего хочет заказчик. Поэтому первым делом я пытаюсь выяснить, что именно человеку надо, какой результат он хочет получить. Для этого приходится задавать очень много вопросов. Зачастую заказчики не до конца понимают, как работает краудсорсинг и какие задачи с его помощью можно решить.


Если понимание достигнуто, заключаем договор, и я приступаю к работе. Сначала отлаживаю процесс сбора данных — пайплайн — на маленьком объёме данных. Обычно в этот момент обнаруживается множество нюансов и подводных камней. После того, как процесс налажен, начинаю разметку всех предоставленных данных. Затем передаю заказчику полученные данные, а он производит оплату.


— Сколько для заказчика стоит решение типичной задачи?


— Всё зависит от сложности задачи. Например, собрать датасет из 10 000 фотографий лиц людей стоит 40 000 рублей, а произвести классификацию 100 000 фотографий — 30 000 рублей.


— Чем помогает статус сертифицированного партнёра Толоки в работе?


— Статус сертифицированного партнёра даёт несколько важных преимуществ.


Во-первых, доступ ко всем ещё не опубликованным новинкам сервиса.


Во-вторых, возможность напрямую общаться с разработчиками Толоки — так я быстрее получаю ответы на возникающие вопросы и могу предлагать идеи для улучшения сервиса.


И в-третьих, заказчики начинают приходить сами, что позволяет тратить меньше усилий и времени на привлечение и больше — на саму работу.


— Сколько проектов внешних заказчиков ты ведёшь сейчас?


— За всё время проектов было больше десяти. Сейчас активно веду свой собственный проект "Впечатлятор" [приложение для знакомств с базой людей — описанием их внешности и характеристик], а также помогаю стартапу Neatsy. В Neatsy организую пешеходные задания: прошу толокеров находить определённые модели обуви, мерить их и отвечать, насколько им понравилась предложенная модель.


— Расскажи, какую миссию ты видишь в том, чем занимаешься?


—  Даже с командой профессиональных программистов и множеством GPU [графических процессоров — graphics processing unit] не всегда получается решить поставленную задачу. В области машинного обучения успех очень сильно зависит от тех данных, на которых алгоритм обучается. И порой отсутствие качественно размеченного датасета оказывается единственной причиной, почему проект терпит неудачу. Поэтому большие компании столько времени и сил уделяют сбору и аннотированию данных.


Многие стартапы не имеют возможности содержать внутренний штат специалистов по разметке и не умеют собирать данные. Моя миссия заключается в том, чтобы помочь компаниям сделать успешный продукт и вывести его на рынок.