08.12.2019 5 301 0 +194 Rageskin

Как пользоваться краудсорсингом? Практический туториал от Яндекса

---

+194

В закладки

Как пользоваться краудсорсингом? Практический туториал от Яндекса данных, задания, исполнителей, более, краудсорсинга, разные, можно, Толоки, толокеров, обучения, туториала, сразу, Яндекса, часть, которые, набор, очень, повод, Друца, краудсорсинг

Мы опубликовали первый русскоязычный туториал по краудсорсингу:

Это серия видео о том, как с помощью передачи простых заданий большому числу исполнителей собрать и разметить данные. Исполнителям можно поручить разные задания: найти что угодно в интернете, оценить дизайн, проверить или создать контент, поучаствовать в опросе, добраться до точки на карте и сфотографировать там что-нибудь. Тысячи людей будут одновременно выполнять перечисленные действия, формируя необходимый набор данных. Выпуск туториала — повод вновь поговорить о том, как краудсорсинг радикально меняет процессы в компаниях.

Мудрость толпы

Первая версия краудсорсинговой платформы Яндекс.Толока вышла в 2014 году. Изначально мы строили платформу для нужд Яндекс.Поиска (хотя идея приносить пользу другим сервисам и внешним заказчикам возникла сразу же). Алгоритмы учились ранжировать результаты Поиска по степени полезности, обучаясь на данных, которые размечались вручную: люди оценивали, релевантен ли найденный ответ поисковому запросу. Тем самым тысячи толокеров вносили и по-прежнему вносят вклад в качество Поиска.

Применение краудсорсинга в Поиске стало развитием идей, которые использовались и ранее, просто в менее автоматическом режиме. А вот дальнейшие задачи для исполнителей, придуманные командами Яндекса, уже полностью опирались на возможности Толоки. Сегодня десятки тысяч толокеров регулярно проверяют информацию об организациях на Яндекс.Картах, улучшают рекомендации Яндекс.Музыки и поиск похожих изображений в Картинках. Беспилотный автомобиль учится определять разные типы объектов вокруг, ориентируясь на фотографии, размеченные исполнителями вручную. Целые блоки важных сервисов и отдельные сайты и приложения работают благодаря Толоке.

В 2016 году заказчики из-за пределов компании тоже получили возможность создавать задания в Толоке. Rambler Group поручил исполнителям модерацию на всех своих ресурсах, интернет-магазину Ozon и сервису «Авито» толокеры помогают улучшать поиск по товарам, стартап Dbrain распознаёт с помощью платформы текстовые документы (это ключевая часть продукта Dbrain). Суммарно над проектами Яндекса и других компаний ежедневно трудятся 30 тысяч исполнителей — они выполняют более 12 миллионов заданий в день. Со временем Толока превратилась из инфраструктуры для Поиска сначала в инфраструктуру для всего Яндекса, а затем — в инфраструктурную платформу для развития машинного обучения во всём русскоязычном интернете.

Микроменеджмент

Умение заказчика превращать крупную задачу в набор очень мелких — главный фактором его успеха на платформе. Экономика Толоки строится на простоте и дешевизне каждого отдельного задания: инструкции должны быть сразу же понятны исполнителю, он должен потратить минимум времени (в идеальном случае — пару секунд) на выполнение и поскорее перейти к следующему заданию: чем больше он сделает, тем больше будет его вознаграждение.

Ответ, данный так быстро, может быть неточным, но это далеко не всегда повод усложнять условие. Пусть один и тот же объект разметят для вас несколько исполнителей: кто-то из них ошибётся, но у системы будет несколько альтернативных мнений, которыми можно оперировать для получения финального (уже наверняка корректного) ответа. Кроме того, полезно предлагать короткие вводные к заданиям, тестировать толокеров, выдавать им разные навыки по результатам тестов, подключать к заданиям только тех, кто обладает нужным навыком, выполнять контроль качества и т. п.

Именно о таких механиках и рассказывают участники нашей команды в туториале по краудсорсингу. В записи видео поучаствовали: руководитель отдела эффективности и развития Алексей Друца, руководитель группы анализа данных и исследований Евфросиния Зерминова и аналитик-исследователь Валентина Фёдорова. Чтобы разобраться в туториале, а затем придумать и реализовать свою систему задач, не нужны знания разработчика или аналитика. Главное — научиться формулировать инструкции и разбивать задания на всё более простые.

Боли инженеров

Стандартный рабочий процесс инженера по машинному обучению состоит из двух частей: подготовки данных и проверки разных ML-моделей. Первая часть считается гораздо более долгой и рутинной, потому что сложно собрать действительно ценный датасет сразу в том виде, который хорошо подходит для машинного обучения. Обычно в датасетах много аномалий, плохо размеченных фрагментов, ошибок и «шума». Всё это дополнительно усугубляется, если данные собирает сторонняя организация, которая хуже понимает нужды ML-инженеров либо просто не обладает средствами для улучшения ситуации. Качественные наборы данных — ценность в индустрии, «новая нефть в эпоху искусственного интеллекта», как говорит один из авторов туториала Алексей Друца. Компании не очень часто делятся датасетами, а те из них, которые использует академическое сообщество для сравнения моделей, редко подходят для реальных задач.

Методы краудсорсинга из туториала дают возможность инженерам и участникам их команд самим настраивать процесс сбора данных. Рутинная часть сокращается — можно быстрее перейти к проверке гипотез, тестированию библиотек для обучения и настройке моделей. Часть датасетов, собранных толокерами для Яндекса, доступна в открытом виде. Мы в команде Толоки поддерживаем исследования в области ML и продолжим публиковать уникальные наборы данных.

Опубликованный туториал — первое практическое руководство по краудсорсингу на русском языке. Оно основано на материалах вводного курса в краудсорсинг, прочитанного на ACM KDD 2019 — ведущей мировой конференции по анализу данных. Многие специалисты отрасли сегодня исследуют методы краудсорсинга — умение эффективно им управлять становится всё более ценным.

Источник: nig.mirtesen.ru

Комментарии (0)

Добавить комментарий

[related-news]

{related-news}

[/related-news]