Люди для ML и ML для людей

Известно, что качество работы любой обученной системы очень сильно зависит от количества и качества данных в обучающем множестве. При этом тему производства качественных обучающих данных в промышленных масштабах обсуждают мало.

Между тем только в краудсорсинговом проекте Толока каждый день участвуют больше 17 тысяч человек. Они выполняют несложные действия, которые легко сделать человеку, но пока еще непросто — роботу. В Яндексе разметки толокеров используют для настройки и оценки качества алгоритмов машинного обучения — от ранжирования результатов поиска до разработки беспилотных автомобилей и Алисы. А ещё технологии краудсорсинга мы используем для масштабирования самых разных внутренних задач: работы техподдержки, СММ, колл-центров, картографического производства, ручного тестирования и многих других.

Все задачи производства, в которых в той или иной степени задействован «ручной» человеческий труд, сосредоточены в нашем отделе — управлении экспертных оценок. Сегодня мы расскажем о том, какие математические и ML-задачи мы решаем: построение механизмов эффективного двухстороннего рынка, оптимальное сведение заказчиков и исполнителей, управление качеством разметок в Толоке; классификация содержания и тональности обращений пользователей, оптимизация производственных квот, исследование кривых обучения исполнителей.