На конференциях Яндекса Data & Science специалисты рассказывают о применении больших данных в науке, бизнесе и других сферах жизни. В этот раз мы поговорили о том, как машинное обучение помогает в маркетинге и развитии бизнеса.
- Как Яндекс.Метрика использует ML для предсказания конверсии.
- Как работает автотаргетинг в Яндекс.Директе.
- Как Авито улучшает рекомендации с помощью «многоруких бандитов».
- Как Сбербанк автоматизирует голосовые взаимодействия с клиентами.
- Как М.Видео извлекает пользу из сырых данных
- Как Х5 выстраивали работу отдела Data Science с нуля и к чему это привело
Опубликованные материалы
11:00 | Регистрация |
12:00 | Дискуссия «Машинное обучение: как вывести маркетинг на новый уровень» | Николай Хлебинский RetailRocket.ru Александр Иванов Яндекс Марина Ковпак Hoff | Смотреть |
Data&Science: маркетингДискуссия «Машинное обучение: как вывести маркетинг на новый уровень»23 июня, 12:00 Технологии машинного обучения приводят к постепенной трансформации сферы маркетинга, и первыми потенциал big data осознали крупные корпорации. Дискуссия даст взгляд на проблему со стороны бизнеса: руководитель отдела интернет-маркетинга Hoff (Марина Ковпак) и CEO Retail Rocket (Николай Хлебинский) расскажут, какой запрос на data science есть у крупных компаний, какими инструментами автоматизации маркетинга бизнес уже пользуется, а о чем пока только мечтает. Модератор дискуссии— Александр Иванов, руководитель отдела маркетинговых исследований и аналитики в Яндексе. |
13:00 | Кофе-брейк |
13:30 | ML в реальной жизни маркетолога | Мария Мансурова Яндекс. Метрика Александра Кулачикова Яндекс | Смотреть |
Data&Science: маркетингML в реальной жизни маркетолога23 июня, 13:30 Поговорим о том, чем машинное обучение может помочь в маркетинге и развитии бизнеса. Покажем примеры применения и расскажем, как мы сами используем ML для построения моделей на данных Яндекс.Метрики. Нашим клиентам важно знать, какая часть посетителей выполнит целевое действие и сколько денег это принесет. А в идеале — как использовать это знание в рекламе. Мы покажем, как шаг за шагом изучали потенциальных покупателей и к каким результатам это привело. Короткая версия докладаСервис Яндекс.Метрика позволяет проводить мониторинг работы сайта, получая данные об аудитории, посещаемости, охвате, географическом распределении, характеристике устройств и т.д. Он предоставляет клиентам эти данные как в агрегированном, так и в сыром виде. Задача маркетинга в Яндекс.Метрике – работа в соответствии с ключевыми показателями эффективности, привязанным к измерениям аудитории сервиса, её активности, в том числе за определенные периоды (неделя, месяц и т.д.). Машинное обучение призвано помочь маркетологам прогнозировать поведение клиентов: какая будет конверсия, вырастут ли продажи, в каком объеме и в какие сроки. Аналитики могут помочь маркетологам в оценке рекламных кампаний, измеряя их эффективность с помощью анализа конкретных метрик, которые могут быть неочевидными на фоне, например, общего роста рынка. При машинном обучении устанавливается отправная точка и определяется, насколько она изменилась. Аналитики также могут помочь маркетологам сегментировать аудиторию, выделяя и сравнивая отдельные сегменты. В качестве примера сотрудничества службы маркетинга и аналитиков можно привести проект предиктивной аналитики – предсказание конверсии на сайте магазина «220 вольт». Задачей разработчиков стало предсказание того, совершит ли в течение семи дней покупку человек, зашедший на сайт магазина. Пользователи были разбиты на несколько групп – тех, кто намерен сделать покупку, тех, кто может её сделать, тех, кто скорее всего её не сделает и просто случайных посетителей. Данные о пользователях обновлялись каждый день, посетитель свободно перемещался из одной группы в другую, в зависимости от событий в истории его взаимодействия с сайтом. Каждый день принадлежность пользователей к сегментам обновлялась и актуализировалась. Эти сегменты в дальнейшем загружались в рекламный кабинет Яндекс.Директа, который позволяет размещать рекламу на поиске Яндекса и на сайтах партнеров. Это дает возможность повторно обратиться к аудитории, уже побывавшей на сайте магазина, и к аудитории на сайтах рекламной сети Яндекса. При обращении к пользователям на поиске для наиболее перспективного сегмента ставки повышались, и для наименее перспективных – понижались. Группа с хорошим предсказанием показала более высокую конверсию. При ретаргетинге оборот вырос на 96%, конверсия – на 25% при росте затрат на 26%. В рекламной сети Яндекса оборот увеличился на 31%, конверсия и затраты не изменились. Кроме того, в предсказании поведения пользователе было необходимо решить еще одну задачу: сколько денег принесет посетитель при покупке, окупятся ли затраты на него? В качестве примера можно привести сайт из категории Travel, с которым также сотрудничала команда Яндекс.Метрики. Результатом работы стала возможность предсказывать траты пользователя со средней ошибкой порядка 15% от среднего чека. Следует подчеркнуть, что в предложенной модели полученные результаты могут быть ниже ожидаемых, что вызвано и ошибками в техподдержке рекламных кампаний, и необходимостью больших затрат времени на машинное обучение, а также такими непредвиденными факторами, как сезонность, акции, действия конкурентов. |
14:00 | Автотаргетинг в Директе | Андрей Мищенко Яндекс | Смотреть |
Data&Science: маркетингАвтотаргетинг в Директе23 июня, 14:00 Подробно расскажу о том, как работает автотаргетинг в Директе, какую задачу мы перед собой ставили и что из этого получилось. Будет немного цифр о том, каких результатов удалось достичь за полгода работы в боевом режиме, и пара слов о дальнейших планах. Короткая версия докладаГлавной особенностью поисковой рекламы является таргетинг – формулирование и соблюдение условий показа рекламного материала. В поисковой рекламе таргетинг формулируется в форме поискового запроса – рекламодатель описывает все множество запросов, которые должны вести к появлению его материала на странице с результатами поиска. Механизм работы таргетинга основывается на ключевых фразах, которые должны присутствовать в поисковом запросе, чтобы пользователь увидел их в рекламном блоке. С целью автоматизации таргетинга появились динамические объявления, при создании которых рекламодатель лишь указывает свой сайт, а робот, анализируя его содержание, самостоятельно формулирует объявление, выбирает ключевые слова, соответствующие тому или иному товару на сайте. При всем удобстве полная автоматизация имеет свои ограничения: то, что работает с товарами, плохо подходит для рекламируемых акций, мероприятий или предложений для бизнес-партнеров. В связи с этим возникла идея совместить два подхода, что предполагает сохранение самостоятельности рекламодателя в формулировке рекламного объявления и одновременную автоматизацию таргетинга. При создании автотаргетинга разработчики опирались на технологии и методологии поисковых систем. В разработанной инструкции было описано, какие пары «запрос – баннер» могут считаться релевантными друг другу, а какие – неподходящими со шкалой «perfect – good – bad – horrible». На основе инструкции асессоры осуществляли разметку пар «запрос – баннер» и ставили им оценку по предложенной шкале. Было набрано несколько сотен тысяч оценок, при этом следует иметь в виду, что база оценок нуждается в постоянном обновлении, так как рекламные объявления быстро теряют актуальность. Автотаргетинг был запущен сначала в закрытой бета-версии, а около 8 месяцев назад – уже в открытом режиме. К настоящему времени у сервиса более 85 тыс. клиентов, причем рост был полностью органическим, без активной рекламной кампании. В настоящее время доля автотаргетинга в общих денежных поступлениях поиска Яндекс составляет 1%, что можно считать большим успехом. Исходя из анализа конкретных рекламных кампаний, видно, что автотаргетинг уступает лишь брендовым «родным» фразам, выигрывая у небрендового трафика, при этом освобождая рекламодателя от массы ручной работы. При этом цена конверсии сопоставима с вручную настроенным таргетингом. Развитие автотаргетинга в будущем предполагает переход от оценок, основанных исключительно на тексте баннера, на оценки, которые выставляются с учётом посадочной страницы. Кроме того, идёт работа над новыми текстовыми фичами, автоматическим подключением автотаргетинга в автостратегиях, изначально формулируемых рекламодателем с указанием порога цены. Наконец, есть идея применить автотаргетинг не только в поиске, но и в рекламной сети Яндекса, по сделанным ранее запросам пользователя, хранящимся в его профиле. |
14:40 | Кофе-брейк |
14:50 | «Многорукие бандиты» в рекомендациях | Михаил Каменщиков Авито | Смотреть |
Data&Science: маркетинг«Многорукие бандиты» в рекомендациях23 июня, 14:50 «Многорукие бандиты» — это метод тестирования гипотез, который, в отличие от AB-тестирования, позволяет автоматически оптимизировать выигрыш сразу после начала эксперимента. Мы остановились на них, потому что требовалось проверять сразу много разных гипотез, автоматически отбрасывая совсем плохие. В докладе расскажу о том, как применять бандитов для различных задач и как они помогают нам улучшать качество рекомендаций похожих объявлений на карточке товара. Также расскажу об архитектуре сервиса рекомендаций похожих объявлений, сложностях и проблемах в процессе его построения. Короткая версия докладаСпецификой Авито как сайта с объявлениями о продаже является отсутствие фиксированных позиций с товарами. Постоянное обновление и исчезновение объявлений осложняет процесс создания рекомендаций и обуславливает необходимость переобучения моделей. Авито предлагает пользователям ряд рекомендаций, размещенных на первой странице сайта. В их числе - user-item рекомендации, то есть персонализированные рекомендации объявлений для пользователя, отражающие товары или услуги, которые в настоящий момент ищет пользователь, а также дополняющие их товары или услуги. Второй тип рекомендаций - item-item рекомендации, т.е. блоки похожих объявлений на карточки товаров, в том числе рекомендации похожих товаров (аналоги) и дополняющих товаров или услуг. Далее – cold-start рекомендации, относящиеся к появлению совершенно новых и неизвестных товаров. Наконец, есть рекомендации поисков – персональные подборки для пользователей, часто использующих сервис. Среди всех видов рекомендаций особый интерес вызывает item-item рекомендации. При выводе карточки товара справа от него на странице располагается блок похожих объявлений, состоящий из названия, фото и минимального описания с указанием цены. Задачи, стоящие перед разработчиками, заключались в следующем: показывать наиболее похожие таргетные объявления в блоке; определить, что означает «похожие»; оставить решение этого вопроса на усмотрение пользователей. Первоначально разработчики пошли по пути хардкодинга эвристики на PHP непосредственно в коде сайта, однако для дальнейшего развития сервиса было принято решение всю данную конфигурацию перенести в микросервис на Python. Таким образом, общая логика системы сохранилась, но стала более гибкой и изменяемой. Появилась возможность пробовать разные наборы параметров и автоматически выбирать лучшие. Для выбора необходимых конфигураций можно проводить AB-тестирование, когда конфигурации фиксируются, после чего идёт ожидание статистически значимых результатов. В это время на заведомо плохих конфигурациях теряются таргетные действия, а при желании добавить какие-нибудь новые конфигурации приходится ждать конца теста. Для решения данной проблемы используются «многорукие бандиты» — метод тестирования гипотез, который, в отличие от AB-тестирования, позволяет автоматически оптимизировать выигрыш сразу после начала эксперимента. «Многорукие бандиты» позволяют перестраивать долю трафика так, чтобы приоритетный набор параметров встречался чаще. В конце они сводятся к оптимуму и почти не используют неоптимальные параметры. Стратегии для «бандитского» метода включают, в том числе, epsilon-greedy – «жадные» стратегии; стратегии на основе доверительных интервалов – upper confidence bound; сэмплирование Томпсона. Для использования метода при создании рекомендациях формулируется задача: имеется K различных конфигураций для показа похожих объявлений. Выбор ручки соответствует выбору конфигурации – показ ее пользователям с целью обратной связи. Наградой здесь является количество целевых действий за квант времени. Вначале разработчики Авито считали, что целевым действием при решении данной задачи является количество просмотров, однако «бандиты» научились максимизировать этот показатель и он стал практически бесполезен (например, при отсутствии фильтра по региону при внешне подходящих объявлениях звонков по ним не было). Был опробован второй подход – считать конверсию из просмотра в запрос контакта. Однако при этом возникла проблема эффекта сезонности, когда конверсия меняется в течение суток. Поэтому в конце концов был выбран третий подход – выделение контрольной группы с фиксированной конфигурацией и сравнение её с целевыми группами по относительному количеству контактов. Такая модель не подвержена сезонности и удобно ложится на сэмплирование Томпсона. По итогам оптимизации «многорукими бандитами» конфигурации по всем категориям количество контактов увеличилось в среднем на 10%. Также благодаря использованию метода появилась удобная платформа для проведения быстрых экспериментов. |
15:20 | Заменяем оператора колл-центра искусственным интеллектом: ожидания, практика и перспективы | Сергей Марков «АБК» (дочернее предприятие «Сбербанка») | Смотреть |
Data&Science: маркетингЗаменяем оператора колл-центра искусственным интеллектом: ожидания, практика и перспективы23 июня, 15:20 Благодаря прогрессу машинного обучения в обработке естественного языка, распознавании и синтезе речи, стало возможно автоматизировать голосовые взаимодействия. В ряде случаев оператора специализированного колл-центра уже сегодня можно заменить роботизированной системой — особенно в областях, где общение фактически ограничено скриптами. Однако между лабораторными результатами и продакшн-решением лежит целый ряд сложных инженерных задач. Вы узнаете о технологической начинке «робота-коллектора», об истории проекта и его бизнес-результатах. Короткая версия докладаКомпания АБК, занимающаяся взысканием проблемной задолженности, активно занимается созданием моделей машинного обучения с целью оптимизации работы с массой должников. Бизнес-процессы в компании в значительной степени управляются с помощью машинного обучения, главным образом при принятии решений о проведении тех или иных мероприятий, таких как совершение звонка, посылка сообщения или выезд к клиенту. В АБК создана своя AutoML-платформа Estimator для постройки промышленных моделей искусственного интеллекта. Одной из них стала разработка робота-оператора в колл-центре, названного в СМИ «роботом-коллектором». Ожидалось, что использование искусственного интеллекта в колл-центре коллекторского агентства повысит эффективность взыскания, минимизирует репутационные риски, освободит операторов от рутинного дозвона и существенно сократит стоимость процесса взыскания. При этом разработчики рассчитывали, что робот-оператор в колл-центре будет полезен и по таким направлениям, как телемаркетинг, справочные службы, поддержка операций, консьерж-сервисы, развлечения и работа с просроченной задолженностью. Для распознавания спонтанной речи была создана рекуррентная нейронная сеть на основе open-source фреймворка Kaldi с применением доработок и улучшений собственной разработки. Модель обучается на массиве данных, собранных колл-центрами АБК. Размер обучающего корпуса наращивался с 40 до 250 часов в течение 2017 г. Синтез речи в текущей версии осуществляется путем склеивания предзаписанных сэмплов в дополнение к синтезу вариативных частей диалога при помощи нейросетевой модели Tacotron-2, дополненной генеративно-состязательной сетью (GAN). При этом используется специальный алгоритм блендинга для снижения неестественности на стыках фрагментов. Скрипт общения был описан в виде ориентированного графа (набор состояний и правил перехода между ними). Предусмотрена автоматическая фиксация договорённостей и дальнейшая маршрутизация дела на основе распознанных меток. Переход в скрипте распознается на базе заданного набора правил и рекуррентной (LSTM) нейронной сети. Датасет для обучения создавался на основе 30 часов речи, наговоренной диктором. В текстах расставлялись ударения, знаки препинания, проведена ёфикация, заменены иностранные слова и аббревиатуры на огласовки, их пришлось многократно прослушать для устранения дефектов. В дальнейшем для улучшения результатов разработчики провели увеличение, чистку и аугментацию обучающего корпуса с 40 до более чем 200 часов. Были доработаны модели распознавания речи, создан новый детектор голоса на основе рекуррентной нейронной сети, расширен набор правил перехода в скрипте, а также был расширен и доработан сам скрипт. Разработчики представили дополнительную модель для более точного определения интенций в случаях бинарного вопроса (да/нет). Были проведены подстройка параметров модели, доработка основной интенционной модели и семантическое обогащение эмбеддингов. Внедрено распознавание пола и возраста должника на основе спектрограммы и свёрточной сетки. В планах разработчиков – дополнение возможностей распознавания с учётом интонаций и эмоциональной разметки, правдивости; проведение экспериментов с фильтрацией звука; увеличение вариативности скрипта и выбор оптимальных путей в скрипте; совершенствование распознавания речи и моделей определения интенции; автоматизация построения скриптов. Интерес к проекту уже проявили четыре банка из топ-20, две ведущие телеком-компании и 2 крупные компании из сферы ЖКХ. Средний срок запуска проекта с объемом от 200 тыс. минут в месяц – от четырех месяцев до полугода, в течение которых проводится тестовый пилот, дорабатывается и согласуется скрипт, проводится тендер для закупки услуги, согласовываются финансовые условия и договор, а также настраиваются каналы взаимодействия. |
16:00 | Кофе-брейк |
16:15 | Как извлечь из сырых данных пользу для мультиканального ритейла — на примере М.Видео | Илья Чухляев OWOX Екатерина Курочкина М.Видео | Смотреть |
Data&Science: маркетингКак извлечь из сырых данных пользу для мультиканального ритейла — на примере М.Видео23 июня, 16:15 Расскажем, как объединённые несемплированные данные делают маркетинг М.Видео эффективнее. На реальных кейсах мы покажем, как возникает симбиоз маркетинговой ценности и технического подхода: что получает бизнес и какие технологии этому способствуют. Обсудим:
Короткая версия докладаСлужба маркетинга крупного мультиканального ритэйла путём обработки больших данных надеется получить ответы на вопросы об эффективности онлайн-кампаний и поведении потребителей. Для поиска ответов аналитики привлекают такие группы данных как данные рекламных сервисов (показы, клики, расходы), онлайн аналитики (сессии пользователя, источники сессии, микроконверсии), сайта (онлайн заказы, продуктовый каталог, контент-разделы), система планирования ресурсов предприятия ERP (сегменты и исполняемость заказов), складские системы (марка товара, возвраты). В проекте сотрудничества OWOX и М.Видео за скорость принятия решений отвечают облачные сервисы. Преимущества этой схемы заключаются в том, что тогда максимум внутренних ресурсов направляется на поиск ответов на вопросы маркетинга, время аналитиков и разработчиков не тратится на поддержку инфраструктуры. Кроме того, резервируемые мощности можно увеличивать очень быстро, что дает возможность подключать новые источники данных или снимает риск потери данных в пиковые часы. В проекте OWOX и М.Видео решения для ответа на задачи маркетинга находятся с помощью системы Google BiqQuery, которая находит и собирает данные, объединяя их в единую таблицу. Иплементация аналитики в систему принятия решений осуществляется в несколько этапов. Вначале осуществляется сбор данных онлайн-аналитики и их выгрузка в Google BigQuery, который также собирает данные от рекламных сервисов. Следующий шаг – загрузка данных из онлайн и офлайн ERP систем. И, наконец, этап визуализации ответа на конкретный вопрос, который может сразу в виде Exel-таблицы или дашборда. При объединении данных в BigQuery необходимо решить такие проблемы, как хранение информации в большом количестве сервисов и различных форматах, разная скорость обработки и отсутствие ключа. Полученный результат в виде View позволяет узнать, кто и когда совершил действие (карта пользователя), сколько потратили на пользователя и рекламную кампанию, какому региону и группе товаров засчитывается результат, и, наконец, какой доход принес каждый конкретный пользователь. Полученный результат может использоваться в целях оптимизации бюджета с помощью ассоциированных конверсий. Задачей ритейлера является оптимизация расходов на рекламу с учетом таких факторов, как вклад нескольких рекламных каналов в продвижение пользователя по воронке продаж на сайте магазина, категорийная бизнес-группа (КБГ) товара, различие в поведении пользователей в регионах. Аналитическое решение задачи заключается в построении отчета с сегментацией заказов по источникам, регионам, категориям товаров, количеству сессий перед заказом, который предоставляется в виде таблиц или визуализированных графиков. Полученный результат даёт ответы на вопросы, какие каналы чаще срабатывают в начале/середине/конце воронки, какие каналы чаще срабатывают в конкретном сегменте «регион-КБГ», какую выбрать стратегию для показа рекламы в новом регионе с сильным конкурентом. Ещё одно направление – оценка вклада онлайн-рекламы в офлайн-продажи (ROPO) с целью узнать реальный ROI рекламных кампаний и строить маркетинговую стратегию на более полных данных. Аналитическим решением в данном случае является построение отчёта с сегментацией по каналам, типам устройств, категориям в разбивке по онлайн-, офлайн- и ROPO-покупателям. Полученные данные позволяют получить ответы на вопросы, какие сегменты имеют больший вклад в онлайн и ROPO доходность, по каким сегментам «канал – регион – КБГ» стоит изменять медиаплан, по каким причинам пользователи уходят из онлайн в розничные магазины, как оптимизировать поведение пользователей, чтобы они оставались в онлайн и не терялись на пути к магазинам/конкурентам. |
16:45 | Три истории про машинное обучение в офлайн-ритейле | Валерий Бабушкин X5 Retail Group | Смотреть |
Data&Science: маркетингТри истории про машинное обучение в офлайн-ритейле23 июня, 16:45 Расскажу о том, с какими интересными случаями можно столкнуться при построении Data Science — процессов в большой корпорации. Приведу примеры самых приоритетных задач, которые стоят перед офлайн-ритейлером и расскажу про три недавних кейса Х5: предсказание оборота магазина, повышение лояльности клиентов и кластеризация клиентов по чекам. Короткая версия докладаЗадачи построения Data Science — процессов в большом офлайн-ритейлере заставляют находить нетривиальные решения в каждом отдельном случае, которые могут быть полезными широкой аудитории. Первая задача - прогноз розничного товарооборота (РТО). Показатель РТО – одна из основных характеристик магазина, которая зависит как от макропоказателей, так и расположения и плана. Для решения задачи применительно к сети X5 были собраны имеющиеся геоданные, макроэкономические показатели, данные о ближайших магазинах, а также применены ранее создававшиеся модели РТО, признанные неудачными. Получившаяся ансамблированная модель, при всей своей сложности, отличалась точностью, что полностью оправдало затраченные на неё усилия. Вторая история – повышение лояльности клиентов. Задачей ритейлера является стимулировать пользователя к покупке, например, предложив скидку. В то же время, не следует предлагать её тем, кто и так намерен совершить покупку, и тем, кто ни при каких обстоятельствах ею не воспользуется. Таким образом, построенная на основе AB-тестирования модель должна выдавать вероятность покупки товара в условной категории. Созданная модель была сведена к условному временному ряду, сгенерировано около 600 признаков, и после составления предсказания была выделена группа максимального отклика. Полученный результат показал хорошую эффективность. Третья задача, которая решалась командой разработчиков X5, - составление профиля клиентов. Полученные данные о потребителях позволяют использовать их для любых моделей в сфере маркетинга. Появляется возможность кластеризовать как их самих, так и магазины, которые они посещают, а также выработать рекомендации по поддержке их лояльности. Решение задачи заключалось в анализе чеков от покупок. Товары, отраженные в чеке, были переведены в векторное представление, после чего вектора, описывающие каждого клиента, были усреднены и получено универсальное представление клиента в виде вектора фиксированной длины. Кроме того, любой магазин может быть описан как множество векторов посещающих его клиентов, которое создает его собственный профиль. Профили клиента и магазина можно использовать при решении первой и второй задач, а также при создании рекомендательных систем, промо-акций и т.п. Обобщая все три истории, можно сделать вывод, что не следует бояться ансамблирования моделей. Ещё один вывод – построение методологии проведения экспериментов – наиважнейший этап, потому что без корректной оценки их результаты будут бесполезны. |