Тысяча и один фактор ранжирования

Современные поисковые системы должны не только находить документы, отвечающие запросу пользователя, но и упорядочивать их, чтобы наиболее релевантные результаты оказывались вверху выдачи. Это и есть поисковое ранжирование. И уже давно для решения этой задачи применяются методы машинного обучения, пришедшие на смену эвристическим подходам вроде PageRank.

Но какие методы машинного обучения справляются с задачей ранжирования лучше и как подготовить данные для их эффективного применения? Какие числовые факторы-признаки описывают связь ранжируемых документов и пользовательского запроса лучше, а какие — хуже?

В докладе я расскажу про опыт Яндекса в исследовании этих вопросов, а также — об организации процесса исследований при наличии огромных объемов данных и высоких требований к производительности.