Фабрика данных Яндекса для физики высоких энергий в CERN

Научные открытия сегодня требуют тщательной экспериментальной проверки большого количества гипотез. Для такой проверки нужно эффективно обрабатывать огромные объёмы данных, извлекая найденные закономерности. Одних лишь методов статистики и data mining для этого уже недостаточно. Сегодня учёным нужен доступ к накопленным данным и современные инструменты для их анализа — так называемые «фабрики данных». В своем докладе я на примере задач ЦЕРНа покажу некоторые типовые сценарии использования Фабрики данных Яндекса, опишу базовые принципы построения технологических цепочек и приведу примеры инструментов, используемых в научных целях.