Yet Another MapReduce

Одной из самых популярных концепций параллельной обработки больших объёмов данных на сегодня является MapReduce. Простота и масштабируемость этого подхода привели к появлению множества различных реализаций. В настоящем докладе рассматривается реализация MR, используемая в Яндексе. Помимо традиционной отказоустойчивости хранения и обработки данных в больших кластерах, мы поговорим также о расширениях классического подхода, появляющихся в результате решения ряда практических задач.