Apache Zeppelin: интерактивный анализ больших данных

Мы рассмотрим технологию Apache Zeppelin, которая упрощает интерактивный анализ больших объёмов данных, выполняя ту же роль, что и IPython или Jupiter Notebook в экосистеме Python. Помимо удобного веб-интефейса, соединённого с Apache Spark и другими технологиями Hadoop Stack, Zeppelin предоставляет гибкие инструменты построения интерактивных визуализаций на базе AngularJS, что существенно расширяет возможности исследователя. Стоит упомянуть и интеграцию Zeppelin со Spark Streaming, позволяющую проводить анализ данных, поступающих с сервиса в реальном времени. Функциональность Zeppelin мы продемонстрируем на примере реальных задач аналитики «Одноклассников».