Работа с Big Data требует хорошей теоретической подготовки и опыта. Набраться последнего можно на коммерческом проекте, перебирая массивы открытых данных или выполняя задания на Kaggle. За теорией добро пожаловать в мир обучающих ресурсов, курсов и блогов, посвященных работе с информацией. Мне больше нравится, когда умные люди уже собрали, переварили и разложили по полочкам всё что нужно. Поэтому я предпочитаю книги.

Содержание


Первое знакомство с технологиями Big Data

«The Human Face of Big Data», Rick Smolan и Jennifer Erwitt

01 The Human Face of Big Data

Книга рассказывает о том, как большие данные способны приносить пользу и менять мир к лучшему. Как работа с информацией повлияла на бизнес, науку, деятельность правительства, здравоохранение и повседневную жизнь. Содержит множество фотографий, поэтому легко воспринимается.

Отзывы читателей:

В целом, восторженные. Читатели называют эту книгу, прежде всего, захватывающей. Легко читается, содержит изумительные иллюстрации, рисует прекрасное и светлое будущее, которое принесет миру анализ данных. Одним словом, издание будет отличным подарком гику или любому человеку, связанному с анализом данных.

«Big Data: A Revolution That Will Transform How We Live, Work, and Think», Viktor Mayer-Schönberger и Kenneth Cukier

02 Big Data A RevolutionКнига начинается с истории о Google, который в 2009 году сопоставил данные американского Центра по контролю и профилактике заболеваний с частотой поисковых запросов вроде «сопли кашель температура» и научился предсказывать эпидемию гриппа. Авторы — оксфордский профессор Виктор Майер-Шонбергер и редактор The Economist Кеннет Какьер — называют себя вестниками божьими Big Data и утверждают, что мир скоро изменится. Но книга — не просто гимн новым технологиям: в ней нашлось место и восторгам насчет возможностей применения Big Data на благо людей, и опасениям за их безопасность и право на тайну личной переписки.

«Big Data…» написана для широкой публики и не требует для чтения специальных познаний. В большей степени представляет собой рассуждения авторов, но содержит и примеры использования технологий анализа данных в бизнесе.

Отзывы читателей:

Издание хвалят за доступное изложение сложных примеров, которые будут понятны любому читателю. В то же время, кто-то ругает автора за слишком долгое «раскачивание» и большой размер вводных глав. Один из главных минусов — маленькое количество реальных примеров и частое повторение одних и тех же мыслей.

«Data Analytics Made Accessible», Anil Maheshwari

03 Data Analytics Made Accessible

Книга написана разговорным языком, читается легко. Она охватывает основные аспекты активно развивающейся отрасли анализа данных: хранилища, алгоритмы выявления взаимосвязей, способы визуализации, социальные графы, нейросети и разбор неструктурированного текста. Каждая часть начинается с примера из реальной жизни — Netflix, WhatsApp, IBM Watson — и заканчивается тематическими заданиями. В качестве бонуса прилагается руководство по языку R для начинающих.

После прочтения вы сможете самостоятельно реализовать все этапы анализа данных: от планирования исследования до выдвижения гипотезы и ее проверки.

Отзывы читателей:

В основном положительные, почти все отмечают чрезвычайно понятное изложение сложных терминов и алгоритмов, что сильно снижает входной порог для новичков.

«Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die», Eric Siegel и Thomas H. Davenport

04 Predictive Analytics The Power to Predict Who Will Click

Автор «Предсказательной аналитики» — редактор The Predictive Analytics Times Эрик Сигель, рассказывает удивительные вещи:

  • Facebook перебирает по 1500 публикаций на каждого человека, определяя самые интересные для него новости;
  • Microsoft умеет предсказывать местоположение человека в определенной точке на несколько лет вперед, отталкиваясь от генерируемых им повседневных GPS-данных;
  • cтраховые компании в США за 18 месяцев до вероятной даты смерти человека предлагают заключить договор медицинского обслуживания последних лет жизни.

Книга пронизана примерами использования предсказательной аналитики компаниями и государственными учреждениями: от механизма подбора контактов на LinkedIn до подробностей применения данной технологии в ходе избирательной кампании Барака Обамы.

Отзывы читателей:

В основном отмечают полезность информации о том, где именно применяются конкретные алгоритмы (деревья решений, регрессия и т. д.).

Интеллектуальный анализ данных, алгоритмы, майнинг

«Data Smart: Using Data Science to Transform Information into Insight», John W. Foreman

05 Data Smart

Автор утверждает, что большинство руководителей фирм подходят к аналитике неправильно: закупают дорогие программные комплексы и нанимают консультантов. Они тратят немалые деньги еще до того, как поймут, что на самом деле желают получить в результате. Стоп, говорит автор — ведущий аналитик Mailchimp, который раньше работал на Coca-Cola, Intercontinental и ФБР — вдохните и выдохните, всё куда проще. Для большинства случаев достаточно обычного Excel, ведь он куда мощнее, чем кажется на первый взгляд.

Эта книга — не о хранилищах данных, навороченных программных комплексах и суровом программировании. Она фокусируется, прежде всего, на методах. Вы познакомитесь с математической оптимизацией и генетическими алгоритмами, методами кластеризации данных, прогнозирования, способами сезонных корректировок и другими подходами, которые с помощью Excel помогут превратить набор данных в источник полезной информации.

Книга ориентирована на руководителей, маркетологов и аналитиков компаний различных масштабов. Она научит не бояться массива данных и подскажет, как его использовать для принятия грамотных управленческих решений.

Отзывы читателей:

Примечателен один отзыв, который написал друг автора. Он лучше всего описал суть. Есть три типа книг об анализе данных:

  • Слишком технические с большим количеством греческих букв и знаков суммы
  • Бизнес книги о том, как данные совершат революцию
  • Технические книги о последних популярных технологиях анализа (R, Hadoop)

Эта же книга — для простых людей, которые хотят научиться анализу данных, прочитав описанные на пальцах алгоритмы.

«The Elements of Statistical Learning: Data Mining, Inference, and Prediction», Trevor Hastie, Robert Tibshirani и Jerome Friedman

06 The Elements of Statistical Learning

«Элементы статистического обучения» — фундаментальный теоретический труд, который описывает принципы, лежащие в основе работы с большими данными. В этой книге вы не встретите ни строчки на Python или R. Вас ожидают формулы, графики и еще раз формулы.

Книга предназначена суровым теоретикам и тем практикам-энтузиастам, кто хотел бы углубить познания в математической статистике. Она охватывает большое количество смежных областей: машинное обучение с учителем и без, нейронные сети, деревья решений, метод опорных векторов и ансамбли моделей. Издание считается одним из стандартов области, ссылки на него часто встречаются в статьях и книгах об анализе данных.

На сайте Стэнфордского университета её можно скачать бесплатно и, что немаловажно, законно.

Отзывы читателей:

Книга не содержит готовых рецептов, которые можно применить для своих задач. Нет, она предназначена для глубокого понимания анализа данных и его фундаментальных основ.

«Introduction to Data Mining», Pang-Ning Tan, Michael Steinbach и Vipin Kumar

07 Introduction to Data Mining

Книга погружает читателя в технологии анализа данных постепенно, от простого к сложному. Первые главы посвящены тому, что такое данные, какими они бывают, как подготовить их к обработке, что такое сводная статистика, визуализация и OLAP — описывают минимум, необходимый для быстрого извлечения знаний из массива информации. Затем авторы переходят к методам классификации, кластеризации и ассоциативному анализу.

Подходит для тех, кто сталкивается с анализом данных впервые. Минимум математики, максимум внятных разъяснений и иллюстраций.

Отзывы читателей:

Еще одна книга с поэтапным, визуальным и понятным объяснением сложных алгоритмов без слишком большого количества непонятных формул.

«Big Data: Principles and best practices of scalable realtime data systems», Nathan Marz и James Warren

08 Big Data Principles and best practices

Автор этой книги — Натан Марц — один из пяти членов команды социального агрегатора BackType, который в 2011 году был куплен Twitter. Всего 5 человек справлялись с оперативной аналитикой 100 терабайт данных, настройкой, мониторингом и обслуживанием кластера из сотен машин. На вопрос коллег, как им это удается столь малыми силами, Марц обычно отвечал: «Дело не в том, что мы делаем, а в том, что не делаем».

Стандартная архитектура систем обработки данных слишком сложна и уязвима, и чем данных больше, тем больше проблем. Марц предлагает новый подход к организации хранения и обработки данных — простую и надежную лямбда-архитектуру, которую он подробно описывает в книге. Для ее реализации автор использует открытые инструменты: Hadoop, Cassandra, Cascalog, ElephantDB и Storm с Trident.

Как говорит автор: «Было бы здорово, если бы я мог прочитать эту книгу перед началом моей работы с Big Data. Это сделало бы ее простой и увлекательной».

Отзывы читателей:

Профессионалы отмечают полезность технологий организации обработки больших массивов данных и грамотного построения архитектуры таких систем.

Big Data и бизнес

Технологии Big Data позволяют обрабатывать значительные объемы информации, накопленные организациями и принимать на их основе более взвешенные управленческие решения, лучше понимать своих клиентов и бизнес-процессы. Книги из этого раздела популярно рассказывают о том, зачем использовать Big Data и как создать необходимую инфраструктуру внутри компании, демонстрируют реальные примеры использования аналитики для повышения эффективности организаций.

«Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking», Foster Provost и Tom Fawcett

09 Data Science for Business

Книга основана на материалах курса MBA, который Фостер Провост читал в Нью-Йоркском университете. Описанные автором принципы иллюстрируются решением реальных проблем, стоявших перед компаниями. Эта книга учит относиться к большим данным как к бизнес-активу, и помогает понять, как наладить связь между менеджментом и аналитиками-технарями.

В книге нет загадочной телепортации от пункта «проблема» до пункта «решение». В ней не только описана каждая проблема и то, что позволило с ней справиться, но и ход мыслей специалиста, который привел к выбору того или иного способа решения задачи. Ведь принципы и идеи иногда важнее готовых рецептов.

Книга была отмечена Harvard Business Review, как одна из лучших работ по этой теме. Она довольно насыщена материалом и ее чтение потребует высокого уровня концентрации, но вам не потребуется техническое образование, чтобы получить пользу от изложенного в ней материала.

Отзывы читателей:

Лучше всего книгу характеризует список того, чего в ней нет:

  • Это не сборник дифференциальных уравнений
  • Здесь не будет пошаговых рецептов без объяснения их сути
  • Это не книга для менеджеров, которым нужно разобраться в новом хайпе

«Big Data at Work: Dispelling the Myths, Uncovering the Opportunities», Thomas H. Davenport

10 Big Data at Work

Книга «Big Data at Work» идеальна для управленцев, которые планируют интегрировать аналитический отдел в структуру компании. В ней представлено множество советов: дан поэтапный план внедрения методик анализа больших данных в компании, описаны технологии обработки информации и процесс найма специалистов. Словом, книга ориентирована на управляющих, перед которыми стоит задача поставить процесс анализа данных на поток. Один из отзывов лучше всего описывает ее достоинства:

«Big Data at Work» — первая и единственная книга, описывающая, как реальные организации применяют технологии анализа Больших Данных, извлекая из них ценность

В книге приведено много полезных примеров от таких компаний, как UPS, GE, Amazon, United Healthcare, Citigroup и др.

«Too Big to Ignore: The Business Case for Big Data», Phil Simon

11 Too Big to Ignore

Too Big to Ignore ориентирована на CIOs, CEOs и ITшников. Автор книги, Phil Simon обладает сверхъестественной способностью соединять бизнес кейсы со сложными техническими терминами, и, что самое важное, ясно объяснять, как все взаимодействует. В своей книге он демистифицирует термин «Big Data», раскладывая по полочкам технологии, решения, ПО и их вендоров и др.

Отзывы читателей:

Проста для понимания, подойдет специалистам с любым уровнем знаний.

Spark

Apache Spark — программное обеспечение с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных.

«Learning Spark: Lightning-Fast Big Data Analysis», Holden Karau, Andy Konwinski, Patrick Wendell и Matei Zaharia

12 Learning Spark

Книга написана разработчиками Apache Spark и будет полезна инженерам и специалистам, работающим с большими объемами данных. В издании представлены приемы обработки данных с помощью простых API в Python, Java и Scala. Кроме того, это издание включает в себя информацию о Spark SQL, Spark Streaming, и Maven. Вы научитесь запускать параллельные задачи несколькими строками кода и написанию приложений, которые выполняют как простые задачи, так и требующие методов машинного обучения. Короткий список преимуществ книги:

  • Быстрое погружение в возможности Spark, такие как распределенные массивы данных, кеширование в памяти, и работа с командной строкой
  • Использование одной программной парадигмы вместо смешивания таких инструментов, как Hive, Hadoop, Mahout, и Storm
  • Развертывание интерактивных, пакетных и потоковых приложений
  • Коннекторы к различным источникам данных: HDFS, Hive, JSON, и S3

Примеры, описанные в книге, вы сможете найти на github.

Отзывы читателей:

Некоторые программисты отмечают поверхностность примеров и их скупое объяснение. Тем не менее, все отмечают, что книга будет хорошим началом для погружения в Spark.

«Advanced Analytics with Spark: Patterns for Learning from Data at Scale», Sandy Ryza, Uri Laserson, Sean Owen и Josh Wills

13 Advanced Analytics with Spark

Эта книга написана четырьмя специалистами компании Cloudera и представляет современную платформу для управления данными и их анализа. «Advanced Analytics with Spark» — это руководство, в котором собраны различные шаблоны для анализа больших объемов данных с помощью Spark.

Начав с общего знакомства с технологией, вы постепенно углубитесь в методы классификаций, коллаборативной фильтрации и методы поиска аномалий, которые применяются в генетике и в сфере финансовой безопасности. Для реализации примеров используются Java, Python и Scala.

В книге описаны 9 тематических исследований в различных областях, основанные на реальных данных. Вы узнаете:

  • Как исследуется трафик такси в Нью-Йорке
  • Алгоритмы рекомендации музыки
  • Как предсказывается состояние лесного покрова с помощью алгоритма «деревья решений»
  • Понимание контента Википедии
  • Анализ данных генома и проекта BDG
  • Моделирование финансового риска с помощью метода Монте-Карло
  • Применение анализа данных в нейробиологии с помощью PySpark и Thunder.

Отзывы читателей:

Прекрасное пошаговое руководство для глубокого погружения в анализ данных и Spark.

Аналитика на Python

Python — гибкий язык с простым синтаксисом, для которого создано огромное количество мощных библиотек для машинного обучения и визуализации данных с открытым исходным кодом.

«Python Machine Learning», Sebastian Raschka

14 Advanced Analytics with Spark

Это руководство создано для тех, кто стремится расширить свое понимание технической стороны работы с предсказательной аналитикой на языке Python. Книга выгодно отличается от похожих изданий шириной охватываемых вопросов и большим количеством наглядных примеров, которые помогут освоить излагаемые методы и инструменты.

Издание подойдет для инженеров с любым уровнем знаний в машинном обучении: от начального до профессионального. Вы научитесь:

  • Использовать различные аналитические модели
  • Строить нейронные сети с помощью Pylearn 2 and Theano
  • Применять регрессионный анализ
  • Улучшать веб-приложения с помощью машинного обучения
  • Открывать скрытые паттерны и структуры в данных с помощью кластеризации
  • Эффективной предварительной обработке данных
  • Применять анализ социальных данных для определения настроений аудитории

Отзывы читателей:

Эту книгу описывают не иначе, как текстовый эквивалент нейронной сети с тысячами скрытых слоев, которую запустили на Nvidea GPU последнего поколения. Она подойдет программистам с любым уровнем знаний: и начинающий, и профессионал откроют для себя много новых алгоритмов на Python.

«Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython», Wes McKinney

15 Python for Data Analysis

Еще одна книга о Python в контексте Big Data, но она не об аналитических методах и не о концепциях и методах работы с данными, а об инструментах, которые Python может дать аналитику. Книга написана ведущим автором библиотеки «Pandas» (Python Data Analysis Library).

Вы научитесь использовать интерактивную оболочку IPython как основную среду разработки, освоите функции NumPy, познакомитесь с аналитическими инструментами, входящими в Pandas, и другими возможностями этой библиотеки.

Автор предполагает, что вы в достаточной степени знакомы с используемым языком и не останавливается на базовых моментах.

Вы научитесь использовать высокоэффективные инструменты для загрузки, хранения и обработки данных, познакомитесь со статичной и интерактивной визуализацией, а в качестве бонуса увидите, как решаются сложные задачи в веб-аналитике, социальных науках, финансах и экономике.

Отзывы о книге:

Самые разные. Положительные стороны, которые отмечают читатели: проста для понимания, дает хорошие фундаментальные знания. Отрицательные моменты: ошибки в коде (ближе к концу книги).

Data Science from Scratch: First Principles with Python

51Cf7c2AlpL._SX379_BO1,204,203,200_

Библиотеки, фреймворки и различные инструменты для работы с данными безусловно, хороши для погружения в практический анализ данных, но есть шанс того, что вы будете их применять без фактического понимания науки о данных (Data science). С этой книгой вы изучите применение инструментов и алгоритмов с нуля.

Если у вас есть способности к математике и практические навыки программирования, автор поможет разобраться с математикой и статистикой науки о данных. Краткое содержание книги:

  • Вводный курс в Python
  • Изучение основ линейной алгебры, статистики и понимание того как и где они применяются в науке о данных
  • Сбор, исследование, очистка и др. манипуляции с данными
  • Погружение в фундаментальные основы машинного обучения
  • Написание на Python различных моделей: k-nearest Neighbors, Naive Bayes, линейная и логистическая регрессия, деревья решений, нейронные сети, и кластеризация данных
  • Рекомендательные системы, обработка естественного языка, MapReduce и др.

Отзывы читателей:

Положительные. Один программист с 10-ти летним опытов отметил книгу лучшей среди похожих для тех, кто хочет научиться анализу данных на Python.

Визуализация данных

Визуализация данных — неотъемлемый аспект big data. Грамотное представление данных, собранных в результате исследования, значительно упрощает процесс формирования и обоснования гипотезы, помогает объяснить свою позицию коллегам и упрощает обработку данных.

«Storytelling with Data: A Data Visualization Guide for Business Professionals», Cole Nussbaumer Knaflic

16 Storytelling with Data

Книга научит вас основам визуализации данных и покажет, как сделать их эффективным подспорьем для создания различных презентаций. Вы будете учиться визуализировать данные на реальных примерах, улучшите свое понимание контекста и аудитории, сможете легко определять оптимальный способ подачи информации, научитесь очищать свои презентации от загромождающих элементов и привлекать внимание аудитории к ключевым моментам.

Автор делает акцент на эстетическом аспекте представления результатов, предлагая вам взглянуть на это глазами дизайнера, и научит вас использовать дизайнерские концепции для визуализации.

Hadoop

Hadoop — проект, созданный Apache Software Foundation. Это набор инструментов, распространяющийся на бесплатной основе, основная задача которого — разработка и выполнение распределённых программ, работающих на кластерах из сотен и тысяч узлов.

«Hadoop for Dummies», Dirk Deroos, Paul C. Zikopoulos, Roman B. Melnyk

17 Hadoop for Dummies

Этот учебник, как понятно из названия, ориентирован на тех, кто только начинает свое знакомство с Hadoop. Издание простым языком объясняет ценность Big Data и рассказывает историю появления Hadoop, описывает его преимущества, функциональность и показывает приемы его практического использования. Кроме того, книга знакомит вас с кластерами, шаблонами проектирования и экосистемой Hadoop.

В этой книге вы найдете:

  • Описание экосистемы Hadoop 2 и Yarn;
  • Примеры реального использования, которые помогут вам начать работу;
  • Подробную информацию об установке кластера;
  • Руководство по использованию Oozie для планирования рабочих процессов;
  • Информацию о том, как добавить структуру из Hive или HBase;
  • Подробную информацию о работе с SQL и Hive;
  • Информацию о развертывании Hadoop в облаке;
  • Информацию о проблемах, с которыми сталкиваются администраторы.

Отзывы читателей:

Их практически нет, а те что есть, довольно скупы.

«Hadoop: The Definitive Guide», Tom White

18 The Definitive Guide

Это практическое руководство по использованию одного из самых мощных наборов инструментов, распространяющихся на бесплатной основе. Разработчики найдут полезную информацию об анализе больших массивов данных, а администраторы научатся создавать и настраивать кластеры Hadoop.

В книге представлено огромное количество тематических исследований, иллюстрирующих то, как Hadoop решает конкретные задачи. Она научит вас использовать Hadoop Distributed File System (HDFS) для хранения больших массивов данных и выполнения распределенных вычислений над ними. Расскажет о возможностях использования MapReduce и распространенных ошибках, которые встречаются при работе с этой моделью. Вы узнаете, как спроектировать, создать и настроить кластер Hadoop, как запустить Hadoop в облаке и многое другое. Последнее издание включает в себя разделы, посвященные таким инструментам экосистемы, как Pig, Hive, HBase, ZooKeeper и Scoop.

Отзывы читателей:

Есть несколько негативных отзывов, которые отмечают различные недостатки: мешанина различных стилей, примеры кода без названия файлов, устаревшая местами информация и др.

«Hadoop Operations», Eric Sammer

19 Hadoop Operations

Если вы планируете работать с большими и сложными кластерами Hadoop, эта книга обязательна для вас. Она написана Эриком Заммером, главным архитектором Cloudera, и охватывает все этапы от планирования и создания, до настройки и постоянного сопровождения кластера.

В первую очередь книга рассчитана на администраторов, но и разработчики найдут в ней много интересного. Ваше знакомство с Hadoop начнется с установки и настройки всего необходимого П. О. Вы получите исчерпывающее представление о HDFS и MapReduce; пройдете все этапы развертывания Hadoop, начиная с выбора аппаратного обеспечения и операционной системы; научитесь управлять ресурсами с помощью разделения входных данных между непересекающимися группами; узнаете о поддержке и резервном копировании созданных систем на реальных примерах.

Отзывы читателей:

Положительные. Так как книга написана архитекторов Cloudera, в ней отражен весь опыт работы этой компании с Hadoop. Рассматривается множество ньюансов, узких мест экосистемы и возможных проблем.

«Hadoop in Practice», Alex Holmes

20 Hadoop in Practice

Руководство содержит в себе 85 проверенных примеров, поданных в формате проблема-решение. Автор достаточно хорошо балансирует между описанием фундаментальных основ и практических примеров с погружением в аспекты технологии. Вы будете изучать каждое решение поэтапно, что поможет лучше понять принципы построения той или иной модели.

Книга научит вас не только решать практические задачи, но и думать таким образом, чтобы суметь превратить набор данных в четко структурированную базу, с которой легко работать.

В книге вы найдете:

  • Исчерпывающий обзор Hadoop и MapReduce;
  • 85 практических, проверенных методик;
  • Реальные проблемы и их решения;
  • Подробную инструкцию для интеграции MapReduce и R.

Отзывы читателей:

Купившие книгу отмечают устаревшую местами информацию, поэтому будьте внимательны при выборе: покупайте только самое последнее издание, выпущенное не более чем год назад.

«Professional Hadoop Solutions», Boris Lublinsky, Kevin T. Smith и Alexey Yakubovich

21 Professional Hadoop Solutions

Эта книга, написанная командой опытных разработчиков, представляет собой подробное руководство о Hadoop и интеграции API для решения реально возникающих проблем. Книга рассказывает о хранении данных в HDFS и Hbase, обработке данных с помощью MapReduce и автоматизации работы с информацией с помощью Oozie.

Ее можно назвать исчерпывающим руководством для системных администраторов и разработчиков, работающих с Hadoop:

  • Подробно рассматривает создание стабильных MapReduce приложений, их тестирование и отладку
  • Объясняет, как расширить Oozie и использовать ее для интеграции с enterprise приложениями
  • Описывает как спроектировать Hadoop приложения, которые обрабатывают запросы в реальном времени
  • Показывает, как использовать инструменты безопасности Hadoop: шифрование, аутентификация, авторизация, SSO и аудирование
  • Рассматривает способы запуска Hadoop приложений в облаке Amazon

Отзывы читателей:

Отмечают хорошую «проработку в глубину» описанных выше тем, не рассмотренных в других книгах (Hadoop: The Definitive Guide, Hadoop In Practice).

HBase: The Definitive Guide: Random Access to Your Planet-Size Data

hbase

HBase используется в экосистеме Hadoop и эта книга научит вас управлять огромными массивами данных с помощью мощного инструмента. HBase является opensource разработкой, которая реализует архитектуру BigTable, которая используется внутри Google. Она устроена таким образом, что может масштабироваться горизонтально для обработки миллионов строк и столбцов без потери скорости чтения и записи. В книге рассматривается большое количество узких вопросов, которые чаще всего возникают при внедрении базы данных в IT инфраструктуру компании:

  • Вы узнаете, как тонко интегрировать Hadoop с HBase, чтобы обеспечить простое масштабирование
  • Как распределять большие наборы данных по большому количеству дешевых однотипных серверов
  • Изучите различные способы подключения к HBase: как стандартные Java клиенты, так и специализированные API интерфейсы для доступа из других сред
  • Узнаете о различных составляющих архитектуры HBase (формат хранения, логи, вторичные индексы, реализация транзакций, интеграция с поиском и др.)
  • Рассмотрите разные вопросы развертывания кластера, его обслуживания и мониторинга
  • И, наконец, сможете углубиться в вопросы быстродействия и управления памятью

MapReduce Design Patterns: Building Effective Algorithms and Analytics for Hadoop and Other Systems

mapreduce_book

Шаблоны проектирования приложений на фреймворке MapReduce разбросаны по различным исследовательским статьям и блогам. Эта книга избавит вас от необходимости перелопачивать различные источники: в ней собраны основные принципы проектирования и построения программ на MapReduce.

Каждый пример рассматривается в определенном контексте, чтобы вы смогли избежать частые ошибки, с которыми можно столкнутся. Вот некоторые типы шаблонов, которые описываются:

  • Группировка и агрегирование
  • Фильтрация данных от определенных пользователей
  • Шаблоны структурирования для работы с другими системами и упрощения анализа
  • Шаблоны соединения — анализ различных наборов данных вместе для поиска взаимосвязей
  • Мета-шаблоны: соединение вместе нескольких шаблонов для задач анализа в одном процессе
  • Шаблоны загрузки, выгрузки и хранения данных

Отзывы читателей:

Есть несколько негативных отзывов, которые указывают на низкое качество технической составляющей книги. «Издательство O’Reilly еще никогда не было столь непрофессионально» — самый безобидный из эпитетов читателей.

Programming Hive: Data Warehouse and Query Language for Hadoop

hive

Книга в подробностях описывает работу с Hive — надстройкой над MapReduce, которая позволяет писать SQL-подобные запросы к распределенной системе. Эта книга — самое исчерпывающее руководство по Hive, включает в себя все аспекты работы с технологией:

  • Создание таблиц, изменение их структуры, партиционирование и другие действия, знакомые из SQL
  • Различные манипуляции с данными
  • Синтаксис запросов, похожий на SQL
  • Создание представлений (Views), индексов, тем (schema)
  • Написание функций и управление потоками
  • Вопросы безопасности
  • Интеграция Hive с Oozie, Amazon Web Services и др.

Programming Pig

51B0+dPlfRL._SX380_BO1,204,203,200_

Книга посвящена Apache Pig. Этот инструмент позволяет легко организовать параллельные потоки данных в экосистеме Hadoop. С Pig вы сможете легко создавать несколько параллельных сценариев обработки данных.

Издание подойдет как начинающим, так и продвинутым программистам. В нем описаны основы и полностью рассмотрены различные аспекты Pig:

  • Модели данных: скалярные и сложные типы
  • Написание Pig Latin скриптов для сортировки, группировки, фильтрации и др. методов обработки
  • Использование Grunt в Hadoop
  • Встраивание скриптов Pig Latin в Python для выполнения итеративных алгоритмов
  • Создание своих функций загрузки и хранения данных
  • Вопросы быстродействия

Отзывы читателей: Отрицательные. Отмечают сумбурность изложения, которая больше похожа на записи в блоге, нежели последовательное введение в тему.

Hadoop Application Architectures: Designing Real-World Big Data Applications

5181mZjIcYL._SX379_BO1,204,203,200_

В то время как многие книги рассказывают только о применении различных компонентов экосистемы Hadoop, эта научит вас построению грамотной архитектуры конкретно под ваши задачи.

Вторая часть посвящена подробному описанию наиболее часто встречающихся архитектур существующих приложений на Hadoop. Книга также покрывает следующие вопросы:

  • Факторы, которые указывают на необходимость использования Hadoop
  • Лучшие практики загрузки и выгрузки данных из системы
  • Различные фреймворки обработки данных: MapReduce, Spark, Hive
  • Часто встречающиейся шаблоны обработки данных
  • Giraph, GraphX и др. инструменты для обработки больших графов на Hadoop
  • Использование различных инструментов планировки задач (Apache Oozie и др.)
  • Обработка больших объемов данных в реальном времени с помощьюApache Storm, Apache Spark Streaming, and Apache Flume

Отзывы читателей:

Крайне мало отзывов, в основном положительные.

Язык R

R — язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU.

«R Cookbook (O'Reilly Cookbooks)», Paul Teetor

22 R Cookbook

Книга содержит в себе более чем 200 практических рецептов быстрого и эффективного анализа данных с помощью языка R. Этот язык довольно сложен для полного освоения, но применение готовых решений из этого издания поможет вам начать использовать всю его мощь уже сегодня, начиная с задач ввода и вывода данных, заканчивая статистическим анализом и регрессией. Каждый рецепт решает конкретную проблему, что придает изучению языка прикладной характер, способствующий скорейшему усвоению материала. Если вы новичок, эта книга поможет вам начать практическое использование возможностей R, а если у вас уже есть значительный опыт разработки на этом языке — вы сможете улучшить качество своего кода и найти новые способы решения определенных задач.

Материал поможет пройти вам каждый этап обработки данных. В ней приведены техники извлечения данных из CSV и HTML, а потом и из баз данных. Позже вы научитесь использовать средства языка для организации хранения и управления данными.

Если вы ищите книгу для начала знакомства со статистикой, это издание вам определенно не подойдет. R Cookbook предполагает знание различных основных статистических методов и алгоритмов, и только покажет вам, как применять эти методы и алгоритмы в окружении R. Но если вы решили сконцентрироваться на изучении различных методов и инструментов, например, R Graphics, тогда Cookbook от O`Reilly — именно то, что вам нужно.

The Art of R Programming: A Tour of Statistical Software Design

518sz+gfbHL._SX376_BO1,204,203,200_

Еще одна книга об аналитике на языке R. В ней рассматриваются все аспекты программирования: от самых простых особенностей языка до продвинутых тем (замыкания, рекурсия, анонимные функции и др.). Для того, чтобы начать, вам не потребуются специальные знания статистики или большого опыта программирования. Книга поэтапно расскажет о функциональном и объектно-ориентированном программировании, математическом моделировании, преобразовании данных в разные форматы.

Несколько тем, которые затрагиваются в книге:

  • Создание графики и визуализация
  • Написание параллельного кода на R
  • Интерфейсы для R на C/C++ и Python для увеличения скорости и функциональности
  • Различные пакеты для анализа текста, изображений и многого другого
  • Продвинутые техники отладки

Отзывы читателей:

Один из отзывов написал программист с 12-ти летним опытом работы с языком R. Он отметил, что никогда не встречал ничего подобного знаменитой «K&R», The C Programming Language. Но именно эта книга оказалась достаточно хорошей, чтобы сравнить с «K&R» по уровню качества.

R: Easy R Programming for Beginners, Your Step-By-Step Guide To Learning R Progr

r3

Довольно хороший выбор для желающих начать изучать язык R. Книга написана простым языком, без технических жаргонизмов и других вещей, которые делают сложным понимание материала. Авторы придерживаются поэтапного стиля изложения материала, чтобы читатель легко усваивал все тонкие непонятные моменты языка. Короткий список того, что вы изучите с после прочтения:

  • Как установить R и R Studio, а также другие редакторы
  • Основы синтаксиса R
  • Подключение пакетов
  • Представление данных в виде векторов
  • Работа с матрицами, списками и другими структурами
  • Базовая работа с графическим представлением данных и много другое

ОСТАВЬТЕ ОТВЕТ