Огромное разнообразие различных платформ и инструментов для анализа данных может поставить в тупик любого специалиста, перед которым стоит задача построения бизнес процесса на основе продвинутого анализа данных предприятия. Сегодня машинное обучение и глубокий анализ данных уже не является чем-то новым. Это обязательный пункт, без которого бизнес не сможет нормально конкурировать в современном мире. Анализ собираемой информации — ключ к улучшению показателей бизнеса. Но для этого нужно располагать и оперировать инструментами для анализа данных. Какими? Давайте рассмотрим этот вопрос. Мы собрали для вас наиболее полный список представленных на рынке фреймворков, платформ, решений и систем продвинутой аналитики.

Фреймворки

Кажется, что низкая стоимость распределенных вычислений и быстрота обработки делают Hadoop для Больших Данных примерно таким же по значимости решением, как и все остальные вместе взятые программные продукты. Любой перечень платформ Big Data с открытым исходным кодом действительно начинается с «железнорожденного слона», но Hadoop — не единственный краеугольный камень.

1Hadoop

Платформа Hadoop представляет собой open-source фреймворк, позволяющий сделать так, чтобы приложение разделилось на несколько фрагментов, и каждый фрагмент обрабатывался на любом узле (компьютере, «ноде») в кластере вычислительной системы.

Данная платформа состоит из модулей, которые работают вместе с целью создания единого программного каркаса. Основными модулями являются:

  • Hadoop Common;
  • Hadoop YARN;
  • Hadoop Distributed File System (HDFS);
  • Hadoop MapReduce.

Все вышеперечисленное формирует ядро Hadoop, однако есть и другие составляющие, которые расширяют возможности «слона», но об этом немного позже.

Интересный факт. Хадуп — именно так сын одного из изобретателей фреймворка назвал желтого игрушечного слона.

Первый блок (Hadoop Common) данного инструмента — это набор инфраструктурных программ и элементов, связующее ПО. YARN — система планирования заданий и управления ресурсами кластеров. На HDFS и MapReduce (в контексте Hadoop) следует остановиться поподробнее.

Распределенная файловая система выполняет 2 главные задачи: запись метаданных и хранение собственно данных. Принцип работы HDFS состоит в распределении файлов по нескольким узлам в кластере. Так, с метаданными работает сервер NameNode, с собственно данными — DataNode. HDFS является весьма надежной системой, ведь в случае уничтожения половины узлов кластера, теряется всего 3% информации.

HDFS архитектура

«Фишка» с локальными вычислениями на машинах с известными нам блоками данных стала возможна благодаря MapReduce. Реализация данной парадигмы в свою очередь основана на раскрытии сервером NameNode информации о расположении блоков данных на компьютерах. Принцип работы MapReduce состоит из двух шагов: map и reduce. Вот как происходит процесс:

  1. Map: получение входных данных главным узлом (master node) -> разделение информации на части -> передача данных рабочим узлам (worker node).
  2. Reduce: получение главным узлом ответа от рабочих узлов -> формирование результата.

MapReduce

Фреймворк Hadoop де-факто является стандартным ПО для работы с технологиями анализа Больших Данных. Однако его следует использовать тогда, когда есть реальная «Big Data problem». Компания начинает работать с объемом данных, с которыми текущие решения Big Data не справляются? Нужен Hadoop. Не знаете, хватит ли текущего объема хранилища для будущих задач? С Hadoop можно просто дополнить кластер новыми машинами — система это «пережует и проглотит» без проблем. Переживаете за сохранность информации в случае выхода из строя ряда серверов? Не следует: если какой-нибудь узел «ляжет», управление процессом автоматически передается другому компьютеру.

Hadoop сейчас эффективно использует самая крупная в Европе компания, которая занимается тартеггингом на основании кликов (т. н. «ad targeting»). Главный телекоммуникационный провайдер Старого Света Deutsche Telekom также прибегает к применению фреймворка Hadoop, который оказался в 50 раз дешевле старой платформы.

Но не забывайте, что инструменты для анализа данных на основании Hadoop имеют свои недостатки. Во-первых, платформа недостаточно защищена от кражи информации. Во-вторых, работать с Hadoop весьма тяжело, ведь фреймворк требует знания MapReduce, в то время как большинство специалистов используют SQL-технологии. И, наконец, из-за огромного ажиотажа вокруг «слона», подогреваемого отделом маркетинга Hortonworks, данная платформа изменяется слишком динамично.

В качестве резюме по Hadoop можно сказать, что это отличный вариант для работы с огромными объемами информации. При правильной архитектуре приложений, созданных с использованием технологий Big Data, платформа открывает доступ к анализу неограниченного объема информации. Кроме того, она отказоустойчива, а стоимость ее обслуживания в десятки раз меньше по сравнению с аналогами конкурентов.

2Spark

Spark, подобно Hadoop, является платформой с открытым исходным кодом. Однако сравнивать их в лоб некорректно. Данные фреймворки не выполняют одни и те же задачи и не являются взаимоисключающими, поскольку могут работать вместе.

Spark требует наличия менеджера кластера и распределенной системы хранения данных. Если вопрос управления кластерами решается путем использования нативных средств, Hadoop YARN или Apache Mesos (при работе с многоузловыми кластерами), то распределенная система хранения данных может быть исключительно посторонней. Именно по этой причине в большинство проектов с использованием технологий Big Data, Spark устанавливается поверх «слона»: связка из передовых приложений для аналитики от Spark и Hadoop Distributed File System позволяет программам на кластерах Hadoop выполняться до 100 раз быстрее в RAM и до 10 раз быстрее на ROM.

В платформе Spark вводится важная абстракция под названием Resilient Distributed Dataset (RDD), которая представляет собой набор read-only объектов, распределенных по узлам кластера. RDD выполняет 2 класса операций: преобразования и действия.

Преобразования не возвращают одного значения, а меняют метаданные и возвращают новый RDD. К преобразованиям относятся операции map, filter, flatMap, groupByKey, reduceByKey, aggregateByKey, pipe, coalesce.

Действия возвращают новое значение. Когда функция действия вызвала объект RDD, возвращаются все запросы по обработке данных и результат по состоянию на текущее время. К операциям действия относят reduce, collect, count, first, take, countByKey, foreach.

Как видно, помимо map и reduce, которые присутствуют в модуле Hadoop MapReduce, Spark предлагает еще ряд других операций. Поэтому при разработке приложений с технологиями Больших Данных, Spark чаще всего заменяет именно Hadoop MapReduce, а не весь Hadoop.

Стоит отметить, что в специфических задачах, построенных на многократных обращениях к одному набору данных, «чистый» Spark работает быстрее Hadoop до 30 раз. Например, это интерактивный дата-майнинг и итерационные алгоритмы, которые активно используются в системах машинного обучения.

Архитектура Spark включает в себя 3 главных компонента:

  • хранилище данных;
  • API;
  • менеджер кластера.

Spark архитектура

Интерфейс программирования приложений позволяет разработчикам создавать программное обеспечение для Больших Данных на основе Spark, используя стандартный API. Spark по умолчанию поддерживает Java, Scala и Python, благодаря чему можно выбрать язык для написания приложений.

Кроме того, Spark включает несколько библиотек, таких как Spark SQL (позволяет выполнять SQL-запросы над данными), Spark Streaming (надстройка для обработки потоковых данных), Spark MLlib (набор библиотек машинного обучения), GraphX (предназначена для распределенной обработки графов). А механизм выполнения типа «направленный ациклический граф» (DAG) позволяет фреймворку Spark создавать эффективные планы запросов на преобразование данных.

Итого: «Чистый» Spark наилучшим образом проявляет себя в машинном обучении и при работе с итерационными задачами. Наиболее часто используется поверх Hadoop, заменяя модуль MapReduce и добавляя большее количество операций.

3Storm

Фреймворк Storm можно причислить к числу лучших решений для работы с Большими Данными, когда речь идет о платформах с открытым исходным кодом. В отличие от Hadoop и Spark, ориентированных на пакетную обработку больших наборов данных, система Storm предназначена для распределенной обработки в режиме реального времени и не зависит от языка программирования.

Рабочие процессы в «Шторме» называются «топологиями». Эти топологии организованы по принципу направленного ациклического графа (DAG) и выполняются до выключения пользователем или появления неустранимой ошибки. Storm поддерживает создание топологий, которые преобразуют незавершенные потоки данных. Эти преобразования, в отличие от заданий Hadoop, никогда не прекращаются, а продолжают обрабатывать данные по мере их поступления.

Нативный Storm не может использоваться для разработки приложений Big Data поверх типичных кластеров Hadoop. Для координации задач между узлами в кластере используется Apache ZooKeeper с его мастер (миньон) воркером. Тем не менее, Yahoo! и Hortonworks трудятся над созданием библиотек для запуска «Шторма» на вершине Hadoop 2. x кластеров YARN. Также отметим, что данный фреймворк способен читать и записывать файлы с/на HDFS.

Spark+vs.+Hadoop+vs.+Storm_2

Основными элементами топологии Strom являются воронки (spouts) и сита (bolts). Воронки генерируют потоки данных в форме неизменяемых наборов пар «ключ-значение», называемых кортежами (tuples), а сита выполняют преобразование этих потоков. Подобно MapReduce, сита могут решать традиционные задачи или выполнять более сложные действия (одношаговые функции): фильтрацию, агрегирование или связь с внешними объектами типа баз данных.

storm-architecture41

В Storm реализована концепция гарантированной обработки сообщений. Это значит, что каждый кортеж, испускаемый из воронки, будет обработан; если он не обработан в течение некоторого времени, то Storm вновь выпускает его из воронки. Другой важной особенностью экосистемы Storm является достаточное количество воронок, настроенных на прием данных от всех видов источников. Даже для узкоспециализированных приложений с применением технологий Больших Данных не обязательно придется создавать собственную воронку: здесь можно найти нужный споут среди огромного количества болтов — от потокового Twitter API до Apache Kafka.

Storm имеет множество сфер применения: аналитика в режиме реального времени, машинное обучение online, генерация распределенного вызова удаленных процедур и прочее.

Система распределенных вычислений Storm станет хорошим выбором, если вы начинаете проект с нуля со специально построенным кластером, а ваши требования сосредоточены на потоковой обработке данных и сложной системе обработки событий (CEP). В большинстве случаев, Storm используют в сочетании со Spark наряду с платформой Hadoop. Spark при таком раскладе заменяет Hadoop MapReduce, а Storm — Hadoop YARN.

Резюмируя все вышеизложенное по Storm, можно отметить, что фреймворк представляет собой вычислительную систему без хранения данных. Он предназначен для работы с потоковыми данными, которые поступают непрерывно. Это и есть главное отличие Storm, если сравнивать его с рассмотренными выше платформами для работы с Big Data-решениями (Hadoop и Spark).

Базы данных

Несмотря на то, что описанные в разделе «Фреймворки» платформы для анализа данных могут функционировать в автономном режиме и подходят для разработки любых приложений, они (чаще всего Hadoop) выполняют роль простого хранилища данных. Отсюда возникает необходимость в СУБД, которые, ввиду табличной организации данных, упрощают аналитику и содержат необходимые инструменты для Big Data-анализа.

4Hive

Hive — хранилище данных с открытым исходным кодом, предназначенное для выполнения запросов и анализа больших объемов данных в файлах Hadoop. Это самая популярная СУБД на SQL-платформе, которая в качестве языка запросов использует HiveQL. HiveQL автоматически переводит SQL-подобные запросы в MapReduce или Tez, или Spark jobs.

Hive выполняет 2 основные функции: реферирование и формирование запросов. Данная СУБД также допускает сериализацию/десериализацию данных и увеличивает гибкость при проектировании схемы путем использования системного каталога Hive-Metastore.

Согласно официальной документации, Hive не предназначен для работы с OLTP и не предлагает обработку запросов в режиме реального времени. Он лучше всего подходит для пакетной обработки транзакций на больших наборах наподобие веб-журналов (т. н. append-only данные).

Hive на LLAP (Live Long и Process) использует постоянные Query-сервера с интеллектуальным кэшированием в оперативной памяти, чтобы избежать пакетно-ориентированной задержки со стороны Hadoop и обеспечить малое время отклика. В то же время, Hive на Tez продолжает обеспечивать отличную производительность пакетного запроса на петабайтах данных.

Таблицы в Hive организованы так же, как и в реляционных БД, а блоки данных систематизированы от крупных до более детализированных единиц. Базы данных состоят из таблиц, которые в свою очередь состоят из разделов. Доступ к данным осуществляется через язык SQL, а сам Hive поддерживает добавление и перезапись данных. Кстати, следующие рассматриваемые нами инструменты, которые применяются для анализа Больших Данных, также используют язык структурированных запросов.

Архитектура ETL-фреймворка Hive следующая:

  1. CLI, JCDB, ODBC или любой другой графический веб-интерфейс. Образует внешние интерфейсы по отношению к интерфейсу Hive для установки связи между пользователем и HDFS.
  2. Metastore Thrift API. Выполняет роль системного каталога и отслеживает, какие данные хранятся в той или иной части HDFS.
  3. Драйвер. Это основа Hive-архитектуры, ответственная за сбор, оптимизацию и выполнение инструкций HiveQL.
  4. Thrift Server. API-клиент для выполнения операторов HiveQL.

apache-hive-architecture

Главные причины того, что Hive остается популярным:

  • Работать с Hive может любой, кто знаком с SQL: HiveQL не потребует усилий для того, чтобы переучиться.
  • Hive поддерживается веб-интерфейсом с открытым исходным кодом — Hue.
    • Он обеспечивает повышенную производительность по сравнению с MapReduce за счет векторизации запросов c использованием движка Tez.
  • Благодаря отсутствию необходимости писать длинный Java MapReduce код, сокращает время на программирование.

5Impala

Impala — главный конкурент Hive. Impala — это автономный open-source механизм выполнения SQL-запросов, который работает на Hadoop-кластерах. Система обеспечивает быстрые, интерактивные SQL-запросы непосредственно к данным Hadoop, которые хранятся в HDFS или HBase. В дополнение к использованию той же унифицированной платформы хранения данных, что и у Hive, в Impala применяются те же метаданные, SQL-синтаксис (HiveQL), драйвер ODBC и даже пользовательский интерфейс, как у главного конкурента.

Однако Impala никогда не использовала классический MapReduce, а изначально исполняла запросы на своем собственном движке. «Суть системы Hive заключается в том, что она просто преобразует/компилирует SQL-запросы в программу на языке Java с использованием MapReduce-функций, которая затем исполняется в пакетном режиме аналогично другим Hadoop-задачам. Таким образом, Hive добавляет дополнительный шаг перед использованием MapReduce, тогда как система Impala полностью заменяет MapReduce», — говорит гендиректор Cloudera Майк Олсон.

Согласно официальной документации, Impala является дополнением к инструментам для работы с Большими Данными, предназначенных для выполнения запросов. Механизм Impala не заменяет фреймворки пакетной обработки, построенные на MapReduce (тот же Hive), которые лучше всего подходят для длительных пакетных обработок транзакций.

В среде Cloudera механизм Impala позиционируется таким образом:

ximpala_arch.jpeg.pagespeed.ic.hJLCJOvjGI

Impala состоит из следующих компонентов:

  1. Клиенты. Объекты, включая Hue, клиенты ODBC и JDBC, а также Impala Shell, которые могут взаимодействовать с Impala. Эти интерфейсы, как правило, используются для отправки запросов или выполнения администрирующих задач, вроде подключения к Impala.
  2. Hive Metastore. Содержит информацию о доступных для Impala данных. С помощью Metastore, система узнает, какие базы данных доступны и какова их структура.
  3. Impala. Процесс, функционирующий на DataNodes, координирует и выполняет запросы. Каждый экземпляр Impala может получать, планировать и координировать запросы от клиентов. Запросы распределяются между узлами Impala, после чего эти узлы выполняют параллельные фрагменты запросов, т. е. выступают в качестве «воркеров».
  4. HBase и HDFS. Запрашиваемое хранилище данных.

К «плюсам» Impala относят:

  • Знакомый по другим методам обработки SQL-интерфейс.
  • Возможность запрашивать большие объемы данных у Hadoop.
  • Распределенные запросы в среде кластера для удобного масштабирования.
  • Возможность совместного использования файлов между различными составляющими без копирования, экспорта или импорта.
  • Единую систему для анализа и обработки Больших Данных: клиенты могут избежать дорогостоящего моделирования.

Подводя итоги по данной системе, можно провести параллель между Hive и Impala. Механизм Impala не поддерживает отказоустойчивость: если одна машина выходит из строя, весь запрос должен быть запущен повторно. С другой стороны, Impala выполняет эти небольшие запросы в 10−50 раз быстрее Hive. Даже если узел «падает» и должен быть перезапущен, общее время выполнения все равно намного меньше, чем у Hive. Таким образом, Impala имеет большее преимущество в запросах, где среда выполнения является достаточно малой, чтобы возможность «падения» узла была минимальной.

Обе системы достаточно быстры, имеют неплохой функционал и активно развиваются, ведь они выпущены лучшими компаниями по разработке решений для Big Data — Cloudera и Apache. Hive, однако, требует гораздо больше внимания и ухода. Для корректного запуска скрипта, часто нужно установить десяток переменных окружения, интерфейс JDBC в виде HiveServer2 работает откровенно плохо, а выбрасываемые ошибки мало связаны с настоящей причиной проблемы. Impala также не идеальна, но в целом гораздо приятней и более предсказуема.

6Presto

Presto является распределенным open-source механизмом SQL-запросов (SQL query engine) для выполнения интерактивных аналитических запросов к источникам данных разных размеров: от гигабайт до петабайт. Presto — это система для интерактивной аналитики Больших Данных, которая была разработана с нуля корпорацией Facebook и отличается скоростью работы, характерной для коммерческих хранилищ данных.

Механизм позволяет запрашивать данные с места их «обитания», включая Hive, Cassandra, реляционные БД и даже проприетарные хранилища данных. Один запрос Presto может объединять данные из нескольких источников, что позволяет проводить анализ Big Data в масштабах всей организации. Согласно сведениям официальных источников, Presto ориентирован на аналитиков, которые ожидают получить отклик в пределах нескольких секунд или минут.

Ниже приведенная диаграмма демонстрирует упрощенную архитектуру Presto. Клиент отправляет SQL-запрос координатору Presto. Координатор обрабатывает, анализирует и планирует выполнение запроса. Планировщик соединяет исполнительный конвейер, распределяет работу по узлам, находящимся ближе к данным, и следит за прогрессом. Клиент извлекает данные из выходной ступени, которая в свою очередь извлекает данные из нижележащих ступеней.

Presto арх

Исполнительная модель Presto кардинально отличается от Hive и MapReduce. Так, Hive преобразовывает запросы в несколько этапов, которые являются задачами MapReduce, выполняющимися друг за другом. Каждая задача считывает входные данные с диска и записывает промежуточный результат выхода обратно на диск. В то же время Presto использует пользовательский запрос и исполнительный механизм с операторами, предназначенными для поддержки семантики SQL. В дополнение к улучшенной планировке, вся обработка выполняется в оперативной памяти. А наличие конвейеров между ступенями сети предотвращает ненужные вводы/выводы и сопутствующие накладные расходы. Конвейерная исполнительная модель запускает несколько ступеней сразу и переправляет данные с одной ступени на другую, как только они становятся доступными. Благодаря этому, задержка для многих типов запросов сокращается в разы.

Presto поддерживает ANSI SQL, а это значит, что вдобавок к JSON, ARRAY, MAP и ROW, можно использовать стандартные типы данных SQL, функционал оконного интерфейса, статистические и аппроксимативные агрегатные функции.

По сравнению с Hive, у Presto есть недостаток: более активное участие в разработке, построении и развертывании определенных пользователем функций. Тем не менее, Presto считается одним из лучших механизмов с открытым исходным кодом для анализа Больших Данных.

7Drill

Drill — еще одно open-source SQL-решение, в рамках которого развивается механизм для организации исполнения SQL-запросов над частично структурированными данными, хранящимися в NoSQL. К числу таковых принадлежат HBase, MongoDB, MapR-DB, HDFS, MapR-FS, Amazon S3, Azure Blob Storage, Google Cloud Storage, Swift, NAS и локальные файлы. Один запрос может объединить данные из нескольких хранилищ. Например, пользователь может объединить сведения с коллекции профиля пользователя в MongoDB с каталогом журналов событий в Hadoop.

Drill поддерживает стандарт SQL. Бизнес-аналитики и специалисты по Большим Данным могут использовать привычные инструменты для анализа Big Data вроде Tableau, Qlik, MicroStrategy, Spotfire, SAS и Excel, чтобы взаимодействовать с нереляционными БД за счет использования штатных интерфейсов JDBC/ODBC.

Обработка запроса в Drill обычно включает следующие шаги:

  1. Drill-клиент формирует запрос. В качестве клиента могут выступать интерфейсы JDBC/ODBC, интерфейс командной строки или REST API. Любой Drillbit (один из составных элементов экосистемы) в кластере может принимать запросы от клиентов. Концепция «ведущий-ведомый» (master-slave) отсутствует.
  2. Затем Drillbit анализирует и оптимизирует запрос, после чего генерирует распределенный план запроса, который заточен под быстрое и эффективное выполнение.
  3. Принимающий запрос Drillbit становится ведущим узлом для этого запроса. От Zookeeper он получает список доступных узлов Drillbit в кластере. Ведущий узел определяет подходящие машины для выполнения различных фрагментов запроса, т. е. максимально локализует данные.
  4. Ведущий узел определяет порядок выполнения фрагментов запроса на отдельных узлах в соответствии с планом выполнения.
  5. Отдельные узлы заканчивают выполнение этих фрагментов и возвращают данные к ведущему узлу Drillbit.
  6. Ведущий узел передает результаты назад клиенту.

Drill query

Drill — далеко не первая в мире система обработки запросов, но точно одна из первых, которая сочетает гибкость и скорость. А все благодаря принципиально новой архитектуре, производительность которой не идет в ущерб гибкости, предоставляемой JSON. Конструкция Drill включает в себя:

  • столбчатый механизм выполнения (первый такой механизм, поддерживающий работу со сложными данными);
  • управляемую данными компиляцию и перекомпиляцию во время выполнения;
  • специализированное управление памятью, которое уменьшает объем используемого ОЗУ;
  • продвинутый оптимизатор, который, когда это возможно, переводит всю обработку в хранилище данных.

Аналитические платформы

Платформы прогнозной аналитики представляют собой программы, которые обеспечивают интегрированную среду для машинного обучения, интеллектуального анализа данных, анализа текста и бизнес-аналитики. В этом разделе сосредоточены средства и технологии Big Data, которые нацелены не только на анализ сущностей, но и на управление решениями и их оптимизацию, что поможет выбрать решение, приводящее к наилучшим результатам.

8RapidMiner

RapidMiner — это бесплатная опенсорсная среда для прогнозной аналитики. Возможности RapidMiner могут быть расширены с помощью дополнений, отдельные из которых также доступны бесплатно. Система поддерживает все этапы глубинного анализа данных, включая результирующую визуализацию, проверку и оптимизацию.

Огромное преимущество RapidMiner состоит в том, что для его использования не нужно знать программирование. Здесь реализован принцип визуального программирования, т. е. сам код писать не нужно, как не нужно проводить сложные математические вычисления. Все происходит следующим образом: пользователь закидывает данные на рабочее поле, а потом просто перетаскивает операторы в GUI, формируя процесс обработки данных. Разбираться в сгенерированном коде можно, но в большинстве случаев не нужно.

RapidMiner GUI

Данная платформа для анализа Больших Данных «дружит» с Hadoop, правда, если использовать платное расширение RapidMiner Radoop. Расширение требует, чтобы кластер Hadoop был доступен от клиента под управлением RapidMiner Studio. Диаграмма ниже демонстрирует базовую архитектуру Radoop на Studio:

radoop-client-diagram

«Майнер» является расширяемой системой: поддержка языка R и полностью интегрированные операторы системы WEKA позволяют работать на низком уровне.

Интересная «фишка» RapidMiner — анализ тональности текста — становится доступной с установкой удобной надстройки от стороннего поставщика AYLIEN. Скачать ее можно с RapidMiner Marketplace. AYLIEN, например, может собрать данные из Twitter, а затем проанализировать твиты и выставить им оценку по шкале настроения: положительную, отрицательную или нейтральную.

Экосистема RapidMiner очень быстро развивается, подстраиваясь под новые платформы (релиз о поддержке базового функционала Spark вышел спустя 2 (!) месяца после выпуска платформы). В связи с этим, от пользователей требуется четкое понимание того, что они делают и с помощью каких из сотен инструментов это делается. Для новичков есть отличная стартовая страница. За помощью также можно обращаться в сообщество RapidMiner.

9IBM SPSS Modeler

Платформа IBM SPPS Modeler — коммерческий конкурент RapidMiner, который характеризуется низким порогом входа для начинающих. Понятность для новичков обеспечивается режимами «автопилота». Авто-модели (Auto Numeric, Auto Classifier) перебирают несколько возможных моделей с разными параметрами, определяя среди них лучшие. Не слишком опытный аналитик может построить на таком решении адекватную модель.

К основным особенностям SPSS следует отнести:

  1. Автоматизированное моделирование: за один проход можно протестировать несколько методов моделирования, сравнить результаты и выбрать модель для развертывания.SPSSModelerAutoClassifier
  2. Геопространственная аналитика: с целью лучшего проникновения в суть задачи и увеличения точности прогнозирования, учитываются широта и долгота, почтовые индексы и адреса, объединенные с текущими и историческими данными.SPSSGoogleMapsCrimeUpdated
  3. Поддержка технологий с открытым исходным кодом: для улучшения аналитики, можно использовать R, Python, Spark, Hadoop и другие опенсорсные технологии.SPSSOpenSourceupdated
  4. Аналитика текстовой информации: путем анализа неструктурированных текстовых данных, охватываются ключевые понятия, темы, настроения и тенденции.SPSSModelerTextSentiment

Пользовательский интерфейс SPSS постоянно улучшается, благодаря чему систему можно назвать интуитивно понятной. Выполнение простых задач вроде создания формул не требует подготовки в принципе. Все это делает IBM SPSS Modeler хорошим решением по части анализа данных для новичков.

Все достоинства IMB SPSS Modeler может затмить один недостаток, который отсекает крупную аудиторию пользователей. Речь о том, что данная система — это не лучший инструмент для анализа Больших Данных. Атрибуты, которые делают SPSS простым в использовании, слишком ограничены для масштабных подходов при работе с технологиями Big Data. В совсем плохих случаях, SPSS от перегрузки просто «падает».

Тем не менее, IBM SPSS Modeler остается популярным решением благодаря простоте использования и незатейливому интерфейсу.

10KNIME

KNIME — еще одна бесплатная система для интеллектуального анализа данных, которая даже в базовой версии обладает хорошим функционалом. Подобно RapidMiner, KNIME предлагает интуитивно понятную рабочую среду без необходимости программировать. Здесь также есть ряд операторов, присутствующих в RapidMiner (в KNIME они называются «узлами»).

Если говорить об анализе текста, данная платформа позволяет выполнять следующие задачи:

  • Пересечение: сворачивание вариаций ключевых терминов в исходные формы.
  • Фильтрация стоп-слов: удаление незначительных слов.
  • Разбиение на лексемы: разбиение строк текста на более мелкие единицы, например, слова и фразы, через указанные пользователем правила.

KNIME также «умеет» считывать информацию напрямую из Twitter и работать с неструктурированными файлами вроде томов CSV.

Кроме этого, есть deep learning, веб-анализ, обработка изображений, анализ социальных сетей и другое.

Однако RapidMiner все же является более простой аналитической платформой для новичка, ведь она автоматически генерирует подробные предположения касательного возможных причин отсутствия подключения операторов. В KNIME хорошо описан каждый узел, но объяснения, почему операторы не подключены, отсутствуют. Наконец, функционал RapidMiner по части обработки текста на данный момент более широкий.

Таким образом, начинающим пользователям больше подойдет RapidMiner, а продвинутые специалисты, которые перепробовали все системы для анализа Больших Данных, могут найти что-то интересное в KNIME.

11Qlik Analytics Platform

Qlik Analytics Platform предоставляет разработчикам все необходимые инструменты для управляемого данными программирования. Компания Qlik является лидером в области визуальной аналитики, а ее платформа для анализа данных поддерживает создание и разработку как пользовательских, так и заказных аналитических приложений, в том числе и мэшапов.

Аналитическая платформа Qlik предлагает полный доступ к ассоциативной машине индексации данных QIX, которая позволяет устанавливать взаимосвязи между несколькими источниками информации, которые, как правило, скрыты в иерархических моделях данных. «Фишка» в том, что именно QIX применяется компанией Qlik при создании своих остальных решений. QIX Engine использует столбчатое расположение данных в оперативной памяти, что обеспечивает высокую производительность при их индексации и сжатии. На практике это позволяет проводить data mining в более свободной форме, без необходимости предварительно определять возможные пользовательские запросы. В свою очередь, программисты могут более быстро создавать приложения на основе технологий Больших Данных, а пользователи — оперативно получать ответы.

Архитектура Qlik Analytics Platform включает в себя следующие элементы:

  1. Консоль управления Qlik (QMC) и Dev Hub.
  2. Интерфейсы программирования приложений (API) и наборы средств разработки (SDK) Qlik Sense.
  3. Вспомогательные службы Qlik Engine и Qlik Sense.

Qlix арх

Платформа для анализа данных Qlik может быть использована в разработке аналитических приложений, информационных сервисов или платформ Интернета вещей. А обеспечение системой хороших визуальных и интерактивных возможностей позволяет пользователю лучше исследовать имеющиеся данные.

12STATISTICA Data Miner

Это платформа российской разработки. Система предоставляет наиболее полный набор методов для Data Mining. В частности, в STATISTICA Data Miner реализованы инструменты предварительной обработки, фильтрации и чистки данных, что позволяет эффективно отбирать признаки из сотен тысяч возможных предикторов.

Особенностью данной платформы является возможность получения непосредственного доступа к базам данных даже без выполнения явных операций экспорта/импорта. ПО «умеет» обрабатывать, считывать и записывать данные почти со всех стандартных файлов. Сами прогнозные модели могут быть сгенерированы в различных форматах (PMML, C++, C#, Java, SAS, хранимые процедуры баз данных).

STATISTICA Data Miner

Пользователи отмечают, что благодаря встроенному Мастеру Data Mining, выполняющему автоматическое построение моделей, STATISTICA Data Miner отлично подходит людям, не связанным с разработкой ПО (например, аналитикам по маркетингу). Тем не менее, широкий набор методов кластеризации, архитектур нейронных сетей, деревьев классификации и регрессии, многомерного моделирования, анализа последовательностей, ассоциаций и связей делает данную платформу мощным инструментом в руках эксперта.

Отметим также, что недавно компания представила новый продукт — STATISTICA Big Data Analytics, который, как понятно из названия, дополняет список ПО для анализа Больших Данных. Данная платформа является масштабируемой; она может создавать выборки с помощью MapReduce, искать на движке Lucene/SOLR, проводить аналитику Mahout, работать в «облаке» и с текстом Natural Language Processing. А если интегрировать STATISTICA Big Data Analytics с корпоративной версией STATISTICA Enterprise, это позволит внедрить аналитику Больших Данных на уровне предприятия.

STATISTICA Big Data Analytics

13Informatica Intelligent Data Platform

Компания Informatica называет свою разработку «путем виртуальных данных». Informatica Intelligent Data Platform предоставляет интеллектуальные и управляющие сервисы, которые могут работать с большинством популярных данных и форматов: веб, социальные сети, машинные журналы.

Данная интеллектуальная платформа для анализа данных включает в себя Vibe — виртуальный механизм, который позволяет произвести интеграцию сопоставленных данных один раз, а затем запускать их в различных средах. Подобно STATISTICA Data Miner, Informatica IDP базируется на интерфейсе типа drag-and-drop, т. е. пользователю нужно лишь перетаскивать на рабочую среду необходимые элементы, а все инструкции генерируются системой автоматически.

Главной «фишкой» Informatica Intelligent Data Platform является подход, касающийся ввода структурированных, частично структурированных и неструктурированных данных на одной семантической волне. Понимание между этими данными возможно благодаря подходам мапинга, эвристики и сопоставлению с образцом.

Компания Informatica, которая считается одним из главных игроков в сфере разработки аналитических инструментов для работы с технологиями Big Data, гордится тем, что IDP является единственной платформой, получившей награды как от Gartner, так и Forrester почти во всех категориях управления данными.

Архитектурно Informatica Intelligent Data Platform состоит из 3 слоев:

  1. Vibe — это упомянутый выше движок управления любым типом данных. Поскольку сейчас Vibe является встроенным механизмом, он предоставляет всеобщий доступ к данным, независимо от их местоположения или формата. Так как Vibe исполнен в виде виртуальной машины, движок может работать на любой локальной серверной платформе, кластерах Hadoop или облачном сервисе.
  2. Data Infrastructure. Инфраструктурный слой данных располагается над виртуальной машиной Vibe. Он включает в себя все сервисы, предназначенные для автоматизации непрерывной подачи «чистых», безопасных и подключенных данных в любом масштабе к любой платформе, кластерам Hadoop или облачному сервису.
  3. Data Intelligence. Интеллектуальный слой данных находится поверх Data Infrastructure. Он собирает метаданные, семантические данные и прочую информацию со всей платформы. Как только данные собраны, Data Intelligence сегментирует их для упрощения дальнейшей обработки. Роль данного слоя — предоставить методы для обработки Больших Данных. Речь идет об аналитике, business intelligence (BI), а также operational intelligence (OI) в режиме реального времени. А с недавнего времени Data Intelligence расширила список «навыков» Informatica IDP машинным обучением.

Informatica_IDP Architecture

Итак, главными характеристиками платформы для анализа данных от Informatica являются гибридная структура, позволяющая подключить любое приложение к любому устройству, систематичность и глобальность данных, а также демократизация данных, исключающая обязательное присутствие у пользователя навыков разработки ПО и знание какого-либо языка программирования для анализа информации.

Стоит отметить, что партнерами Informatica по решениям на базе IDP являются компании Cognizant, Capgemini UK, Datawatch, MicroStrategy, Qlik, Tableau и Ultimate Software.

14World Programming System

Еще одна мощная и универсальная платформа для работы с данными — это WPS. World Programming System позиционируется в качестве главного конкурента программных продуктов SAS и, более того, платформа поддерживает работу с решениями, написанными на языке SAS. Поддерживаемый синтаксис актуальной версии WPS охватывает ядро, статистические и графические возможности приложений, созданных с помощью языка SAS.

WPS является интерпретатором кода SAS. Главное преимущество данной платформы состоит в том, что она намного дешевле любого ПО для анализа Больших Данных производства SAS. Таким образом, World Programming System — самый выгодный способ запустить программу на SAS без использования программных продуктов SAS. Но поскольку у WPS есть определенные недочеты с чтением/записью формата .sas7dbat, рекомендуется конвертировать данные в их собственный формат. К тому же, у WPS есть собственный редактор, который по части написания и отладки кода даже лучше, чем SAS Enterprise Guide.

WPS_Workbench

Архитектурно WPS являет собой модульную систему. Каждая составляющая WPS отвечает за определенный функционал. Так, языковые модули отвечают за поддержку синтаксиса и макросов SAS, модули разработчика предназначены для кастомизации WPS, модули интерфейса организовывают взаимодействие между пользователем и системой, а модули данных открывают доступ к стандартным базам и хранилищам данных.

Преимущество WPS состоит в том, что лицензия данной платформы включает в себя все модули. Среда разработки и графический интерфейс достаточно функциональны, чтобы создавать, поддерживать и выполнять собственные скрипты и работать с большими наборами данных. С другой стороны, WPS не поддерживает noquotelenmax, не может использовать SYSTASK и не читает формат is8601dt, что подразумевает необходимость искать компромиссы.

15Deductor

Deductor — аналитическая платформа, разработанная компанией BaseGroup Labs. В Deductor встроены самые востребованные алгоритмы анализа (деревья решений, нейронные сети, самоорганизующиеся карты и т. д.), есть десятки способов визуализации и предусмотрена интеграция со множеством источников/приемников данных.

В системе применяются технологии, которые на базе единой архитектуры позволяют пройти все этапы построения аналитической платформы: от создания хранилища данных до автоматического подбора моделей и визуализации полученных результатов.

deductor

В Deductor реализован сценарный подход, предполагающий визуальное проектирование логики обработки при помощи мастеров без программирования. Аналитики получают все технологии анализа: Data Warehouse, OLAP, Data Mining и могут создавать сценарии анализа без привлечения разработчиков П. О. Также аналитическая платформа предусматривает очистку данных, в частности, их дедупликацию, т. е. проведение оценки схожести объектов, обогащение данных и объединение в единую корректную запись.

С Deductor можно:

  1. Извлекать данные из разнородных источников, консолидировать их в едином хранилище и отображать в виде отчетов и OLAP-кубов.
  2. Находить скрытые закономерности и оценивать качество моделей с помощью Data Mining.
  3. Сегментировать объекты анализа, определять целевые рынки, оптимизировать работу с потребителями и более рационально использовать ресурсы.

Платформа поставляется в 3 версиях: Academic, Professional и Enterprise. Первый вариант является абсолютно бесплатным и предназначен для образовательных целей, второй ориентирован на профессиональный анализ данных в рамках рабочих групп, третий — на промышленное корпоративное использование.

16SAS Enterprise Miner

SAS Enterprise Miner — это программный продукт, разработанный с целью создания точных предсказательных и описательных моделей на основании больших объемов информации. Инструмент ориентирован на бизнес-аналитиков: среди ключевых сценариев использования — минимизация рисков, обнаружение мошенничества и снижение оттока клиентов.

Клиент получает SAS Enterprise Miner в виде распределенной клиент-серверной системы. Это значит, что процессы анализа данных оптимизированы, все необходимые шаги поддерживаются в пределах одного решения, а для больших рабочих групп предусмотрены возможности гибкого сотрудничества в рамках единого проекта.

Данный инструмент реализует подход, базирующийся на создании диаграмм процессов обработки данных, что исключает необходимость ручного кодирования. Диаграммы в SAS Enterprise Miner — самоописательные шаблоны, которые можно изменять или применять для решения новых задач, не повторяя анализ с самого начала.

Графический интерфейс реализован по принципу «drag-and-drop», т. е. бизнес-пользователи могут быстро и просто создавать модели с помощью автоматизированной среды. Процесс регламентного применения моделей также происходит в автоматическом режиме. Итоговые диаграммы процесса моделирования могут использоваться в качестве самостоятельно документируемого шаблона, который удобно редактировать, обновлять и применять к новым бизнес-задачам, значительно сокращая время, необходимое на первичную подготовку модели. Кроме того, описание модели содержит информацию о том, какой вклад внесла каждая независимая переменная в итоговый результат.

SAS EM

Итого к основным преимуществам SAS Enterprise Miner отнесем:

  • широкий набор инструментов и поддержку всего процесса интеллектуального анализа данных;
  • продвинутый скоринг (процесс применения модели к новым данным);
  • простоту в использовании;
  • применение самодокументируемой проектной среды.

Прочие инструменты

Разберем еще ряд важных инструментов. Некоторые играют сопутствующую роль при работе с вышеописанными решениями, другие могут выполнять анализ данных независимо от них.

17Zookeeper

И начнем с инструмента, который считается главным средством координации для всех элементов инфраструктуры Hadoop. Zookeeper предоставляет централизованный сервис для синхронизации через кластер. Также он обеспечивает услугу сохранения сведений о конфигурации, распределенную синхронизацию и ряд других сервисов. Каждый раз, когда эти сервисы используются в том или ином виде, проделывается большая работа по устранению ошибок, обязательно возникающих в ходе выполнения. Zookeeper, принадлежащий к числу лучших инструментов для работы с технологиями Больших Данных, предлагает простой и понятный интерфейс для исправления этих ошибок.

В распределенной реализации инструмента есть несколько режимов работы, которые называются тиражируемыми режимами. Один сервер избирается в качестве главного, все остальные — рабочие. Т. е. фактически реализуется архитектура «master-slave».

Если ведущий сервер «падает», выбирается другой узел. Все серверы связаны между собой, а клиенты подключаются к одному из них. Но как только производится подключение, сервер снабжается списком других машин. Поскольку серверы содержат одну и ту же информацию, клиент может выполнять задачи без перерыва.

how_zookeeper_works

Zookeeper также может использоваться в автономном режиме, но тогда все преимущества тиражируемых режимов теряются. Standalone-режим работы предназначен для тестирования и обучения.

На практике Zookeeper чаще всего используется как сервис конфигурации, хотя его возможности намного шире.

18Flume

Flume — распределенный сервис для сбора и агрегирования данных журнала событий из различных источников в центральное хранилище данных, например, HDFS. Инструмент используется преимущественно для передачи неструктурированных данных. Flume не ограничивается только журналированием. Поскольку источники данных во Flume являются настраиваемыми, сервис также используется для загрузки данных событий, данных из социальных медиа-платформ, электронной почты, изображений, видео и других источников. Благодаря поддержке нескольких источников данных и горизонтального масштабирования, Flume используется корпорациями вроде Facebook, Twitter, Amazon и eBay для передачи данных в Hadoop.

Источник Flume в понятном для инструмента формате принимает события, которые передаются в систему с внешнего источника, например, журнала веб-сервера или данных социальных медиа. У Flume есть т. н. «коллекторы», которые собирают данные из разных источников и помещают их в централизованное хранилище вроде HDFS или HBase. Потом данные переходят от журналов веб-серверов к каналам, которые их хранят, пока они не потребляются Flume Sink’ами, которые затем окончательно помещают информацию в хранилище вроде HDFS. Инструмент позволяет увеличить надежность путем организации мульти-потоков, где данные хранятся в нескольких каналах, пока не достигнут HDFS. А поскольку во Flume применяется транзакционный подход, вероятность потери данных перед достижением конечного места назначения исключена.

apache-flume

К преимуществам Flume отнесем:

  1. Роль посредника потоков данных между источником и приемником. Когда частота поглощения данных меньше частоты их генерации, Flume стремится уравновесить поток по своим каналам.
  2. Данные легко собираются с нескольких источников. Коллекторы Flume способны подключаться к разным источникам с целью сбора разнородных данных и сохранять их в централизованном хранилище.
  3. Flume надежен. Как уже было отмечено, вероятность потери данных перед их поступлением к пункту назначения исключена.
  4. Возможность восстановления. Локальная файловая система проводит резервное копирование канала файла. Также в оперативной памяти присутствует канал, который хранит события в очереди и очень быстро восстанавливает события в случае «падения» коллектора.

19IBM Watson Analytics

Программное решение IBM Watson Analytics можно смело относить к одним из наиболее мощных инструментов для анализа Больших Данных. Этот платформа, которая доступна для работы на облаке. Введя в систему исходные данные, пользователь получает массив упорядоченной информации с выявленными связями между отдельными элементами.

На практике IBM Watson Analytics позволяет компаниям выяснить, как сторонние факторы влияют на изменение финансовых потоков или производственных мощностей клиента. Система автоматически проводит сложнейшие вычисления, демонстрируя пользователю наиболее важные для него и его бизнеса факторы, паттерны и связи между отдельными элементами.

Графический интерфейс системы понятен и приятен, ведь реализована логика «drag-and-drop». Все необходимые данные и графики можно разместить на рабочем пространстве, просто перетаскивая их. Визуализация, графики, диаграммы: все это быстрее помогает разобраться в текущей ситуации. Watson Analytics быстро проводит графическую обработку данных любой сложности.

IBM Watsons Drag-and-drop

Интересно, что с октября 2014 года IBM Watsons Analytics занимается обработкой и структурированием информации пользователей Twitter. Такое сотрудничество помогает выявлять тренды, которые характерны для социума конкретного региона: населенного пункта, страны, материка. IBM Watsons Analytics — это один из ключевых инструментов, которые применяются при работе с технологиями Big Data, прежде всего, в областях здравоохранения и маркетинга.

20Dell EMC Analytic Insights Module

Analytic Insights Module от Dell EMC — это инструмент, который создан с целью объединения самообслуживающейся аналитики с разработкой «облачных» приложений на единой платформе. Такой подход позволяет специалистам по анализу данных сосредоточиться на быстром создании (несколько дней или недель вместо месяцев) моделей с большой ценностью для бизнеса.

Чтобы реализовать такую концепцию, Dell EMC создала открытую платформу, предназначенную для отслеживания полного жизненного цикла анализа данных с помощью нескольких ключевых компонентов: озера данных (Data Lake), куратора данных (Data Curator), управляющего данными (Data Governor), каталога данных и анализа (Data and Analytic Catalog). С помощью этих составляющих, организации могут собирать нужную информацию путем глубинного анализа и формировать единое виденье относительно всех данных, чтобы пресечь явление силоса данных.

DellEMCInsightsModule

Data Lake отвечает за консолидацию данных в едином хранилище. Этот компонент нивелирует сложность хранения силоса данных, связанного с большим количеством разрозненной информации. Data Curator базируется на значениях из озера данных и предоставляет единый формат всех изученных и проиндексированных наборов данных как с самого Data Lake, так и с внешних источников. Согласно Dell EMC, куратор данных сохраняет до 80% времени специалистам по анализу данных при подготовке информации для аналитики. Data Governor содержит информацию о происхождении данных и обеспечивает их безопасность на протяжении всего процесса анализа. Также куратор данных позволяет видеть и использовать наборы данных в формате «end-to-end».

Итого, с Dell EMC Analytic Insights Module пользователь может:

  • исследовать, использовать и индексировать все данные в едином формате с помощью Data Curator;
  • узнать происхождение, обеспечить управление и безопасность для всех приложений и хранилищ данных с помощью Data Governor;
  • преобразовать всю важную информацию в управляемые данными приложения и бизнес-модели.

21Windows Azure HDInsight

HDInsight — это решение Microsoft, предназначенное для развертывания платформы Hadoop на OC семейства Windows Server и в облачной платформе Windows Azure. Инструмент предоставляет оптимизированные аналитические open-source кластеры с открытым исходным кодом для Spark, Hive, MapReduce, HBase, Storm, Kafka и R Server. Каждая из этих технологий для работы с Big Data может быть развернута в качестве управляемого кластера с обеспечением безопасности и мониторинга корпоративного класса.

Инструмент HDInsight поддерживает соглашение об уровне обслуживания на 99.9%, которое охватывает решение для работы с Большими Данными Azure, а не только экземплярами виртуальных машин. Решение HDInsight предназначено для обеспечения полной избыточности и высокой доступности и предусматривает репликацию головного узла, георепликацию данных и встроенный резервный узел NameNode.

За счет единого входа, многофакторной проверки подлинности и простого управления миллионами удостоверений в Azure Active Directory, HDIsight обеспечивает защиту ресурсов данных и расширяет локальные средства обеспечения безопасности и контроля до облачного уровня. Также отметим, что инструмент обеспечивает самый высокий уровень непрерывности бизнес-процессов, поскольку обладает расширенными функциями работы с оповещениями, мониторинга и определения упреждающих действий.

HDInsight Ecosystem

Большим преимуществом HDInsight перед конкурентными решениями является экономичная облачная масштабируемость. Так как локальное хранилище можно применять для кэширования и повышения производительности операций ввода/вывода, масштаб рабочих нагрузок изменяется без лишних затрат.

Наконец, HDInsight предусматривает развертывание кластеров Hadoop и Spark с приложениями независимых поставщиков ПО, что повышает эффективность работы сервиса.

22Microsoft Azure Machine Learning

После успешного вывода на рынок Hadoop-ориентированного инструмента HDInsight, подразделение Azure корпорации Microsoft сделало еще одну весомую заявку на лидерство в области анализа Больших Данных. Речь идет о публичном релизе Azure Machine Learning.

Это облачный сервис прогнозной аналитики, который позволяет быстро создавать и развертывать предсказательные модели. Система ценится своей простотой: для полноценной работы с машинным обучением в среде Azure Machine Learning не нужно быть математиком. Интегрированная среда разработки — ML Studio — предоставляет «drag-and-drop» инструменты и простые диаграммы потоков данных, что не только уменьшает объем кода, но и, благодаря встроенной библиотеке простых экспериментов (так называются проекты в ML Studio), сохраняет пользователям много времени.

Инструмент предлагает готовый к использованию набор из библиотек алгоритмов. Их можно использовать для создания предиктивных моделей на подключенных к Интернету компьютерах. Множество примеров и решений находится в Cortana Intelligence Gallery.

machine-learning-service-parts-and-workflow

Azure Machine Learning не только предоставляет возможность для создания моделей прогнозного анализа, но и обеспечивает полностью управляемый сервис, который можно использовать для развертывания предиктивных моделей в виде готовых к использованию веб-сервисов.

При всей своей функциональности, нельзя сказать, что Azure Machine Learning поглощает финансовые ресурсы в гигантских масштабах. Поскольку сервис работает на публичном облаке Azure, необходимость приобретения «железа» или ПО отпадает сама собой.

Пожалуй, именно Azure Machine Learning на сегодняшний день является наилучшим инструментом для работы с машинным обучением.

23Pentaho Data Integration

Система Pentaho Data Integration (PDI) — это компонент комплекса Pentaho, отвечающий за процесс извлечения, преобразования и выгрузки данных (ETL). Несмотря на то, что использовать ETL-системы предполагается в рамках комплекса хранения данных, средства PDI могут быть применены с целью:

  • обмена данными между приложениями или базами данных;
  • экспорта данных из таблиц баз данных в файлы;
  • загрузки массивов данных в базы данных;
  • обработки данных;
  • интеграции в приложения.

Pentaho исключает необходимость писать код, ведь весь процесс разработки ведется в визуальной форме, что дает основание говорить о PDI, как об ориентированной на работу с метаданными системе. С помощью рабочей панели и интерактивных графических инструментов, пользователи могут анализировать данные по нескольким измерениям.

Pentaho DI arch

Pentaho Data Integration упрощает интеграцию больших объемов данных с помощью «drag-and-drop» инструмента, который перемещает данные из хранилищ в хранилища Big Data. Система также способна дополнять и объединять структурированные источники данных с частично структурированными и неструктурированными источниками, чтобы в итоге сформировать единую картину.

Инструмент может быть полностью персонализирован: настройка визуализации, интерактивных отчетов, рабочей панели и специальный анализ — все это доступно пользователю. А поскольку PDI на 100% является Java-платформой, построенной на промышленных стандартах вроде веб-сервиса RESTful, интеграция с любым приложением не вызывает проблем.

24Teradata Aster Analytics

Teradata Aster Analytics — это инструмент, который в рамках одного интерфейса и синтаксиса позволяет работать с текстом, графикой, машинным обучением, паттернами и статистикой. Бизнес-аналитики и специалисты по анализу данных могут провести комплексный анализ данных со всего предприятия путем выполнения одного запроса. У Teradata Aster Analytics есть более 100 интегрированных передовых аналитических запросов.

Данный инструмент позволяет объединить Graph, R и MapReduce в пределах одного фреймворка. Со всеми функциями, которые выполняются как команды SQL, и со всеми аналитическими движками, встроенными в инструмент, Aster Analytics обеспечивает высокую производительность при обработке больших массивов данных.

aster-analytic-functions

Аналитика Teradata Aster Analytics доступна в пределах экосистемы Hadoop и Amazon Web Services.

Aster Analytics на Hadoop:

  1. Расширяет сценарии использования озера данных. Aster Analytics делает «железнорожденного слона» доступным для большинства бизнес-аналитиков с навыками работы на SQL или R.
  2. Работает нативно. Пользователям не нужно перемещать данные из Hadoop на серверы для анализа данных.
  3. Быстро реализует аналитику. Пользователи могут создавать изолированную программную и рабочую среду на одном кластере Hadoop на одних и тех же данных.

Aster Analytics на AWS:

  1. Ускоряет окупаемость бизнеса. Компания может быстро подготовить аналитическую изолированную программную среду на облаке и, с целью ускорения процесса развития, использовать встроенные SQL-запросы.
  2. Повышает гибкость аналитики. Специалисту по анализу данных предоставляется мощный набор разноплановых инструментов: каждый аналитик может найти подходящее средство для работы с Большими Данными.
  3. Снижает финансовую нагрузку. Компании могут использовать встроенные передовые аналитические функции и наборы данных без необходимости использования нового оборудования.

25SAP BusinessObjects Predictive Analytics

Это инструмент, который направлен на то, чтобы оптимизировать ресурсы и повысить рентабельность в масштабах всей компании.

Интеграция экспертной аналитики с менеджером моделей на выходе дает более быстрые и точные результаты прогнозов, а также привносит прогностические идеи в бизнес-процессы и приложения — сферы, где пользователи взаимодействуют.

С SAP BusinessObjects Predictive Analytics можно:

  • автоматизировать приготовление данных, прогнозное моделирование, развертывание — и, как итог, легко переучить модель;
  • использовать расширенные возможности визуализации, чтобы быстрее сделать выводы;
  • интегрироваться с языком программирования R, чтобы открыть доступ к большому количеству пользовательских скриптов;
  • скооперироваться с SAP HANA.

SAP BusinessObjects Predictive Analytics расширяет границы возможностей Spark, чтобы предоставить клиентам более продвинутую интерактивную аналитику данных. Актуальная версия инструмента позволяет подключиться к SAP HANA Vora и выполнять прогнозное моделирование автоматически. Используя нативное моделирование Spark на одинаковых экземплярах Spark, SAP HANA Vora позволяет выполнять распределенную обработку автоматизированных алгоритмов.

SAP BusinessObjects Predictive Analytics

Отметим, что Forrester Research в апреле 2015 года наградил SAP статусом лидера в предсказательной аналитике на Больших Данных.

26Oracle Big Data Preparation

Построенный в среде Hadoop и Spark с целью масштабируемости, облачный сервис Oracle Big Data Preparation предлагает аналитикам высоко интуитивный и интерактивный способ подготовки структурированных, частично структурированных и неструктурированных данных для их последующей обработки.

Как и большинство вышеописанных инструментов, Oracle Big Data Preparation нацелен на бизнес-пользователей, поэтому сервис прост в использовании. Масштабируемость позволяет работать с итерационным машинным обучением в кластерной среде вычислений. Еще одним преимуществом Oracle Big Data Preparation является интеграция с рядом облачных сервисов.

oracle

Что касается функций данного инструмента, то их можно разбить на 4 части: потребление, расширение, управление и публикация, а также интуитивный авторинг.

В потреблении (ingest) сервис импортирует и работает с разнородной информацией, очищает данные (например, от незначимых символов), стандартизирует даты, номера телефонов и другие данные, а также вычисляет и удаляет ненужные дубликаты данных.

К расширению (enrich) следует отнести определение категорий данных и идентификацию их характеристик в терминах атрибутов, свойств и схем, обнаружение метаданных (обнаружение схемы определяет схему/метаданные, которые прямо или косвенно определены в заголовках, полях или тегах).

Управление и публикации (govern and publications) подразумевают под собой интерактивную панель управления, которая обеспечивает единый график всех обработанных наборов данных с соответствующими метриками и возможностями для дальнейшего детального аудита и анализа. В свою очередь, различные форматы публикаций обеспечивают максимальную гибкость.

В список задач функций интуитивного авторинга входит выдача рекомендаций, которые направляют пользователя на каждом шаге в процессе разработки. Также сюда можно отнести наличие видео и учебников для работы со средой.

Резюме

Нами был рассмотрен ряд средств для анализа данных от лучших производителей Big Data-решений. Как вы могли заметить, большинство решений являются опенсорсными, то есть имеют открытый исходный код. Фреймворков, баз данных, аналитических платформ и прочих инструментов действительно много, поэтому от вас требуется четкое понимание задачи. Определившись с поставленной целью, вы без проблем подберете нужное средство (или набор средств), которое позволит провести полноценный анализ данных.

ОСТАВЬТЕ ОТВЕТ