ibm-big-data

Большие данные мало генерировать и восхищаться их объёмом и разнообразием. Информация должна приносить пользу, а для этого её следует правильно хранить, обрабатывать, анализировать и синтезировать новое знание — делать конструктивные выводы

Популярный термин «Большие данные» имеет скорее маркетинговую природу, чем собственное глубокое содержание, отличное от «данных» вообще. Производством и обработкой информации человечество занимается с тех пор, как научилось читать и считать, а большие данные или малые — вопрос субъективной оценки.

Рынок хранения и обработки информации давно удерживают такие крупные поставщики программного обеспечения, как Oracle, IBM, Teradata и Microsoft, базирующие свои наработки на системах управления реляционными базами данных. Объёмы информации, хранимые в таких базах данных колоссальны и, без натяжек, могут быть тоже названы «большими». Но они, как правило, изначально имеют продуманную внутреннюю структуру и связаны определёнными отношениями между составляющими элементами.

C 2008 года, когда Клиффорд Линч впервые сформулировал термин «Big Data», индустрия обработки информации осознала взрывной рост данных, которые было трудно уложить в старые добрые реляционные хранилища ввиду их неструктурированной природы, а быстро привести в порядок невозможно из-за разнообразия и высокой скорости прироста объёмов. Речь шла о данных от многочисленных измерительных устройств и носимой электроники, потоках сообщений в социальных сетях, метеорологической информации и журналах событий. Ещё одной причиной, почему имеющиеся решения не годились, являлась сверхвысокая стоимость хранения действительно больших объёмов информации в реляционных базах данных от крупных производителей. Проблематика «больших данных» изначально проявилась в научно-исследовательской среде, представители которой не могли позволить себе приобрести «ещё пару стоек Exadata».

Необходимость сравнительно недорогого хранения и обработки гигантских объёмов неструктурированной информации привела к созданию специализированного программного обеспечения, которое позволяло распределять данные по кластерам из сотен и тысяч узлов, а также обрабатывать их в параллельном режиме. Так родился Hadoop — открытый фреймворк под крылом Apache Sotware Foundation, который позволял создавать распределённые системы на базе относительно недорого оборудования массового спроса.

Постепенно Hadoop оброс набором библиотек и утилит и сформировал вокруг себя экосистему проектов по распределенной обработке данных. Ядро фреймворка состоит из распределенной файловой системы Hadoop Distributed File System (HDFS), планировщика заданий и управления кластерами YARN, собственной реализации алгоритмов MapReduce для параллельной обработки данных и связующего набора общих утилит Hadoop Common.

Открытый Hadoop оказался настолько хорош, что стал фундаментом нескольких коммерческих реализаций на его основе — Cloudera, MapR и Hortonworks, каждая из которых предлагает свой дистрибутив. В 2011 году Hadoop заметили мастодонты — Oracle, IBM, Teradata — и включили в свои продуктовые линейки, не забыв выделить под Big Data целые разделы на собственных сайтах с обязательным упоминанием милого слоника.

Поскольку программное обеспечение для работы с большими данными — не чёрный ящик, в который можно просто запихнуть огромную кучу данных и они сами собой превратятся во что-то осмысленное, для привычной работы с информацией посредством SQL на базе Hadoop разворачиваются СУБД Hive или Impala. При потребности в возможностях NoSQL решений — HBase.

Одним Hadoop пул программного обеспечения обработки больших данных не исчерпывается. Хранить информацию можно в облаке Amazon S3 или в NoSQL базе данных Cassandra, управлять ресурсами кластеров с помощью Apache Mesos, извлекать и обрабатывать данные посредством Apache Spark, который способен работать и вне Hadoop. Spark в последнее время набирает популярность, так как обещает ускорение выполнения распределенных программ обработки данных по сравнению с Hadoop MapReduce до 100 раз. Может работать как поверх HDFS под управлением Hadoop YARN, так и вне фреймворка Hadoop на базе Cassandra, Amazon S3 и Google Cloud Storage (через Alluxio).

Данные, извлечённые из распределенных систем, обрабатываются в аналитических инструментах SAS (Enterprise Miner), IBM (SPSS), Teradata (Aster Analytics) или Oracle (Advanced Analytics) либо посредством массы других коммерческих или open-source решений. Иллюстрация с сайта Teradata удачно демонстрирует, что Big Data software tools, такие как Hadoop и Spark встраиваются в готовую инфраструктуру обработки информации наряду с классическими системами на основе реляционных баз данных.

Программное обеспечение для работы с большими данными не заменяет собой все остальные инструменты обработки, бизнес-аналитики, визуализации и прогнозирования, оно лишь подставляет своё могучее плечо под трубу с несущимся потоком все прибывающих терабайтов данных и направляет его в нужное русло.

ОСТАВЬТЕ ОТВЕТ