Big Data — хранение, обработка и анализ огромных массивов информации

Big Data — это данные огромных объёмов, обработка и анализ которых требует подходов, инструментов и методов, которые существенно отличаются от классических.

Big Data или большие данные — это серия подходов, инструментов и методов обработки структурированных, слабо структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop.

В качестве определяющих характеристик для больших данных отмечают «три V» — volume (объём), velocity (скорость), variety (многообразие).

  • объём — в смысле величины физического объёма,
  • скорость — в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов,
  • многообразие — в смысле возможности одновременной обработки различных типов структурированных и неструктурированных данных.

В реальности, только очень крупные компании обладают большими данными в истинном понимании этого термина, так как даже несколько террабайт накопленной статистики таковыми просто не являются. Террабайтная реляционная база данных — это highload-DB, а не Big Data. Разница между этими понятиями в возможности строить гибкие запросы. Обычные реляционные базы данных подходят для достаточно быстрых и однотипных запросов, а на сложных и гибко построенных запросах нагрузка просто превышает все разумные пределы и использование СУБД становится неэффективным. При этом, методы анализа Big Data вполне применимы и к данным, которые изначально большими не являются, более того, аналитика, построенная на статистическом анализе и машинном обучении может быть полезна во многих проектах.

Некоторые методы и техники анализа, применимые к Big Data

  • Data Mining: обучение ассоциативным правилам, классификация (методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным), кластерный анализ, регрессионный анализ.
  • Краудсорсинг — категоризация и обогащение данных силами широкого, неопределённого круга лиц.
  • Смешение и интеграция данных — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа.
  • Машинное обучение, включая обучение с учителем и без учителя, а также использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей.
  • Искусственные нейронные сети, сетевой анализ, оптимизация, в том числе генетические алгоритмы.
  • Пространственный анализ — использование топологической, геометрической и географической информации в данных.
  • Статистический анализ: A/B-тестирование и анализ временных рядов.
  • Визуализация аналитических данных — представление информации в виде рисунков, графиков, схем и диаграмм с использованием интерактивных возможностей и анимации как для результатов, так и для использования в качестве исходных данных для дальнейшего анализа.

Работа с Big Data — отличный источник полезной информации для бизнеса, анализ данных позволяет выявить закономерности, сделать выводы и использовать их для повышения эффективности работы.

Cтатьи по теме:

Язык программирования Python
Python — это высокоуровневый язык программирования общего назначения, который используется в том числе и для разработки веб-приложений. Язык ориентирован на повышение производительности разработчика и читаемости кода.
Алгоритмы поисковых систем: Матрикснет Яндекса
Яндекс с 2009 года использует при ранжировании сайтов систему машинного обучения, которая называется Матрикснет. Это позволяет поисковой системе учитывать очень много факторов при ранжировании сайтов.

Тематические технологии:

Язык программирования Python
TensorFlow