Big Data — хранение, обработка и анализ огромных массивов информации

Big Data — это данные огромных объёмов, обработка и анализ которых требует подходов, инструментов и методов, которые существенно отличаются от классических.

Big Data или большие данные — это серия подходов, инструментов и методов обработки структурированных, слабо структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence. В данную серию включают средства массово‑параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop.

В качестве определяющих характеристик для больших данных отмечают «три V» — volume (объём), velocity (скорость), variety (многообразие).

  • объём — в смысле величины физического объёма,
  • скорость — в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов,
  • многообразие — в смысле возможности одновременной обработки различных типов структурированных и неструктурированных данных.

В реальности, только очень крупные компании обладают большими данными в истинном понимании этого термина, так как даже несколько террабайт накопленной статистики таковыми просто не являются. Террабайтная реляционная база данных — это highload-DB, а не Big Data. Разница между этими понятиями в возможности строить гибкие запросы. Обычные реляционные базы данных подходят для достаточно быстрых и однотипных запросов, а на сложных и гибко построенных запросах нагрузка просто превышает все разумные пределы и использование СУБД становится неэффективным. При этом, методы анализа Big Data вполне применимы и к данным, которые изначально большими не являются, более того, аналитика, построенная на статистическом анализе и машинном обучении может быть полезна во многих проектах.

Некоторые методы и техники анализа, применимые к Big Data

  • Data Mining: обучение ассоциативным правилам, классификация (методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным), кластерный анализ, регрессионный анализ.
  • Краудсорсинг — категоризация и обогащение данных силами широкого, неопределённого круга лиц.
  • Смешение и интеграция данных — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа.
  • Машинное обучение, включая обучение с учителем и без учителя, а также использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей.
  • Искусственные нейронные сети, сетевой анализ, оптимизация, в том числе генетические алгоритмы.
  • Пространственный анализ — использование топологической, геометрической и географической информации в данных.
  • Статистический анализ: A/B-тестирование и анализ временных рядов.
  • Визуализация аналитических данных — представление информации в виде рисунков, графиков, схем и диаграмм с использованием интерактивных возможностей и анимации как для результатов, так и для использования в качестве исходных данных для дальнейшего анализа.
большие данныемашинное обучение
Статья опубликована в 2014 году

Тематические статьи

Применение искусственного интеллекта и машинного обучения в бизнесе

Искусственный интеллект (Artificial Intelligence, AI) и машинное обучение (Machine Learning, ML) за последние годы привнесли много нового в бизнес, в электронную коммерцию и в веб‑разработку. Бизнес использует эти технологии для улучшения качества обслуживания клиентов, оптимизации бизнес‑процессов и получения конкурентного преимущества на рынке.

машинное обучение
бэкенд
веб-разработка
цифровизация
Статья опубликована в 2023 году

Персонализация в электронной коммерции: тренд или необходимость?

Персонализация — это принцип работы приложения, динамически подстраивающий интерфейс и контент под индивидуальные предпочтения пользователя. Ставка на индивидуальность один из главных трендов 2023 года. Стало важно, чтобы приложения не просто запоминали наши предпочтения, а предугадывали желания и выдавали именно тот контент, который точно понравится.

машинное обучение
бэкенд
веб-разработка
Статья опубликована в 2023 году

Язык программирования Python

Python — это высокоуровневый язык программирования общего назначения, который используется в том числе и для разработки веб‑приложений. Язык ориентирован на повышение производительности разработчика и читаемости кода.

веб-разработка
языки программирования
машинное обучение
большие данные
Python
Статья опубликована в 2014 году

Алгоритмы поисковых систем: Матрикснет Яндекса

Яндекс с 2009 года использует при ранжировании сайтов систему машинного обучения, которая называется Матрикснет. Это позволяет поисковой системе учитывать очень много факторов при ранжировании сайтов.

SEO
машинное обучение
интернет-маркетинг
Статья опубликована в 2014 году