Big Data — хранение, обработка и анализ огромных массивов информации
Big Data — это данные огромных объёмов, обработка и анализ которых требует подходов, инструментов и методов, которые существенно отличаются от классических.
Big Data или большие данные — это серия подходов, инструментов и методов обработки структурированных, слабо структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence. В данную серию включают средства массово‑параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop.
В качестве определяющих характеристик для больших данных отмечают «три V» — volume (объём), velocity (скорость), variety (многообразие).
- объём — в смысле величины физического объёма,
- скорость — в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов,
- многообразие — в смысле возможности одновременной обработки различных типов структурированных и неструктурированных данных.
В реальности, только очень крупные компании обладают большими данными в истинном понимании этого термина, так как даже несколько террабайт накопленной статистики таковыми просто не являются. Террабайтная реляционная база данных — это highload-DB, а не Big Data. Разница между этими понятиями в возможности строить гибкие запросы. Обычные реляционные базы данных подходят для достаточно быстрых и однотипных запросов, а на сложных и гибко построенных запросах нагрузка просто превышает все разумные пределы и использование СУБД становится неэффективным. При этом, методы анализа Big Data вполне применимы и к данным, которые изначально большими не являются, более того, аналитика, построенная на статистическом анализе и машинном обучении может быть полезна во многих проектах.
Некоторые методы и техники анализа, применимые к Big Data
- Data Mining: обучение ассоциативным правилам, классификация (методы категоризации новых данных на основе принципов, ранее применённых к уже наличествующим данным), кластерный анализ, регрессионный анализ.
- Краудсорсинг — категоризация и обогащение данных силами широкого, неопределённого круга лиц.
- Смешение и интеграция данных — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников для возможности глубинного анализа.
- Машинное обучение, включая обучение с учителем и без учителя, а также использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей.
- Искусственные нейронные сети, сетевой анализ, оптимизация, в том числе генетические алгоритмы.
- Пространственный анализ — использование топологической, геометрической и географической информации в данных.
- Статистический анализ: A/B-тестирование и анализ временных рядов.
- Визуализация аналитических данных — представление информации в виде рисунков, графиков, схем и диаграмм с использованием интерактивных возможностей и анимации как для результатов, так и для использования в качестве исходных данных для дальнейшего анализа.
Тематические статьи
Применение искусственного интеллекта и машинного обучения в бизнесе
Искусственный интеллект (Artificial Intelligence, AI) и машинное обучение (Machine Learning, ML) за последние годы привнесли много нового в бизнес, в электронную коммерцию и в веб‑разработку. Бизнес использует эти технологии для улучшения качества обслуживания клиентов, оптимизации бизнес‑процессов и получения конкурентного преимущества на рынке.
Персонализация в электронной коммерции: тренд или необходимость?
Персонализация — это принцип работы приложения, динамически подстраивающий интерфейс и контент под индивидуальные предпочтения пользователя. Ставка на индивидуальность один из главных трендов 2023 года. Стало важно, чтобы приложения не просто запоминали наши предпочтения, а предугадывали желания и выдавали именно тот контент, который точно понравится.
Язык программирования Python
Python — это высокоуровневый язык программирования общего назначения, который используется в том числе и для разработки веб‑приложений. Язык ориентирован на повышение производительности разработчика и читаемости кода.
Алгоритмы поисковых систем: Матрикснет Яндекса
Яндекс с 2009 года использует при ранжировании сайтов систему машинного обучения, которая называется Матрикснет. Это позволяет поисковой системе учитывать очень много факторов при ранжировании сайтов.