Тематические статьи →

Big Data — хранение, обработка и анализ огромных массивов информации

​Big Data — это дан­ные огром­ных объ­ё­мов, обра­ботка и ана­лиз кото­рых тре­бует под­хо­дов, инстру­мен­тов и мето­дов, кото­рые суще­ственно отли­ча­ются от классических.

Big Data или боль­шие дан­ные — это серия под­хо­дов, инстру­мен­тов и мето­дов обра­ботки струк­ту­ри­ро­ван­ных, слабо струк­ту­ри­ро­ван­ных и неструк­ту­ри­ро­ван­ных дан­ных огром­ных объ­ё­мов и зна­чи­тель­ного мно­го­об­ра­зия для полу­че­ния вос­при­ни­ма­е­мых чело­ве­ком резуль­та­тов, эффек­тив­ных в усло­виях непре­рыв­ного при­ро­ста, рас­пре­де­ле­ния по мно­го­чис­лен­ным узлам вычис­ли­тель­ной сети, аль­тер­на­тив­ных тра­ди­ци­он­ным систе­мам управ­ле­ния базами дан­ных и реше­ниям класса Business Intelligence. В дан­ную серию вклю­чают сред­ства мас­сово-парал­лель­ной обра­ботки неопре­делённо струк­ту­ри­ро­ван­ных дан­ных, преж­де все­го, реше­ниями кате­го­рии NoSQL, алго­рит­мами MapReduce, про­грамм­ными кар­ка­сами и биб­лио­те­ками про­екта Hadoop.

В каче­стве опре­де­ля­ю­щих харак­те­ри­стик для боль­ших дан­ных отме­чают «три V» — volume (объём), velocity (ско­рость), variety (мно­го­об­ра­зие).

  • объём — в смысле вели­чины физи­че­ского объёма,
  • ско­рость — в смыс­лах как ско­ро­сти при­ро­ста, так и необ­хо­ди­мо­сти высо­ко­ско­рост­ной обра­ботки и полу­че­ния резуль­та­тов,
  • мно­го­об­ра­зие — в смысле воз­мож­но­сти одно­вре­мен­ной обра­ботки раз­лич­ных типов струк­ту­ри­ро­ван­ных и неструк­ту­ри­ро­ван­ных дан­ных.

В реаль­но­сти, только очень круп­ные ком­па­нии обла­дают боль­шими дан­ными в истин­ном пони­ма­нии этого термина, так как даже несколько тер­ра­байт накоп­лен­ной ста­ти­стики тако­выми про­сто не явля­ют­ся. Тер­ра­байт­ная реля­ци­он­ная база дан­ных — это highload-DB, а не Big Data. Раз­ница между этими поня­ти­ями в воз­мож­но­сти стро­ить гиб­кие запро­сы. Обыч­ные реля­ци­он­ные базы дан­ных под­хо­дят для доста­точно быст­рых и одно­тип­ных запро­сов, а на слож­ных и гибко постро­ен­ных запро­сах нагрузка про­сто пре­вы­шает все разум­ные пре­делы и исполь­зо­ва­ние СУБД ста­но­вится неэф­фек­тив­ным. При этом, методы ана­лиза Big Data вполне при­ме­нимы и к дан­ным, кото­рые изна­чально боль­шими не явля­ют­ся, более того, ана­ли­ти­ка, постро­ен­ная на ста­ти­сти­че­ском ана­лизе и машин­ном обу­че­нии может быть полезна во мно­гих про­ектах.

Некото­рые методы и тех­ники ана­лиза, при­ме­нимые к Big Data

  • Data Mining: обу­че­ние ассо­ци­а­тив­ным пра­ви­лам, клас­си­фи­ка­ция (методы кате­го­ри­за­ции новых дан­ных на основе прин­ци­пов, ранее при­менён­ных к уже нали­че­ству­ю­щим дан­ным), кла­стер­ный ана­лиз, регрес­си­он­ный ана­лиз;
  • Кра­уд­сор­синг — кате­го­ри­за­ция и обо­га­ще­ние дан­ных силами широ­ко­го, неопре­делённого круга лиц;
  • Сме­ше­ние и инте­гра­ция дан­ных — набор тех­ник, поз­во­ля­ю­щих инте­гри­ро­вать раз­но­род­ные дан­ные из раз­но­об­раз­ных источ­ни­ков для воз­мож­но­сти глу­бин­ного ана­лиза;
  • Машин­ное обу­че­ние, вклю­чая обу­че­ние с учи­те­лем и без учи­те­ля, а также исполь­зо­ва­ние моде­лей, постро­ен­ных на базе ста­ти­сти­че­ского ана­лиза или машин­ного обу­че­ния для полу­че­ния ком­плекс­ных про­гно­зов на основе базо­вых моде­лей;
  • искус­ствен­ные ней­рон­ные сети, сете­вой ана­лиз, опти­ми­за­ция, в том числе гене­ти­че­ские алгоритмы;
  • про­стран­ствен­ный ана­лиз — исполь­зо­ва­ние топо­ло­ги­че­ской, гео­мет­ри­че­ской и гео­гра­фи­че­ской инфор­ма­ции в дан­ных;
  • ста­ти­сти­че­ский ана­лиз: A/B-тести­ро­ва­ние и ана­лиз вре­мен­ных рядов;
  • визу­а­ли­за­ция ана­ли­ти­че­ских дан­ных — пред­став­ле­ние инфор­ма­ции в виде рисун­ков, гра­фи­ков, схем и диа­грамм с исполь­зо­ва­нием интер­ак­тив­ных воз­мож­но­стей и ани­ма­ции как для резуль­та­тов, так и для исполь­зо­ва­ния в каче­стве исход­ных дан­ных для даль­ней­шего ана­лиза.

Поделитесь с друзьями:


Информация о публикации:

Материал опубликован в 2014 году. Эта статья о веб-разработке, о веб-технологиях и про бэкенд-разработку. При пере­пуб­ли­ка­ции обя­за­тельно ука­за­ние пер­во­ис­точ­ника в виде гипер­тек­сто­вой ссылки на сайт web-creator.ru

Воспользуйтесь нашими
знаниями и опытом

Отправьте нам сообщение при помощи формы. Или напишите на e-mail s@web-creator.ru

Мы максимально оперативно ответим Вам по электронной почте или перезвоним.

При отправке сообщения через форму, укажите пожалуйста предпочтительный способ связи с Вами: телефон или адрес электронной почты. Мы сможем ответить Вам подробнее, если Вы напишете что-то о запланированном проекте или предполагаемых задачах.

Либо просто позвоните нам по номеру: +7 495 215-1501

Мы работаем по будним дням с 10 до 19 часов.

Комплексные услуги

Реализация «под ключ» проектов по созданию различных видов сайтов, разработка веб-приложений для автоматизации бизнес-процессов, ведение контекстных и медийных рекламных кампаний, поисковое продвижение, комплексная поддержка веб-проектов, консалтинговые услуги.