Big Data: «Срібна куля» чи ще один інструмент



Термін «Великі дані» з'явився не так давно — вперше його использовали в журналі Nature в 2008 році. У тому числі (від 3 вересня) великими даними читачам було запропоновано називати набір спеціальних методів і інструментів для обробки величезних обсягів інформації і представлення її у вигляді, зрозумілому користувачеві.

Дуже скоро дослідники новоявленої області прийшли до висновку, що великі дані не просто годяться для аналізу, а можуть виявитися корисними в цілому ряді областей: від прогнозування спалахів грипу за результатами аналізу запитів в Google до визначення вигідною вартості квитків на літак на основі величезного масиву авіаційних даних.

Апологети цього напряму стверджують навіть, що тандем потужних сучасних технологій і «потужних» обсягів інформації, доступних в цифрову епоху, обіцяє стати грізним інструментом для рішення практично будь-якої проблеми: розслідування злочинів, охорони здоров'я, освіти, автомобільній промисловості і так далі. «Потрібно лише зібрати і проаналізувати дані».

Хто працює з великими даними

На хвилі популярності великих даних збільшується і число компаній, так чи інакше використовують їх у роботі (або всерйоз замислюються про це). Видання CNews провело опитування організацій на тему того, чи використовують вони (або планують використовувати) великі дані в роботі: 40 компаній з 108 опитаних відповіли позитивно. І в цьому, безперечно, є сенс: при грамотному використанні великих даних бізнес бачить реальну віддачу: керівники відзначають зростання виручки, підвищення точності позиціонування продуктів, збільшення ефективності маркетингових кампаній.

Ось кілька прикладів таких success-stories. Перший: відома онлайн-майданчик для розміщення, пошуку і короткострокової оренди приватного житла по всьому світу – AirBnB. На веб-сайті компанії ви не просто знайдете інформацію про власника житлоплощі, яку ви хочете зняти, але і перевірите, чи не є він одним когось з ваших знайомих на Facebook.

Дані користувачів аналізує і компанія Netflix. Співробітниками сервісу був розроблений алгоритм, що дозволяє формувати якісні рекомендації фільмів. Більше того, компанія використовувала накопичену інформацію для створення власного унікального контенту, який склав гідну конкуренцію кращим продуктів кабельного ТБ.

Мова йде про політичній драмі «Картковий будиночок». Спеціаліст по роботі з даними Себастьян Верніке (Sebastian Wernicke) говорит: щоб досягти успіху, потрібно розібрати дані на складові і проаналізувати їх, а вже потім, використовуючи голову, вирішувати, що робити далі.

Фахівці Netflix изучили вже наявні в компанії дані (рейтинги на платформі Netflix, історію переглядів і так далі), а потім використовували їх, щоб виявити ті маленькі аспекти серіалів, які подобаються глядачам. Результат – серіал, який заробив оцінку 9,0 в рейтингу IMDB (на момент написання статті).

Створенням «Карткового будиночка» робота Netflix з великими даними не обмежується. Наприклад, компанія використовує аналіз даних для складання каталогу жанрів і класифікації фільмів і серіалів «на свій манер»: замість звичних нам трилерів і романтичних комедій серед більш ніж 90 тисяч (!!!) жанрів Netflix можна знайти «культові ужастики зі злими дітьми», «похмурий науково-фантастичний саспенс» і навіть «індійські романтичні кримінальні драми».

При цьому алгоритм, аналізує кіно з усього світу, здатний не тільки визначати жанр фільму, але і потенційно може передбачати появу нових напрямів у кінематографі (про це ми докладно розповідали тут).

Хоча більшість компаній не володіє подібними потужностями, це зовсім не означає, що використовувати дані можуть лише обрані бізнеси. Як пише у своїй книзі «The Rise of Analytics 3.0: How to Compete in the Data Economy» Тому Девенпорт (Tom Davenport): «найважливіша риса ери Аналітики 3.0 полягає в тому, що не тільки онлайн-компанії, але буквально будь-які фірми в будь-якій сфері діяльності можуть бути залучені в економіку даних».

Компанія UPS, наприклад, використовує дані цифрових карт і системи телеметрії, щоб спланувати оптимальний маршрут для кожного зі своїх водіїв, а їх понад 55 тисяч. Progressive Insurance враховує інформацію про кредитному рейтингу своїх клієнтів і порівнює її зі своїми даними для передбачення ймовірності настання страхових випадків.

Все це, з одного боку, досить стандартні сценарії застосування data mining (на відміну від тієї ж рекомендаційної системи Netflix), але поступово вони з розряду «топової аналітики для пошуку інсайтів» перетворюються в цілком тривіальні бізнес-завдання.

Як йдуть справи у нас

Російський ринок великих даних поки відносно малий: в 2014 році його розмір оцінили всього в $340 млн. у порівнянні з загальносвітовими $33,3 млрд. Однак він росте дуже швидко: якщо «в середньому по лікарні» (по світу) ринок Big data щорічно додає по 17%, то у нас зростання становить 40% в рік.

Основні зацікавлені в аналізі великих даних компанії в Росії — телеком-оператори, банки, великі рітейлери: це не дивно, так як дані вони збирають дійсно багато і завдання (в першу чергу кластерного аналізу споживачів) перед ними стоять гостро. Однак є й інші приклади.

З найбільш показових — міжнародне підрозділ Yandex Data Factory і Mail.ru Group. І якщо в Mail.ru аналіз великих масивів даних служить в першу чергу цілі розвитку власних сервісів, то Яндекс працює і як b2b-датамайнер (в активі компанії проекти з аналізу даних для компаній від Statoil до Wargaming).

Великим даними – велике плавання?

Дійсно, великі дані можуть застосовуватися в самих різних областях, проте важливо розуміти плюси і мінуси даного інструменту, а також уявляти собі, що з його допомогою можна робити, а що робити не можна.

При роботі з великими даними мова не завжди йде про величезні обсяги даних (точніше, не тільки про них), але чомусь саме це спадає на думку більшості при згадці Big Data. Набагато більш значущою є можливість оцінити дані – поглянути на взаємозв'язки між ними, а потім зв'язати їх в єдину цілісну картину.

Але довіряти корреляциям в отриманих даних можна не завжди, наприклад, відомо, що кількість вбивств в США знижувалося разом з падінням частки Internet Explorer на ринку браузерів – але це ж абсурд і не має ніякої практичної застосовності (крім жартів).



Крім цього, багато інструменти, засновані на великих даних, можна обдурити. Наприклад, програми для оцінки творів використовують метрики начебто довжини пропозицій та складності вживаних слів, а також виявляють відповідності до вже написаних роботах, отримали високі оцінки.

В результаті алгоритм намагається звести якість творчої роботи до відносно вузького набору кількісних характеристик. Зрозуміло, певний сенс у цій задачі є, але процес написання твору при такому підході до оцінки легко зведеться до механічного добору «потрібних слів».

Від помилок не застраховані навіть такі гіганти ІТ-галузі і апологети Big data, як Google. Компанії так і не вдалося перемогти явище «пошукових бомб», а проект Google Flu Trends, який за запевненням розробників здатна передбачати спалахи хвороб, помилявся набагато частіше, ніж Центр по контролю і профілактиці захворювань США.

Не обійшлося без складностей і Netflix. Система визначення жанрів, мова про яку йшла вище, працює в точності так, як задумували розробники — за винятком так званої Загадки Перрі Мейсона, яку не можуть толком пояснити ні сторонні аналітики, ні самі співробітники Netflix.

данным компанії CA Technologies, 92% компаній, що працюють з великими даними компаній, відчувають складнощі з розвитком проектів Big Data. Найбільш серйозними перешкодами названі недостатня розвиненість існуючої інфраструктури і організаційні складності по впровадженню нових підходів для збору даних.

Проблема може полягати і в горезвісному «людському факторі» — далеко не кожен аналітик може ефективно працювати в цьому напрямку. Рікардо Володимиро (Ricardo Vladimiro), співробітник Miniclip, считаетаби по-справжньому зануритися у вивчення даних, чоловік повинен добре розбиратися в статистиці та теорії ймовірностей, а також вміти проводити експерименти і перевіряти свої гіпотези, візуалізувати дані.

Але і цього недостатньо: наука про даних – це змішання статистики, математики, програмування і, що важливо, предметних знань, будь то торгівля, банківська справа, або будь-яка інша індустрія. Занадто багато організацій наймають геніальних математиків і програмістів, не володіють цим останнім компонентом.

Займатися великими даними без глибокого розуміння ринку конкретного бізнесу і особливостей конкретної компанії, просто неможливо. Зокрема, саме з цієї причини Gartner рекомендує не набирати співробітників по роботі з даними з боку, а тренувати таких фахівців усередині організації (не кажучи вже про те, що всі вищевикладені навички — від статистики до предметних знань — трансформуються в окрему професію — аналітик по роботі з даними).

Ще одна проблема, яка виникає в першу чергу у «аналітиків-одинаків» — дослідників, що працюють «на себе» (наприклад, в рамках наукової діяльності в університеті), і невеликих компаній, які зважилися на використання великих даних — нестача коштів на відповідну інфраструктуру, необхідну для їх обробки.

При цьому питання «де знайти дані» в даному випадку стоїть не так гостро: бізнеси збирають масу даних про клієнтів (як ми пам'ятаємо, приголомшливий об'єм — не єдина і обов'язкова характеристика Big data), а дослідники можуть використовувати набори, які вільно розповсюджують великі ІТ-компанії.

Показовим прикладом може служити Yahoo: компанія выпустила в широкий доступ значний набір даних для дослідницьких цілей. Як справедливо отметили користувачі ресурсу Quora у відповідному обговоренні, для аналізу цього набору у дослідника без команди і ресурсів може не виявитися потужностей.

Рішенням в даному випадку можуть стати хмарні сервіси: наприклад, ми в 1cloud даємо можливість використовувати інфраструктуру дата-центрів як компаніям, так і приватним особам. З одного боку, це простіше і дешевше, ніж працювати на власних потужностях, з іншого — такий формат роботи дозволяє не «ставити на великі дані» і скоротити ризики в разі, якщо їх використання виявиться невиправданим.

Популярність Big Data призвела до того, що цю технологію почали сприймати як універсальну «срібну кулю», що володіє магічними здібностями для вирішення будь-яких завдань. Але насправді, це всього лише ще один інструмент, що володіє своїми плюсами і мінусами.

Для того, щоб великі дані принесли реальну користь, потрібно не тільки вкладати гроші в проекти з впровадження, але і використовувати нові технології (наприклад хмарні обчислення), працювати над налагодженням бізнес-процесів і змінювати підходи до управління.

P. S. Додаткові матеріали про розробку провайдера віртуальної інфраструктури 1cloud:



Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.