Різниця між статистикою і наукою про даних

Здравствуйте, шановні читачі.

Ми знову спробуємо порадитися з вами з приводу актуальності орейлевской новинки. Цього разу мова піде про статистику для Data Science.

Обсяг оригіналу — 250 сторінок, дата виходу — 25 лютого.



У книзі розглянуті лаконічні кейси з невеликою кількістю графіків і прикладів мовою R.

Щоб роздумувати і голосувати було цікавіше — під катом знайдете статтю, автор якої намагався вловити й описати різницю між статистикою і Data Science

Складно сказати, що зараз користується великим попитом – спеціальність «data scientist» або статті про data science. Так завжди буває, коли якийсь термін починає звучати з кожної праски. Всі навперебій роблять контент, і саме про це – найпопулярніші пошукові запити наших днів: «responsive», «the Cloud», «Omni-channel».

Зрозуміло, величезний і попит на фахівців з дослідження даних. Торік портал Glassdoor позначив цю професію як топ-спеціальність 2016 – навівши як приклад 1 700 відкритих вакансій із середньою річною зарплатою $116k.

Але після того, як я простудіював пост Data Science, а потім відповідь з Quora на питання з бізнес-школи (до речі, там були й глибокі думки) – намагаючись зрозуміти цю модну тенденцію, питань у мене тільки додалося. Все трохи по-різному визначали, ніж Data Science є, і чим – ні. Через пару годин я вже не був упевнений, що феномен Data Science взагалі існує.

Тому побоювався, що моя власна стаття за Data Science просто поповнить цю купу. А навіщо читати вкидання чергового маркетолога, на всі лади расхваливающего тему, в якій сам не дуже розбирається. Що таке наука про даних? Чим вона відрізняється від статистики? Чому користується таким попитом?

Як незабаром з'ясувалося, відповідь пов'язаний не тільки з умінням програмувати, але і з глибоким розумінням створюваного продукту.

Скептичний статистик

Схоже, Нейт Сілвер (Nate Silver) не бачить різниці між наукою про даних і статистикою. Він – знаменитий обчислювач, ключовий фахівець з медійного сайту FiveThirtyEight – той самий чоловік, який вірно спрогнозував підсумки голосування на президентських виборах 2008 року в 49 з 50 штатів США. У 2012 році у нього вийшло вже 50 з 50. І він сприймає термін «data science» більш скептично.

«Думаю, data-scientist – розпіарений синонім для „спеціаліст по статистиці“» – заявив Сільвер у 2013 році на лекції у Joint Statistical Meeting.

“Статистика – це наукова дисципліна. Термін «наука про даних» трохи надмірний, тому краще користуватися терміном «статистик»."

Статистикам весь тренд, пов'язаний з наукою про даних, здається трохи зарозумілим. Не важливо, яка саме точна дефініція «науки про даних» — так чи інакше, ця сфера діяльності дуже перетинається з тією роботою, якою статистики займаються вже не одне десятиліття.

І, хоча знайдеться мільйон контраргументів, таку думку складно спростувати, не прийшовши спершу до спільної думки: що ж таке «data science». Занадто багато визначення data science складаються з колишніх гучних слів. Наприклад, «майнінг даних для бізнес-аналітики». Неоднозначні слівця, одне за іншим. Черепахи до самого низу.

Навіть якщо наука про даних – щось особливе, я так і не міг зрозуміти, навіщо всім цим компаніями легіони таких фахівців. Чому робота така крута? Може бути, компанії просто наслідують Google, Facebook і Netflix, вожделея їх прибутків та ринкової вартості?

Засмутившись, я черканул коротке повідомлення одному другові, CTO. Він блискавично відреагував: «навіть чути про них не хочу».

Кілька місяців безперервно він проводив співбесіду кандидатів на позицію data scientist, відкриту в їх компанії. Виявилося, що самозвані data scientist'и більше ніж туманно уявляли, чим їм доведеться займатися. У кожного кандидата був трохи інший набір навичок, і ще більш своєрідне розуміння кола своїх завдань.

«99% кандидатів — не data scientist'и,» сказав він. «Вони не вміють робити те, що нам потрібно.»
Мабуть, навіть ті, хто виступає на захист цієї професії, не цілком розуміють, де кінчається статистика і розпочинається наука про даних.

Людина, яка знає відповіді

У пошуках відповідей я написав Дрю Харрі (Drew Harry), директору data science Twitch. Позаминулої осені ми з ним обговорювали статтю про те, як укрупнился Twitch. Якщо хтось і міг вказати мені шлях, то саме Дрю.

«Так, я знаю одного колегу з цікавими думками на цей рахунок,» написав він.
А через кілька днів я вже прийшов на зустріч з Бредом Шлумичем (Brad Schumitsch), ми вирішили посидіти в кафе поблизу головного офісу Twitch в Сан-Франциско.

«Ну, розкажи мені, що думаєш про науки даних і статистики, запитує Бред. А потім спокійно сидить, сьорбає гарячий шоколад і уважно мене слухає – а я, вже після двох чашок кави, скачу від мови R до управління конвеєрами даних і далі до алгоритмів.

Бред – стипендіат Фулбрайта. З десяток років тому він написав важливу статтю, де детально виклав, як математичний метод під назвою «опукла оптимізація» підвищив якість відеокодування H. 264. У нього ступінь PhD з машинного навчання, отримана в Стенфорді, він провів рік в Google X, експериментальному науково-дослідному центрі, де Google розробляла такі амбітні проекти, як безпілотний автомобіль або окуляри Google Glass.

У Бреда є потрібні мені відповіді, але він, як добрий data scientist, починає ставити питання, щоб визначити вихідну позицію.

Після того, як я завершую мої викладки, Бред чемно відповідає: “Все це дуже слушні зауваження, але взагалі тема непроста. Взагалі – відмінна тема, як раз тому, що тут є що обговорити.»

Помовчавши, він починає: «По-перше, я дуже поважаю статистиків.»

Він підкреслено неквапливий і не соромиться робити паузи, щоб зібратися з думками.
“Статистика – найважливіша складова науки про даних. У нас в Twitch команда data science володіє трьома компетенціями: статистика, програмування і розуміння продукту. Ми ніколи не взяли б на роботу людину, слабо орієнтується в статистиці. Ти можеш бути класним програмістом, але якщо не знаєш, що таке байєсовський висновок – то у нас є і інженерний відділ, можу проводити."

“Деякі вважають, що наука про даних – це всього лише прикладна статистика, але ми – не просто статистики. Я потребую не тільки в людях, які б займалися теоретичними дослідженнями за статистикою. Ніхто у мене не повинен писати такі статті, як Фішер», продовжує він, маючи на увазі Рональда Фішера, родоначальника сучасної статистики та експериментального дизайну. – «Набагато важливіше вміти застосовувати зроблені висновки».
Природно, в такій компанії як Twitch подібне «застосування» вимагає глибоких знань інформатики.

Не тільки статистика

У статистичному співтоваристві все частіше говорять, що кордони статистики потрібно розширити, наприклад, уважніше ставитися до збору, подання даних і управління ними, щільніше займатися прогнозуванням результату, а не просто логічно вибудовувати взаємозв'язку. Існує безліч напрямків, в яких могла б рости статистика. Замість того, щоб просто робити підручник, а потім повертатися до теоретичних досліджень, статистики повинні налагоджувати комунікацію.

Наприклад, кілька десятиліть тому кванти (статистики, зайняті кількісним аналізом) корпіли над цифрами в кабінетах і передавали отримані дані зацікавленим особам, наприклад, трейдерам – щоб ті могли приймати необхідні заходи. Сьогодні data scientist'и пишуть алгоритми, які здатні в повністю автоматичному режимі поглинати дані, все прораховувати і укладати угоди – все це в частки секунди.

Очевидно, що корені всього цього – в статистиці. Я розумію, чому багато хто, в тому числі, вельмишановний Нейт Сілвер, можуть змішувати її з наукою про даних. Але сфера професійної діяльності дослідників даних далеко не обмежується статистикою.
Інформатика збагачує багато дисципліни, надаючи їм нові аспекти. Маркетинг + програмування = злом зростання (growth hacking). Ймовірно, статистика + програмування = наука про даних. Як би я хотів повернутися на ті заняття Udemy, які прогулював.

Ера динамічних продуктів

Двадцять років тому ті сайти, на які я заходив з II si в комп'ютерному класі, в основному представляли собою статичні документи. Але з такими сторінками далеко не заїдеш, тому незабаром з'явилися більш складні сайти, реагували на користувальницький введення. Наприклад, Google – на ньому приймали від користувача пошуковий запит, а потім видавали список відповідних веб-сторінок.

Але, природно, в Google не зберігалося статичному документа на будь-який мислимий варіант користувальницького введення. Ні, пошукові роботи Google нишпорили по сторінках і по максимуму витягували з них дані. Тому як тільки ви вводили запит «запчастини від велосипедів», Google програмно переглядав всі наявні у нього дані і генерував сторінку з посиланнями на сторінки, які, по всій видимості, відповідали цим запитом.
Зрозуміло, сьогодні ми розраховуємо, що сайти і додатки з даними повинні бути динамічними і враховувати не тільки ваш користувальницький введення, але і на ту масу інформації про вас, яку вдалося дізнатися. У мене на домашній сторінці в Netflix будуть фільми, рекомендовані саме мені, виходячи з моїх уподобань. В Spotify саме для мене складається щотижневий плейлист «Discover».

Коли ви відкриваєте Facebook, починається формування новинної стрічки, і у її оптимізації бере участь незліченна безліч факторів. Уілл Оремус (Will Oremus), старщий технологічний письменник порталу Slate описує цей процес у своєму чудовому дослідженні алгоритму, що лежить в основі новинної стрічки Facebook:

Всякий раз, коли ви відкриваєте Facebook, включається один з найвпливовіших, неоднозначних і незрозумілих алгоритмів у світі. Він сканує і збирає всю інформацію, яку запостили за минулий тиждень всі ваші друзі, всі, кого ви відстежуєте, усі публікації з груп, в яких ви перебуваєте і з кожної сторінки Facebook, яку ви лайкнули. Для середнього користувача Facebook набирається понад 1500 постів. Якщо у вас кілька сотень друзів, то постів може бути і 10 000. Потім, у відповідності з ретельно охороняється і постійно мінливих формулою алгоритм новинної стрічки Facebook ранжує ці пости – саме в тому порядку, в якому, судячи з усього, ви б стали їх читати. Більшість користувачів зазвичай переглядають лише перші кілька сотень.


Хтось повинен був написати алгоритм, що реалізує всі ці можливості. Facebook міг би зібрати всю цю «історію» і передати її дуже талановитому фахівця за статистикою. Статистик озброївся б своїми безмежними знаннями і досвідом, після чого написав би на мові R відмінну модель, в якій логічно виведе взаємозв'язку між усіма цими змінними. Що, звичайно ж, дозволить результативно підібрати рекламу, яка найбільше підійде в тих чи інших ситуаціях.

Але як вплести все це в продукт? Багато користі в одній ретроспективі? Facebook потрібно алгоритм, що дозволяє проаналізувати все це, поки завантажується сторінка, спрогнозувати та надати оптимальну стрічку новин. Ось цим і займається data scientist.

Ось чому такі фахівці потрібні в технічних компаніях. І чому вони, нехай і працюють зі статистикою – далеко не «ті ж самі специ, вид збоку».

Але успіх у науці про даних того ж вимагає і глибокого розуміння продукту, з яким працюєш.

Питання в питанні

“Twitch повно чудових фахівців, і не всі вони знають статистику. Тому, щоб досягти результату, треба налагодити контакт між дослідником даних і продукт-менеджером," вважає Бред.

Поки ми обговорюємо роль data science в розробці продукту, Бред постійно згадує про «ефективність».

«Набагато ефективніше працювати, якщо всі однаково розуміють сенс продукту, вирішують, які параметри важливіше, розуміють з точки зору програміста, як реалізувати трекінг, і з точки зору статистика – як робити аналіз.»

Не розуміючи, як люди будуть користуватися продуктом, і які цілі компанії, можна спотворити весь аналіз даних. Завдання data scientist'а – тримати в голові відразу всю цю інформацію, а коли хто-небудь прийде в відділ з нечітко визначеною проблемою – знати, до яких даними звернутися, щоб відповісти на питання.

Різнобічні умільці

Озираючись назад, я розумію, чому так складно дати дефініцію цієї сфери, оскільки фахівці в ній працюють на стику статистики та програмування, а також статистики і виробництва. Тим більше зрозуміло, як складно підібрати таке визначення, якщо сам формуєш команду data science.

В Google і Netflix така робота ведеться роками, але нинішні стартапи по вісім чоловік теж хочуть включитися в гру. Практично в будь-якому додатку існує своя модель доставки контенту, оптимізованого під кожного конкретного користувача. Чим краще алгоритм, скажімо, у такому додатку для побачень як Hinge, тим краще вам підійде рекомендований партнер, і тим імовірніше клієнт знайде собі пару. По-моєму, очевидно, чому в компаніях потрібні люди з такою спеціалізацією, але ще очевидніше, чому так складно підібрати фахівця на цю роль. І попит на дослідників даних лише зростає.

Нинішній data scientist химерно поєднує в собі риси економіста, фізика і математика. Це рідкісний людина, яка завдяки обставинам та правильному освіти також є класним інженером і обчислювачем. Але таких людей знайти складно. Досвід показує, що не кожен, хто претендує на позицію data scientist, в принципі може пояснити, що це таке.

Мабуть, якщо ми всі прийдемо до спільної думки, чим повинні займатися data scientist'и, таких постів стане менше. Але все одно залишається відчуття, що ажіотажний попит на справжніх фахівців у цій сфері поки буде зберігатися.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.