Професія Data Scientist: як не помилитися з вибором



Людина любить грати з цифрами або цифри з людиною? У класичному середню освіту є забавний парадокс: школярів навчають зазубрювати правила та випадки їх застосування, але чим більше учень знає правил і винятків, тим частіше має можливість зробити помилку. В диктанті, витканому з текстів класичної російської літератури, достаток ком уточнюючого характеру, призводить до думки, що саме не поставлена кома є помилкою. Отже, грамотна робота — це твір з великою кількістю ком. Проблема причинно-наслідкового зв'язку, чи не так? Може бути, якщо ви хороший письменник, ви використовуєте багато ком уточнюючого характеру, але це не той випадок, коли кількість ком робить вас хорошим письменником…

Інтерпретація ком у класичній російській літературі — це приклад поганого аналізу даних, побудованого на відсутність допитливості і розуміння математичної статистики. Ці фактори + пристрасне бажання розвиватися в сфері інформаційних технологій — ключові в розумінні спеціальності «вченого за даними».



Пост підготовлений за матеріалами виступу співробітника Airbnb, спеціаліста з data science.

Не будемо докладно зупинятися на тому, чому професія data scientist відзначається як одна з найбільш привабливих і перспективних у світі. Досить згадати, що кількість вакансій в цьому напрямку росте по експоненті, а за розрахунками McKinsey Global Institute до 2018 році в одній тільки Америці знадобиться додатково 190 тисяч фахівців з даними, що мають підготовку в галузі статистики і машинного навчання. McKinsey відзначають, що додатково знадобиться навчати мільйони менеджерів базовим навичкам роботи з даними.

Це величезний ринок, який тільки з'являється, однак проблеми big data і способи їх вирішення виникли не вчора. Обсяг архівних даних, накопичених за роки роботи тільки в Airbnb, становить кілька петабайт даних. Щодня обробляються десятки терабайт інформації за допомогою сховища, побудованого на основі Apache Hadoop і Hive. Ми вже розповідали про персоналізованої пошукової системі Airbnb — створена вона на системі розподіленої обробки в режимі реального часу Storm. Для Airbnb аналіз даних необхідний для прийняття практично будь-якого рішення з розвитку компанії. І нам життєво необхідні професіонали data scientist.

На сьогоднішній день лише третина попиту на data science фахівців може бути задоволена. Недонасыщенный ринок не може надати компаніям кваліфіковані кадри в галузі data mining або прогнозної аналітики, що веде до зростання попиту і зарплат. Державні і приватні вузи не справляються з процесом підготовки фахівців по роботі з даними.

Data Scientist: особистісні особливості



Ряд технічних Вузів пропонують програму підготовки магістрів наук на науки про даних і менеджменту». Спеціальність потребує глибших знань в галузі математичної статистики, машинного навчання, програмування. Проте ніяке навчання не зрівняється з досвідом, який ви отримаєте безпосередньо від роботи, стикаючись з реальними проблемами. Тільки робота продемонструє вам, що обраний шлях — не найпростіший в житті.

Займатися data science так само важко, як займатися наукою взагалі. Як і в звичайних наукових дисциплінах, більшість застосовуваних вами методів не спрацюють. Ви не можете просто зайти в лабораторію, клацнути пальцями і отримати результат. Ви придумаєте безліч цікавих (просто відмінні!) речей: як зробити систему краще, як налаштувати та оптимізувати вибірку, тощо. Близько двох третин ваших ідей не спрацюють. Переважно більшу частину часу ви будете терпіти невдачу. І повинні бути до цього готові.
Щоб бути хорошим data scientist не досить бути хорошим програмістом. Ви повинні краще розбиратися в статистиці, ніж у програмній інженерії. Компетентний data scientist — це компетентний статистик. Оточуючі вас специ в усьому розбираються краще — і це нормально, ви повинні вміти слухати їх, одержувати від них дані, необхідні у вашій роботі.

Data scientist — це людина, яка любить математику. Роботодавці, які шукають фахівця в області даних, повинні в першу чергу звертати увагу на математичні спеціальності. Ви не вивчали математику і боїтеся поставити хрест на кар'єрі? Є альтернативний шлях — вивчення інформатики. А можна і досягти успіху в академічній науці. Важливий склад розуму, розумієте? Ви можете бути фахівцем в нейронауці і вирішити зайнятися вивченням даних — математика прийме вас з розпростертими обіймами.

Занурення в математику не повинно заважати вам вивчати комп'ютерні системи. Інакше простіше стати викладачем. Це велика проблема насправді, що математики не розуміють масштаб використовуваних даних, вони не розуміють саму структуру комп'ютерних даних і, як наслідок, не здатні змоделювати поява системних проблем у перспективі. Завжди існує розрив між ймовірнісної математичною моделлю, яка, як ви припускаєте, відповідає структурі вашої проблеми, і фактичними даними, які ви намагаєтеся аналізувати. Збирати статистику — означає метатися між моделлю і даними. Дуже важливо розуміти це на глибинному рівні, а не ставитися до математики і комп'ютерних систем) як до чарівної коробці, куди можна закинути цифри, повернути рукоятку і отримати результат.

Data Scientist: як їм стати



Людина діє згідно шаблонів, закладеним в голові. При розгляді проблеми ви оперуєте готовими моделями поведінки. Data scientist працює з випадковими величинами і ймовірнісними моделями, тому що його завдання — виявляти самі несподівані закономірності. Якщо ви хочете найняти такого фахівця, і зізнаєтеся собі, що не так багато знаєте про статистикою, запропонуйте людині, якого ви інтерв'юєте, тест повністю позбавлений контексту. Вирваний з контексту. І ви побачите, як він буде поводитися з проблемою не знаючи, як вирішити проблему. В цьому суть роботи — думати не про заздалегідь отриманих статистичних даних про комп'ютерних моделях рішення, а про проблему. Таке рішення демонструє здатність фахівця оперувати імовірнісними моделями зі складними даними.

Отже, ви готові робити всі ці штуки, ви розбираєтеся в статистиці, розумієте структури даних і алгоритми, або ви вчений, розуміє, що лежить в основі моделювання. Тепер ви можете отримати роботу. Але є ще маса всього на світі, чого ви не знаєте, що важко зрозуміти, тому що воно не занесено в підручники. Наприклад, більшість аналітиків даних не розуміють, як працюють команди в рамках розробки програмного забезпечення. Це дуже лякає і дратує, коли ви стикаєтеся з середовищем з незрозумілим матеріалом. Немає нічого принизливо в тому, щоб визнати це і почати все заново стати учнем більш досвідчених розробників.

Спостерігати за розвитком програмного проекту з нуля — це безцінний досвід. Інший спосіб отримати досвід взаємодії з реальним середовищем — брати участь в проект Kaggle. Ресурс використовують для вирішення складних завдань в різних областях знань (маркетинг, фінанси, банківська справа, медицина, страхування, наукові дослідження). Kaggle перетворює бізнес-завдання компаній в структурований набір даних, з якими зручно працювати.

Data Scientist: не бути тим, ким ти не є



Не намагайтеся бути тим, ким ви не є. Не рідко data scientist сприймають як аналітика даних. Аналітик може сказати: «Якщо мої інструменти аналізу даних не можуть відповісти на поставлене питання, то питання залишається без відповіді». Тут ми задаємо питання базі даних і, якщо він не повернеться через півгодини, ми скасовуємо його і переходимо до наступного.

Data scientist розмірковує наступним чином: «Якщо мої інструменти аналізу даних не можуть відповісти на поставлене питання, значить мені потрібні більш кращі інструменти і дані». Цей приклад пояснює краще всього вищесказаного, як бути data scientist. Вчений не каже: я не можу відповісти на питання, піду займуся чим-небудь іншим. Вчений продовжує думати про питання і з'ясувати способи, за допомогою яких зможе на нього відповісти.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.