Data Science Skills



Продовжуємо серію аналітичних досліджень затребуваності навичок на ринку праці. Цього разу завдяки Павлу Сурменку sharky ми розглянемо нову професію – Data Scientist.

Останні роки термін Data Science почав набирати популярність. Про це багато пишуть, говорять на конференціях. Деякі компанії навіть наймають людей на посаду зі звучною назвою Data Scientist. Що ж таке Data Science? І хто такі Data Scientists?

Зміст
Хто такі Data Scientists?
Якщо поставити таке питання жителю Сан-Франциско, можна отримати відповідь, що Data Scientist – це статистик, що живе в Сан-Франциско. Смішно, хоча не дуже обнадіює тих, хто живе не в Сан-Франциско, правда? Добре, тоді ще одне визначення: Data Scientist – це той, хто знається на статистиці краще, ніж будь-який програміст, і розбирається в програмуванні краще, ніж будь-статистик. А ось цей варіант вже близький до суті. Data Scientist, вчений за даними, є своєрідним гібридом статистика і програміста. Причому статистики, так і програмісти бувають дуже різними, тому краще розглядати цю професію як широкий спектр від чистих статистиків до чистих програмістів.

Роберт Чанг, Data Scientist з Twitter, ділить представників своєї професії на 2 групи: Data Type A Scientist v.s. Type B Data Scientist.

Тип A, де A – це Analysis. Ці люди здебільшого займаються вилученням сенсу статичних даних. Вони дуже схожі на статистиків, можуть навіть бути статистиками і просто змінити назву посади на Data Scientist, а, як ми знаємо, вже тільки одна зміна назви посади може дати значний приріст зарплати, плюс шану і повагу. Але крім статистики вони знають ще і практичні аспекти: як очищати дані, як працювати з великими наборами даних, як візуалізувати дані і описувати результати своєї роботи.

Тип B, де B – Building. Вони також володіють знаннями статистики, але при цьому сильні та досвідчені програмісти. Вони більше зацікавлені в застосуванні даних на реальних системах. Часто будують моделі, що працюють у взаємодії з користувачами, наприклад, системи рекомендацій товарів, фільмів, реклами.

Data Science також трохи перетинається з такими областями діяльності як Machine Learning і Artificial Intelligence, представники цієї сфери близькі до Data Science типу B.

Data Scientist Skills
В англомовному Інтернеті тренд підвищення інтересу до Data Science добре помітний приблизно з 2012 року (https://www.google.com/trends/explore#q=Data%20Science). В останні кілька років також добре помітний ріст інтересу до суміжних областях: Machine Learning, Artificial Intelligence, Deep Learning. Gartner помістив Machine Learning на вершину hype curve в 2015 році: gartner's 2015 Hype Cycle for Emerging Technologies Identifies the Computing Innovations Organizations That Should Monitor. А журнал Harvard Business Review у 2012 році опублікував статтю з інтригуючим заголовком: Data Scientist: The Sexiest Job of the 21st Century.



Що ж вивчати тим, хто хоче стати Data Scientist, які навички необхідні? Давайте подивимося на те, які вимоги американські працедавці ставили до кандидатів на позиції в областях Data Science і Machine Learning.

Ми проаналізували 549 вакансій, опублікованих на одному з найбільших світових порталів з пошуку роботи, які включали вимоги Data Science і Machine Learning.

Data Scientist Hard Skills
Почнемо з аналізу вимог до володіння професійними навичками (hard skills).

Як можна побачити з рейтингу, найбільш популярними є фундаментальні знання з математики, статистики, Computer Science і машинного навчання. Крім теоретичних знань, Data Scientist повинен вміти «добувати», очищати, моделювати і візуалізувати дані. Також важливий досвід в розробці програмного забезпечення та управління якістю.



Data Science Tools and Technologies
Основним інструментарієм Data Scientist є мови програмування Python і R.

R – це спеціалізований мова програмування для статистичних розрахунків, саме тому він так полюбився статистикам і вченим за даними. Він дозволяє швидко завантажити набір даних, порахувати основні статистичні характеристики, візуалізувати дані, побудувати моделі даних.

Python, хоч і представляє собою мову програмування загального призначення, але має величезну кількість якісних бібліотек і платформ для Data Science і Machine Learning.

Що примітно, у 39% вакансій потрібне знання як R, так і Python одночасно, тому краще вивчати обидві мови відразу, а не намагатися вибрати один з них.

Для роботи з великими даними роботодавці воліють використовувати Hadoop і Spark. Серед баз даних популярні MySQL і MongoDB.



Data Scientist Soft Skills
Загальні компетенції (soft skills) порівняно з професійними навичками затребувані в меншій мірі, так як згадуються у вакансіях більш ніж удвічі рідше. Середні зарплати вакансій, в яких потрібні soft skills так само істотно, приблизно на 20%, нижче тих, де потрібні hard skills і знання технологій.

Тим не менше, серед зустрінутих soft skills найбільш важливими є наступні: вміння спілкуватися, візуалізувати дані, робити презентації, ефективно писати і говорити. Також корисні навички роботи в команді, менеджменту і рішення проблем.



Data Scientist Domain Knowledge
У деяких вакансії потрібне знання предметної області від фізики і біології до нерухомості і готельного бізнесу. Тут у лідерах економіка, маркетинг і медицина.



Data Scientists Specializations
Перед початком дослідження ми припускали виділити подспециализации професії Data Scientist. Наприклад, відокремити тих, хто займається переважно аналізом і візуалізацією даних від тих, хто будує моделі для предсказательная аналітики або алгоритми машинного навчання. Але, як виявилося в ході аналізу даних, вимоги до більшості вакансій досить однорідні, і чіткого поділу на спеціальності не простежується.

Хоча деякі закономірності здаються цікавими. Наприклад, якщо у вакансії потрібні знання Python або C++, то малоймовірно вимога комунікаційних навичок і менеджменту, і навпаки.

Вплив технологій на зарплату
Опитування o'reilly 2015 Data Science Salary Survey допомагає нам поглянути на ринок праці з протилежного боку. Це дослідження базується на опитуванні 600 Data Scientists, а зібрані дані включають рівень зарплат, демографічну інформацію і кількість часу, який фахівці витрачають на завдання різних типів. Ключові висновки цього дослідження наступні:

  • SQL, Excel, R, Python – ключові інструменти, і цей список не змінюється на протязі 3 років.
  • Сильно зростає популярність Spark і Scala.
  • Фокус тих, хто раніше використовував спеціалізовані комерційні інструменти, зміщується на використання R.
  • Але ті, хто раніше використовував R, переходять на Python, Python лідирує.
  • Серед усіх індустрій найвищі зарплати в Software Development.
  • Cloud Computing продовжує бути затребуваним.
Рекомендуємо прочитати звіт цілком. Крім іншого, він описує математичну модель залежності зарплати Data Scientist від того, де він живе, яку освіту має і над якими завданнями працює. Наприклад, Data Scientists, які проводять більше часу на зустрічах, заробляють більше. А хто більше 4 годин на день займаються вивченням даних, заробляє менше.

Як вивчати Data Science?
За останні роки з'явилося безліч онлайн-курсів на цю тему. І це дуже хороший спосіб почати!

Якщо ви більше схиляєтеся до аналізу даних, то хорошим варіантом є курси спеціалізації Data Science на Coursera: Launch Your Career in Data Science. Отримання спеціалізації не безкоштовно, але якщо вам не потрібен сертифікат, то ви можете пройти всі ці курси безкоштовно: просто подивіться назва курсу і за допомогою пошуку знайдіть курс.

Для тих, кого цікавить Machine Learning, можна порекомендувати курс Андрю Ен (Andrew Ng), Chief Scientist в компанії Baidu Research, який за сумісництвом викладач в Стенфорді і є засновником Coursera: Комп'ютерне навчання.

Що таке Data Science?
Data Science – це нова область діяльності, тому вимоги до Data Scientists ще не до кінця сформовані. Враховуючи динамічність нашого часу, можливо, Data Science ніколи не стане самостійною професією, якою навчатимуть в університетах, а так і залишиться набором практик і навичок. Але це точно ті практики і ті навички, які будуть дуже затребувані в найближчі роки.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.