Огляд ринку праці в області і big data data science

Хабр, привіт! За відповідним пошуковим запитам знайшлося близько 1000 вакансій, потім вони були вручну відфільтровані по заголовкам і описами, і для підготовки огляду ми використовували 288 активних вакансій в області і big data data science з HeadHunter.

Насправді активних вакансій більше, оскільки до уваги не приймалися інші ресурси (наприклад, SuperJob, Blastim, соціальні мережі, сайти компаній). Крім того, потрібно розуміти, що це всього лише знімок поточної ситуації, щодня вакансії заповнюються і з'являються нові.

Дані були отримані через API Headhunter, отримання і обробка даних здійснювалися за допомогою бібліотек мови Python.

Географічне розподіл розміщених на HeadHunter вакансій вийшло таким:

image
Практично половина всіх активних вакансій (128) припадає на Москву, Санкт-Петербурзі їх більш ніж в 3 рази менше (42), далі йдуть столиці суміжних держав, Білорусі (16) та (12), але не Казахстану, і інші великі російські міста. Невелике число вакансій у розвинених країнах разом з вакансіями в інших містах Росії і СНД потрапили в групу «Інші» (58).

Майже всі вакансії у вибірці передбачають повну зайнятість, але досить велика кількість вакансій дозволяє працювати з гнучким графіком (32). У базі є 11 вакансій з можливістю віддаленої роботи. При цьому абсолютна більшість вакансій (244, тобто близько 85%) потребують перебувати в офісі повний робочий день.

image
image
Таким вийшло розподіл вакансій з досвіду роботи:

image
Вакансії, які потребують експертного рівня досвіду роботи в даній області – понад 6 років – найбільш рідкісна категорія, таких вакансій виявилося всього 9. Можливо, це пов'язано з тим, що дана професійна область молода і динамічно розвиваюча. Найбільш популярні середні значення досвіду роботи: 1-3 роки (152) та 3-6 років (110). Є і можливості для тих, у кого досвіду роботи ще немає, таких вакансій у базі 17.

Заробітна плата в більшості вакансій не вказана, проте ми порахували доступну вибірку вакансій із зазначенням заробітної плати (56) достатній для того, щоб по ній оцінити приблизний рівень оплати по ринку.

image
Для частини вакансій з числа тих, для яких заробітна плата була вказана, вона була виражена в іноземній валюті.

image
Всі суми в іноземних валютах були переведені в рублі за актуальним курсом.

Заробітна плата на HeadHunter зазначається наступним чином: від певної суми і до певної суми. Якщо були вказані обидва значення, в якості оцінки заробітної плати бралося середнє між ними. Якщо тільки «від», до вказаного значення додавалося 10%, якщо тільки «до» — вказане значення скорочувалася на 10%. Заробітні плати були розраховані за категоріями досвіду роботи окремо для Москви, розвинених країн і всіх інших міст Росії та СНД.

image
Як видно з таблиці (значення в ній дані в тис. руб.), у Москві рівень заробітних плат вище для всіх значень досвіду роботи. Особливо значуще це розходження для молодих фахівців: для фахівців з досвідом роботи не менше 3 років заробітна плата в Москві вищий на третину, також саме в Москві зосереджені всі вакансії без досвіду роботи (з числа тих, де вказана заробітна плата). Вакансія у розвинених країнах в списку була лише одна, в Японії, рівень оплати там відчутно вищий, майже в 2 рази перевищує максимальну заробітну плату в Москві. Середня зарплата по вибірці склала 138 тис. руб., без досвіду роботи – майже в 2 рази менше, всього 63 тис. руб. Максимальна вказана зарплата в Росії – 220 тис. руб.

HeadHunter надає окреме поле для вказівки ключових навичок в описі вакансій, однак для більшості вакансій у вибірці воно не було заповнено. Крім того, ключові навички вводяться вручну, а не вибираються з фіксованого списку, тому написання одних і тих же навиків може відрізнятися. У зв'язку з цим на базі вакансій був сформований список з Top-50 ключових навичок, який потім був доповнений експертним методом. По багатьом навичкам було дано кілька ключових слів-синонімів, у тому числі на різних мовах (наприклад, Machine Learning і Машинне навчання, JavaScript і PHP). Для деяких навичок було дано список стоп-слів, щоб відокремити C від C++, Java від JavaScript, SQL і MySQL від NoSQL і т. п. Далі пошук цих ключових слів здійснювався з допомогою регулярних виразів за об'єднаним текстом ключових навичок і описів вакансій, зараховувався по одному входженню на вакансію.

image
Самим необхідним навиком у цій професійній області виявилося знання Python: він згадується в 170 з 288 вакансій. Java згадується в 92 вакансії, С++ в 58, Scala – 46, Matlab – 44. Інші мови виявилися значно менш затребуваними, в тому числі і популярні в середовищі аналізу даних мови R (21) і Julia (3). Другим по затребуваності умінням є знання SQL (140 вакансій). Знання методів машинного навчання потрібно 104 вакансії, методів майнінгу даних – 81, глибокого навчання – у 52 (включає в якості ключових слів, крім Deep Learning, назви основних використовуваних в глибокому навчанні бібліотек, наприклад, TensorFlow і Theano), методів обробки природних мов (включаючи Text Mining) – у 23. Знання технологій великих даних потрібно в 122 вакансії, втім, не зовсім зрозуміло, що саме тут мається на увазі. Більш конкретно, Hadoop згадується в 99 вакансії, Spark – 84, Hive – у 39, MapReduce – у 29, Kafka – у 19. Досвід роботи з NoSQL базами даних потрібно в 37 вакансії, в тому числі у 21 згадується MongoDB. У 41 вакансії потрібне знання англійської мови, у 22 потрібне знання статистики. Майданчик для проведення змагань з аналізу даних Kaggle згадана в 25 вакансії.

image
Діаграма вище показує розподіл вакансій за класифікатором спеціалізацій HeadHunter (одна вакансія може належати одночасно до декількох спеціалізацій). Як видно з неї, більшість вакансій вибірці відносяться до розробки (185) та аналізу даних (162). Решта спеціалізації йдуть зі значним відривом, в їх числі управління проектами (66) і математика (60).

image
Про професійних галузей абсолютна більшість вакансій відноситься до галузі інформаційних технологій, деяка частина (66) – до галузі науки і освіти, по всій видимості, через математики та алгоритмів.

Зробити якийсь відповідає реальності рейтинг роботодавців за даними вибірки не вдалося в силу її значною випадковості (подані не всі заповнені в компаніях позиції, а лише активні вакансії). Тому був зроблений вибір на користь розбиття вакансій за галузями.

API HeadHunter не дозволяє отримати розподіл по галузях для компаній-роботодавців, тому його для 165 роботодавців вибірки довелося проставити вручну на основі їх назв та описів. Отримані розподіл вакансій за галузями показано на діаграмі нижче.

image
Найбільш численна індустрія – компанії, що спеціалізуються виключно на інформаційних технологіях (93 вакансії). З них окремо були виділені компанії, утворені навколо Інтернет-порталів (Internet, наприклад, Яндекс і Авіто, 19 вакансій), телекомунікаційні компанії (16 вакансій), IT-консалтинг (16 вакансій) і IT безпеку (наприклад, Лабораторія Касперського, 4 вакансії). У другу за кількістю вакансій індустрію Marketing увійшли медіа і рекламні агентства, а також у меншій кількості компанії, що проводять маркетингові дослідження. На їх частку припадає 23 вакансії. Банківський сектор мав 20 активних вакансій, інший фінансовий – ще 18. Досить великим роботодавцем виявилася індустрія розробки ігор (18 вакансій). Втім, для галузі розробки ігор у вибірку потрапили множинні повторювані позиції для різних регіонів. Рітейл, в тому числі fashion retail, дав 9 вакансій вибірки. FMCG і фармацевтичні компанії у вибірці практично не представлені. Незважаючи на популярність аналізу в біології і медицині та популярність професії біоінформатика число активних вакансій в цих галузях виявилося порівняно невеликим (3 в охороні здоров'я і 2 в біотехнологіях).

Нагадуємо, що у нас в березні стартує телепрограма «Фахівець з великим даними», приходьте :)
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.