Жорстко, але справедливо: як ми готуємо майбутніх фахівців з великим даними

В цю суботу стартує наша програма «Фахівець з великим даними»: вона вийшла такою насиченою, що, здається, в найближчі три місяці у слухачів не залишиться жодного вільного часу. У цьому пості я розповім, як саме ми будемо ростити фахівців з Big Data, і як буде побудований процес навчання під час першого місяця.



Центральний кейс першого місяця — створення DMP-системи. DMP (data management platform) аналізує інтернет-логи користувачів і, виходячи з їх поведінки в мережі, присвоює цим людям певні властивості або зараховує до певних класів. Наприклад, правильно налаштована DMP-система може визначити стать і вік людини і дізнатися, чи є він гаджетоманом або фанатом люксових фешн-брендів. Цей кейс ми розробляємо спільно з компанією Data-Centric Alliance, вони використовують великі дані для налаштування рекламних кампаній.

Робота в командах

На дні відкритих дверей ми розповіли про те, слухачі будуть працювати над кейсами в командах. Деякі були незадоволені: “Навіщо нам це треба! Що, якщо я потраплю в одну команду з слабаком, і він буде тягти мене назад!?". Або «У мене недостатньо знань, що я буду робити у команді з сильними розробниками?». Логічно? Так, але в реальному житті аналіз великих даних — це не індивідуальний, а командний вид спорту, однаково доведеться дуже непросто. Ми поставили перед собою мету занурити слухачів в умови, максимально наближені до бойових.

Команди міняються 1 раз на місяць, і всі слухачі отримають не тільки цінний досвід командної роботи над проектом, але і хороші зв'язки з однокурсниками. Вчитися на цю програму прийшли засновники IT-компаній, технічні директори та досвідчені розробники — так що ці зв'язки виявляться не менш корисними, ніж знайомства з відомими викладачами.

Data Management Platform чотири кроки

Протягом перших 4 тижнів ви будете створювати свою власну DMP-систему. І кожного тижня група буде виконувати одне під-завдання, тим самим просуваючи вперед весь кейс.

Отже, ось план:

  • Перший тиждень: кожен слухач самостійно розгортає невеликий Hadoop-кластер
  • Другий тиждень: 1ТБ веб-логів необхідно предобработать і коректно завантажити в таблицю HBase
  • Третій тиждень: Починаємо аналізувати логи. Поки без машинного навчання, беремо детерміновані заздалегідь правила і виділяємо класи користувачів.
  • Четверта тиждень: Machine learning over Map-Reduce. Будуємо DMP-систему з аналізу веб-логів!


Бали, рейтинг, бейджі

Ми створили систему балів та рейтингів, яка допоможе викладачам і роботодавцям орієнтуватися, наскільки наполегливо працюють і просуваються вперед слухачі.

У кожної підзадачі буде мінімум два рівня складності: перший — просто її вирішити, другий — вирішити з додатковими умовами. За такі досягнення ми будемо давати спеціальні бейджі й додаткові бали. На замітку тим, хто поставив перед собою мету знайти нову роботу: ці «ачівкі» особливо цікавлять наших партнерів-роботодавців.



Підсумкова DMP-система повинна буде обчислювати портрет користувача з певним коефіцієнтом точності. Це реальна задача цікава бізнесу, і хлопці з Data-Centric Alliance готові компенсувати чверть вартості навчання учасникам команди, яка розробить добре працююче рішення. Команда, яка зможе показати визначне рішення, отримає компенсацію до 50%. Як сказав Олександр Петров, керівник відділу R&D компанії, і за сумісництвом керівник першого місяця курс, підвищення точності класифікації на 5% підвищує віддачу від рекламної компанії на 30%!

Як проходять заняття: аудиторні та практичні дні

Заняття проходять три рази на тиждень — по вівторках, четвергах і суботах. Кожен вівторок і четвер — аудиторні заняття. Вони побудовані так, щоб максимально залучати слухачів до роботи (на противагу старомодною університетської лекції), тобто вирішувати завдання і розбирати кейси. Мета аудиторних занять — пояснити методику розв'язання задач, показати, як працюють всі необхідні інструменти, і дати критичний погляд на теорію та основні концепції. З нашого досвіду, такий формат дає глибоке розуміння і хороші робочі навички.

Такий формат, до речі дозволяє активно залучати і онлайн-аудиторію! Ми вирішили, що на цьому курсі будемо вимагати від онлайн-учасників працювати з увімкненою камерою. Звичайно, слухачі соромляться і не люблять це, але включена камера змушує не залишає шансу працювати абияк.

Кожен вівторок команда буде отримувати завдання, на вирішення якої дається тиждень. По суботах — дні консультацій. Двері Digital October будуть відкриті з 11 ранку, команди можуть приходити, щоб разом працювати над рішенням задачі. З 16:00 починаються офісні години тьюторів-семінаристів, які зможуть проконсультувати команди, відповісти на конкретні питання і допомогти, якщо хтось зайшов у глухий кут. Самі завдання можна буде перевіряти автоматично, завантажуючи код на спеціальну платформу.

Задачі, тести і колоквіуми

Всі завдання ми будемо вирішувати на хмарних ресурсах, які для кожної команди будуть розгорнуті в AWS (ми стали партнерами Amazon Web Services і тому зможемо давати слухачам великі обчислювальні потужності). На рішення кожної з чотирьох підзадач дається 1 тиждень, це «м'який дедлайн». Якщо команда не здасть завдання в цей термін, то ще один тиждень можна буде здати задачу з штрафом в 30%. Той, хто пропустить кілька дедлайнів, втрачає можливість отримати сертифікат про проходження курсу.

Щоб мінімізувати ці неприємні моменти, кожні два тижні буде проходити колоквіум по пройденим матеріалів. Це те місце, де можна наздогнати групу, і отримати бали.

Як бачите, у нас не концтабір, але все досить жорстко. Ми хочемо випускати фахівців, до компетенції яких ми впевнені, здобутками яких ми зможемо пишатися в майбутньому. Записатися на програму все ще можна, залишилося півтора місця.



Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.