Практичний семінар з аналізу даних kaggle в московському офісі Mail.Ru Group, 27 червня

Привіт, Хабр. У цьому пості я хочу анонсувати нове захід в рамках Moscow Data Science Meetupworkshop hackathon практичний семінар з аналізу даних і машинного навчання. Отже коротко: { «коли»: «27 червня 2015, реєстрація з 10 ранку, початок об 11 ранку», «де»: «московський офіс Mail.Ru Group», «тривалість»: «поки не розійдемося», «тема»: «пошук», «ЦА»: «початківці фахівці і вище», «вимоги»: [ «мінімальні знання в області машинного навчання та аналізу даних», «володіння щонайменше однією мовою програмування», «наявність ноутбука і зарядника для нього», «присутність у рейтингу конкурсу Search Results Relevance» ], «реєстрація»: «ось тут»}. За подробицями прошу під кат.

Передісторія

Вже два роки, щокварталу в московському офісі компанії Mail.Ru Group проходять зустрічі фахівців в області аналізу даних і машинного навчання. Весняна зустріч відбулася в кінці травня, а наступна планується на кінець літа. Як правило, наші зустрічі складаються з трьох-чотирьох доповідей практикуючих програмістів, аналітиків і науковців з подальшим обговоренням, яке плавно перетікає в один з розважальних закладів району метро Аеропорт, де ми, природно, продовжуємо обговорення порушених у доповідях тем. В процесі обговорення ми часто піднімаємо тему того, що було б непогано не тільки обговорювати практику, але і попрацювати разом над якою-небудь проблемою. Але практична частина ніяк не вписується у формат наших зустрічей. Саме для цього ми вирішили провести експериментальний семінар, де ми весь день (а може, і ніч) будемо працювати над однією проблемою. Якщо такий формат сподобається гостям, то такі семінари стануть регулярними доповненням до основної щоквартальної зустрічі. Отже, підведу підсумок:
  • метою заходу є професійні знайомства, спілкування та обмін досвідом у процесі рішення задачі;
  • ми не плануємо змагатися один з одним;
  • практичний семінар не є навчальним класом для абсолютних новачків;
  • на семінарі немає вчителя, який ходить по аудиторії і підказує, як правильно, є лише модератор, який є таким же учасником семінару, як і всі інші.

Дані

Завдання хотілося вибрати найбільш нейтральну, а також, щоб після семінару учасники могли відразу ж десь застосувати нові знання і написаний код. Вибір, безсумнівно, впав на платформу Kaggle. Вивчивши кілька подібних (If you can't beat them, invite them і Hacking the Otto Group Challenge in Paris) заходів, поспілкувавшись з учасниками та організаторами, ми вирішили, що подібний формат нас повністю влаштовує. Кэгл також підтримав нас, але поставив умову, що весь код, написаний в процесі роботи, повинен бути відкритий:

The only tricky part is to be careful about our competition rules regarding code sharing privately. If you work on code together, make sure that either you're all on one single team, or that the code is posted publicly in the competition forums.
Для цього на сторінках конкурсів є спеціальний розділ для скриптів. Звичайно, це не заважає нікому, в тому числі і вам, використовувати отриманий код в конкурсі після семінару, покращуючи його, не публікуючи нові поліпшення.

І ще один важливий момент: на щоквартальні зустрічі до нас в офіс приходить близько 100-150 осіб, але для затишного практичного семінару це, мабуть, занадто багато людей. Так що ми вирішили запровадити онлайн-частина з невеликим фільтром (як нам здається, чесним): за два тижні до семінару ми оголосимо конкурс, на якому будемо практикуватися; за 3 дні до заходу ми отранжируем всі заявки за їх положення в турнірній таблиці, і першим N учасникам надішлемо запрошення. В цей раз N = 40 (є думка, що це всі, хто взагалі подасть заявки і зробить сабміт на кэгл), а конкурс вибрано цей — Search Results Relevance. Ми сподіваємося, що такий фільтр допоможе уникнути перетворення семінару в клас з навчання основам аналізу даних, а також дозволить присутніх відразу зайнятися справою, а не витрачати час на вивчення конкурсу.

Онлайн-частина з 15 по 24 червня включно:

Офлайн-частина 27 червня в московському офісі Mail.Ru Group:

  • 10:00 — початок реєстрації;
  • 11:00-11:30 — коротка лекція про те, як перемагати на кеглі від одного з топових учасників;
  • 11:45-12:15 — коротка лекція про машинному навчанні для задач пошуку (Володимир Гулін, team lead в Пошуку Mail.Uk;
  • 12:30-13:00 — загальне знайомство і стихійний розподіл на робочі групи;
  • 13:00-17:00 — два робочих ітерації;
  • 17:00-18:00 — обід (ймовірно, піца);
  • 18:00-22:00 — ще два робочих ітерації;
  • 22:00-… — фінальний крутий сабміт (бажаючі продовжують працювати =).

Одна робоча ітерація — це приблизно:

  • 1.5 години — робота над завданням в групах;
  • 0.5 години — загальне обговорення і мозковий штурм.
Проходити все це буде у великому залі з затишними робочими місцями та кінозалом для спільних обговорень.

Аналіз даних — це такий же навик, як і спортивне програмування, і цей навик втрачається, якщо його не тренувати. Нам хотілося б створити формат заходу, який би дозволив початківцям і більш старшим фахівцям збиратися разом для практики, обміну досвідом і спілкування. Ми були б вдячні, якщо шановна публіка висловила свої побажання — це допоможе нам скорегувати наступні семінари.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.