Як зупинити відтік людей з онлайн-курсу і заодно потрапити на хакатон

Онлайн-курси, крім своєї зручності та доступності, славляться тим, що на них надзвичайно легко забивати, що з успіхом і роблять багато слухачів. Забивати слухачам трапляється з різних причин — незрозумілий курс, минув дедлайн, не встиг набрати бали, вийшов Fallout 4 – у всіх свої виправдання. А ось у нас виправдань бути не може: якщо людина покидає курс, світ втрачає потенційного розробника або фахівця з аналізу даних, а ще кіловат-години і витрачений нашим героєм час.
найскладніша задача тут — визначити, хто з користувачів втече, а знаючи їх, вже набагато простіше запобігти втрати: «попереджений, значить озброєний».
В кінці статті ви дізнаєтеся, як за допомогою рішення проблеми потрапити на хакатон з аналізу даних
image

Оскільки питання догляду користувача не визначено однозначно, і ніхто ніколи точно не може передбачити реальний результат, на допомогу приходять методи машинного навчання.
Зазвичай, про застосування методів машинного навчання для передбачення відтоку ми чуємо в контексті усіляких банків та телекому. Аналогічно, подібні проблеми виникають і в освітніх проектів
Було б дуже круто навчитися запобігати такі ситуації – передбачати випадки, коли слухач ось-ось піде з курсу і, якщо можливо, повертати його назад нагадуванням, радою, печивом або ще чим-небудь.
Stepik.org – великий російський освітній – платформа для онлайн-курсів, який і надав нам дані для завдання прогнозування відтоку користувачів.
Говорячи більш строго, ми хочемо за даними про користувача та його активності в рамках курсу визначити, чи закінчить він курс. Під словами «закінчити курс» при цьому варто розуміти «набрати потрібну кількість балів для проходження».
Кожен курс являє собою послідовність степов – мінімальних шматочків уроку, кожен з яких можна «відвідати» і «пройти». Деякі стьопи стають пройденими відразу при відвідуванні — наприклад, теоретичний матеріал, для інших же необхідно виконати якесь завдання, воно буде автоматично перевірено, і бали за степ будуть зараховані тільки у разі правильної відповіді.
Щоб забезпечити більшу свободу в аналітиці пошуку ознак, що впливають на те, чи закінчить курс користувач, дані користувачів надані в максимально докладному вигляді: з вказівкою часу, коли користувач здійснив кожна дія – відкрив відео, відправив код на перевірку або відповів на запитання тесту.
Традиційний спосіб передбачати догляд користувача – для початку – спробувати знайти ті ознаки, які відрізняють пройшли курс від «відвалилися».
Приклади таких ознак:
  • кількість завдань, виконаних за 2 тижні (гіпотеза: більш старанні користувачі частіше закінчують курс),
  • середній час виконання завдання,
  • регулярність роботи над курсом (що б це не означало),
  • частка пропущених відео/завдань.
Звичайно краще використовувати відразу декілька ознак, об'єднавши їх разом деяким правилом (наприклад, деревами рішень). Варто очікувати, що навіть кілька об'єднаних ознак не дадуть ідеальних пророкувань догляду користувачів.
Щоб порівнювати різні підходи, варто використовувати формальні метрики якості. Приклад такої метрики – точність – частка випадків, коли ваш алгоритм правильно вгадав, пройде курс користувач. Інший приклад — f1_metrics — середнє між precision і recall — двома головними характеристиками якості класифікації. Precision — "точність", частка вірно зазначених справжніх прикладів, серед всіх справжніх. Recall — "відгук", частка тих же істинні і правильно розмічених прикладів, але вже серед всіх зазначених прикладів.
Змагання
Для завдання була обрана платформа Kaggle.com і запущено змагання. Крім великої мети настанови заблудлих на шлях просвітництва, змагання є третьою частиною відбіркового етапу на фінал хакатона GoToHack. Це триденний захід для студентів і школярів, яка відбудеться в грудні 2016 року за підтримки РВК.
Крім згаданого змагання, потенційним учасникам хакатона були запропоновані дві більш простих завдання на тих же даних, що дані отбирающимся в потік для початківців. Перша бліц-завдання цілком навчальна, а ось друга, подібно змагання, несе в собі корисні спостереження щодо поліпшення курсу.
Іноді буває, що слухачі повертаються до степам кілька разів: або там було щось дуже цікаве, або матеріал було важко зрозуміти з першого разу. Знаходити такі блоки важливо, щоб визначати занадто складні частини курсу, після яких слухач може перестати розуміти матеріал. Власне у другому бліці необхідно з'ясувати найбільш «повертають стьопи». Детальніше про блицы можна прочитати на сторінці відбору.
Тепер розповімо про базове рішення для задачі прогнозування відтоку. У найпростішому випадку було обрано просто враховувати кількість пройдених степов до поточного моменту. Таким чином, для кожного користувача вважається одне число, яке використовується для передбачення. Baseline гранично простий і буде зрозумілий навіть людям, не дуже близько знайомим з машинним навчанням. Саме змагання доступно після проходу по секретної посилання. До кінця змагання ще більше тижня, так що всі з вас ще мають шанс взяти участь. Сподіваємося, що учасники не просто пройдуть відбір на хакатон, але так само покажуть дійсно прийнятний результат на реальних даних.
Детальніше про хакатон
Це вже другий GoToHack з аналізу даних. Перший успішно відбувся у лютому 2016, настав час зростати. Більше учасників, солідніше призи, старші учасники. Цього разу запрошуємо школярів та студентів до 20 років в один з двох потоків (тим, хто старше, варто заглянути в самий кінець статті). Починаючому потоку проведуть майстер-класи з аналізу даних і машинного навчання, просунутий ж відразу кинеться битися з заготовленими датасетами або реалізовувати свою власну ідею.
до Речі, про датасетах. Хакатон присвячений темі освіти і HR, тому й завдання від партнерів будуть відповідні. Наприклад, HeadHunter надасть базу своїх вакансій і трохи резюме, а SkyEng запропонував часовий ряд дій користувача і голосові записи уроків.
загалом, чекаємо всіх зацікавлених 9-11 грудня в Москві. Поспішайте, до кінця відбору залишився тиждень. Серед призів не тільки гаджети, але і, наприклад, навчання в проектній школі GoTo або річної школі за роботою байєсовського методів в глибинному навчанні або участь у фіналі Олімпіади НТІ з бонусами при вступі в університети.
Заявки приймаються здесь
до Речі, всіх, хто старше 20 років і має реальний досвід в індустрії, ми запрошуємо стати кураторами/консультантами команд на нашому хакатоне. Детальніше тут.
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.