Деякі репозиторії в допомогу тим, хто вивчає і викладає Python і машинне навчання



Привіт спільноті!

Я Юрій Кашницький, раніше робив тут огляд деяких MOOC з комп'ютерних наук і шукав «викиди» серед моделей Playboy.

Зараз я викладаю Python і машинне навчання на факультеті комп'ютерних наук НДУ ВШЕ і в онлайн-курсі співтовариства з аналізу даних MLClass, а також машинне навчання і аналіз великих даних в школі даних одного з російських телеком-операторів.

Чому б недільного вечора не поділитися з співтовариством матеріалами з Python і оглядом репозиторіїв за машинного навчання… В першій частині буде опис репозиторію GitHub з зошитами IPython з програмування на мові Python. У другій — огляд попалися мені класних репозиторіїв GitHub.

Курс програмування на мові Python у вигляді зошитів IPython
Курс складається з 5 уроків: огляд засобів розробки, введення в мову Python, 2 уроку про структури даних (Python і не тільки) і деякі алгоритми і один урок про функції і рекурсію. Так, не зачеплена тема ООП і купу всього корисного, але робота над курсом йде, репозиторій буде оновлюватися.

Цілі даного курсу:
  • Познайомити з основами мови Python
  • Познайомити з основними структурами даних
  • Дати навички, необхідні для розробки простих алгоритмів


Зошити IPython обрані в якості основного засобу подачі матеріалу з-за того, що в них можна поєднувати текст, картинки, формули і код. В якості демонстрації в репозиторії наведена зошит про дерева рішень та їх реалізацію в бібліотеці машинного навчання Scikit-learn. У матеріалах першого уроку описано, як власне цими зошитами користуватися.



Ось посилання репозиторій GitHub з зошитами IPython. Ветвитесь і розмножуйтеся, можна використовувати в будь-яких цілях, крім комерційних, з посиланням на автора. Якщо хочете підключитися до проекту GitHub — пишіть. Можна повідомляти і про баги в матеріалах.

Деякі корисні репозиторії GitHub з програмування і машинного навчання
Ось далеко не вичерпний список класних репозиторіїв GitHub з програмування, аналізу даних і машинного навчання на мові Python. Майже всі з них — набори зошитів IPython. Деякі матеріали в моєму курсі, описаному вище, — переклад цих.

  • Курс програмування на мові Python, основа сайту introtopython.org.
  • «Data science IPython notebooks» — багато якісних зошитів за основним бібліотек Python для аналізу даних — NumPy, SciPy, Pandas, Matplotlib, Scikit-learn. Короткі огляди Apache Spark і змагання Kaggle «Titanic: Machine Learning from Disaster».
  • Гарвардський курс аналізу даних
  • «Interactive coding challenges» — добірка основних завдань на структури даних, графи, сортування, рекурсію і не тільки. Для багатьох завдань наведено розв'язання і пояснювальний матеріал з картинками.
  • Репозиторій Олів'є Гризеля (одного з авторів бібліотеки Scikit-learn) з навчальними зошитами IPython. Ще один.
  • Тьюториал Scikit-learn, також від авторів
  • Дослідження завдань курсу Andrew Ng «Machine learning» на мові Python
  • Матеріали на додаток до книги «Mining the Social Web (2nd Edition)» (Matthew A. Russell, видавництво o'reilly Media)
  • Тьюториал з використання ансамблів для вирішення завдань Kaggle.
  • Бібліотека XGBoost, яка використовується більшістю переможців змагань Kaggle. Там же можна познайомитися з їх історіями успіху. XGBoost хороший за якістю прогнозування, ефективно реалізований, добре параллелится.
  • Добірка даних FiveThirtyEight. Просто купа цікавих наборів даних.
  • Прогнозування результатів виборів в США. Хороший приклад аналізу даних з Pandas


Сподіваюся, ці матеріали допоможуть вам у вивченні/викладанні Python і аналізу даних.
Список класних репозиторіїв з зошитами IPython (та й просто з кодом на Python), звичайно, можна продовжувати.

Наприклад, у коментарях.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.