Доброго дня, колеги! Це блог відкритої російськомовній дата саєнтологічної ложі. Нас вже легіон, точніше 2500+ людина в слаке. За півтора року ми нагенерили 800к+ повідомлень (заради цього слак виділив нам корпоративний обліковий запис). Наші люди є скрізь і, може, навіть у вашій організації. Якщо ви цікавитеся машинним навчанням, але з якихось причин не знаєте про Open Data Science, то можливо ви в курсі заходів, які організовує спільнота. Самим масштабним з них є DataFest, який проходив нещодавно в офісі Mail.Ru Group, за два дні його відвідало 1700 осіб. Ми ростемо, наші ложі відкриваються в містах Росії, а також у Нью-Йорку, Дубаї і навіть у Львові, так, ми не воюємо, а іноді навіть і вживаємо міцні напої разом. І так, ми некомерційна організація, наша мета — просвітництво. Ми робимо все заради мистецтва. (пс: на фотографії ви можете спостерігати засідання ложі в одному з таємних храмів у Москві).

Мені випала честь зробити перший пост, і я, мабуть, отклонюсь від своєї звичної нейромережевої тематики і зроблю пост про базові поняття машинного навчання на прикладі однієї з найбільш простих і найбільш корисних моделей — лінійної регресії. Я буду використовувати мову пітон для демонстрації експериментів і відтворення графіків, все це ви з легкістю зможете повторити на своєму комп'ютері. Поїхали.


Читати далі →

Візуалізація статистики ЄВРО-2016 за допомогою Python і Inkscape


Привіт, Хабр!

Минуло трохи більше тижня до закінчення Чемпіонату Європи 2016 у Франції. Цей чемпіонат запам'ятається нам невдалим виступом збірної Росії, виявленої волею збірної Ісландії, приголомшливою грою збірних Франції і Португалії. У цій статті ми попрацюємо з даними, побудуємо декілька графіків і відредагуємо їх у векторному редакторі Inkscape. Кому цікаво — прошу під кат.

Читати далі →

Деякі репозиторії в допомогу тим, хто вивчає і викладає Python і машинне навчання



Привіт спільноті!

Я Юрій Кашницький, раніше робив тут огляд деяких MOOC з комп'ютерних наук і шукав «викиди» серед моделей Playboy.

Зараз я викладаю Python і машинне навчання на факультеті комп'ютерних наук НДУ ВШЕ і в онлайн-курсі співтовариства з аналізу даних MLClass, а також машинне навчання і аналіз великих даних в школі даних одного з російських телеком-операторів.

Чому б недільного вечора не поділитися з співтовариством матеріалами з Python і оглядом репозиторіїв за машинного навчання… В першій частині буде опис репозиторію GitHub з зошитами IPython з програмування на мові Python. У другій — огляд попалися мені класних репозиторіїв GitHub.

Читати далі →

Візуалізація клонів в проекті на Python


Нещодавно в нашому проекті потрібно налаштувати моніторинг якості коду. Якість коду — поняття суб'єктивне, однак давним-давно придумали безліч показників, що дозволяють провести мало-мальськи кількісний аналіз. Приміром, цикломатическая складність або індекс поддерживаемости (maintainability index). Вимірювання подібного роду показників — звичайна справа для мов на кшталт Java або C++, однак складається враження) в питоньем співтоваристві рідко коли хто-то про це замислюється. На щастя, існує чудовий radon xenon-ом, який швидко і якісно обчислює згадані вище метрики і навіть деякі інші. Звичайно, для професійних enterprise інструментів замало, але все необхідне є.

Крім обчислення метрик, буває також корисно провести аналіз залежностей. Якщо в проекті задекларована архітектура, між окремими частинами повинні існувати певні зв'язки. Найбільш частий приклад: додаток побудовано навколо бібліотеки, що надає API, і вельми небажано виконувати дії в обхід цього API. Іншими словами, недобре ioctl-ить в ядро коли libc є. Для пітона є кілька пакетів, будують граф залежностей між модулями, і snakefood здався мені самим вдалим.

Крім аналізу залежностей, не менш корисно визначати копипасту, особливо, якщо у проекті задіяні джуниоры або інші люди, люблячі «зрізати кути болгаркою». Про це власне і піде мова в статті.

Читати далі →