Старт відкритого курсу OpenDataScience
Привіт всім, хто чекав запуску відкритого курсу щодо практичного аналізу даних і машинного навчання!


Перша стаття присвячена первинного аналізу даних з Pandas.
Поки в серії планується 7 статей, які йдуть разом з зошитами Jupyter (репозиторій mlcourse_open), змаганнями і домашніми завданнями.
Далі йде список майбутніх статей, опис курсу і власне, перша тема – введення в Pandas.
Читати далі →

Вибираємо html-парсер для Apache.JMeter

Середня якість повноти вилучення посилань на вбудовані ресурси html-парсерами Apache.JMeter
Середня якість роботи парсерів (для семи сайтів)

Пропоную:
  • порахувати середнє якість повноти вилучення посилань на вбудовані ресурси html-парсерами Apache.JMeter;
  • перевірити чи правда витяг посилань у Apache.JMeter 3.0 стало більш повним;
  • випробувати в справі плагін CsvLogWriter.
Як говорить народна мудрість: Вірити вір, але…

Читати далі →

Трохи про кіно або як робити інтерактивні візуалізації в python


Введення
У цій замітці я хочу розповісти про те, як можна досить легко будувати інтерактивні графіки в Jupyter Notebook'e з допомогою бібліотеки
plotly
. Більше того, для їх побудови не потрібно піднімати свій сервер і писати код на javascript. Ще один великий плюс пропонованого підходу — візуалізації будуть працювати і в NBViewer'e, тобто можна буде легко поділитися своїми результатами з колегами. Ось, наприклад, мій код для цієї замітки.
Для прикладів я взяла скачали в квітні дані про фільми (рік випуску, оцінки на Кинопоиск і IMDb, жанри тощо). Я вивантажила дані по всім фільмам, в яких було хоча б 100 оцінок — всього 36417 фільмів. Про те, як завантажити і розпарсити дані Кинопоиск, я розповідала в попередньому пості.

Читати далі →

Візуалізація статистики ЄВРО-2016 за допомогою Python і Inkscape


Привіт, Хабр!

Минуло трохи більше тижня до закінчення Чемпіонату Європи 2016 у Франції. Цей чемпіонат запам'ятається нам невдалим виступом збірної Росії, виявленої волею збірної Ісландії, приголомшливою грою збірних Франції і Португалії. У цій статті ми попрацюємо з даними, побудуємо декілька графіків і відредагуємо їх у векторному редакторі Inkscape. Кому цікаво — прошу під кат.

Читати далі →

World of Tanks: від чого ж залежить вінрейт танків?

Сьогодні ми поговоримо про використання Wargaming API, побудуємо багато графіків і проаналізуємо, від чого ж залежить вінрейт танків. Відразу хочу відзначити, що я не гуру World of Tanks, і якщо я десь помилився, то напишіть будь-ласка в коментарях.
image
Читати далі →

Деякі репозиторії в допомогу тим, хто вивчає і викладає Python і машинне навчання



Привіт спільноті!

Я Юрій Кашницький, раніше робив тут огляд деяких MOOC з комп'ютерних наук і шукав «викиди» серед моделей Playboy.

Зараз я викладаю Python і машинне навчання на факультеті комп'ютерних наук НДУ ВШЕ і в онлайн-курсі співтовариства з аналізу даних MLClass, а також машинне навчання і аналіз великих даних в школі даних одного з російських телеком-операторів.

Чому б недільного вечора не поділитися з співтовариством матеріалами з Python і оглядом репозиторіїв за машинного навчання… В першій частині буде опис репозиторію GitHub з зошитами IPython з програмування на мові Python. У другій — огляд попалися мені класних репозиторіїв GitHub.

Читати далі →

Ваші запитання про Data Science

Привіт, хабр!

Ми перезапустили MLClass! — перше в Росії товариство прихильників Data Science

У зв'язку з цим, як і обіцяв у статті Ваш персональний курс за Big Data, викладаю відповіді на найбільш поширені питання, які виникають у людей, що цікавляться Data Science та Big Data. Відповіді надано кращими практиками аналізу даних: переможцями Kaggle, співробітниками багатьох компаній, які впроваджують у себе Big Data рішення і всіма, хто знає, що таке Data Science не з чуток. Варто відзначити, що з кожним днем все більше людей в Росії (а також в країнах СНД) цікавляться аналізом даних, проходить все більше змагань, хакатонов. Однак, досі навколо цієї теми існує велика кількість міфів, які я збираюся розвіяти в цьому пості!

Отже, я взяв близько 100 найпоширеніших питань, виділили з них найбільш обговорювані і прокоментував кожен із найбільш детально, щоб запитань більше не залишилося!

Читати далі →

Незвичайні моделі Playboy, або про виявлення викидів в даних c допомогою Scikit-learn

Мотивовану статті користувача BubaVV про передбачення ваги моделі Playboy за її формами та зростання, автор вирішив заглибитися if you now what I mean в цю чудову кров тему дослідження і в тих же даних знайти викиди, тобто особливо сисястые моделі, що виділяються на тлі інших своїми формами, зростанням або вагою. А на тлі цієї розминки почуття гумору заодно трохи розповісти починаючим дослідникам даних про виявлення викидів (outlier detection) і аномалій (anomaly detection) даних з допомогою реалізації однокласове машини опорних векторів (One-class Support Vector Machine) в бібліотеці Scikit-learn, написаної на мові Python.


Читати далі →