Привіт усім, хто почав проходити курс! Нові учасники, ласкаво просимо! Друге заняття присвячене візуалізації даних в Python. Спочатку ми подивимося на основні методи бібліотек Seaborn і Plotly, потім поанализируем знайомий нам по першої статті набір даних по відтоку клієнтів телеком-оператора.
Нагадаємо, що до курсу ще можна підключитися, дедлайн по 1 домашнього завдання – 6 березня 23:59.
стаття вже буде істотно довше. Готові? Поїхали!

Читати далі →

Останні досягнення в розпізнаванні образів вражають. Досить пригадати результати змагань на базі ImageNet. Відразу ж виникає питання, що далі? Як ми можемо використовувати отримані здобутки?

Щось важливе почалося, коли Fei-Fei стартувала ImageNet проект. Схоже на революцію.

Читати далі →

Старт відкритого курсу OpenDataScience
Привіт всім, хто чекав запуску відкритого курсу щодо практичного аналізу даних і машинного навчання!


Перша стаття присвячена первинного аналізу даних з Pandas.
Поки в серії планується 7 статей, які йдуть разом з зошитами Jupyter (репозиторій mlcourse_open), змаганнями і домашніми завданнями.
Далі йде список майбутніх статей, опис курсу і власне, перша тема – введення в Pandas.
Читати далі →

image

Протягом декількох років активісти і любителі відкритих даних в заздалегідь узгоджений день проводять більше сотні заходів різних форматів в різних містах і країнах. В цьому році таким днем стало 4 березня, на яке вже заплановано 145 заходів в десятці країн. Одним з них буде День відкритих даних в Москві (для участі потрібно зареєструватися), для якого ми підготували багато цікавого: від нових масивів даних, які можна використовувати на хакатоне, до майстер-класів і лекцій не тільки за звичним для нас держфінансів, але і по бізнес-моделям проектів, що використовують відкриті дані, або з етики використання великих даних.

Читати далі →

Як отримувати п'ятірки за допомогою аналізу даних?


Привіт, Хабр! Я впевнений, що серед нас є багато студентів і, напевно, всі з них визнають, що на своєму студентському шляху зустрічали такі науки, про граніт яких можна зламати зуби. Ось тому хочу вам розповісти про те, як хобі — наука про даних, допомогло мені здати один з найскладніших предметів у семестрі на п'ятірку. Якщо вам цікаво — прошу під кат.

Читати далі →

Аналіз статей Хабрахабр і Geektimes



Спочатку була ідея зібрати частотний словник слів Хабрахабр і Geektimes, але потім знайшла прекрасне: Детальний аналіз Хабрахабра з допомогою мови Wolfram Language (Mathematica) (перед переглядом цієї статті рекомендую пройти за посиланням), побачила різницю в результатах і вирішила зробити подібне для статей з Хабрахабр і Geektimes. В огляд не потрапили статті з подкастами та нестандартним оформленням (habrahabr.ru/article). Вийшов аналіз 170000 статей. Всі зображення клікабельні. Код Wolfram Notebook на github. Датасет на Яндекс.Диску.

Читати далі →

Малюємо коммитами на Гітхабі

[П'ятничне]
Завжди хотів зробити свій графік активності профілю користувача на Гітхабі. Наприклад, викладати коміти кожен день так, щоб через рік цей графік перетворився в якусь картинку, нехай і з обмеженням за розмірами в 52×7 квадратиків-пікселів (52 тижні в році × 7 днів у тижні).
Проблема була в тому, що навіть при повній автоматизації процесу все одно чекати цілий рік. А тут я почитав документацію Гитхаба і зрозумів, що завдання вирішується простіше і більш того — за один раз. А значить, треба робити не відкладаючи. Зазвичай назви проектів придумувати складно, але тут воно прийшло саме. Кай малював крижинками, а Герда малює коммитами!
Графік комітів на Гітхабі у вигляді картинки
Читати далі →

Середнє арифметичне: фізичний сенс і візуалізація

Змінна величина – атрибут (властивість) системи, який змінює своє числове значення. Безліч значень змінної величини може мати вигляд:
65, 59, 62, 63, ...

Людина аналізує числові дані такого роду і приймає рішення. Знання температури повітря допомагає правильно одягнутися. Курс валюти говорить купувати її чи продавати.
Коли одне або кілька значень, то ніяких труднощів не виникає. Але коли значень десятки або сотні, то людині складно відразу зрозуміти, що означають отримані дані. На допомогу приходять інтегральні характеристики множин значень і візуалізація.
Одна з інтегральних характеристик безлічі значень змінної величини – середнє арифметичне. Подивимося на нього з точки зору статистики, фізики (механіки) і естетики.
Три точки зору на числові дані

Читати далі →

8 бібліотек JavaScript для візуалізації даних у вигляді інтерактивних карт

Візуалізація даних стала невід'ємною частиною життя практично кожного веб-розробника. Якщо побудова графіків, діаграм, карт і дашбордов досі ніколи не були вашої головним болем, просто трохи зачекайте: напевно і ви вступите в наш «клуб».

Дана стаття дає загальне, але залучене уявлення про восьми найбільш цікавих, на мій погляд, JavaScript-бібліотеки для побудови інтерактивних геовизуализаций. В цілому, таких рішень зараз багато, і вибрати оптимальне під той чи інший конкретний проект – завдання деколи непроста як мінімум по часу. Цією публікацією я спробую хоча б трохи полегшити життя тим, хто тільки починає розбиратися в даній темі. До речі, це дещо модифікований переклад моєї недавньої статті на Onextrapixel (оригінал англійською).

Заголовна картинка: візуалізація даних за допомогою інтерактивних карт
Читати далі →

Інтерактивна таблиця результатів

Дивлячись на таблицю результатів футбольного сезону, я часто задаюся запитаннями:

  • Лідирувала команда з початку сезону або здійснила героїчний ривок в кінці?
  • Як зимове трансферне вікно вплинуло на результати?
  • Догравали чи сезон команди в середині таблиці або грали в повну силу?
Статична таблиця не дає відповідей.

Пошуки вдалою візуалізації сезону на просторах інтернету закінчилися безуспішно, тому я почав експериментувати сам.

Графіки або швидко втрачали читаність із зростанням кількістю команд, або вимагали нетривіальною концентрації при першому контакті. В результаті, все закінчилося тим, з чого почалося — таблицею. Точніше, скриптом, який перетворює результати сезону в інтерактивну таблицю. Можна подивитися результати після кожного туру або просто натиснути на replay і спостерігати, як команди плавають вгору і вниз по таблиці:

image
Жива демонстрація

Читати далі →