Привіт усім, хто почав проходити курс! Нові учасники, ласкаво просимо! Друге заняття присвячене візуалізації даних в Python. Спочатку ми подивимося на основні методи бібліотек Seaborn і Plotly, потім поанализируем знайомий нам по першої статті набір даних по відтоку клієнтів телеком-оператора.
Нагадаємо, що до курсу ще можна підключитися, дедлайн по 1 домашнього завдання – 6 березня 23:59.
стаття вже буде істотно довше. Готові? Поїхали!

Читати далі →

Добрий день! Це другий дайджест матеріалів за машинного навчання та аналізу даних. Незважаючи на свята, на цьому тижні було багато цікавого.
image
Події майбутнього тижня
1. imageСемінар СМиГО: Multi-Class Classification: How to Deal with Multi-class Huge Scale Problems Efficiently? 28 лютого.
2. imageData science сніданок. 1 березня.
3. imageSuperjob Data Science Meetup. 2 березня.
4. imageOpen & Big Data Hackathon 2017. р. Санкт-Петербург. 3 березня.
5. imageData Science Weekend. 3 березня.
6. imageMoscow Data Science meetup. 3 березня.
7. imageДень відкритих даних в Москві. 4 березня.

Навчальні курси, конференції
1. imageНа Физтехе стартує курс «Додаткові глави машинного навчання».
2. imageML-тренування. DeepHack RL, Avito BI. Відео.
3. imageДіалогові інтерфейси: проблеми і виклики. Відео.
4. imageNIPS 2016 Workshop on Adversarial Training. Груднева конференція в Барселоні. Відео.
5. imageDeep Learning Summer School and Punishment Learning Summer School.

Читати далі →

Як отримувати п'ятірки за допомогою аналізу даних?


Привіт, Хабр! Я впевнений, що серед нас є багато студентів і, напевно, всі з них визнають, що на своєму студентському шляху зустрічали такі науки, про граніт яких можна зламати зуби. Ось тому хочу вам розповісти про те, як хобі — наука про даних, допомогло мені здати один з найскладніших предметів у семестрі на п'ятірку. Якщо вам цікаво — прошу під кат.

Читати далі →

Що в імені тобі моєму: як якісно «пробити» людини в Інтернет?

Ми постійно зустрічаємося в житті з новими людьми, і варто констатувати, що крім гарних друзів нам попадаються каламутні товариші, а іноді і затяті шахраї. Любов наших співгромадян залишити свій слід в інтернет і старання наших ІТ-компаній по автоматизації всього і вся дозволяють нам досить оперативно збирати цікаву інформацію про конкретних персон з відкритих джерел. Щоб це робити швидко і якісно, нам потрібно володіти простий методологією розвідувальної роботи і знати, де і яку інформацію про людину можна добути в Інтернет.

Читати далі →

Школа Даних «Білайн»: з Наступаючим



Отже, закінчується 2016 рік. Для нас він був дуже активним. Було 6 випусків нашої курсу для аналітиків, 5 випусків курсу для менеджерів (Data-MBA). Ми запустили курс в Санкт-Петербурзі та вже провели перший випуск. У партнерстві ми також навчали студентів Вищої Школи Економіки і Російської Економічної Школи, проводили майстер-класи в Сколково, брали участь у десятках хакатонов по всій країні, консультували провідні компанії щодо застосування аналітики і монетизації даних. В цьому році один з наших викладачів став першим у світі в рейтингу Kaggle.

Читати далі →

Обчислюємо контент, який в майбутньому стане вірусним

У даній статті буде описано тільки загальний алгоритм на прикладі Facebook. Однак такий же підхід можна використовувати всюди.

Завдання
На основі існуючого контенту (за останні 30 днів) на даній сторінці Facebook визначити які записи потенційно будуть більш популярними.

Читати далі →

Як добре подати результати якісного дослідження: метод тематичних мереж (+ аналіз ATS як приклад)



Більшість статей і виступів про якісні дослідження присвячені методам збору інформації. Але чарівність якісних методів в маркетингових та UX-дослідженнях зникає на етапі аналізу та представлення результатів. Цю непросту задачу дослідники вирішують по-різному. Іноді заради швидкого результату, або через незнання вони порушують методологію якісних досліджень, чому робота виглядає непрофесійно і не викликає довіри.

У статті розглянемо один з методів якісного аналізу – Метод тематичних мереж:
— обговоримо часті помилки якісних досліджень і згадаємо «кальсонных гномів»;
— розберемо покроковий алгоритм методу і його можливі пастки;
— застосуємо метод до аналізу ІТ-продукту і намалюємо тематичну карту.
Стаття буде цікава:
— дослідникам;
— менеджерам продуктів і маркетологам;
— тим, хто використовує в роботі результати досліджень;
— тим, хто давно шукав зручний метод структурування нецифровому інформації.

Читати далі →

Система звітів: як отримувати 50 млн. звітів і зберегти Дзен



Чим складніше програмний продукт, чим більше він взаємодіє зі сторонніми системами (часто не менш складними), тим вище вірогідність збоїв в роботі. Тестування допомагає знайти більшість багів перед выкатыванием релізу, але іноді что-то може прослизнути. І щоб швидко отримувати детальну інформацію про факт збою і супутніх умовах, в наших продуктах широко використовується система звітів. Про її устрій ми хочемо сьогодні розповісти.
Читати далі →

Проекти школи GoTo: рекомендаційна система для новинного порталу


У рамках кожної школи школи GoTo відбувається багато активностей, школярами реалізуються десятки вдалих і не дуже проектів. На жаль, нам не вдається розповісти про кожен проект або подію, але спробувати поділитися окремими успіхами стоїть. Тому ми і розпочинаємо цикл статей від учнів про свої успіхи і проектах в рамках наших шкіл.
Цього літа один із партнерів – компанія E-Contenta – запропонувала завдання створення рекомендаційної системи новинного порталу одного з телеканалів. Хлопці з компанії викладали на напрямку Аналіз даних і машинне навчання, так і завдання всім здалася досить цікавою – крім реальної необхідності такого роду розробок, завдання була ще і досить унікальною – методи рекомендації новин в більшості відрізняються від методів рекомендації, припустимо, фільмів.
За її рішення взялися 2 учня червневої школи: 16-річний Сирків Андрій з Москви і 14-річний Всеволод Жидков з Воткінска. Вони ж і підготували короткий опис задачі і її рішення, яке ми публікуємо у цій статті під катом.

Читати далі →

Знання – сила: аналізуємо продуктову статистику і не втрачаємо клієнтів на дорозі прогресу

imageВсім привіт! Сьогодні ми поговоримо про те, навіщо потрібна статистика використання продукту, крім очевидної користі в справі перевірки ліцензійних обмежень і побудови адекватних тестів для наступних релізів продукту. Предметом розповіді стане наш недавній досвід.

Зовсім скоро відбудеться реліз нової версії хостингової панелі Plesk під назвою Plesk Onyx. Починаючи з цієї версії Plesk припиняє підтримку 32-бітної архітектури. Рішення про це було прийнято після розгляду кількох ключових аспектів. Індустрія розробки поступово рухається до повсюдного переходу на 64-бітні складання. Багато виробників софту вже відмовилися від 32-бітної версії своїх продуктів, і нові кроки в цьому напрямку відбуваються безперервно. Дистрибутив RHEL 7, використовуваний в якості основи CentOS, випускається тільки для 64-розрядних систем – а між тим CentOS є однією з найпопулярніших серед користувачів Plesk операційних систем. Крім того, прихильники 32-розрядних ОС позбавляють себе можливості скористатися такою функціональністю Plesk, як робота з Docker і MongoDB, в силу того, що ці продукти можуть бути встановлені тільки на 64-розрядні операційні системи.

Однак ринок B2B2C, на який орієнтований Plesk, в силу своєї специфіки досить інертний, тому виглядає доцільним дати всій цій довгому ланцюжку шанс зорієнтуватися і плавно переїхати з одного архітектури на іншу. Для цього ми вирішили адресно сповістити тих з наших клієнтів, чий бізнес може бути найбільшою мірою торкнуться майбутніми змінами.

Окей, гугл – як зрозуміти, кого саме необхідно сповістити? «Відгукніться, динозаври!» Без статистики використання продукту тут не впоратися, але щоб отримати з неї щось виразне, доведеться потрудитися.
Читати далі →