Введення:
У цій статті мова піде про роботу з Microsoft Analysis Services і трохи про сховище Microsoft SQL Server, з яким AS працює. Мені довелося зіткнутися з не зовсім тривіальними речами і деколи доводилося стрибати через голову" заради того, щоб зробити те, що від мене хочуть. Працювати доводилося в перервах між нарадами. Деколи новий функціонал обговорювалося довше, ніж розроблявся. Часто на нарадах, за кілька разів, доводилося розповідати одне і теж. Коли я сказав, що мені складно радитися довше однієї години, на мене подивилися з подивом і нерозумінням. Багато в чому, завдяки такій обстановці і з'явилися ці, не зовсім тривіальні речі, про які я вирішив написати.

Читати далі →


Привіт усім, хто почав проходити курс! Нові учасники, ласкаво просимо! Друге заняття присвячене візуалізації даних в Python. Спочатку ми подивимося на основні методи бібліотек Seaborn і Plotly, потім поанализируем знайомий нам по першої статті набір даних по відтоку клієнтів телеком-оператора.
Нагадаємо, що до курсу ще можна підключитися, дедлайн по 1 домашнього завдання – 6 березня 23:59.
стаття вже буде істотно довше. Готові? Поїхали!

Читати далі →

Спеціально для тих, хто не встиг зареєструватися на Superjob Data Science Meetup, ми організуємо пряму трансляцію події на Youtube або Facebook.

Початок у 19:00 за московським часом.
image

Читати далі →

Досить часто enterprise завдання з обробки даних зачіпають дані, які супроводжуються тимчасовою міткою. В R такі мітки, зазвичай зберігаються як клас
POSIXct
. Вибір методів роботи з таким типом даних за принципом аналогії може привести до великого розчарування і переконання про крайню повільності R. Хоча якщо поглянути на цю трохи пильніше, то виявляється, що справа не зовсім в R, а в руках і голові.
Нижче торкнуся пару кейсів, які зустрілися в цьому місяці і можливі варіанти їх вирішення. В ході вирішення з'являються дуже цікаві питання. Заодно згадаю інструменти, які виявляються дуже корисними для вирішення подібних завдань. Практика показала, що про їхнє існування знають небагато.

Читати далі →

Старт відкритого курсу OpenDataScience
Привіт всім, хто чекав запуску відкритого курсу щодо практичного аналізу даних і машинного навчання!


Перша стаття присвячена первинного аналізу даних з Pandas.
Поки в серії планується 7 статей, які йдуть разом з зошитами Jupyter (репозиторій mlcourse_open), змаганнями і домашніми завданнями.
Далі йде список майбутніх статей, опис курсу і власне, перша тема – введення в Pandas.
Читати далі →


Дата інженер в очікуванні завдання на спарці.
За роки розробки Wrike у нас накопичилося багато розрізненої інформації про дії користувача. Ця інформація розкидана по декількох баз даних, логів, і зовнішніх сервісів, і нам, аналітикам, потрібно зібрати ці дані разом, знайти в них закономірності і знайти відповіді на вічні запитання SaaS'а:
  • Чому йдуть клієнти?
  • Які користувачі приносять нам гроші?
  • Як розвивати продукт далі?
Більшість завдань ми вирішуємо за допомогою SQL, але запити до логів через SQL — громіздкі і повільні. Їх можна використовувати для автоматики або докладної аналітики, але якщо потрібно щось швидко подивитися, на підготовку даних піде більше часу, ніж на аналіз.
Якщо дивитися доводиться багато і часто, це викликає біль, у цій статті ми розповімо, як її подолати і як отримати максимальну користь з отриманих даних.
Читати далі →

Хабр, привіт! У сучасному машинному навчанні та науці про даних можна виділити кілька трендів. Перш за все, це глибоке навчання: розпізнавання зображень, аудіо та відео, обробка текстів на природних мовах. Ще одним трендом стає навчання з підкріпленням — reinforcement learning, що дозволяє алгоритмам успішно грати в комп'ютерні і настільні ігри, і дає можливість постійно поліпшувати побудовані моделі на основі відгуку зовнішнього середовища.

Є і ще один тренд, менш помітний, так як його результати для зовнішніх спостерігачів виглядають не так вражаюче, але не менш важливе — автоматизація машинного навчання. У зв'язку з його стрімким розвитком знову актуальним стає питання про те, чи не будуть data scientist'и зрештою автоматизовані і витіснені штучним інтелектом.

Читати далі →

Незважаючи на те, що завдання рядового бізнесу дуже часто далекі від популярної теми великих даних і машинного навчання і часто пов'язані з обробкою щодо малих обсягів інформації [десятки мегабайт — десятки гігабайт], розмазаний в довільних уявленнях з різних видів джерел, застосування R в якості основного інструменту дозволяє легко і елегантно автоматизувати і прискорити ці завдання.
І, природно, після проведення аналізу необхідно все це презентувати, для чого можна з успіхом використовувати Shiny. Далі я наведу ряд трюків і підходів, які можуть допомогти в цій завданнях. Упевнений, що будь-який практикуючий аналітик зможе легко додати свої хитрощі, все залежить від розв'язуваного класу завдань.

Читати далі →

Superjob запрошує на Data Science Meetup. Зустрічаємося 2 березня в нашому офісі на Малій Дмитрівці.

image

Теми та спікери:

  • «Застосування алгоритмів пошуку нечітких дублікатів в пошуку вакансій»
Дмитро Кожокарь, старший розробник Superjob, розповість про досвід створення ефективного алгоритму пошуку нечітких дублікатів серед великої кількості напівструктурованих текстових записів. У доповіді розглядається використання функції з сімейства locality-sensitive hashing з додатковими оптимизациями для виявлення схожих вакансій і подальшого об'єднання їх у кластери.

Читати далі →