Дата інженер в очікуванні завдання на спарці.
За роки розробки Wrike у нас накопичилося багато розрізненої інформації про дії користувача. Ця інформація розкидана по декількох баз даних, логів, і зовнішніх сервісів, і нам, аналітикам, потрібно зібрати ці дані разом, знайти в них закономірності і знайти відповіді на вічні запитання SaaS'а:
  • Чому йдуть клієнти?
  • Які користувачі приносять нам гроші?
  • Як розвивати продукт далі?
Більшість завдань ми вирішуємо за допомогою SQL, але запити до логів через SQL — громіздкі і повільні. Їх можна використовувати для автоматики або докладної аналітики, але якщо потрібно щось швидко подивитися, на підготовку даних піде більше часу, ніж на аналіз.
Якщо дивитися доводиться багато і часто, це викликає біль, у цій статті ми розповімо, як її подолати і як отримати максимальну користь з отриманих даних.
Читати далі →

Фільтруємо події за категоріями в звіті «Карта Подій»

Колеги, сьогодні хочу надати вашій увазі матеріал, який я особисто шукав півроку тому. Тоді ж я пішов на Stackoverflow і спробував знайти рішення своєї проблеми, але рішення не отримав. Зараз я прийшов до висновку, що, раз знайшовся один такий товариш, якому потрібно було подібне рішення, то рано чи пізно з'являться інші.

Я хочу поговорити про фільтрі подій за категоріями звіті «Карти Подій» («Event Flow»).

Якщо ви працюєте з Google Analytics для великого сайту, високі шанси, що у вас налаштований трекінг величезної кількості подій. Як правило, коли ми маємо величезну хмару подій, вони розбиті за категоріями (іноді вони розбиваються красиво, іноді — не дуже). Розбивати події за категоріями, звичайно, хороший тон.

Читати далі →

Обговорення інструментів аналітики для роботи з великими даними в Пітері 14 вересня



14 вересня о 19:00 ми зустрінемося в офісі компанії Wrike, щоб обговорити інструменти аналітики і роботу з великими даними. Головну увагу ми приділимо успішним практикам та інструментів, розберемо конкретні кейси, поговоримо про побудову системи аналітики компанії, спробуємо дати конкретні поради і рекомендації. Експерти з задоволенням дадуть відповідь на ваші запитання.

Читати далі →

Spark Summit 2016: огляд і враження


У червні пройшло одне з найбільших заходів світу у сфері big data і data science — Spark Summit 2016 в Сан-Франциско. Конференція зібрала дві з половиною тисячі осіб, включаючи представників найбільших компаній (IBM, Intel, Apple, Netflix, Amazon, Baidu, Yahoo, Cloudera і так далі). Багато з них використовують Apache Spark, включаючи контриб'юторів в open source і вендорів власних розробок big data/data science на базі Apache Spark.
Ми Wrike активно використовуємо Spark для завдань аналітики, тому не могли упустити можливість з перших рук дізнатися, що нового відбувається на цьому ринку. З задоволенням ділимося своїми спостереженнями.
Читати далі →

Суміщений АВС і XYZ аналіз в Ритейлі

Колись давно власник магазину, він же продавець, міг легко запам'ятати всі товари свого асортименту. Розповісти про особливості кожного, історію, наскільки товар ефективний, знав точно як він продається, коли замовити ще…

З розвитком рітейлу управління рухом товарів вимагає інших підходів. Системи обліку і аналітики продажів, управління асортиментом доповнюють досвід працівників магазину або торговельної мережі.

Серйозні рішення, наприклад, про виведення товару з асортименту, приймаються не так просто. І категорийному менеджеру, і керуючого магазином потрібні для обґрунтування таких дій.

Тому одного виду аналізу недостатньо. Застосовують поєднання декількох видів (по-іншому, крос-аналіз).

У статті ми на прикладі товарної групи Кондитерських виробів" розглянемо основні підходи до організації крос-аналізу. А ще дізнаємося, хто винен у тому, що Рафаелло — товар з нестабільними продажами.


Читати далі →

Кейс “Візуалізація. У чому вигода для рітейлера?"

Кожен день рітейлер оперує інформацією про продажі по магазинах, категоріях товару, ціни. І здається, що цих даних достатньо для того, щоб бути в курсі того, що відбувається в магазині або мережі. Чи це Так?

Аналізувати великі масиви даних ритейлеру важко. Великі таблиці показують динаміки і залежностей. Візуалізація ж навпаки — дозволяє відразу побачити динаміку процесів, взаємозв'язок між ними. Кілька показників можна порівнювати одночасно, тут же визначати, як вони впливають один на одного, наприклад, як зміна ціни впливає на обіг і на кількість продажів, як варіюється зміна середнього чека з кількістю чеків та їх обігом і так далі.



Читати далі →

Data Science: шлях до професіоналізму

Привіт всі!

На хвилі безперервних дискусій про Hadoop і інших великих даних ми не могли пройти повз чудової публікації Джеррі Овертон, що розповідає про професійному підході до аналізу великих даних в компаніях будь-якого розміру. Зрозумілі картинки, надані автором, а також короткий парад технологій, без яких сучасного Data scientist'у не обійтися. Тому нехай стаття починається з (помилковою!) посилки: «Не читайте книги по Data Science», вона заслуговує публікації в блозі нашого видавництва.

Якщо серед шановних читачів знайдуться ті, хто захоче обговорити Hadoop і інші технології з його екосистеми, а також літературу за специфічними алгоритмами, порушених автором — давайте поговоримо про це в коментарях.

Читати далі →

У чому різниця між наукою про даних, аналізом даних, великими даними, аналітикою, дата майнингом і машинним навчанням

Останнім часом слово big data звучить звідусіль і в деякому роді це поняття стало мейнстрімом. З великими даними тісно пов'язані такі терміни як наука про даних (data science), аналіз даних (data analysis), аналітика даних (data analytics), збір даних (data mining) і машинне навчання (machine learning).

Чому всі стали так схиблені на великих даних і що значать всі ці слова?

image

Читати далі →

5 інструментів в допомогу аналітику

Даних стає все більше і більше, тому зараз як ніколи важливо мати необхідний інструментарій для аналізу даних і прийняття рішень. Сьогодні ми поговоримо про п'яти популярних аналітичних системах.



Зміст
  1. MS Excel Power Query
  2. MS Power BI
  3. Pyramid Analytics
  4. Компоненти аналітики MS SQL server (MDS, SSIS, SSAS)
  5. Головний інструмент аналітика

Читати далі →

Що таке Business Intelligence

Існує величезна кількість термінів: аналітика, data mining, аналіз даних, business intelligence і різниця між ними не завжди настільки очевидна навіть для людей, які з цим пов'язані. Сьогодні ми розповімо про те, що ж таке Business Intelligence (BI) доступною і зрозумілою мовою. Тема безумовна величезна і її не покрити лише однією короткою статтею, але наше завдання — допомогти зробити перший крок і зацікавити читача темою. Зацікавлений ж читач також знайде вичерпний список для подальших кроків.

Структура статті
  1. Навіщо все це потрібно: з життя аналітика
  2. У чому завдання: проблема на рівні компанії
  3. Узагальнюємо завдання: все це ланки одного ланцюга
  4. Велика інфографіка
  5. З чим можна експериментувати
  6. Що почитати? Must read за Business Intelligence


Навіщо все це потрібно: з життя аналітика

(кликабельно)

Читати далі →