Дата інженер в очікуванні завдання на спарці.
За роки розробки Wrike у нас накопичилося багато розрізненої інформації про дії користувача. Ця інформація розкидана по декількох баз даних, логів, і зовнішніх сервісів, і нам, аналітикам, потрібно зібрати ці дані разом, знайти в них закономірності і знайти відповіді на вічні запитання SaaS'а:
  • Чому йдуть клієнти?
  • Які користувачі приносять нам гроші?
  • Як розвивати продукт далі?
Більшість завдань ми вирішуємо за допомогою SQL, але запити до логів через SQL — громіздкі і повільні. Їх можна використовувати для автоматики або докладної аналітики, але якщо потрібно щось швидко подивитися, на підготовку даних піде більше часу, ніж на аналіз.
Якщо дивитися доводиться багато і часто, це викликає біль, у цій статті ми розповімо, як її подолати і як отримати максимальну користь з отриманих даних.
Читати далі →

Порівняння продуктивності аналітичних СУБД HPE Vertica і Exasol з використанням TPC-H Benchmark

У цій статті я хочу продовжити тему порівняння баз даних, які можна використовувати для побудови сховища даних (DWH) та аналітики. Раніше я описав результати тестів для Oracle In-Memory Option In-Memory RDBMS Exasol. У цій статті основну увагу буде приділено СУБД Vertica. Для всіх описаних тестів використовувалися tpc-h benchmark на невеликому обсязі вихідних даних (2 Гб) і конфігурація БД на одному вузлі. Ці обмеження дозволили мені багаторазово повторити бенчмарк в різних варіаціях і з різними налаштуваннями. Для вибору аналітичної СУБД під конкретний проект закликаю читачів проводити випробування на своїх кейсах (дані, запити, обладнання та інші особливості).

Читати далі →