Якийсь час тому я написав статтю на Хабре. В ній же пообіцяв продовження через пару тижнів. Але, як відомо, обіцяного три роки чекають — і з тих пір дійсно пройшло три роки. Якщо ви не запам'ятали з часів тої статті, то нагадаю — я працюю в Avito, строю сховище на основі Vertica.
З того, що змінилося — тепер я можу не просто написати статтю, а зробити це в блозі компанії. І, сподіваюся, не один раз. Самопіар закінчено, тепер до справи.



Читати далі →

Порівняння продуктивності аналітичних СУБД HPE Vertica і Exasol з використанням TPC-H Benchmark

У цій статті я хочу продовжити тему порівняння баз даних, які можна використовувати для побудови сховища даних (DWH) та аналітики. Раніше я описав результати тестів для Oracle In-Memory Option In-Memory RDBMS Exasol. У цій статті основну увагу буде приділено СУБД Vertica. Для всіх описаних тестів використовувалися tpc-h benchmark на невеликому обсязі вихідних даних (2 Гб) і конфігурація БД на одному вузлі. Ці обмеження дозволили мені багаторазово повторити бенчмарк в різних варіаціях і з різними налаштуваннями. Для вибору аналітичної СУБД під конкретний проект закликаю читачів проводити випробування на своїх кейсах (дані, запити, обладнання та інші особливості).

Читати далі →

Боремося з навантаженнями в HPE Vertica

Типовий сценарій роботи «just in time» сховища даних виглядає так: десятки (ETL) сесій майже безперервно захоплюють з джерел дані і вставляють їх у сховище. Паралельно безліч інших (ELT) сесій відстежують надходження даних, заповнюють консолідований шар і ведуть розрахунок агрегатів і вітрин. Одночасно з цим, на вступників первинних і розрахованих даних, виконують запити користувачі, BI та інші системи. Вся ця каша повинна гаразд варитися в рамках сервера сховищ даних, без гальм і затыков, якими б не були пікові навантаження.

У HPE Vertica для планування роботи сервера під навантаженнями розроблений спеціальний механізм, під назвою «ресурсні пули». Ідея його в тому, що кожен користувач сервера працює в рамках виділеного ресурсного пулу, який регулює пріоритетність доступу до ресурсів кластера, обмежує конкурентність виконання запитів і описує правила резервування та роботи з пам'яттю сервера.

За замовчуванням після установки сервера Vertica на створеній базі даних це виглядає приблизно так:



Читати далі →

СУБД епохи Інтернету речей

Унікальна за своїми можливостями СУБД HPE Vertica легко справляється з обробкою даних не тільки бізнес-транзакцій, але також межмашинного взаємодії та Інтернету речей, дозволяючи керувати світом розумних пристроїв у реальному часі.



Глобальна економіка входить в епоху Інтернету речей і масового межмашинного взаємодії. Це означає, зазначає Девід Джонс, старший віце-президент і генеральний директор бізнес-підрозділу HPE по керуванню інформацією і її організації, що вже скоро, приблизно до 2020 року, по всьому світу доведеться обробляти дані від 50 мільярдів смарт-пристроїв, одного трильйона додатків ― всього близько 44 Збайт. Немає сумнівів, що колишні СУБД, орієнтовані на обробку транзакційних даних, що циркулюють в традиційних бізнес-додатках, не впораються з таким навантаженням. На зміну їм приходять СУБД нового покоління, спочатку розраховані на роботу з великими обсягами і потоками даних. Одна з них ― HPE Vertica, здатна аналізувати в реальному часі величезні обсяги інформації, одержуваної від усіляких «генераторів» даних — не тільки традиційних транзакційних систем, але також датчиків і пристроїв Інтернету речей, систем межмашинного взаємодії, АСУТП, веб-сайтів та інших джерел.

Читати далі →

Big Data головного мозку

Напевно, у світі немає даних подібного феномена настільки неоднозначного розуміння того, що ж таке Hadoop. Ні один подібний продукт не оповитий такою великою кількістю міфів, легенд, а головне нерозуміння з боку користувачів. Не менш загадковим і суперечливим є термін "Big Data", який іноді хочеться писати жовтим шрифтом(спасибі маркетологам), а вимовляти з особливим пафосом. Про цих двох поняттях — Hadoop і Big Data я б хотів поділитися з співтовариством, а можливо і розвести невеликою холівар.
Можливо стаття когось образить, кого-то посміхнеться, але я сподіваюся, що не залишить нікого байдужим.
image
Демонстрація Hadoop користувачам
Читати далі →

HP Software — сучасний підхід до побудови системи моніторингу ІТ та бізнес-сервісів



Рішення НР software дозволяють побачити рідкісні проблеми мережі, мережні баги, які чреваті наслідками. Ми можемо побачити всі події, куди вони можуть вести, якими викликані змінами і т. д., — програма сама зіставляє ці події і показує слабкі і проблемні місця мережі. З допомогою цих інструментів ми можемо побачити мережеву проблему ще до її переходу в критичну фазу.

Про те, як рішення НР Software по аналітиці дозволяє виявити приховані проблеми мережі і бізнес-додатків і багато іншого, під катом
Читати далі →

HP Vertica, проектування сховища даних, великих даних

    
Про що стаття
Непомітно пролетів рік, як почалися роботи з розробки та впровадження сховища даних на платформі вертик.
На Хабре вже є статті про саму СУБД Вертік, особливо рекомендую цю: HP Vertica, перший запущений проект в РФ , адже її автор дуже допоміг нам на початковому етапі. Олексій, спасибі ще раз.
Хотілося б розповісти про те, яка методологія застосовувалася для проектування фізичної структури сховища, щоб найбільш повно використовувати можливості HP Vertica.
Цю статтю хотів би посвітити обгрунтуванню оптимальності обраної методології, а в наступній — розповісти про те, які техніки дозволяють аналізувати дані, що містять десятки млрд. рядків, нешвидко, а дуже швидко.
 
 
Постановка завдання
Розглянемо високонавантажених сайт великої російської інтернет-компанії (входить в топ 10 сайтів рунету за кількістю унікальних користувачів за даними LiveInternet і Google Analytics).
Діяльність компанії описується такими цифрами: ~ 10 млн. активних користувачів, ~ 100 млн. переглядів сторінок на день, близько 1 тис. нових об'єктів, розміщених користувачами на сайті протягом 1 хвилини, ~ 10 тис. пошукових запитів користувачів на хвилину.
Груба оцінка кількості дій, що підлягають збереженню в сховище, становить 100 млн. нових записів на добу (~ 100 GB нових даних на добу).
Тобто при побудові класичного сховища даних з відмовою від стирання надійшли раніше даних, обсяг сховища через 3 місяці експлуатації складе 10TB сирих даних. Big Data як вона є.
Потрібно побудувати сховище, яке зберігало б не менше 6 місяців даних, дозволяло їх аналізувати, візуалізувати, і відставало б від реального життя настільки мало, наскільки це можливо (в гіршому випадку — відставало б на день, в кращому — на хвилини).
Виносячи відразу за дужки питання вибору платформи — сховище має працювати на HP Vertica, MPP базі колоночного зберігання, см. вступну статтю в заголовку.
 
Читати далі →