(Таджикистан) HP Vertica: СУБД для аналізу «великих даних»

Одна з проблем сучасного бізнесу це надлишок даних з різних сховищ, баз, файлових серверів та ін. разбросанно величезну кількість інформації. Інформації багато, але рішення треба приймати оперативно.

Інструменти роботи з такими великими даними не встигають за їх зростанням. Серед таких проблем:
— висока частка ручної праці,
— неможливість реалізувати аналіз в режимі реального часу,
— низька точність пошуку і відсутність узгодженості,
— неефективна обробка неструктурованої інформації.

Рішенням може стати спеціалізована база даних HP Vertica, призначена для аналізу великих даних в режимі реал-тайм, працюючи набагато швидше, ніж традиційні СУБД.

Робота з даними
HP Vertica показує кращі результати по зберіганню і стисненню даних, із-за того що використовує стовпці замість рядків. Використання кластерних технологій дозволяє лінійно збільшити продуктивність системи, підключаючи більше ресурсів «на льоту», знижуючи обсяг зберігання і скорочуючи час пошуку. Зберігання даних за рядками дає можливість зчитувати з дисків не всю запис, а тільки потрібні поля, які беруть участь у запиті.

Стискання даних у стовпцях проводиться за рахунок запису числа повторень разом зі значенням поля, дельта-кодування послідовних значень і стиснення LZO Lempel-Ziv-Oberhumer для стовпців з великою кількістю унікальних значень і неотсортированных колонок. Крім того, застосовуються спеціальні алгоритми компресії для чисел у форматі з плаваючою комою, дат і ряду інших типів полів. Все це дозволяє забезпечити ступінь стиснення інформації понад 90 %. Важливим аспектом є можливість у більшості випадків виконувати операції з даними без декодування, що не тільки зменшує необхідний обсяг сховища і число звернень до дисків, але і знижує навантаження на процесори і пам'ять.



Прискорення обробки великої кількості паралельних запитів здійснюється за рахунок використання різних порядків сортування в різних копіях стовпців в різних проекціях, вибираються автоматично.

Агресивна компресія дозволяє зберігати безліч копій одних і тих же колонок в різних «проекціях» бази даних, які являють собою набори стовпців, що утримуються разом. Можливо зберігання не тільки різних копій на різних дисках, але і поділ «проекції» за значенням одного з полів на сегменти, розташовані і обрабатывающиеся на різних машинах.

Для роботи з уже накопиченими даними Vertica підтримує SQL і обладнана стандартним SQL-інтерфейсом (ANSI SQL-99), що мають розширення для роботи з аналітичними запитами. Платформа сумісна з механізмами очищення даних і складання звітності, а також з рішеннями бізнес-аналітики компаній Cognos, Informatica, Business Objects і SAS. Це полегшує перенесення баз даних і використання інших аналітичних програм, що мають стандартний SQL-інтерфейс, коннектори ODBC, JDBC або ADO.NET.



Аналітичний «кран»
У серпні 2014 року вийшла значна оновлена версія HP Vertica 7.1, отримала продовження традиції великого будівництва назва Dragline — «Скребковий екскаватор». Основним нововведенням цієї версії стали:
— підтримка прямої роботи з неструктурованими даними,
— аналіз текстів,
— гео-просторова аналітика,
— покращене управління робочим навантаженням,
— підтримка проекцій-агрегатів і багато іншого.

У HP Vertica 7 реалізована спеціальна область зберігання і обробки неструктурованих даних Flex Zone. Вона дає можливість створювати Flex-таблиці, завантажувати в них інформацію з файлів CSV, JSON та інших виконувати до них запити, поєднуючи ці дані в запитах з реляційними таблицями Vertica. Дані у цих таблицях зберігаються на вузлах кластера в спеціальному форматі, але за тими ж принципами, що і реляційні дані БД. До неструктурованих даних можливе застосування стиснення, віддзеркалення і сегментування.

Перевага Flex Zone полягає в тому, що вона не є зовнішнім рішенням, інтегрованим з Vertica, а являє собою реалізацію нативної підтримки неструктурованих даних. Це дає гарантію швидкості роботи при комбінованій обробці в запитах з використанням таблиць структурованих і неструктурованих даних.



Можливості кластеризації
Відмовостійкість HP Vertica забезпечується спеціальним механізмом створення копій даних (K-Safety). Механізм гарантує максимально доступний рівень відмовостійкості в режимі 24х7х365. Кластер здатний без зупинки виконання запитів витримати збої декількох вузлів. Основний сегмент даних і його копія зберігаються на вузлах кластера. При відмові будь-яких вузлів система продовжує функціонувати, використовуючи копії сегментів Доступ до цих даних здійснюється автоматично. Для заміни несправного вузла вихідні дані відновлюються за копіями сегментів, які зберігаються на працездатних вузлах.

Крім цього, кластеризація дозволяє пропорційно збільшити продуктивність і забезпечити не лише короткі, але і відмовостійкість. Оскільки кластер не містить поділюваних ресурсів, то не витрачається час на очікування їх блокувань і, отже, немає необхідності в засобах управління розподіленими блокуваннями. Архітектура Vertica передбачає також відмова від ведення журналів, оскільки журналювання часто стає вузьким місцем при завантаженні даних. Замість цього в системі реалізована підтримка безлічі копій колонок на різних вузлах кластера.

Так як найчастіше необхідна аналітика в реальному часі, в Vertica передбачений спеціальний механізм безперервної завантаження даних без зниження швидкості читання. Запис даних ведеться в спеціальну область оперативної пам'яті WOS (Write Optimized Store), а читання відбувається з дисків — з області зберігання типу ROS (Read Optimized Store), причому інформація в WOS не сортується і не індексується. При цьому інформація, яка знаходиться у WOS, доступна для отримання результатів запиту ще до переносу в ROS.

Перенесення записів з WOS в ROS відбувається великими блоками, автоматично і асинхронно за допомогою спеціального процесу переміщення записів Tuple Mover. Так як цей процес оперує цілком всієї WOS, то переміщення записів може бути дуже ефективним, з одночасним сортуванням багатьох записів і перенесенням їх на диск у пакетному режимі.



Переваги використання
Статистика вже впроваджених платформ показує, що робота з базами даних в середньому прискорюється до 1000 разів. Середній показник стиснення інформації в порівнянні з іншими системами становить 10:1, а завантаження даних для виконання подальшого аналізу здійснюється в 10 разів швидше і порівнянна з режимом, близьким до реального часу.

На відміну від наявних на ринку рішень, у HP Vertica немає прив'язки до конкретної апаратної платформи — користувач сам вибирає необхідне обладнання. Варто хіба що відзначити, що існують рекомендовані конфігурації.

Оскільки Vertica спочатку призначена для роботи в горизонтально масштабованої середовищі і не ліцензується по процесорам, а за обсягом даних, завантажених у систему, її легко інтегрувати в хмарні середовища, наприклад, в VMware vSphere або Amazon Elastic Compute Cloud. Перевагою віртуалізованої середовища є швидкість розгортання, так як всі вузли в комплексі Vertica однакові і готовий образ віртуальної машини миттєво встановлюється на наявному обладнанні.

HP Vertica поставляється з програмним забезпеченням Database Designer для автоматичної настройки системи під вимоги замовника. Vertica володіє простими засобами інтеграції і можливостями звітності через SQL, JDBC, ODBC, ADO.NET. Є також безкоштовна версія Vertica Community Edition, що дозволяє аналітикам створювати власні додатки і обмінюватися досвідом з спільнотою користувачів Vertica.



Приклад з життя
Одна з найбільших на даний момент інсталяцій СУБД Vertica виконана в компанії, що займається розробкою мережних ігор для соціальних мереж. Система обслуговує близько 200 млн активних гравців, до 40 млн грають одночасно. Щоденний потік даних становить 3 Тбайт. 200 машин в кластері забезпечують миттєвий аналіз та надання гравцям інформації у формі рекомендацій. Інсталяція працює в режимі 24х7х365 без «вікон» на завантаження даних, аналізуючи в реальному часі надходять і історичні дані. Втім, і це — далеко не межа. Найбільший клієнт — Facebook з обсягом даних в кілька петабайт і кластером в кілька сотень вузлів. Швидкість завантаження даних в кластер сьогодні становить 40 Тб\год.



Ми дистрибутируем рішення HP в Таджкистане. Ціни, питання — пишіть: abo@muk.ua, або в лічку.
Наш таджицький блог
Каталог всіх рішень і сервісів дистриб'ютора МУК
Авторизовані навчальні курси Hewlett-Packard



Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.