ЦОД і цифрова трансформація

Інфраструктура електроживлення та охолодження ЦОД сьогодні генерує приблизно в три рази більше даних і повідомлень, ніж 10 років тому. Традиційні засоби віддаленого моніторингу не розраховані на такий інформаційний потік. Спробуємо розібратися, як витягти з великого обсягу одержуваних даних цінну інформацію і підвищити ефективність експлуатації дата-центру, які потенційні можливості це відкриває.



Колишні засоби моніторингу значно відрізняються від сучасних, використовують хмарні обчислення, аналітику і мобільні додатки. Навігатори, фітнес-трекери стали звичними гаджетами, але в більшості ЦОД сучасні технології, такі як аналітика великих даних і машинне навчання і раніше не використовуються, хоча вони можуть буквально зробити революцію в експлуатації ЦОД. За аналогією з популярним зараз терміном «цифрова трансформація» будемо називати моніторинг нового покоління цифровим моніторингом.
Функція
Традиційний віддалений моніторинг
Цифровий віддалений моніторинг
Режим «онлайн»
Немає
Та
Дистанційна діагностика
Зазвичай немає
Та
Мережевий операційний центр (NOC)
Та
Та
Відстеження інцидентів
Рідко
Та
Аналітика
Немає
Та
Мобільний додаток з оперативними повідомленнями
Немає
Та
Чат
Немає
Та
Моніторинг в реальному часі
Немає
Та
Захищене підключення
Немає мережі
Та
Хмарне зберігання даних
Немає
Та
Статус «при виконанні»
Немає
Та
Підтримувані пристрої
Зазвичай ДБЖ
Всі SNMP-пристрої
Основна відмінність цифрового моніторингу від звичайного – постійне підключення до комп'ютера по виділеному каналу або через інтернет і використання найсучасніших технологій – від машинного навчання до інтернету речей. Традиційний моніторинг не є онлайновим сервісом і не працює в реальному часі. Він лише повідомляє про зміну стану, зазвичай за допомогою поштового повідомлення.

Цифровий моніторинг працює в режимі онлайн: постійне підключення до ЦОД (зазвичай через шлюз) дозволяє працювати в реальному масштабі часу. Крім того, він використовує такі ІТ-сервіси як хмарне зберігання та аналітика даних.

Колишні засоби моніторингу базувалися на ПК, дозволяли збирати і представляти обмежений обсяг даних і в основному давали можливість лише реагувати на ситуацію залежно від інтерпретації отриманої інформації. Цифровий віддалений моніторинг знімає ці обмеження.

Хто володіє інформацією...
На моніторинг ЦОД сьогодні впливають наступні тенденції: продуктивні і економічні вбудовувані системи, кібербезпека, хмарні обчислення, аналітика великих даних, мобільні обчислення, машинне навчання.

Вбудовувані системи застосовуються практично у всьому обладнанні ЦОД, включаючи системи охолодження, ДБЖ, ПДУ, чиллери і пр., керуючи його роботою. Саме вони дають дані для моніторингу. За останні роки ці системи були істотно вдосконалені в плані обчислювальних і комунікаційних можливостей, зберігання даних. При цьому вони стали дешевше. В результаті застосовуються в ЦОД пристрої генерують набагато більше даних – як мінімум втричі більше, ніж ще десятиліття тому.


Чим більше інформації – тим більше вони несуть корисної інформації.

Разом з тим все більш серйозною проблемою стає кібербезпеку. І це стосується не тільки уразливості ІТ обладнання, але і інфраструктурних систем ЦОД. Цифровий віддалений моніторинг та інші хмарні сервіси повинні спочатку враховувати ці ризики, починаючи з етапу розробки і закінчуючи політиками безпеки. Зазвичай в якості точки входу в мережу використовується шлюз (як правило, програмний), і всі пристрої працюють через нього.


Рекомендована архітектура цифрового моніторингу.

Хмари – добре масштабований метод зберігання та обробки даних. Саме хмарні обчислення – основа сервісів віддаленого моніторингу. Такі сервіси як предиктивне аналітика і машинне навчання можуть функціонувати в хмарі, розкриваючи потенціал віддаленого моніторингу ЦОД і наділяючи його більш цінними можливостями.


З допомогою машинного навчання можна, наприклад, моделювати PUE дуже складного ЦОД зразок дата-центру Goggle.

Аналітика великих даних може здатися екзотикою, але вже сьогодні застосовується в таких сервісах як превентивне обслуговування та планування потужності. Необхідність в ній виникає, коли обсяги даних виростають до петабайтных величин, вони стають неструктурованими або вимагають обробки в реальному часі. З аналітикою даних пов'язані методи машинного навчання, які дозволяють будувати прогнози на основі раніше отриманих результатів.


Автоматизація та мобільні додатки полегшують працю адміністраторів ЦОД і дозволяє робити більше з меншими силами.

Не потонути в морі даних
В умовах зростаючого обсягу даних і інформаційного потоку адміністраторам ЦОД стає все важче приймати вірні рішення. Ось лише деякі з проблем:

  • Безліч повідомлень від одного і того ж пристрою у тих випадках, коли досить одного. Надлишкова інформація викликає втому оператора, і в підсумку буде ігноруватися.
  • Для кожного пристрою електроживлення або охолодження зазвичай передбачені свої засоби управління. Відсутність уніфікованої платформи моніторингу та стандартної архітектури ускладнює експлуатацію ЦОД, де персоналу і без того часто не вистачає.
  • Ускладнюється ескалація проблеми та передача її до відповідного фахівця.

Уніфікована платформа моніторингу спрощує завдання виявлення і усунення проблем.

Служба цифрового віддаленого моніторингу допомагає подолати ці проблеми і забезпечити наступні переваги:

  • Скорочення часу простою/відновлення.
  • Оптимізація операцій.
  • Зниження вартості обслуговування і підтримки обладнання.
  • Підвищення енергоефективності.
  • Покращення масштабованості.
Центр моніторингу
Завдання центрів моніторингу – зниження ризику простою за рахунок виявлення та усунення однієї ситуації, перш ніж вона спричинить іншу. В даному контексті служба цифрового віддаленого моніторингу повинна відповідати наступним вимогам:


Мережевий операційний центр (NOC). У ньому працюють експерти з підтримки ЦОД.

  • Експерти NOC, диагностирующие інциденти в ЦОД, повинні мати підготовку в області інформаційної безпеки і великий досвід. Аналіз і документування інцидентів знижує ймовірність помилок у майбутньому.
  • Будь-яка система цифрового дистанційного моніторингу повинна передбачати документування всіх інцидентів.
  • Сервіс повинен скорочувати час усунення проблеми за допомогою тривожних повідомлень (alarm), віддаленого усунення неполадок і прозорості життєвого циклу пристрою. Керувати усуненням неполадок мають експерти, які моніторять центр даних в режимі 7 x 24.
  • Ці ж експерти повинні мати список контактів на випадок критичних подій. Добре, якщо цей список постійно актуалізується в мобільному додатку.
  • Знання стану всіх пристроїв підвищує шанси швидко усунути проблему або хоча б зрозуміти її причину.
  • Щоб обслуговуючому персоналу рідше доводилося копатися з обладнанням, корисно використовувати предиктивную аналітику і віддалену діагностику.

Сервісний інженер повинен знати, що саме йому потрібно замінити або виправити, щоб не виїжджати на об'єкт повторно.

Якою повинна бути служба віддаленого цифрового моніторингу?
Такі вимоги допоможуть віддаленого цифрового моніторингу підвищити ефективність роботи і допоможуть її співробітникам сконцентруватися на найбільш важливих завданнях.

  • Мобільний додаток може автоматично генерувати заявку на усунення несправності (trouble ticket). Це дозволить заощадити час і обійтися без дзвінків в службу підтримки, пояснюючи ситуацію по кілька разів різним фахівцям.


    Мобільний додаток дозволить менеджерам і адміністраторам ЦОД негайно отримати доступ до даних про стан дата-центру з будь-якого місця і в будь-який час.
Корисними можуть бути також чати, месенджери і ін. Чати і месенджери не тільки допомагають працювати в команді, швидко зв'язуватися з експертами в NOC.

Швидке включення в роботу означає, що протягом приблизно 30 хвилин ви можете встановити шлюз, задати автоматичне виявлення пристроїв, зареєструвати програмне забезпечення, настроїти програму і почати моніторинг центру даних.

Задавати всі підлягають моніторингу пристрою вручну – значить втрачати багато часу. Це також збільшує ймовірність помилок. Цифрова система моніторингу для автоматичного виявлення критичних для інфраструктури пристроїв використовує протокол (SNMP). Однак пристрої Modbus TCP зазвичай автоматично не розпізнаються – потрібен файл визначення (Device Definition File, DDF). Як правило, шлюзи сканують заданий діапазон IP-адрес, розпізнають відповідні пристрої і представляють ці дані користувачеві.

Події обробляються за пріоритетами – першими найкритичніші. Така практика знижує навантаження на операторів ЦОД, які знають, що експерти NOC будуть попереджені і розберуться в ситуації, коли виникає відразу кілька подій.

Аналіз кореляції і причин подій дозволяє оцінити численні сигнали тривоги, звести до мінімуму можливі причини і запропонувати рішення. Цей процес кореляції може здійснюватися експертами NOC або реалізовуватися як комбінація машинного навчання та експертних оцінок.

Консолідація тривожних повідомлень перетворює кілька повідомлень з одного пристрою в один інцидент. Це дозволить не витрачати час на кілька ідентичних повідомлень. Більш того, для інциденту можна автоматично генерувати заявку на усунення несправності, інформувати про те, хто зараз цим питанням займається і як довго, що не поточний момент вже зроблено, відстежувати хід робіт до остаточного вирішення.

Контекст тривожних повідомлень може містити такі корисні відомості, як джерело інформації (наприклад, номер стійки), яких систем вона стосується, що саме слід перевірити. Всю цю інформацію можна отримати у мобільному додатку.

Кожен, хто намагався відшукати рішення проблеми в інтернеті, напевно знає, яка кількість постів від різних користувачів доводиться вивчати, щоб знайти потрібну відповідь. Такий «краудсорсінг» забирає дуже багато часу. Сервіси віддаленого цифрового моніторингу слід доповнювати власними онлайновими спільнотами.


До ситуації простою зазвичай призводить не одну подію, а їх послідовність.

Енергоефективність
Чим більше число пристроїв охоплює моніторинг, там більше можливостей для поліпшення енергоефективності ЦОД. Однак, щоб зробити корисні висновки про ефективність ЦОД, потрібно, як мінімум, вимірювати навантаження на виході ДБЖ. Не знаючи базових значень споживаної ІТ-устаткуванням потужності, неможливо визначити потреби в його охолодженні. Наприклад, якщо чиллер почав споживати більше енергії, не ясно, це проблема чиллера або наслідок збільшення ІТ-навантаження. Маючи більш повними даними, можна порівняти загальну споживану усіма пристроями потужність і параметри охолодження, виявити аномалії.


Коефіцієнт енергоефективності PUE дозволяє кількісно оцінити надлишкові потужності при даній ІТ-навантаженні.

Ще більш ефективний метод – вимірювання PUE в реальному часі. При правильній реалізації підходу можна отримувати звіти про тенденції зміни енергоефективності і генерувати повідомлення при зміні умов. Більш того, ефективна система дозволяє виявляти джерела проблем і коригувати ситуацію. Моніторинг в цьому випадку може здійснювати персонал NOC.

Моніторинг PUE в реальному часі.

Масштабованість
Масштабованість – це здатність системи віддаленого цифрового моніторингу контролювати збільшується число пристроїв (вузлів). В залежності від архітектури системи, це можуть бути тисячі пристроїв. Для невеликих ЦОД з ІТ-навантаженням до 500 кВт масштабованість зазвичай проблеми не становить, на відміну від великих ЦОД, де кількість пристроїв може досягати сотень тисяч, а показання знімаються кожні кілька секунд.

В цьому випадку система моніторингу повинна використовувати горизонтально масштабовану хмарну архітектуру. Хмарний сервіс дозволяє автоматично додавати обчислювальні вузли для обробки додаткових даних. Перспективний напрям – технології інтернету речей (IoT).

Нові підходи до експлуатації
В майбутньому ЦОД набагато менше залежатимуть від «людського фактора» можливих помилок. Допоможе в цьому автоматизація і машинне навчання. Чим більше збирається даних про причини простою, тим краще система моніторингу зможе передбачити ймовірність простою і рекомендувати кроки для його запобігання.


Ефективність експлуатації ЦОД можна підвищити за рахунок більш точних моделей та накопичення даних з фактичними операціями різних дата-центрів.

Модель ЦОД, що використовує машинне навчання, буде володіти достатньою інформацією для точної настройки системи охолодження і мінімізації споживаної потужності. Моделювання дозволить також прогнозувати споживання електроенергії.

Через мобільний додаток адміністратор ЦОД буде отримувати повідомлення, коли щось йде не так, бачити, які кроки він повинен виконати, щоб змінити ситуацію. У більш складних процедурах можна задіяти технології віртуальної реальності.

Збір різноманітних даних дозволить перейти в ЦОД від планового обслуговування до ситуаційному. Численні сенсори й алгоритми допоможуть передбачати відмови компонентів, зробити генеруються повідомлення більш зрозумілими і, в кінцевому рахунку, скоротити витрати на обслуговування. А аналітика великих даних дозволить виробникам підвищити надійність випускаються компонентів.


Служба цифрового віддаленого моніторингу буде автоматично генерувати наряди на виконання робіт інженерами з експлуатації.

Системи життєзабезпечення дата-центру складаються з складного обладнання і потребують особливої уваги. Це системи холодопостачання та кондиціонування, пожежогасіння, електропостачання, телекомунікації та структуровані кабельні мережі. ЦОД, побудованому відповідно до вимог Tier III, обслуговування або ремонт будь-якого елемента інфраструктури можна вести без зупинки роботи ЦОД і без зниження робочої потужності: все обладнання зарезервовано за системою N+1, що дозволяє говорити про наявність об'єкта на рівні 99,982%.


У кінцевому рахунку все це виливається в зменшенні часу простою ЦОД і підвищення рівня його надійності.

Система моніторингу ЦОД допомагає підвищувати ефективність експлуатації, забезпечуючи інформаційну підтримку для ІТ-служби. Завдання сучасної системи моніторингу – не просто фіксації нештатної ситуації і оперативному сповіщенні про неї, а в можливості проактивного спостереження, аналітики, що дозволяє запобігати інцидентам. Наприклад, якщо стався збій компонента обладнання, що така система відразу автоматично ініціює процес його заміни, аж до заявки на придбання нового, якщо це необхідно. Служба цифрового віддаленого моніторингу дозволить використовувати цінні можливості аналітики та ситуаційного обслуговування на ще більш високому рівні. Це майбутнє настане дуже швидко.
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.