Про животрепетної в експлуатації дата-центру

У нас пройшла рівно половина курсу «Управління інженерною інфраструктурою дата-центру». Так виходило, що певні теми звучали майже на кожному семінарі, – не важливо, ми розповідали нашим слухачам про підготовку дата-центру до літа, роботу з підрядчиками або вибудовування власної службою експлуатації. Ми вирішили зібрати невелику гайд по самим животрепетним темами і рекомендацій з нашого досвіду.



Маркування обладнання

Ця тема – рекордсмен за згадками в наших семінарах. Про маркування потрібно знати наступне:

  1. Система маркування продумується і узгоджується зі службою експлуатації ще на етапі проектування дата-центру або серверної. Якщо у проектувальників і будівельників свій принцип маркування, незрозумілий службі експлуатації, то інженерам доведеться розшифрувати все це спадщина чи промаркувати всі заново в зрозумілій для них системі координат.

  2. Всі елементи всіх систем повинні бути промарковані. Свій номер повинен бути не тільки у кондиціонера, чиллера, ДБЖ, але і у кожного автомата, вентиля, відеокамери. Часто без розпізнавальних знаків залишаються кабельні траси, кросування. Особливу увагу звертайте на “времянки“ – вони теж повинні бути промарковані.

  3. Принцип маркування повинен бути прозорий і зрозумілий кожному інженеру. Наприклад, перша цифра шифру може позначати дата-центр, друга – зал, третя – ряд, четверта – номер стійки. Тоді виходить, що стійка 5H3C030 знаходиться в дата-центрі 5, в машинному залі H3, у рядку під номером C 030.

    Для розподільних щитів принцип може бути наступним: тип щита, зал, промінь, номер щита. Тоді інженеру буде зрозуміло, що ЩР2.2.1 – це розподільний щит номер 1, що живиться від другого променя, у другому залі.

  4. Маркування повинна бути помітною читається, щоб інженеру легко було впізнати обладнання. Для більшої наочності використайте кольори. У нас, наприклад, «колірна диференціація штанів» використовується для маркування променів харчування і труб системи холодопостачання.

  5. Маркування повинна бути актуальною. Якщо обладнання переїжджає в інший зал, змінюється схема розташування, не забудьте відобразити все це в маркуванні.

Маркування трубопроводів водяного контуру холодопостачання NORD-4. На кожній з труб позначений номер, напрямок подачі і температура води (тепла чи холодна).

Моніторинг

Дата-центр або серверну будь-яких розмірів складно експлуатувати і обслуговувати без системи моніторингу. Немає моніторингу – немає інформації, а значить дата-центром або серверної доведеться керувати наосліп.

Наша рекомендація щодо джентльменського набору для моніторингу наступні. Відстежуйте:

  1. Стан інженерного обладнання (увімкнено, вимкнено, є помилки): вводи від міста, ДГУ, ПБЖ, рівень заряду АКБ, час автономної роботи ПБЖ, рівень палива в ДДУ.

  2. Показники, які фігурують у вашому SLA: температуру, вологість в кондиціонерах, напруження і струми для ДБЖ.
Коли програма мінімум виконана, можна додатково додати:

  • автономні датчики протечки під елементами трубопроводів;
  • автономні температурні датчики в машинних залах;
  • аналізатори струму в розподільчих щитах;
  • пірометри в трансформаторних підстанціях.
На 80-му lvl моніторингу вже відстежується робота елементів всередині обладнання. Наприклад: з якою швидкістю крутиться вентилятор зовнішнього блоку, який тиск в фреонової системи або на скільки відсотків зараз завантажений компресор в чіллера. В подальшому це допоможе зрозуміти, чи є резерв у обладнання (не працює воно на 100% від своєї потужності), відстежити потенційну проблему та проаналізувати роботу систем в різних умовах.

Велика кількість досліджуваних параметрів – ще не показник якості роботи моніторингу. Все має бути ще і правильно налаштований. Ось основні заповіти:

  1. Встановлюйте різний час опитування для різних систем. Для кондиціонування достатньо хвилини, а для енергопостачання хвилина – дуже рідко. За цей час може відвалитися промінь, не спрацювати перемикання на АКБ, не завестися ДГУ. Тому дані з обладнання енергопостачання знімаємо настільки часто, наскільки це можливо. Ми, наприклад, маємо свідчення кожну секунду.

  2. Візуалізуйте основні показники моніторингу на екранах, щоб вони завжди були на виду. З схем і графіків легше витягувати інформацію, ніж таблиці з цифрами. Але не перевантажуйте екран, інакше загубиться наочність.

  3. Прописуйте критичні значення, по досягненні яких будуть спрацьовувати оповіщення. Краще передбачити два рівня оповіщення – попередження (warning) і критичні помилки (alarm).

  4. Слідкуйте за актуальністю даних. На екрані для сповіщень не повинні висіти «прострочені» аларм. Така ситуація може виникнути, коли в системі моніторингу спрацьовує попередження про аварії. Після того, як інцидент з аварії заведений, не забувайте змінити статус аварії на «ведуться роботи». Так новий аларм не загубиться серед старих. При необхідності можна налаштувати поштові і смс-оповіщення для попереджень та алармов.

Принципова схема дата-центру NORD-3 у системі моніторингу дозволяє швидко оцінити стан енергоцентру, температури у холодних коридорах машинного залу.


Чергові інженери стежать за роботою NORD-3 в центрі управління і моніторингу.

Це зовсім опціонально, але так як ми комерційний дата-центр, то для своїх клієнтів ми налаштували трансляцію всіх основних показників в Особистий кабінет і мобільний додаток DL Monitor.

Збір статистики

Всі параметри потрібно не тільки спостерігати в режимі реального часу, але і збирати по ним статистику. У майбутньому це допоможе краще зрозуміти, як веде себе обладнання протягом життєвого циклу, як часто необхідний ремонт, є запас по потужності. Це допоможе спланувати періодичність техобслуговування, оцінити необхідну кількість ЗІП, сформувати бюджету на закупівлю та обслуговування обладнання.

Як це працює? Наприклад, у нас є довгострокова статистика по кондиціюванню та інформація про метеоумови (на кожній нашій майданчику працює метеостанція). Ми можемо простежити, як працювала система охолодження минулого літа до +32 °с. Якщо очікується спекотне літо, то ми зможемо оцінити, чи є у системи холодопостачання запас по потужності або треба якось її підсилювати. Також з історії поломок і ремонту ми можемо спрогнозувати, які запасні деталі швидше за все знадобляться.

Для ведення такої статистики не потрібні спеціалізовані програми. Єдина порада: зручніше працювати з системою моніторингу, яка вміє будувати графіки. Там, де інформація не передбачає відображення у вигляді графіків (наприклад, зміст інцидентів, ремонтів, аварій і ТЕ), можна занести дані в звичайний Excel.

Ось як може виглядати зведена таблиця для ДДУ. Проставте активні посилання на інформацію за договором, гарантійного обслуговування, графіком ТО, ремонтів, тестових запусків і інструкцій, і вся інформація по конкретному ДГУ завжди буде під рукою.



ЗІП і розхідники

ЗІП і розхідники завжди повинні бути під рукою. Якщо є можливість зберігати їх поруч із серверної, то це ідеальний варіант. Якщо з місцем під склад туго, то можна доручити підряднику зберігання та надання ЗІП по запиту.

Що потрібно мати запас з ЗІП і витратних матеріалів для термінових ремонтів:

  • для фреонових кондиціонерів – масло і фреон, вентилятори для зовнішніх блоків (так, у нас він расходник, так як їх понад 1000);
  • для енергопостачання – автомати, плавкі вставки, кабелі різного типу;
  • для моніторингу – датчики;
  • для систем безпеки – кілька комплектів СКУД (контролер, зчитувач, магнітний замок).
  • для телеком-інфраструктури – світчі, лінійні карти, шасі, маршрутизатори.
Доступними повинні бути і долгоедующие запасні частини (компресори, контролери, ввідні автомати ГРЩ), щоб дата-центр не залишався без необхідного резерву.


Склад ЗІП для системи кондиціонування.

Установка устаткування в стійки

Про правильну установку обладнання у нас було окреме заняття, але про часті помилки ми згадуємо майже на кожному семінарі. Чому? Все просто. Неправильно встановлений сервер в стійці може викликати локальні проблеми навіть в відмінно спроектований дата-центрі з грамотною службою експлуатації.

Ось основні помилки:

  1. ІТ-обладнання з двома блоками живлення підключено до одного PDU.
  2. Обладнання з одним блоком живлення підключено без АВР.
  3. Обладнання підключено в сусідні стійки.
  4. Перевантажені секції PDU.
  5. Обладнання встановлено «особою» в гарячий коридор.
  6. Немає заглушок, які перешкоджають паразитного теплообміну, у вільних юнітах.

Правильна схема підключення серверів з одним і двома блоками живлення.

На цьому завершуємо наш хіт-парад актуальних тем для інженера експлуатації. Діліться у коментарях своїми спостереженнями, задавайте питання. найближчому семінарі будемо розповідати, як тестувати інженерні системи дата-центру і як вибудувати систему моніторингу.

Ще статті про влаштування та експлуатацію дата-центрів:

» Як створювалася система холодопостачання дата-центру NORD-4
» Помилки в проекті дата-центру, які ви відчуєте тільки на етапі експлуатації
» Шлях електрики в дата-центрі
» Екскурсія по самому великим дата-центру в Росії
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.