Як 3 тисячі рублів і прості методи підвищення ефективності ЦОД допомогли заощадити купу грошей

За час своєї роботи я часто зустрічався з проблемами нестачі ресурсів корпоративних ЦОД, які можна сформулювати, наприклад, наступним чином: «У нас не вистачає фізичного місця для розміщення обладнання», «У нас не вистачає підведеної потужності» і так далі і тому подібне. Рішення подібних проблем «в лоб» веде до очевидної відповіді – вимкнути і вивести з експлуатації частину ІТ-обладнання, або здійснити заміну обладнання на більш ефективне за співвідношенням продуктивність/споживання/фізичні розміри.

В більшості випадків виявляється, що ресурсів на самому справі в надлишку, але використовуються вони, м'яко скажемо, марнотратно. Проблема полягає найчастіше в банальному раздолбайстве або розвитку корпоративного ЦОДа експансивно, так сказати з успадкованим принципам. Прийняті рішення не перевіряються на предмет ефективного використання наявних ресурсів, в організаціях немає методики їх перевірки і, у результаті, ми отримуємо те, що отримуємо.

Якщо ви для себе зрозуміли, що так далі жити не можна, рекомендую почати з читання блогів таких компаній як: Крок, Білайн, Data Line. У них можна знайти статті, в яких вони діляться своїм досвідом у сфері енергоефективності. Їх методи працюють — PUE комерційних майданчиків знаходиться в межах 1,3-1,4 (у кого-то трохи менше) що при TIER III є відмінним результатом. Проте в якийсь момент ви зрозумієте, що у них там своя вечірка з мегаватами, резервами і досвідченим персоналом. І вам на ній не місце.

Що ж робити простим смертним, у яких ЦОД – це 10 стійок, 200 кВт потужності, завжди не вистачає рук і часу?

В ідеалі, потрібен простий для розуміння контрольний список, який ви візьмете в руки і підете гуляти по своєму майданчику, роблячи позначки. Бажано щоб цей документ допоміг вам, хоча б приблизно, оцінити вплив запропонованого методу на ефективність (адже у вас немає досвіду і best practices). Було б непогано, щоб пропоновані методи були розділені по етапах життєвого циклу. Зібралися ви, наприклад, докуповувати сервера та СГД, заглянули у відповідний розділ методички, а там рекомендації за параметрами закуповуваного заліза.

Загалом, не буду томити, є такий документ, який називається «EU Code of Conduct on Data Centres». Відразу скажу, що я практично жодного разу не зустрічався з людьми, які керуються у своїй діяльності, що мене дуже дивує. Лежить у відкритому доступі з легко запоминаемому адресою: iet.jrc.ec.europa.eu/energyefficiency/sites/energyefficiency/files/files/COC_DC/2016/2016_best_practice_guidelines_v7.1.2.pdf.

Отже, що це за документ, і чому він буде вам корисний:
1. Це збірка кращих практик у галузі підвищення ефективності дата-центрів, в написанні якого взяли участь експерти з різних областей.
2. Він добре структурований за етапами життєвого циклу ЦОД, що дозволить вам легко підготуватися до заміни, наприклад ІТ-обладнання.
3. Він добре структурований по підсистемах. Тому, якщо у вас є група експлуатації серверів, вони можуть легко оцінити свій внесок.
4. Будь-яка практика має оцінку потенційного впливу (від 1 до 5, 1-незначний вплив, 5 — максимальна). Це дозволить вам провести оцінку на стадії планування, виходячи з витрат на впровадження і очікуваної віддачі.

Пропоную пробігтися по документу, зрозуміти, як з ним працювати і розглянути кілька прикладів.
Однак спочатку невелике попередження. Надійність та енергоефективність – це два параметри, які найчастіше тягнуть ваш ЦОД в різні сторони (не завжди, але часто). Як приклад – підвищення температури в Цоді. Призводить до зниження споживання кондиціонерами. Але водночас ми спостерігаємо підвищення числа обертів вентиляторів охолодження в серверах, що призводить до підвищення споживання сервером (упс...). І знижує ресурс самих вентиляторів, і коли він закінчиться, вентилятори встануть, а за ними постане і сервер по температурі. Тому до будь-якої зміни потрібно підходити обережно, відстежувати його вплив на суміжні системи і завжди мати план відкату на початкові позиції.

Отже, беремо словничок, починаємо читати.

Відразу йдемо в пункт 2.2 на сторінці 3, де розшифрована колірна кодування практик.



Зелений — підходи, аудит, моніторинг тощо найефективніші з погляду матеріальних вкладень пункти. Більшість припускає або мінімальні вкладення (5.1.4 Установка панелей-заглушок у шафи) або взагалі нульові вкладення за рахунок зміни підходів в експлуатації (4.3.1. Аудит невикористаного обладнання).

Червоний — впровадження нового софта. Повна нісенітниця, типу «дивіться, щоб процеси в тлі не висіли і не навантажували ЦП». Можна сміливо пропускати. Хоча, якщо у вас сотні додатків…
Жовтий – на що звертати увагу при закупівлі нового ІТ-обладнання.

Блакитний – що потрібно зробити при найближчій реконструкції або проведення техобслуговування. Є приклади так званого «ретрофита», тобто удосконалення існуючих пристроїв. Наприклад, при заміні батарей ДБЖ замінити, свинцеві на Li-Ion, що дозволить відмовитися від системи кондиціонування і звільнити частину площі. Або при обслуговуванні кондиціонера встановити пристрій регулювання швидкості обертання.

Білий – опціональні практики, дотримання яких не є обов'язковим для кандидатів.
Тут необхідно невеликий відступ. Розглянута методичка була створена для операторів, які бажають вступити до добровільну програму «The European Code of Conduct for Data Centres». Тому в документі повсюдно зустрічається термін «кандидат», що не повинно вас бентежити. У «білих» практиках містяться хороші рекомендації щодо підходів до експлуатації і будівництва Цод.

Далі стрибаємо відразу на сторінку 9 до розділу №3. Подальший рух по документу слід здійснювати послідовно. Підсистеми описано в порядку їх впливу на енергоспоживання Цод (ІТ-обладнання, холод, електропостачання, тощо).

Спробуємо застосувати і подумки протестувати практики різних кольорів із різних підсистем.
«Зелена», пункт 4.3.1. Вплив – 5. Рекомендується провести аудит використовуваного обладнання, його встановлення і сервісів, яке воно надає. Як би смішно це не звучало, але у багатьох організаціях я стикався з ситуацією, коли на запитання «а що це за сервер?» всі інженери знизували плечима. І це в серверних, де 30 серверів, максимум. І це не кажучи про сервери, які крутять сервіс, використовуваний 3-ма людьми в організації. Серйозно, особливо якщо ви недавно прийшли в компанію, подивіться на парк серверів з цієї точки зору.

Природним чином виглядає пункт 4.3.2. Вплив – 5. «Виведіть невикористовуване устаткування з експлуатації та регулярно проводите аудит на предмет незавантажених пристроїв».

Чудовий пункт 4.3.8. Вплив – 4. «Проведіть аудит на предмет вимог обладнання до навколишнього середовища. Позначте таке обладнання на заміну або перенесення». Припустимо, у вас є кілька свіжих серверів, наприклад під ERP. І трохи постарше, з жорсткими вимогами щодо температурі не вище 25 градусів. Стоять собі і працюють, але вони не дозволяють вам підвищити температуру в машзалі. І ось одного разу ERP яка крутиться на свіжих серверах, розрослася і вимагає більш потужного заліза. Купується новий сервер, який замінює кілька попередніх. В даному випадку методичка рекомендує замінений сервер не на e-bay викладати, а поставити на заміну давніх машин, які мають обмеження по температурі. Тобто фактично ви виробляєте міграцію на нове залізо не одного сервісу, а декількох з виведенням з експлуатації самого старого заліза. Хоча апгрейд ви робили заради ERP. Загалом, дивіться глибше і далі.

«Зелена» пункт 5.1.4 Установка панелей-заглушок у шафи. А з ним 5.1.7 і 5.1.8. З мінімальними витратами ви зможете серйозно зменшити перемішування гарячого і холодного повітря і підвищити ефективність охолодження.

Тепер перейдемо в розділ, що стосується механічних систем (холодопостачання). Пункт 5.1.2. Вплив – 5. Даний пункт пропонує нам розділити потоки гарячого і холодного повітря шляхом застосування контейнеризації холодного і гарячого повітря. Практика «блакитна», тобто ретрофит. Незважаючи на те, що методичка рекомендує модернізацію проводити в періоди запланованих простоїв, конкретно ці роботи можна провести і на працюючому Цоді, оскільки ви піднімаєте тільки конструктиви шаф. Зараз є рішення по споруді ізолюючих коридорів практично без інструментів і без сверловки. І в черговий раз нагадаю про взаємозв'язках. Зробили контейнеризацію – перегляньте установки кондиціонерів, напевно, можна, як мінімум, підвищити уставки температури, подаваного повітря. І відразу ж можна зробити замітку на пункти 5.4.2.4 (Вплив – 2) і 5.5.1 (Вплив – 4) Обладнати внутрішні блоки плавним регулюванням швидкості обертання вентиляторів і компресорів.

«Жовті» практики практично повністю зосереджені в подглавах 4.1 і 4.2. Вони стосуються в основному закупівель ІТ-обладнання. Так вже сталося, що інженерні системи мають термін життя не менше 10 років. І те, що ви маєте зараз, ви можете модернізувати (тобто «блакитні» практики). ІТ-обладнання змінюється набагато частіше, є можливість застосувати «жовті» практики вже в наступному кварталі. В якості прикладу наведу наступні рекомендації. «При складанні ТЗ на закупівлю нового заліза звертайте увагу на температурний режим експлуатації». Таким чином, ви зможете створити собі основу для впровадження методів управління енергоспоживанням без обмежень, які створюють ваші сервера, СГД і т. п. «Вимагайте наявності вбудованих засобів моніторингу енергоспоживання і температури на воздухозаборе сервера». Це дозволить вам поступово перейти від оцінки ресурсів на підставі паспортних даних, до оцінки на підставі даних в реальному часі. Природно, все це вимагатиме зміни підходів до моніторингу і звітності, які прописані в розділі 9.

«Червоні» практики я не розглядаю на увазі мого зневажливого ставлення до них. Буду радий, якщо в коментарях хтось зможе продемонструвати їх ефективність.

«Білі» практики є абсолютним хардкором для корпоративного Цод. Повсюдно зустрічаються гасла «Даєш клас A4 ASHRAE!», «Дуй повітря прямо з вулиці!», «Використовуєш ДБЖ – не мужик!». Це як раз той випадок, коли ігри з енергоефективністю знижують надійність.

Резюме:
1. Запропоновані практики досить прості для розуміння і впровадження, не rocket science. Можете почати прямо зараз.
2. На самому початку зверніть увагу на «зелені» методики. Вони мають великий вплив, прості, дешеві і дозволять змінити підхід до планування та експлуатації. Що в більшості запущених випадків дає швидкий видимий ефект.
3. Природно, рух має йти від найбільш впливових (5) до найменш (1).
4. Складіть план. В результаті впровадження «зелених» методик ви отримаєте повну картину того, що у вас є зараз. В тому числі і розуміння технологій, які ви використовуєте. Створіть план модернізації для всіх підсистем, які ви використовуєте, із зазначенням пунктів з методички. Проведіть бюджетну оцінку змін, застосовувати поправочні коефіцієнти на підставі впливу методик, і ви отримаєте план першочергових заходів.
5. Не забувайте про зв'язок систем і відстежуйте взаємний вплив. А для цього почніть моніторити все, до чого руки дотягнуться.

І мало не забув про кейс із заголовка.

Компанія Х звернулися з проханням прорахувати бюджет розширення корпоративного Цод на додаткові площі. Їм потрібно було поставити 2 високонавантажених стійки. З їх слів, фізичного місця для розміщення стійок в чинному машзалі не було, запасів по холоду не було, ДБЖ працювали на 85% потужності в піке і їх не вистачало. Бюджет ми прикинули, вийшла та сама купа грошей. Пішли дивитися майданчик. У процесі огляду було виявлено наступне:

1. У машзалі на 40 стійок використовувалася роздача повітря через фальшпол. При цьому не було системи ізоляції повітря, в шафах знайшлося безліч порожніх юнітів не закриті заглушками. З холодопродуктивністю існуючої системи стало більш-менш зрозуміло. Одночасно з'явилося рішення проблеми з фізичним розміщенням.

2. Подивилися логи ДБЖ і побачили, що навантаження на ДБЖ зростає в нічні години. За логікою, вона повинна знижуватися, або залишатися плюс-мінус такий же. Дуже схоже на створення резервних копій, відновлення якихось баз або додатків. Однак з'ясувалося, що оновлення додатків відбувається тільки у вихідні дні, бази живуть самі по собі, а резервне копіювання йде в реальному часі на інший майданчик ось вже як два роки. В теорії. На практиці виявилося, що якісь нехороші люди не вивели з експлуатації частину інфраструктури, відповідальної за резервування. Там же на місці порахували, що вимкнувши непотрібне залізо отримаємо необхідні кіловати.

3. Задали питання: «Аудит замовляти будете, або самі все зрозуміли?». «Зрозуміли-зрозуміли», — відповіли вони, і зникли на тривалий час.

Після нашої розмови, замовник силами 2-х своїх інженерів за пару тижнів розкидав бардак, який збирав 2 роки. Були замовлені і виготовлені конструкції для ізоляції холодних коридорів, заглушки в шафи. Були фізично виведені з експлуатації резервні залізяки, в процесі вони знайшли ще кілька невикористовуваних серверів. Прибрали дроти під фальшполом. В результаті отримали свої необхідні кіловати і юніти навіть з запасом. Наші витрати склали 3 131 руб. на бензин і робочий час. Але ми їх виставляти замовнику не стали, тому що це некультурно.

А стійки свої високонавантажених вони потім так і не поставили.
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.