Як ми перевозимо дата-центри (складності міграції Цодів в середній смузі)


Результат переїзду і об'єднання двох серверних і телекомунікаційної з офісу

Іноді потрібно взяти і перевезти дата-центр на нове місце. Причини бувають різні. Наприклад, переїзд великого офісу разом з ЦОДом всередині. Або збір серверних великої російської компанії з регіонів до Москви. Або ось веселий випадок — об'єднання банків, коли потрібно поєднати два дата-центру в один.

Я особисто брав участь у 7 переїздах, а наша команда перетягла вже точно понад 30 великих об'єктів. Тому ми знаємо толк в збоченнях.

Переїзд ІТ-обладнання відрізняється від класичного переїзду тим, що не можна просто взяти і перенести все в іншу точку за вечір суботи. Проблема в тому, що ІТ-сервіси потрібні цілодобово і без простоїв. Плюс маса нюансів з тимчасової і нової мережевої інфраструктури, перевезення жорстких дисків в старих серверах і навколо двухтонных систем зберігання даних краном з вікон офісу, де після заїзду поставили двері і постелили ковролін.

1. Велика підготовка

Спочатку приходить замовник і каже: «Мені треба взяти і переїхати». Замовник, як правило, — великий бізнес, який вже перевозив офіс або невелику серверну. Тому в цілому являє масштаб і приблизні обриси можливих проблем. Головна вимога на цьому етапі — зробити все плавно, спокійно і без ситуацій, про які потім будуть розповідати байки. Тобто максимально нудно і передбачувано.

Перший етап — узгодження техтребований. Буває по-різному: іноді замовник просить нас зробити план переїзду, іноді приносить готовий і просить перевірити. Краще всього пішло з одним європейським банком: він прийшов з готовими документами, але ми вносили правки і зауваження, наприклад, пов'язані з тим, що за одну ітерацію краще перевозити меншу кількість стійок (за необхідності змонтувати все на приймаючій майданчику без «мурашника» з 10 інженерів). З досвіду ми знаємо, що 6 чоловік на монтажі — нормально, а 10 вже починають заважати один одному.

Результат першого етапу — схеми обох Цодів до, після і «времянки» під час ітерацій переїзду, точне розуміння того, яке обладнання і як буде доставлено, точна комутація для кожного етапу і список заліза по серийникам, хто, коли і як їде. Ось приклад об'єднання трьох серверних в одну.

До:

Основна серверна кімната на 7 поверсі офісу


Телекомунікаційна кімната на 7 поверсі офісу


Серверна кімната на 3 поверсі офісу

Після (ви вже бачили цю схему зверху):


Якщо буває даунтайм (іноді це можливо), він погоджується, тому переїзди плануються у вихідні. Але ось, до речі, січневі свята при цьому рідко бувають для нас дуже насиченим у плані робіт періодом.

2. Техподготовка

Потім ми починаємо готуватися технічно. До третього переїзду розумієш, що основні частини робіт робляться зазвичай без збоїв, але найбільшу увагу потрібно приділяти дрібницям. Наприклад, забута викрутка з потрібним форм-фактором — це простий мінімум 15 хвилин, що вкрай небажано. У нас є величезний чек-лист обладнання типу скотчу, маркерів, дамських сумочок і так далі.

Потім на складі відкладаємо запчастини для самих критичних залозок. Так, тут треба сказати, що у нас дуже великі сервісні склади, тому майже всім системам можна знайти аналоги. Якщо після перевезення відмовить жорсткий диск, блок живлення або материнська плата (ці компоненти летять найчастіше), то відразу ж зі складу протягом години підвезуть ще один такий самий. Це особливо важливо для замовників, обладнання везуть не на гарантії.

Результат цього етапу — все з нашого боку готове до реалізації переїзду.

3. Робота на майданчиках

Перша ітерація починається ввечері до переїзду на вихідній площадці замовника. За допомогою етикет-принтера маркується кожен кабель і кожен сервер, так щоб вони відразу правильно лягли в потрібну комутацію на «тій стороні. Причому маркування робиться не «AS IS», а за планом вже нової комутації, щоб приймають інженери могли відразу зібрати, як треба. Це важливо, тому що з однієї стійки поточної майданчики обладнання цілком може розповзтися по 5 стійок нового майданчика. Найважливіша етикетка — номер стійки на новому майданчику і юніт на новій, щоб не тримати обладнання в коридорі, а відразу ставити після розпакування: TIER III Цод часто не допускають більше 15 хвилин простою обладнання в техкоридоре. Буває, безопасникам теж не подобається бачити обладнання не за своїми загородками. Тому просто воно дістається з коробки, вставляються рейки, відразу монтується.

Сильно заздалегідь маркування робити не можна: в останній день цілком можуть бути заміни того, що їде, а що ні з-за попередньої ітерації і роботи тих, хто займається софтверної частиною. А так — за два-три години до переїзду цілком добре цим зайнятися. Увечері отмаркировали, з ранку розібрали, вантажники забирають.


Це хороший принтер, який ми використовуємо для маркування проводів. Стрічка самоклеюча, обрізається натисканням по боках (сірі кнопки), всередині є ножі. Їх треба іноді міняти. Принтер програмований, друкувалися етикетки цілими серіями. Кожен кабель нумерували з двох сторін — назва порту на кожен.

Пакується все спочатку в здорову антистатику, потім у величезну купу плівки з пухирцями, потім в гофрокартон. Так, працюємо ми з перевіреною логістичною компанією, яка робила з нами багато переїздів. Вони добре знають специфіку: потрібну кількість ременів для різних стійок, максимально плоске розподіл серверів по кузову. Знають, що не можна класти сервера на сервер. Знають, що сервери (о, жах!) можна перевертати в процесі перевезення. Чому — не знають, але що за переворот відривають руки — розуміють добре.

Обладнання майже завжди страхується (крім зовсім старого, готового до списання). Страховка навіть від перевороту машини, ДТП, затоплення і падіння в руках вантажників. У мене (тьху-тьху) серйозних страхових випадків поки не виникало, але, звичайно, бувало, що старі HDD не переносили дорогу.

4. Наступна ітерація

На місці — комутація в новій схемі (робимо в більшості випадків ми), запуск і перевірка працездатності сервера залишаються на замовника і його інженерах, іноді проводяться з нашою допомогою. Ми залишаємо майданчик тільки тоді, коли замовник піднімає всі сервіси, обладнання яких перевозилося на поточній ітерації.

Потім виконується наступна ітерація переїзду. Якщо поточна була останньою — все перевіряється і переїзд закінчується.

Особливості

Один з найдовших у підготовці процесів — це нова мережева інфраструктура. Як правило, на час переїзду сервіси не зупиняються, тому що ми робимо два Active-Active-инстанса, а потім один відключаємо, перевозимо і підключаємо на новому місці. Тобто на час перевезення і монтажу система залишається без гарячого резерву, хіба що тільки з резервних копій. Іноді потрібно перевести всього 5 серверів, але робимо в 3 етапи, тому що вони резервують один одного, і не можна втрачати відмовостійкість.

Часто потрібно зберігати мережеву топологію навіть на час ітерацій переїзду, щоб не перебудовувати, наприклад, все в регіонах, стучащее в головний дата-центр. Або відразу потрібно розробити нову схему і відразу включити в ній — але так, щоб для кінцевого користувача нічого не змінилося.

Наприклад, в 2011-му процедуру злиття пройшли два великих банки — довелося об'єднати бази, процесинг, узгодити системи. Потрібно було перевезти офіс і ЦОД одного банку на територію другого. Це робилося в межах Москви. Проект складався з 6 етапів. Фізично багато обладнання, потрібно було узгодити план-графік відключення систем. Банк ввів в експлуатацію системи на новому майданчику, ми перевезли ще серверів, замовник об'єднав їх з попередніми, потім ми доставили нову партію. Раз в тиждень або дві тягали в залежності від готовності. З особливостей була нова система комутації, причому банківські сисадміни зробили абсолютно чарівну річ — вони взяли наші схеми і по них надали пачкорды рівне тієї довжини, яка потрібна. Патчкорды були кожен більше попереднього на 20-30 см, тому не було висять, як соплі, проводів і петель в три оберти. На цьому ж монтажі до нас приїжджали співробітники вендора, стежать за раскоммутацией важкого заліза, бо воно було на гарантії.

Бувають складні переїзди. Наприклад, я якось возив ЦОД, який з офісу вирішили переставити в нашу TIER III-колокацию. Офіс переїжджав, і новий був не призначений для обладнання. Взагалі, вони заїжджали в свій старий офіс так, що було всього три сервера, тому просто поставили їх в кімнатку. Потім, як це водиться з тимчасовими будівлями, за майже 10 років кімнатка сильно додала в обладнанні: з'явилися ще стійки, кондиціонер на підлозі, блейды… Один з шаф взагалі в ліфт не влазив, довелося виймати краном через вікно.

Випадки бували різні. Один раз збирали залізо зі всієї країни, тому що консолідували регіони в центральному офісі, коли впроваджували VDI. Виходило дешевше по залізу і підтримки, плюс зручно адмініструвати. Заради однієї залізяки не треба тримати спеців на місцях.

З Владивостока везли літаком, треба було кріпити на палетах, тряска. Для таких ситуацій дуже часто потрібні заводські упаковки — намагаємося знайти «рідну», тому що там пінопласт і стяжки. Просто в плівку і гофру — недостатньо, в літаку можуть бути сильні поштовхи. Зазвичай замовник зберігає упаковку сам, плюс у нас є коробкова на складі — по 2-3 зразка упаковки всього, що до нас коли-небудь приїжджало. Дуже корисно, тому що якщо замовник викинув коробки від великих RISC-серверів, у нас точно знайдеться пара штук таких же.

Один раз замовник наполіг, щоб ми витягли жорсткі диски і повезли окремо від серверів. Спочатку діставали диски, нумерували по порядку вставки, потім пакували кожен диск окремо. Складали комплектами по 8 штук в картон. За цей переїзд випали 5 дисків з 5 стійок половинчастою набивання. Висадку-посадку переживали не все: для дисків це іноді більший стрес, ніж переїзд в рідних слотах. Потім перестали діставати, за 5 ітерацій всього два диска загинуло. Взагалі, тут шаманство, звичайно: буває, що сервак 2 роки аптайма варто, а потім його хтось просто включив-вимкнув — і опа — HDD не працює.

Один раз розбирали величезний металевий дверний отвір — двері в ЦОД була не по габариту. Викручували, рассверливали, щоб прибрати нижній поріг. Не проходила стрічкова бібліотека. Коли вони туди затягували її, двері там не було. Замурували, демони!

Ще на першому етапі потрібно морочитися про пропуски для всіх. У нас, наприклад, був абсолютно феєричний випадок недавно: на один з об'єктів підвищеної відповідальності не пустили іноземних вантажників. Довелося в годину ночі контрагенту міняти людей.

На масштабних переїздах групи інженерів працюють змінами. Наприклад, переїжджав відразу багато стійок. У п'ятницю о 21:00 зупиняються резервні ноди, а в суботу о 9:00 потрібно запустити їх для синхронізації з основними і перетворення їх у провідні. 12 годин поспіль складно працювати, тому размонтируют одні люди, а монтують інші. Менеджер залишається і стежить за всім, що від початку до кінця.

Ціни

У нас ставка години роботи інженера декілька вище, ніж в середньому по ринку (не на порядок). Але ця ціна досвідченого замовника зазвичай повністю влаштовує, тому що він знає, за що конкретно платить. Ми не закладаємо вартість транспортування (скільки видає транспортна — транслюємо безпосередньо). Плюс є інфраструктура для замін в разі чого. Ми ще дуже чітко і обґрунтовано показуємо, скільки часу займає: 2 години — розбирання, 3 години — збірка, переїзд, простої. Вартість озвучується на першому етапі підготовки і не змінюється, навіть якщо були якісь ПП. Якщо диски повилітають — буде більше годин за фактом, але ми за них не візьмемо додатково.

Іноді замовник сам збільшує кількість годин на 6-12: «Давайте закладемо наступний день і одного спеца на випадок непередбачених обставин, нам, може, щось буде потрібно, наприклад, перекомутувати після запуску».

Складно буває з конкурсами — там до точного розуміння схеми комутації терміни робіт сказати складно, тому доводиться закладати вилку.

Ось як-то так. Якщо раптом є питання не для коментарів — пишіть на IShklyaev@croc.ru. З цієї ж поштою можу попередньо порахувати переїзд (безкоштовно), щоб був орієнтир, якщо повезете щось відповідальна.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.