Як працює інженерна служба КРОК - і що відбувається, якщо в 3 ночі десь далеко ламається кластер

    
 DL360 — сервер на Pentium I під гарячу заміну. Десь далеко в Сибіру під постійним навантаженням вже багато років трудиться його брат-близнюк. Якщо він вийде з ладу, у нас є заміна, що дозволяє просто продовжити роботу без кардинальної перенастроювання
 
 
 А от з такої картини часто починається ранок на виїзді
 
 Доброе утро! Мене звуть Олександр, я працюю керівником сервісної команди КРОК.
 
По всій країні є багато об'єктів, де вихід з ладу кластера відразу веде до потрапляння місцевого головного в телевізор. Це різні НДІ, промислові підприємства, вузли банків, страхових, об'єкти нафтових компаній, аеропорти і так далі. А ми ставимо туди залізо, софт і все це тримаємо на підтримці.
 
Почнемо з того, що монтажів без пригод майже не буває. Добре, якщо нам просто забули дати живлення або мережу. Гірше, коли серверна стійка стоїть зовні будівлі, тому що хтось неправильно вказав розміри дверей. Ще бувають моменти кшталт: «Хлопці, ми все підготували, підключили, тільки є нюанс — ваш сервер при розвантаженні упустили. Ну, всього пару разів ». Зараз я розповім і покажу, як виглядає наша робота.
 
 

Сенс роботи

За час роботи в КРОК я об'їздив майже всю країну на монтажах та підтримки. Зараз я вже керую відділом, тому сам їжджу дуже рідко.
 
 
 Моє робоче місце. Папок, як видно, більше, ніж залозок
 
 Звичайний сценарій роботи бойової зміни такою: сидимо і чекаємо виклику. Коли щось ламається, у нас є досить жорсткі нормативи з часу усунення поломки. Приміром, на критичних об'єктах в Москві час заміни заліза — 4 години від звернення. У Новосибірську та інших містах теж є особливо важливі об'єкти, благо зараз проблем з бронюванням квитків немає.
 
 Від команди, яка чекає виклику, потрібно бути на місці і чергувати. Як правило, бійці в цей час або колупають нове залізо і вивчають його, або займаються самонавчанням. Загалом, тренуємося і підвищуємо кваліфікацію.
 
 Іноді облизували на нові рішення і замовляємо їх собі «на подивитися». З цього виходить багато цікавих проектів — починаючи від системи освітлення офісу, що підстроюється під погоду і відкриті вікна, і закінчуючи різними рішеннями для нашої ж безпеки.
 
 
 Випробування
 
 Ще частина інженерів займається штатними монтажами і обслуговуванням. Їм не треба зриватися і бігти до терміналу або нестися в аеропорт. Вони заздалегідь знають, що, де, як і коли. Легше від цього не стає, тому що, повторюся, кожен монтаж — це окрема пригода. І готуватися до нього теж краще ретельно, що на практиці — куди більш нервова робота, ніж поспішати на допомогу, як Чіп і Дейл.
 
 Поза бойової зміни ми також працюємо з нашим залізом, але вже можемо робити це за межами офісу. Ще один важливий аспект — наші інженери. Це люди з дуже великим практичним досвідом, і деякі з них часто виступають як для внутрішнього навчання, так і на різних технічних конференціях. За винятком тих бійців, хто працює під сервіс, звичайно. Хоча в теорії, якщо у нас буде відразу кілька критичних ситуацій одночасно, штатний інженер також може перервати свій виступ на півслові і втекти. Але таке на моїй пам'яті було тільки раз.
 
 
 Кубки не мої. Але дуже гарні для того, щоб, наприклад, складати туди всякі дрібні деталі, щоб не загубилися.
 
 

Виїзд на монтаж

Наприклад, у випадку з штатної інсталяцією кластера, як правило, потрібен не один фахівець. Один — це людина, яка займається операционкой і власне налаштуванням кластера, другий — це стораджіст, а третій — прикладник, залежно від того, чи ставить сам замовник приклад чи ні. Буває, коли і двома обходимося, мережевики часто на місці бувають, але трапляється, що іноді взагалі нікого з IT на конкретній точці немає.
 
 Починається з розвантаження. Буває, б'ють залізо. Ми фотографуємо, коли потрібно довести несправність (наприклад, що обладнання прийшло битим з вини транспортної компанії). Потім довго розбираємося.
 
 Припустимо, все прийшло як треба. Ставимо систему, той же кластер. Все добре: є специфікація, обладнання, софт, працюємо з налаштування, є якісь домовленості між менеджерами. Усі сто раз обговорено, всі складні моменти з досвіду обумовлені. Приїжджає інженер, і він з розуміє, що ідеальний світ — це не тут.
 
Він підходить, скажімо, до сетевику і каже: «Мені треба вісім інтерфейсів виділити на комутаторі». А йому кажуть: «У мене тільки шість, а ще два будуть завтра або післязавтра. Треба їх зі складу замовити ». Інженер бігає, у всіх щось просить. Коли йому все дадуть, коли йому ткнуть місце в стійці, електрику підключать, підтягнутий до нього кабелі — може пройти і пара днів.
 
Потім він починає кликати адмінів, які його прописують в домен, потім кличе спеців по СУБД, які йому починають розповідати, як у них все влаштовано, адміни його теж вводять в свою систему. Кожен раз він працює з кимось новим, і не факт, що підготовленим. А система бойова, і інженер паролів не знає, значить, поруч повинні сидіти адмін і забивати це для нього. Їм теж не дуже весело доводиться. Та й люди можуть різні. Наприклад, SQL-щик любить випити, а хтось ходить в майці з Сімпсонами в мінус тридцять, тому що його дружина кинула. До кожного потрібно знайти підхід. Зрозуміло, що всі ці люди допомагають, тому що є спільне завдання, але все одно є якийсь фан у тому, що тобі потрібно від кожного щось дізнатися, щоб роботу свою закінчити. Кожен тобі повинен пояснити, як і що влаштовано. Дуже часто документація з реальністю дещо розходиться, і концепція монтажу може помінятися. Або раптом з'ясовується, що певний тип пакетів в мережі заборонений по політиці Москви (а пояс другий, і в Москві зараз глибока ніч, не подзвониш).
 
 Приблизно на цій стадії може з'ясуватися, що бекапа вже рік, як не було. Ха-ха. І починається, знову ж таки, дуже багато еротичних пригод. Ми, звичайно, можемо і без бекапа ставити, формально ми, начебто, ні при чому. Але тоді негатив залишиться: мовляв, приїхав якийсь ..., зламав тут все і поїхав.
 
 

Комплектуючі

Окремо варто сказати про наш склад. У нас близько вісімдесяти тисяч найменувань під гарячу заміну на складі. Ясна річ, коли у тебе SLA на заміну 4 години, склад повинен віддати залізяку раніше, ніж ти спустишся на ліфті. Тому наші комірники методично ведуть точний облік і всі перевіряють.
 
 
 Система обліку каже: «Твоя залізяка в коробці такий-то в блоці такому-то». Незалежно від того, дрібна вона або велика.
 
 
 Підходиш — відразу видно, що лежить тут
 
 
 В одній із секцій складу у нас «музей» — місце, де лежать ось такі експонати
 
Вони реально робітники і реально потрібні для гарячих замін. Коли система складна, критична і «не чіпай, поки працює», простіше міняти вийшов з ладу вузол на точно такий же, чим перенастроювати і переробляти. Тому ми й зберігаємо резерви, гідні музею.
    
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.