День з життя новоприбулого сервера: як ми перевіряємо і відновлюємо залізо

<img src=«habrastorage.org/files/6bc/200/704/6bc200704fa94d249fc234cc1bfc7894.jpg» alt=«image» alt text"/>
У цій статті хочу трохи розповісти про внутрішню кухню Сервер Молл і про те, як відбувається тестування і відновлення серверів. Постараюся наочно показати відмінність звичайного "б/у" від сервера Refurbished і розповім про процес перетворення трохи «втомленого» заліза в практично нове.
Для вивчення чудового внутрішнього світу відділу передпродажної підготовки Сервер Молл я поспілкувався з одним із інженерів, який поділився професійної кмітливістю і досвідом. Андрій якраз займався новоприбулим IBM System X 3650 M4, так що екскурсія вийшла з практичним ухилом.
Припустимо, ви вирішили продати сервер
Зробити це може тільки організація, але і фізична особа, звернувшись в Сервер Молл (СМ) за оцінкою. На Хабре вже була докладна стаття про процесі купівлі, тому розповім про те, що відбувається далі.
За отриманими в ході телефонної бесіди відомостями фахівці приймають рішення про доцільність покупки, зазвичай позитивне. Все ж, придбання якого-небудь ProLiant другого покоління навряд чи виявиться корисним, тому первинна оцінка перспектив заліза досить важлива. Якщо все добре, то спеціально навчений експедитор приїжджає до продавця, проводить візуальний огляд сервера, перевіряє явні помилки в роботі і забирає залізо з собою. Купівля серверів проводиться компанією по всій Росії.
<img src=«habrastorage.org/files/efc/1d7/5fb/efc1d75fb64f45599b77d0c49b008c91.jpg» alt=«image» alt text"/>
Огляд дозволяє приблизно оцінити витрати на відновлення сервера: той же великий скол на корпусі запросто може бути викликаний падінням, з подальшим виникненням плаваючих помилок із-за мікротріщин у текстоліті материнської плати. Сервери роняють взагалі не часто, але зате дуже влучно. Сам був свідком перевезення трійки машин DL380 в багажнику седана, з якого одну з залозок ніяково витягли. Візуально сервера лише відвалилося вухо і пом'явся куточок, але при старті ми отримали помилки по системі охолодження і періодичні перезавантаження.
Ще при огляді сервер включають, дивляться на індикатори самодіагностики і помилки консолі. Якщо нічого критичного, то вчиняється правочин і машина передається далі по інстанціях.
Вся описувана далі послідовність перевірок з'явилася не на порожньому місці – під спойлером небагато відомостей про MTBF і тяготи їх видобутку.Спочатку, наші інженери поцікавилися статистикою напрацювання на відмову основних вузлів, щоб не боротися з тим, що потрібно просто замінити. Основним показником надійності вважається MTBF (Mean Time Between Failures), тобто час, протягом якого не буде збоїв. Для кожного компонента цифра різна, і офіційних даних про всіх компонентах так просто не отримати.
Але для орієнтира можна використовувати звіти деяких OEM виробників, чия залізо використовується в будь-якому брендовому сервері. Наприклад, уSSD intel 520, MTBF становить 1 200 000 годин. Зрозуміло, це не означає, що диск пропрацює 136 років, так як ця характеристика статистична та виводиться при тестуванні великої партії. Зручніше для розуміння показник AFR (Annual Failure Rate), що виводиться з MTBF за формулою AFR = 1-exp(-8760/MTBF).
Для нашого прикладу ймовірність збою диска SSD в перший рік складе приблизно 0.007, тобто 0,7%. Для менш точного розрахунку використовують формулу 8760/MTBF. Вже написано досить багато статей на тему розрахунку цього показника, так що зацікавлені можуть звернутися до опублікованими матеріалами.
Серверне
Всі новоприбулі сервери проходять обов'язковий цикл тестування і очищення. Крім того, відновлюються серйозні фізичні дефекти, начебто погнутих монтажних "вух".
Зовсім косметичні речі, начебто подряпин на металі і потертостей, залишаються як є. До речі, метал серверних систем покритий на заводі спеціальним антистатичним лаком, відновити який не так просто. Склад самої речовини точно не відомий – майже як приправа в KFC, – тому приносимо естетику в жертву захисту від статики.
<img src=«habrastorage.org/files/ca2/31a/f53/ca231af535664ad980b668a2b248d68c.jpg» alt=«image» alt text"/>
При пошкодженні так званих «вух», за які сервер зручно висувати зі стійки, їх міняють на нові. У випадку з пластиковими деталями HP вони просто міняються на нові, як і петлі блоків живлення. Монтажні санчата просто замовляються заново. При значних пошкодженнях самого корпусу (глибокі і складні вм'ятини, наприклад), він просто в зборі змінюється на новий.
Пошкоджень металевих кріплень IBM за весь досвід інженерів Сервер Молл не траплялося жодного разу. Мабуть, широко відома "захист від ударів" систем цього виробника проявляється навіть в дрібницях.
До речі, час напрацювання на відмову для корпуса досить велика.Наприклад, ось приклад даних MTBF одного з виробників:
  • Показник самого корпусу складає 5 000 000 годин;
  • Дискова кошик і IMPI-модулі відпрацюють 700 000 годин;
  • Світлодіоди розраховані на 2 000 000 годин.

Одного разу надійшов запит на продаж сервера, який охолоджувався тютюновим димом кілька років. Він просто стояв в серверній, забір повітря в яку проводився з сусідньої курилки. Аромати продуктів горіння табакосодержащей продукції відчувалися вже на підході до пацієнта. Модель була актуальною, тому вирішили ризикнути. Ви коли-небудь відмивали рівний шар тютюнової смоли? А інженери Сервер Молл відмивали – один навіть курити кинув. Правда, залізо в продаж все ж не пішло і використовувалося для внутрішніх потреб.
Після огляду інженер знімає кришку корпусу і запускає машину, щоб послухати звуковий фон вентиляторів, блоків живлення і дисків. Деякі кулери не видають ніяких помилок в систему діагностики, але їх звук не залишає ніякої віри у подальше майбутнє підшипників. Такі кулери просто міняємо на нові. Показник MTBF для систем охолодження Intel становить всього100 000 годин, тому заміна вентиляторів на нові – звичайне явище.
<img src=«habrastorage.org/files/edb/62b/c2f/edb62bc2fac24f959de2898e9aae4bea.jpg» alt=«image» alt text"/>
Не менш популярний звук – писк конденсаторів системи живлення, яка до останнього світиться зеленим моніторингу. У відносно свіжих серверах використовуються блоки живлення з твердотілими конденсаторами, але моделі з електролітичними елементами усе ще актуальні і тому вимагають уважної діагностики.
Час напрацювання на відмову сучасних блоків живлення може становити 967 300 годин, якщо вірити даними OEM-виробника Intel. У разі свисток і підозр на неполадки весь БП змінюється на новий, тому що будь-які роботи по пайці економічно недоцільні і чреваті для майбутнього покупця.
Світло-цифрова діагностика
Більшість сучасних серверів оснащені системами самодіагностики. Це можуть бути LED-індикатори на передній панелі, окремі модулі з переліком і статусом всіх компонентів, просто вказівник на наявність якоїсь помилки. У будь-якому випадку, серйозні проблеми з компонентами видно відразу.
Невеликий екскурс в базову діагностику на прикладі рішень IBM, HP і Dell.
  • Варіант від IBM називається Light Path і являє собою висувну панель з індикаторами і поясненнями;
<img src=«habrastorage.org/files/70f/3f1/f90/70f3f1f90a814963b43f9b04726e8611.jpg» alt=«image» alt text"/>
  • Dell у більшості серверів використовує LCD-панель для базової настройки відображення помилок з коротким описом;
<img src=«habrastorage.org/files/c7f/015/fcf/c7f015fcf4df44d38804449ba01cd444.jpg» alt=«image» alt text"/>
Зустрічаються і спрощені індикатори:
<img src=«habrastorage.org/files/a29/37f/213/a2937f213bd14db394c5cee3cb050b71.jpg» alt=«image» alt text"/>
  • HPE пропонує самодіагностику Systems Insight LED Display, панель якої схожа на варіант IBM.
<img src=«habrastorage.org/files/be7/ce3/c18/be7ce3c18a824febad7bad13c410d25c.jpg» alt=«image» alt text"/>
Після побіжного погляду на індикатори починається довга програмна перевірка з використанням штатних діагностичних інструментів:
Усі ці програми запускаються локально або за допомогою засобів IMM, DRAC, iLO. Якщо діагностика не "вшита" керуючий контролер сервера, то просто завантажується з фірмового діагностичного диска від виробника. Повна діагностика займає 2 – 3 години і знаходить більшість проблем з пам'яттю, процесором, діагностичним контролером, вентиляторами, блоками живлення і дисковими контролерами. Жорсткі диски в процесі не беруть участь, так як при продажу практично завжди ставляться нові.
Традиційно слабким місцем системних плат були електролітичні конденсатори. Вони здувалися, перегрівалися, вибухали і приводили до повної непрацездатності. При максимальному температурному режимі MTTF таких елементів становив до 8 000 годин, що загрожує позаплановим ремонтом вже через пару років експлуатації. Тому в сучасних серверних системах використовуються твердотілі конденсатори, яких вистачить на кілька "життя" сервера. Загальний MTBF материнської плати на прикладі Intel S1200V3RPM це підтверджує і становить 371 523 години.
<img src=«habrastorage.org/files/061/5f5/e2e/0615f5e2e8cb4c7ea1b17037b7e7df90.jpg» alt=«image» alt text"/>
Після вдумливої перевірки сервер повністю розбирається до стану "голий корпус і комплектуючі на столі", після чого всі компоненти ретельно чистяться і промиваються спиртом. Спирт не шкодить струмопровідних доріжок, елементній базі і лаку материнської плати, а тому широко використовується для додання платам первозданного вигляду. Щоб уникнути накладних витрат і як заходи боротьби з пияцтвом, використовується спирт ізопропіловий.
<img src=«habrastorage.org/files/a1b/db6/4ea/a1bdb64eace0437b91bd3c1cf6337378.jpg» alt=«image» alt text"/>
Пильна увага приділяється роз'ємів материнської плати. Зокрема, інженер розглядає через збільшувальне скло сокет процесора на предмет загнутих пінів, адже навіть одна зіпсована ніжка може викликати самі непередбачувані наслідки. Не залишаються без уваги слоти PCI і оперативної пам'яті, перевіряються лінки мережевих портів. Як "вишеньки на торт" міняємо батарейку BIOS, на всяк випадок.
<img src=«habrastorage.org/files/e48/09b/627/e4809b62757341bf983ddb8cbe7748ee.jpg» alt=«image» alt text"/>
Після купання сервер передають на склад, де з усіх комплектуючих зчитуються штрих-коди для внутрішньої складської бази. Потім залізо чекає на полиці свого покупця разом з логами тестування та гарантійним листом, куди занесені серійні номери всіх комплектуючих.
Та ось прийшов замовлення саме на цей сервер
Рідко коли замовник вибирає конфігурацію "є" і не хоче нічого додати. Тому замовлене залізо доукомплектовують новими дисками, процесорами, блоками живлення певної потужності, пам'яттю і необхідними контролерами. Після цього сервер знову передають інженерам з тестування для передпродажної перевірки.
З інструментів використовується вбудоване діагностичне ПО виробника сервера і пара утиліт з зовнішнього диска. Передпродажна перевірка займає близько десяти годин і проводиться в стресовому режимі:
  • Процесори і пам'ять працюють на максимумі своїх можливостей;
  • Блоки живлення віддають всю потужність, навіть якщо їх декілька;
  • Під навантаженням виявляється більшість бракованих жорстких дисків;
  • Вся елементна база сервера працює так, як навряд чи буде працювати в повсякденній експлуатації.
<img src=«habrastorage.org/files/c01/9c9/604/c019c96043154ffd88f3e9452bcb033a.jpg» alt=«image» alt text"/>
На цьому етапі, до речі, виявляються "тонкі" вади блоків живлення. Так що однією перевіркою на свист у Сервер Молл не обмежуються. На цьому ж етапі можлива безумовна заміна блоку живлення на новий, якщо замовник вирішив придбати сервер з одним блоком живлення, незважаючи на перспективи використання відмовостійких варіантів.
Нові жорсткі диски не тестуються лише тоді, коли замовник за своїм міркувань просить надіслати їх не распакованными.
Для повноцінної перевірки всіх мережевих інтерфейсів машина вантажиться з зовнішнього диска у спеціально підготовленому середовищі на базі Windows 2012R2. Сервер підключається до локальної мережі і інженер послідовно запускає копіювання одного великого файлу і безлічі дрібних. Якщо втрати пакетів перевищує 1% – мережева карта підлягає діагностиці і заміні.
З допомогою Memtest додатково тестується пам'ять на всіх системах, крім IBM. Справа в тому, що перевірки Memtest на машинах IBM практично завжди знаходять неіснуючі помилки на одному з слотів. Така ось технічна особливість.
<img src=«habrastorage.org/files/315/912/b00/315912b0056648a28f1cb2dae7af7662.jpg» alt=«image» alt text"/>
При збої будь-якого з компонентів сервера всі тестування починається заново, що дозволяє уникнути можливих проблем з сумісністю замінених комплектуючих.
Один раз спливла цікава проблема з контролером RAID сервера Dell: всі тести були пройдені успішно, але після перезавантаження BIOS почав показувати помилки вже досить рідкісного контролера H710. З-за пошуків рівноцінної заміни відвантаження сервера довелося затримати на один день, який був компенсований заміною на більш сучасний адаптер H330 з удвічі більшою пропускною здатністю.
Отже, на кожен сервер йде близько 16 години:
  • 2 – 3 години первинне тестування;
  • 3 години на чистку і купання;
  • 10 годин забирає передпродажне тестування.
В комплекті з які пройшли всі випробування залізом покупець отримує флеш-накопичувач з журналом тестування, інструкцію до сервера, корисні посилання та офлайн-версію статті про поширених помилках саме цього виробника.
<img src=«habrastorage.org/files/ba4/db6/85f/ba4db685f4aa4c438cf0a80ad2f8414d.jpg» alt=«image» alt text"/>
Окремої згадки заслуговує підготовка сервера до відправлення. Упаковка розроблена самостійно і, за відгуками, якістю перевершує оригінальну. Сервер запаюють в плівку з силікагелем (поглиначем вологи), обертають спіненим поліетиленом, упаковують в міцний картон і відправляють замовнику.
Замість висновку
На відновлені вищеописаним чином машини Сервер Молл дає власну гарантію 3 роки. Причому, в стандартний набір послуг входить як заміна відмовили компонентів протягом пари днів, так і повна заміна всього сервера при критичних неполадки. Детальніше про гарантійної підтримки та її відмінності від фірмових пропозицій HP, IBM і Dell ви можете дізнатися в одній з минулих статей.
До речі, за час існування компанії повна заміна потрібна була тільки один раз. Глюк виявився невоспроизводимым і в присутності інженерів Сервер Молл все працювало як годинник. Ось вона, админская аура в дії!
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.