Як я боровся з екранами смерті на застарілих блейд-серверах

Пост про те, як я боровся з проблемами нового софта на старому залізі, що виникли після додавання додаткового обладнання.



Всім, кому цікаво серверне залізо і боротьба з помилками прошу під кат.

Замовили ми для серверної полиці HP C3000 два додаткових комутатора cisco і мезанин-карті в кожен блейд-сервер для того, щоб зробити все по розуму. Хотілося, щоб мережі ділилися на фізичному рівні, а так само підвищити продуктивність і надійність.
Конфігурація вийшла наступна:

Полку hp c3000, в ній
  • 2 hp bl460c g6
  • 2 hp bl490c g7

  • 2 свіча HP GbE2c
  • 2 свіча Cisco 3020

У кожному блейде по дві мезанин-карти (HP NC382m Dual-Port 1GbE і HP NC364m Quad Port 1GbE) і вбудовані FlexFabric двопортові 10GbE.
Мезанин-карти виглядають так:

HP NC382m

HP NC364m

Сервери працюють під управлінням Vmware ESXi 5.5.

Спочатку все працювало стабільно без цисок і чотирьохпортові мезанинов. Один комутатор hp був для мережі віртуальних машин, другий під менеджмент і iscsi мережі. Продуктивності другого не вистачало і було прийняте рішення винести мережа iscsi на окремі комутатори. Для цього і придбали дві циски і мезанин-карти.

Як Ви розумієте, 460-ті сервери досить застаріли, але досі повинні підтримуватися. Був отриманий актуальний дистрибутив hp service pack, вся полку оновлено.
З кластера vmware вивів 460-ті хости, вставив туди мезанин карти, увіткнув в полку і… при завантаженні відразу PSOD.

Спочатку подумав, що можливо це проблема материнської плати, так як на одному з блэйдов вже міняли материнську плату, як раз через проблем з мережевими адаптерами. Вони час від часу зникали.
Але коли проблема продублировалась на другому блейд-сервері, відкинув цю думку. Варто зазначити, що я пробував запускати сервер з однієї будь мезанин-картою в різних слотах і все працювало без проблем, а значить — проблема не в карті і не слоті.

Блейд-сервер перевів у режим debug, читаю логи, читаю форум vmware. Там написано, що це проблема з обладнанням і посилаються на форум виробника. Переходжу на форум HP, там пишуть, що при використанні сучасних продуктів vmware часто виникають труднощі на старому обладнанні. Ставлю vmware esxi 4.1 — все працює стабільно, але проблема в тому, що ліцензія на esxi 5.5 і є супутнє ЗА цю ліцензію, таке як Vgate 2.7. Ставлю Windows Server 2012 R2, щоб переконатися, що проблема дійсно в софті і… BSOD.

При наступному старті windows все працює кшталт стабільно, залишаю на тести. На наступний день виявляю bsod.
При цьому в консолі onboard адміністратора є помилки в IML (Integrated Management Log) Uncorrectable PCI Express Error (Embedded device, Bus 0, Device 9, Function 0, Error status 0x00000000). Тобто невиправна помилка обладнання, а device 9 це якраз друга карта мезанин.

Продовжую читати форум hp, написано, що може впливати прошивка ilo. Виявляю, що є більш нова прошивка ilo і перешиваю обидва блейда, але не допомагає. Далі більше, на форумі написано, що є несумісність прошивок FlexFabric і драйверів. Перешиваю FlexFabric — все одно помилка.

Пробую різні дистрибутиви: стандартний дистрибутив vmware esxi 5.5 і дистрибутив виробника HP того ж білду. Результат один.
Читаю, що в логах, а там помилка конкретно на bnx2 (це мережевий FlexFabric адаптер). Ставлю Broadcom драйвери з сайту vmware (причому перезапис драйвера працює тільки з консолі самого esxi. Якщо ставити під vcenter, то vcenter не перезаписує). Перезавантаження і політ нормальний! Теж саме було з Emulex FlexFabric на 490 блэйдах. Так само оновив FlexFabric біос і перезаписав драйвер. Все працювало стабільно, швидко,
… але не довго.

З'явилася друга проблема, пов'язана з мезанин-картою.
Через деякий час на одному з блэйдов повністю пропала четырехпортовая мезанин-карта, навіть з біоса хоста. Перезавантаження, скидання біоса, нічого не допомагало, поки в біосі не був виявлений пункт про роботу з pci адаптерами mezzanine. За лініями pci стало можливо вибирати рівень підсилення сигналу (всього два пункти 6 db і 3.5 db). Так, саме стало, бо цей пункт з'явився при додаванні четырехпортовой карти. Перемкнув рівень посилення і відразу після перезавантаження карта з'явилася в біосі.

Минуло два робочі тижні і жодного purple екрану не було.
Після оновлення прошивок на мережевих картах з'явилася функція wake on lan, якої раніше не було, і на vcenter був налаштований power management. Тепер хости прокидаються по необхідності.

А у висновку хочу сказати, що потрібно бути уважним до функціоналу, появляющемуся при додаванні нового заліза (такий як додаткові пункти в bios), а також те, що не всі невиправні хардварные непоправні помилки. До деяких помилок призводять стандартні драйвера і застарілі bios'у и.

Сподіваюся мої муки з блейдами будуть комусь корисні.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.