Помилки і проблеми серверів великої трійки: частина третя. IBM



Привіт, Хабр! У минулих статтях ми торкалися помилок і проблем з серверами Dell і HP, і наша розповідь про помилки refurbished-серверів був би неповним без згадки продукції третього вендора «великої трійки» — IBM. Хоча ця славна корпорація вже відійшла від виробництва серверів, її продукція ще активно використовується. Тому поспішаємо з вами поділитися накопиченим досвідом «приборкання» серверів IBM. Це не вичерпний список проблем, але все ж він може виявитися комусь корисний.

Оперативна пам'ять
Сервери IBM чутливі по відношенню до конфігурації модулів пам'яті. Найчастіше після самостійного апгрейда — додавання пам'яті або її заміни — сервер не завантажується, або бачить менше пам'яті, ніж встановлено насправді. На щастя, в подібних ситуаціях не доводиться довго гадати про причини відмови: на діагностичній панелі (якщо така є) загоряються два індикатора Config і Memory.



Тому, перш ніж апгрейдити пам'ять обов'язково вивчіть специфікацію, пам'ять якого типу і обсягу підтримується вашим сервером. Також велике значення має кількість процесорів на сервері — від цього залежить порядок розміщення модулів в слотах. Це теж необхідно уточнити в специфікації.

Взагалі, з пам'яттю рівно така ж ситуація, як описано в статті про HP, наприклад. Коротко:

  • Дотримуйтеся канального пам'яті.
  • Ставте ECC REG 1(2)Rx4 пам'ять в двопроцесорні системи і UDIMM — однопроцесорні.
  • Ставте однаковий обсяг пам'яті на кожен процесор.


А що робити, якщо ви вставили пам'ять у відповідності з інструкціями, а сервер все одно не працює і зрадницьки горить індикатор Memory? В цьому випадку доведеться перевіряти різні варіанти:

  • Цей тип пам'яті не підтримується сервером. Уважно перегляньте зі специфікаціями.
  • Пам'ять виявилася «битою». Замініть лінійку на точно таку ж і перевірте, заведеться чи сервер.
  • Засмітився пилом слот на материнській платі. Це досить популярна причина, якщо сервер працює вже кілька років, а тим більше якщо ви його не перший власник. Продуйте слоти стисненим повітрям.
  • Загнутий контакт в сокеті. Таке буває дуже рідко, але все ж буває: пам'ять відмовляється працювати за загнутого контакту в сокет процесора. Якщо попередні заходи не допомогли знайти причину збою, зніміть процесор і уважно огляньте сокет. Якщо ви опинилися в числі нечисленних «щасливчиків», то можете спробувати обережно випрямити погнутий контакт, але це виключно на ваш страх і ризик.
Багато сисадміни стикаються з тим, що при перевірці оперативної пам'яті MemTest86 отримують повідомлення про помилки навіть у свідомо робочих модулях, або на одних і тих же доріжках. Особливо часто це зустрічається у серверів покоління M4. Це зовсім не вина машин або пам'яті: за словами розробників, сама MemTest86 просто не призначена для перевірки внутрішньої пам'яті. Якщо ж пам'ять почне давати збої, то сервер повідомить про це через діагностичну панель. Перевіряти пам'ять на серверах IBM краще стандартними засобами самодіагностики.

Накопичувачі
Ми вже неодноразово згадували про те, що зовсім не обов'язково встановлювати в серверах «рідні» накопичувачі. Ні IBM, ні інші вендори їх не виробляють, вони лише набувають їх у всім відомих виробників, перепрошивають і клеять свої логотипи. Тому ви можете без праці заощадити на апгрейді або відновлення дискових масивів, вибравши аналоги замість «рідних» накопичувачів. Двох-триразова різниця в ціні це виправдовує, особливо якщо мова йде про refurbished-серверах. У мережі можна легко знайти таблиці відповідності моделей, наприклад:
Модель IBM Оригінал
IBM 49Y2003 Seagate ST9600204SS
IBM 90Y8872 Seagate ST9600205SS
IBM 90Y8908 Seagate ST9600105SS
IBM 81Y9650 Seagate ST900MM0006
Тим не менш, ще можливі ситуації несумісності «нерідних» накопичувачів з сервером. У цьому випадку сервер не вантажиться штатно, або не бачить накопичувач. Зазвичай це вирішується за допомогою установки свіжої прошивки RAID-контролера. До речі, рекомендується оновити прошивку і бэкплейна/експандеру, в цьому вам допоможе додаток IBM Bootable Media Creator (BoMC).

При включенні сервера і проходження POST-перевірки можлива поява помилки:

A discovery error has occurred, please powercycle the system and all the enclosures attached to this system.

Це сигналізує про проблеми з одним з накопичувачів. Обчислити його просто: індикатори на його полозках постійно блимають, навіть коли всі інші носії пройшли перевірку і перестали миготіти.

З дисковою підсистемою бувають і більш екзотичні проблеми. Наприклад, при використанні RAID-1 у фірмовому додатку MegaRAID Storage Manager можуть з'явитися помилки виду:

ID = 63
SEQUENCE NUMBER = 48442
TIME = 24-01-2016 17:03:59
LOCALIZED MESSAGE = Controller ID: 0 Consistency Check found inconsistent parity on VD strip: ( VD = 0, strip = 637679)

Найчастіше це говорить не про вмирання диска, а про помилку контролю парності — неспівпадінні даних на основному і вторинному дисках. Можливі причини:

  • Нерідко такі помилки з'являються відразу після конфігурування нового масиву або після заміни одного з дисків.
  • Під час сеансу діагностики поверхні млинців відбувається ініціалізація диска і виконання операцій вводу/виводу. На RAID-1 це може призвести до тимчасового невідповідності томів, яке автоматично виправляють при наступній перевірці на відповідність. Таке виникає не при кожному сеансі діагностики, а коли сходяться зірки:
    • o Використовується RAID-контролер без кешування, або активований режим Write Through.
    • o Нестача оперативної пам'яті, при якій з диска здійснюється активна підкачка сторінок.

    • o Просто дуже інтенсивне використання дисків.
Для вирішення цієї проблеми рекомендується знизити активність підкачки з диску: використовуйте RAID-контролер з кешуванням і збільшити обсяг оперативної пам'яті.

Оновлення прошивок і
Цікава проблема може підстерігати при установці з нуля 2012 Windows або Windows 2012 R2 — свежеустановленная операційка не бачить жодного накопичувача. Причому таке буває не тільки з серверами IBM. Справа в тому, що всі накопичувачі на сервері підключені через RAID, а згадані версії ОС не мають вшитих драйверів для роботи з RAID. І тому вони їх просто ігнорують. Як бути? Найнадійніший спосіб: використовувати утиліту IBM ServerGuide. При установці ОС вона примусово підсовує всі необхідні драйвера для даної моделі і версії операційної системи. Зверніть увагу, що образ ОС повинен встановлюватися з диска, а не з флешки: ServerGuide не буде працювати з чином на тому ж USB-носії, з якого запущений сам.



При купівлі серверів бувають ситуації, коли треба спочатку оновити всі прошивки, а потім вже накочувати систему. Зробити це можна за допомогою вищезгаданої IBM Bootable Media Creator:

  1. Завантажити з завантажувальної флешки або жорсткого диска.
  2. Запустіть BoMC від імені Адміністратора.
  3. Виберіть, що ви хочете зробити: оновити і/або провести діагностику.
  4. Програма запитає, де їй взяти драйвери: завантажити самої або витягнути з вказаного вами архіву.
  5. Виберіть носій для запису завантажувального образу: флешку або диск. Запис може йти кілька годин, не хвилюйтеся, програма не зависла.
  6. Після закінчення запису завантажити з цього носія, і далі по інструкції.
Ця процедура допомагає і в ряді проблемних ситуацій. Наприклад, якщо ви не дочекалися завершення оновлення Integrated Management Module і натиснули кнопку «скасування», то при наступних завантаженнях сервер може не зуміти завантажити IMM і використовує налаштування за замовчуванням. Можна спочатку спробувати відновити з допомогою джампера «UEFI & IMM recovery jumper» на материнській платі, завдяки якому завантажується прошитий образ IMM.



Але якщо не допоможе, то скористайтеся процедурою оновлення через BoMC.

Бувають і більш неприємні ситуації, коли за законом підлості в ході встановлення більш свіжої версії BIOS'У відбувається збій живлення.



Після цього сервер вже не може завантажити основну прошивку, і використовує резервну. Якщо штатна процедура відновлення BIOS'У не допомагає, то зробіть… даунгрейд: встановіть більш стару прошивку, ніж та, що була до збою живлення. Зазвичай це допомагає. Після цього вже можна спробувати знову поставити свіжу версію BIOS'У. Як кажуть, крок назад — два вперед.

Інші проблеми
Іноді при спробі віддаленого управління сервером виникає помилка «Login failed with an access denied error.», причому в будь-яких браузерах. Якщо перезавантаження сервера і клієнта не допомагає, то рекомендується скинути IMM до заводських налаштувань.

У статті про помилки серверів HP ми згадували про проблеми з системою охолодження: відразу після запуску сервера вентилятори виходили на високі обороти і вже не знижували їх. Трапляється такий недуг і в серверах IBM. Сервер виє, як реактивний літак на злеті. Нам не вдалося з'ясувати причину таких збоїв, але можна порадити наступне:

  1. Перевірте щільність підключення роз'ємів живлення.
  2. Вимкніть всі вентилятори і зніміть кошик.
  3. Перевірте кожен вентилятор на інших серверах.
  4. Зберіть кошик знову, змінивши вентилятори місцями. Або зовсім їх замінити.
Зустрічався в нашій практиці і такий цікавий збій: при завантаженні сервера штатно ініціалізується IMM, потім починається ініціалізація UEFI, і… все. Далі сервер не вантажиться без пояснення причин. Не допомагали ніякі маніпуляції: відключення від мережі, повне знеструмлення, відключення різних компонентів. Завантаження бекапа UEFI з допомогою джампера на материнській платі теж не допомогла. Дослідним шляхом з'ясувалося, що якщо почекати близько 20 хвилин, то все ж можна дочекатися завантаження сервера. Так він і працює з тих пір кожен раз вантажиться за 20 хвилин. З'ясувати причину збою не вдалося.

Переваги серверів IBM
Сервери IBM заслужено користуються великою популярністю:

  • Це прості і надійні машини.
  • Відмінна розширюваність навіть на початкових моделях і багатий комплект поставки.
  • Сервери IBM зазвичай дешевше конкурентів і не поступаються в продуктивності. Наприклад, покоління M3 і M4 дешевше, ніж аналоги у HP (Gen7 і Gen8) і Dell (11G і 12G).
  • найдорожчі матеріали. Легко знайти в Росії.
  • Зручна діагностична панель на багатьох моделях.
Головне, в чому сервери IBM поступаються конкурентам — у них дуже довгий «холодний» старт.

Сьогодні багатьох бентежить, що IBM відійшла від виробництва серверів. Але Lenovo, викупила цю частину бізнесу, теж вдається створювати дуже вдалі моделі. Наприклад, її лінійка серверів SystemX славиться своєю надійністю.
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.