Планування приймально-здавальних випробувань хмарної майданчика

Сьют ІТ-Граду в SDN

24 вересня ми (ІТ-ГРАД) відкрили нову публічну хмарну майданчик у дата-центрі SDN (Stack Data Network). Перед введенням першого клієнта в промислову експлуатацію я займаюся плануванням випробувань, які покажуть, що всі компоненти працюють як замислювалося, а дублювання і обробка апаратних збоїв відбувається в штатному режимі. Тут я розповім про тих тестах, які вже запланував, а також попрошу хабровчан поділитися своїми доповненнями та рекомендаціями.

Трохи про наповнення нової площадки:
На першому етапі в новий ЦОД була встановлена система зберігання даних NetApp FAS8040 (ми як золотий партнер компанії NetApp — залишаємося вірні вендору), система поки має 2 контролера FAS8040, які зібрані в кластер через дубльовані 10Gbit/s комутатори (Cluster Interconnects) і дозволяють нарощувати кластер СГД до 24 контролерів. Контролери СГД у свою чергу підключені до мережі ядра мережі по 10Gbit/s оптичним лінками сформоване двома комутаторами Cisco Nexus 5548UP з підтримкою L3.

Сервери гіпервізора VMware vSphere ESXi (Dell r620/r820) підключаються до мережі по двох інтерфейсах 10Gbit/s, використовуючи конвергентну середовище передачі даних для роботи з дисковим масивом і мережею передачі даних). Пул ESXi серверів утворює кластер з підтримкою VMware vSphere High Availability (HA). Менеджмент інтерфейси серверів iDRAC і контролерів СГД збираються на окремому виділеному комутаторі Cisco.

Коли базова настройка інфраструктури завершено, настає час зупинитися і озирнутися назад: нічого не забули? все працює? надійно??? Заділ на успіх в особі досвідчених інженерів ми вже маємо, але щоб «фундамент» залишався міцним, необхідно, звичайно ж, правильно провести випробування на стресостійкість інфраструктури. Успішне закінчення тестів буде свідчити про завершення першого етапу і складання приймально-здавальних випробувань (ПСІ) нової хмарної майданчика.

Отже, озвучу вихідні дані та план тестування. А уважні читачі можуть внести пропозиції/рекомендації/побажання щодо корекції можливих моментів, які ми могли не передбачити. З радістю вислухаю.

Вихідні дані:
  • FAS8040 dual controller під управлінням Data ONTAP Release 8.2.1 Cluster-Mode
  • Дискові полиці NetApp DS2246 (24 x 900GB SAS) — 5 шт.
  • NetApp FlashCache 512Gb — 2шт.
  • NetApp Clustered Ontap CN1610 Interconnect Switch — 2 шт.
  • Комутатори ядра уніфікованої мережі Cisco Nexus 5548 — 2 шт.
  • Прикордонний роутер Juniper MX80 (поки один, другий ще не приїхав)
  • Керований комутатор Cisco 2960
  • Сервера Dell PowerEdge R620/R810 with VMware vSphere ESXi 5.5
Схема підключення виглядає наступним чином:

Схема підключення

Навмисне не став малювати менеджмент світч і Juniper MX80, тому зв'язність інтернет будемо тестувати після резервування каналу, не вистачає ще одного Juniper MX80 (чекаємо до кінця місяця).

Отже, умовно наші «краш-тести» можна поділити на 3 види:
  • Тестування дискового масиву FAS8040
  • Тестування мережевої інфраструктури
  • Тестування віртуальної інфраструктури
При цьому тестування мережевої інфраструктури в нашому випадку виконується у скороченому варіанті з причин, які зазначалися вище (не всі мережеве обладнання встановлено).

Перед тестами планується ще раз зробити бекапи конфігурацій мережевого обладнання та масиву, а також проаналізувати результати дискового масиву з допомогою Config Advisor.

Тепер розповім детальніше про план тестування.

I. Віддалене тестування

  1. Почергове вимикання контролерів FAS8040.
    Очікуваний результат: автоматичний takeover на робочу ноду, всі ресурси VSM повинні бути доступні на ESXi, доступ до датасторам не повинен пропадати.
     
  2. Почергове відключення всіх Cluster Link однієї ноди.
    Очікуваний результат: автоматичний takeover на робочу ноду, або переміщення/перемикання VSM на доступні мережеві порти на другий ноде, всі ресурси VSM повинні бути доступні на ESXi, доступ до датасторам не повинен пропадати.
     
  3. Відключення всіх Inter Switch Link між свічами CN1610.
    Очікуваний результат: припускаємо, що кластерні ноди будуть доступні один для одного через cluster links одного з Cluster Interconnect (у зв'язку з перехресним з'єднанням NetApp — Cluster Interconnect).
     
  4. Перезавантаження одного з Nexus.
    Очікуваний результат: один з портів на ноди повинен залишатися доступним, на IFGRP інтерфейси на кожній ноде повинен залишатися доступний один з 10 GbE інтерфейсів, всі ресурси VSM повинні бути доступні на ESXi, доступ до датасторам не повинен пропадати.
     
  5. Почергове гасіння одного з vPC (vPC-1 або vPC-2) на Nexus.
    Очікуваний результат: переміщення/перемикання VSM на доступні мережеві порти на другий ноде, всі ресурси VSM повинні бути доступні на ESXi, доступ до датасторам не повинен пропадати.
     
  6. Почергове відключення Inter Switch Link між комутаторами Cisco Nexus 5548.
    Очікуваний результат: Port Channel активний на одному лінке, немає втрати зв'язності між комутаторами.
     
  7. Почергове жорстке відключення ESXi.
    Очікуваний результат: відпрацювання HA, автоматичний запуск ВМ на сусідньому хості.
     
  8. Стеження за відпрацюванням моніторингу.
    Очікуваний результат: отримання нотифікацій від обладнання і віртуальної інфраструктури про що з'явилися проблеми.
     
II. Безпосередньо на стороні обладнання

  1. Відключення кабелів живлення (всі одиниці обладнання).
    Очікуваний результат: обладнання працює на другому блоці живлення, немає проблем з перемиканням між блоками.
    Зауваження: Менеджмент світч Cisco не має резервування живлення.

     
  2. Почергове відключення мережевих лінків від ESXi (Dell r620/r810).
    Очікуваний результат: ESXi доступний за другим лінком.
     
Ну от і всі, чекаю ваших коментарів.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.