Аварії на серверних фермах

Продовжуючи тему аварій на серверних фермах. Причини відходу в офлайн потужних інфраструктур дата-центрів дуже різні: перебої в електропостачанні, неполадки в системах охолодження, роботи резервного дизель-генератора, в обладнанні, неналежне технічне обслуговування цього ж обладнання і т. п. Не варто забувати і про людський фактор.



Як кажуть, на помилках вчаться, і добре, якщо не на своїх. Оператори серверних ферм можуть витягти корисні уроки про те, як підготуватися до потенційно можливої аварії, усунути її наслідки, та й взагалі уникнути будь-яких промахів, які тягнуть за собою чималі втрати.

Cogeco Peer1
Дата-центр Cogeco Peer1 в Атланті пішов в оффлайн із-за проблем в системі резервного живлення.



Компанія Cogeco Peer1 (Атланта, США), яка надає послуги в галузі керованого хостингу, після відходу в офлайн її серверної ферми, стала в центрі обговорень та критики в соціальних мережах. Багато клієнтів цього сервіс-провайдера висловили своє «фе» стосовно компанії, багато погрожували поміняти провайдера і перевести всі свої робочі навантаження у AWS. AWS були раді приєднатися до такого роду висловлювання і спробували схилити незадоволених клієнтів Cogeco Peer1.



Серверна ферма пішла в даунтайм з-за часткового припинення подачі електроенергії. На усунення проблеми знадобилося майже п'ять годин, все почалося в половину другого, на повну потужність дата-центр запрацював лише до сьомої вечора. З-за того, що сталося збою в електропостачанні була повністю відключена інфраструктура в певних ділянках серверної ферми. Як оголосила Cogeco Peer1, причиною даунтайма став збій в системі резервного живлення ЦОД.

TeliaSonera і «людський фактор»


Компанія TeliaSonera надає послуги телекомунікацій та мережевого доступу. Нещодавно з-за помилки інженера серверної ферми при конфігурування маршрутизатора в ЦОД, багато користувачів таких відомих інтернет-сервісів, веб-сайтів і додатків на зразок WhatsApp, Reddit, CloudFlare і AWS понесли втрати. Більша частина трафіку замість того щоб йти в Європу, була спрямована в Гонконг. Мільйони користувачів відчули дану помилку на собі при підключенні до інтернету і роботи з популярними програмами. Спочатку експерти припускали, що дана проблема викликана пошкодженням трансатлантичного магістрального телекомунікаційного кабелю. Дві години знадобилося, щоб усунути проблеми на серверній фермі TeliaSonera. Клієнтам були відправлені листи з вибаченнями, а в блозі компанії з'явився запис про те, що компанія планує докласти максимум зусиль у напрямку автоматизації своїх систем. Таке рішення зведе до мінімуму виникнення простоїв через людського фактора.



Багато компаній часто замовчують про причини, які призводять до збоїв та простоїв в роботі серверних фермах. Власники дата-центрів вельми неохоче діляться інформацією про аварії у себе на об'єктах. В офлайн пішов сайт однієї з найбільших американських кредитних компаній Lending Club. Компанія за час роботи (з 2006 року) видала кредити на суму $18млрд., не дивно, що цей простий дуже стурбував інвесторів компанії. Збій в роботі спостерігався минулого тижня, причиною були названі неполадки в дата-центрі (точно не зазначені). Кілька годин ЦОД перебував у даунтайме.



До речі, за даними компанії Emerson, найчастішою причиною, що викликає збій у роботі дата-центрів, є відмова акумуляторів ДБЖ. У цьому дослідженні взяли участь 450 операторів серверних ферм. Другою проблемою є перевантаження ДБЖ, ще — помилки монтажу електричних з'єднань, збої в роботі АВР і короткі замикання. Половина проблем пов'язана все з тим же з людським фактором. Одна третина збоїв в роботі дата-центрів трапляється «завдяки» систем охолодження, в 35% випадків із-за витоку води.



Якщо говорити про нашому ринку (українському), то власники ну вже дуже неохоче діляться інформацією про відбувалися збої і причини відходу в офлайн інфраструктур своїх серверних ферм. А починається все, як не банально, з конструкцій під розміщення ЦОД. Старі будівлі, що зносилися, будівельні конструкції, замасковані тріщини в перекриттях, несуча стіна з вибитим отвором в півметра на метр… Тополиний пух, який в літній час забиває теплообмінники зовнішніх блоків, а в зимовий час ці ж блоки часто зупиняються через обмерзання або заклинювання вентиляторів через що потрапили в них бурульок з даху. Економія на системі вентиляції, а саме встановлення калорифера в ній, призводить до того, що взимку звідти конденсат стікає. Збої в роботі ДБЖ трапляються і через підключення непрофільної навантаження до ділянки електричного ланцюга серверної ферми. Потужний кондиціонер в кабінеті директора, електрочайник у секретарки Глаші і т. д. Ось лише короткий список причин відводять серверні ферми в офлайн.
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.