DRP-план в ІТ-компанії і перевірка його працездатності

Проводимо перевірку працездатності плану відновлення після аварії.



Всі ми хочемо сподіватися, що нічого подібного ніколи не станеться.

У більшості підприємств є (ну, або хоча б повинен бути план відновлення після аварії. Аналогічний план повинен бути у оператора дата-центру. Будь-який з таких об'єктів схильний до впливу зовнішніх факторів — повністю виключити варіант аварії не можна. Навіть, здавалося б, найбільш захищені об'єкти можуть потрапити в дуже неприємну ситуацію, про що ми як-то вже писали.

Відповідно, DRP-план (disaster-recovery plan) повинен допомогти компанії швидко вийти на попередній аварії робочий рівень. Зазвичай в такому плані описуються дії працівників у разі аварії. При складанні такого плану мета зазвичай — зведення до мінімуму наслідків аварії із забезпеченням можливості повернути контроль над вирішенням критично важливих завдань, використовуючи заздалегідь певні ресурси. Але план — планом, а чи буде він працювати? Для перевірки цього варто провести «навчальну тривогу».

Дата-центри містять масу чутливого до зовнішніх факторів обладнання, яке, в свою чергу, працює з величезними обсягами даних, які можуть бути дуже цінними. Недавнім прикладом того, до чого може призвести навіть невелика аварія, служить скасування більшості рейсів авіакомпанії Delta Airlines.

Швидше за все, у такої величезної компанії був власний DRP-план. Можливо, в ньому були невраховані моменти, з-за чого постраждали і сама компанія, і її клієнти. І справді, просто план і можливість його швидкої реалізації — це різні речі.

Будь-яка компанія, а тим більше, ІТ-компанія повинна враховувати інфраструктуру, людей та процеси при складанні свого власного плану відновлення після аварії (будь то землетрус, пожежа або людський фактор).

Як часто потрібно проводити «навчальні тривоги»?
Власне, відповісти складно — у кожної компанії унікальна ситуація, яка не дає можливості уніфікувати як DRP-план, так і його виконання. Тим не менш, в будь-який момент часу керівник компанії повинен бути впевнений в тому, що план відповідає поточній ситуації і може бути реалізований. Переглядати DRP-план стоїть після кожного великого зміни інфраструктури. А «тривоги» можна проводити раз на місяць або раз в рік — все залежить від того, як часто компанія змінюється.

Експерти рекомендують проводити перевірку не рідше одного разу на рік.

Готуємося
Перш, ніж компанія почне перевіряти реалістичність і працездатність свого плану, потрібно бути впевненим у його результатах. Переконайтеся в тому, що обов'язки всіх співробітників розподілено раціонально і коректно. Не можна допускати того, щоб у якихось працівників обов'язків не було взагалі, а у кого-то їх було б маса, і ця людина (або люди) були, фактично, незамінними.

Катастрофа на те і катастрофа, що хтось із співробітників може виявитися недоступним і якщо це буде ключова людина, то весь план може піти під укіс. Всі інструкції і правила повинні бути чіткими і зрозумілими. Під час перевірки плану потрібно уважно стежити за ходом реалізації DRP-плану.

Кожна деталь, що перевіряється плану повинна бути зафіксована, з урахуванням всіх проблем і складнощів. Перевірку необхідно проводити з прив'язкою за часом, відстежуючи, скільки часу піде на рішення тієї або іншої проблеми і реалізацію будь-якого етапу. Керівництво компанії й окремі співробітники повинні знати, що станеться, якщо обладнання і сервіси ІТ-компанії простоять певний час. Як це вплине на операції, клієнтів і дохід?

Як тестувати
1. Перевірка плану
Це суто теоретичний етап, який майже ніколи не включає в себе повноцінні «вчення». Переглядати план на відповідність його поточній ситуації в компанії і обстановці навколо потрібно кілька разів на рік.

До речі, у DRP повинен бути керівний комітет. У нього зазвичай входять компетентні співробітники, часто — топ-менеджери. Крім того, для роботи необхідно залучати і експертів, які можуть дуже допомогти на шляху до планування порятунку від катастрофи.

2. Перевірка без тривоги
На цьому етапі необхідно перевірити знання всіх співробітників, хто, за планом, повинен брати участь у процесі ліквідації наслідків катастрофи. Кожного із співробітників необхідно опитати на предмет його обов'язків і їх виконання у разі виникнення тієї або іншої непередбаченої ситуації.

Якщо нічого подібного не проводити, то співробітники не будуть надто серйозно ставитися до вашого плану. Хтось щось обов'язково забуде, не так зрозуміє або й зовсім вирішить не брати участі. Щоб не допустити значний вплив «людського фактора» на наслідки катастрофи, і потрібно проводити таку перевірку плану. Всі труднощі, непорозуміння співробітників, відсутність ясності в синхронності дій — все це необхідно фіксувати і виправляти.

3. Повномасштабний тест
Це дійсно польові навчання, їх потрібно максимально наблизити до можливого розвитку ситуації у разі катастрофи. Результат повинен бути відчутний. Оператор дата-центру повинен враховувати те, наскільки негативно на роботі компанії може позначитися значний вимушений простій обладнання.

Деякі компанії воліють приховувати інформацію про те, що «вчення» несправжні, від рядових співробітників. Справа в тому, що це дозволяє домогтися від них швидкості реакції і дій, максимально наближеним до реальності.

На цьому етапі доведеться використовувати ресурси компанії, включаючи час, обладнання і засоби. Результатом має бути повернення в чіткі терміни «пошкодженого» обладнання з швидкою адаптацією працівників компанії до ситуації.

Що, якщо щось піде не так?
Це, швидше за все, відбудеться в тій або іншій мірі. Головне — варто пам'ятати, що гладко перевірка такого рівня на всі 100% пройти не може. Які помилки співробітників та втручання несподіваних чинників обов'язково вплинуть на реалізацію плану.

Після завершення тестування вся інформація має бути розподілена між співробітниками компанії. Причому деякі речі варто повідомляти тільки тим, хто з ними пов'язаний. В ідеалі, тестувати DRP варто тоді, коли у компанії щось сильно змінюється.

І вже після тесту всі отримані результати потрібно використовувати на благо власної компанії. В цілому, підтримка співробітників і всієї компанії в готовності до надзвичайно ситуації — це критично. Працювати з планом (модифікувати і допрацьовувати його) потрібно кожні кілька місяців. Фахівці рекомендують робити це раз чи два на квартал. Але, звичайно. Все залежить від самої компанії і її співробітників.



Перевіряти роботу плану потрібно з різними сценаріями і ситуаціями. Тільки в тому випадку, якщо співробітники готові до катастрофи, компанія зможе швидко відновити роботу після збою. В іншому випадку, бізнес такої компанії може дуже сильно постраждати.

До речі, цікаво було б дізнатися, підготовлена ваша компанія до подібних проблем, і якщо так, то як ви перевіряєте працездатність складеного плану, і які у нього є особливості?
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.