Секрети ефективного управління дата-центрами по всьому світу: від Токіо до Сент-Луїса, від Сіднея до Лондона

Ми в Acronis захищаємо дані більше 5 мільйонів користувачів і 500 000 компаній у 150 країнах світу. Це десятки і сотні петабайт даних, які зберігаються в наших дата-центрах, розташованих в Токіо і Сент-Луїсі, у Франкфурті на Майні та Сіднеї, Москві і Лондоні. В цілому наші дані розміщуються в 14-й дата-центрах, розташованих в різних країнах, різних часових поясах і в різних частинах світу. Всім цим господарством «кожен день необхідно управляти. І треба зізнатися, що справа ця вкрай цікава, і тому ми вирішили поділитися з вами нашим досвідом в цьому питанні, і підготували невеликий гайд для починаючого менеджера дата-центру.



Як починаючому керівнику відділу побудувати свій робочий день?
Робочий день керівника відділу повинен починатися з перевірки стану роботи його дата-центру. Якщо у вас під управлінням тільки один сервер в одному дата-центрі, то це не повинно скласти великих проблем. Але якщо мова йде про кількох дата-центрах в декількох країнах світу, то це буде трохи складніше. Ми Acronis використовуємо автоматичні системи і дашборды, які дозволяють у режимі реального часу відстежувати, що відбувається в кожному з дата-центрів, оцінювати статистику щодо їх заповнення, і на підставі цього за необхідності адаптувати свій список завдань на день. В першу чергу необхідно перевіряти поточний стан мережі, стан серверного обладнання та його завантаження. Ще одним, дуже важливим параметром є темп зростання завантаження серверів. Знаючи його, можна уникнути такої часто зустрічається проблеми, як падіння серверів під навантаженням, і правильно спланувати введення в експлуатацію нового обладнання. Взагалі капасити планнинг при наших темпах ростах стає вельми нетривіальним завданням, що вимагає креативного підходу і ежедневого уваги.



Після того, як ви переконалися, що з вашим дата-центром все в порядку і немає ніяких термінових завдань, то можна переходити до «адміністративних питань», зайнятися розбором накопичилася електронної пошти і зробити важливі телефонні дзвінки. Не можна сказати, що ранок — це найідеальніший час для цього, але для гарного менеджера важливо завжди бути на зв'язку, оперативно відповідати на запити та запити своїх колег, підтримувати зв'язок з постачальниками і стежити за останніми новинами з професійної області.

Коли з «адміністративними завданнями» буде покінчено, то саме час переходити до виконання сформованого на початку дня списку завдань. Планувати апдейти, замовляти нове обладнання, формувати запити для керуючих компаній дата-центрів і т. д. Зазвичай, за виконанням завдань зі списку проходить весь день, але якщо ви працюєте в глобальній компанії та/або у вас є сервера в інших часових поясах, наприклад, в Північній Америці, то після обіду, коли Західна півкуля прокидається, ви знову зустрінетесь з «адміністративними завданнями». Ви відповідаєте на листи та телефонні дзвінки, синхронізуєте свої дії з колегами з інших країн, і за цим, як правило, проходить друга половина дня.



Іноді, особливо тоді, коли у вас є співробітники, що знаходяться в мінус десяти годинах від вас, друга половина дня може непомітно перейти в першу наступного дня. А що робити, увагу співробітникам, тим більш віддаленим, потрібно завжди, інакше тім спіріт може слабшати.

Приблизно такі будні керівника дата-центру: перевірка обладнання, планування капасити, розбір пошти та телефонні дзвінки, робота над поточними завданнями, і знову розбір пошти та телефонні дзвінки.

І грянув грім!
Але не завжди все йде за описаним вище плану, іноді трапляються і різного роду неприємні ситуації, на зразок падіння серверів, DDOS атак та інші принади сучасного технологічного світу. Якщо у вашої компанії добре продумана інфраструктура, як мінімум з одним резервним критичним елементом, як у нас в Acronis, і ви використовуєте системи резервного копіювання і аварійного відновлення, то, швидше за все, це допоможе вам уникнути фатальних проблем і досить швидко вибратися з сформованих труднощів. Якщо ж продумана інфраструктура системи резервного копіювання — це не про вас, то «безумству хоробрих співаємо ми пісню!», доведеться обзавестися парою сивого волосся.

Насамперед, необхідно спробувати «оживити» сервер віддалено, IPMI в допомогу. Якщо відновити працездатність сервера віддалено не виходить, то вам нічого не залишається, як написати запит в технічну підтримку дата-центру, в якому максимально докладно і максимально простою мовою пояснити, що саме сталося. Часто буває, що технічна підтримка реагує на такі звернення через годину або два, тому, якщо цей дата-центр знаходиться недалеко від вас і відновлення його працездатності життєво необхідно, то вам слід туди вирушити самостійно і самому вирішити всі проблеми на місці (якщо заздалегідь не подумали про хороше саппорт контракті).



Якщо ж дата-центр знаходиться в іншій області або іншій країні, і оперативно дістатися до нього самостійно не представляється можливим, то ви можете слідувати нашому прикладу, і укласти контракт з зовнішніми спеціалістами, які стануть вашими віддаленими очима і руками. Розміщуючи своє обладнання в новому дата-центрі в іншій області або країні, ми завжди намагаємося знайти зовнішнього фахівця, який в разі якоїсь непередбаченої ситуації зможе оперативно дістатися до потрібного дата-центру і усунути з'явилася проблему. Таких людей ми шукаємо серед керівників невеликих місцевих ІТ-компаній, які досить технічно підковані і можуть самостійно діагностувати і вирішувати подібні проблеми.

Коли в дата-центрі розташована критично важлива для вашої компанії і вашого бізнесу інфраструктура, розраховувати на технічну підтримку дата-центру не будує, як я зазначав вище, чекати їх відповіді доводиться занадто довго і при цьому бувають випадки, коли неправильно зрозумівши, що саме від них потрібно, вони робили тільки гірше. Тому ми рекомендуємо знайти таких зовнішніх фахівців, укласти з ними всі необхідні угоди (контракт, NDA і т. д.), і тримати з ними зв'язок. Сприймати їх слід як страховку, зовсім не факт, що їхні послуги вам знадобляться. Однак якщо така ситуація настане, вони заощадять вам час і нерви.

Ми стикалися з ситуаціями, коли було необхідно оперативно замінити жорсткий диск сервера або провести інсталяцію нового обладнання. Стандартний час виконання таких запитів дата-центром як правило годинник або навіть дні, а з допомогою зовнішнього фахівця ми здійснили ці дії протягом однієї години. А це дуже важливо для нас, адже коли твоїми послугами користуються кілька мільйонів чоловік, є вирішальним фактором. Навіть хвилини йдуть на рахунок.



Крім часу, яке завжди хочеться прискорити, на глобальному рівні сильно допомагає стандартизація та уніфікація використовуваного обладнання та софта. Звучить просто і легко, але по факту в ситуаціях, коли компанія швидко росте і розвивається, активно бере участь в угодах M&A, то підтримка уніфікованої інфраструктури — завдання важка. Але якщо завдання виконується, то загальна керованість глобальними дата-центрами стає набагато беспроблемней.

І, звичайно, завжди потрібно пам'ятати про тріаду, яка дозволяє спати ночами – капасити планнинг, реданданси і бекап. З ними добре, без них погано. Колектив, а колектив у нас в Acronis Data Center Operations відмінний, переймається цим відразу, і у кого-то елементи тріади навіть переходять в никнеймы/прізвиська. Є, наприклад, Володимир на прізвисько Redundancy. Вся мережева інфраструктура, яку будує Володимир у наших дата-центрах, повністю відповідає прізвисько)

Як правильно працювати з постачальниками?
В завдання керівника входить не тільки підтримання дата-центру в робочому стані, але й участь у закупівлях різного обладнання і послуг для його функціонування. На профільних ресурсах майже немає інформації, про те, як правильно знаходити постачальників, вести з ними переговори і укладати контракти – це делікатна інформація, часто відрізняється в залежності від регіону, тому не лишнім буде трохи розповісти і про це.

Грунтуючись на своєму досвіді, можу сказати, що найважливіше в закупівлях — це побудова добрих взаємовідносин з постачальниками. Якщо ви багато і часто купуєте, то завжди можете розраховувати на більш вигідні умови: за ціною, по способу оплати, доставки і т. д., ніж у ситуації, коли ви прийдете «з вулиці». Так, наприклад, один з наших постійних постачальників надає нам на тестування останні новинки hardware, які ми можемо перевірити в необхідних нам умовах і під необхідними нам навантаженнями. Адже часто бувають випадки, коли одне обладнання не зовсім коректно працює в парі з іншим, а, купуючи жорсткі диски сотнями і тисячами, вартістю багато-багато доларів, ми розраховуємо, що вони будуть добре працювати на наших серверах і з нашим софтом

І оскільки випадки бувають різні, то не можна не цінувати такі відносини, коли під «чесне слово» постачальник мало не овернайт може відправити сервер на інший кінець світу тоді, коли це дуже потрібно (реальний кейс: з Лондона в Токіо).

Ще одним хорошим способом укласти вигідний контракт є можливість відкрито визнати власні потреби в обладнанні і підтвердити їх. Пам'ятайте, що постачальники завжди шукають можливості на довгострокове співробітництво, так вони можуть грамотно управляти власними товарними запасами, не «заморожуючи» гроші в товар, ефективно формувати свої фінансові потоки і напрацьовувати базу постійних клієнтів. Тому, якщо ви зможете досить точно визначити свої потреби в обладнанні та послуги на довгострокову перспективу, ви сміливо зможете розраховувати на хорошу знижку, яка в деяких випадках буде істотно вище 50% від роздрібної ціни.

Особистий контакт і довгостроковий контракт не єдиний спосіб укласти вигідний контракт, є ще одна, третя, можливість для отримання знижки. На Заході є таке «чарівне словосполучення» — «target price». Що це таке? Будь-який виробник безпосередньо укладає контракти тільки з великими дистриб'юторами, які вже доводять товар до ринку, де ми з вами його і купуємо. Ні для кого не стане секретом, що дистриб'ютор купує товар у виробника за набагато нижчою ціною, ніж продає його на ринку, а різниця між ціною покупки і ціною продажу формує його дохід. Дізнатися за яку точну ціну дистриб'ютор купує товар у виробника не завжди можна, але, провівши простий аналіз ринку, можна визначити середню вартість обладнання та послуги, і виходячи з цього намітити свою «target price». Чи може вона бути нижче ніж в середньому по ринку? Звичайно, але вимагаючи ціну, яка на 70-80% нижче середньої по ринку, ви можете просто образити постачальника і не добитися взагалі нічого! Продасть дистриб'ютор за вашою «target price» вам товар? Не обов'язково, але ви завжди повинні тримати в голові, коли йдете на переговори. На переговорах у вас, швидше за все, буде йти торг, за підсумками якого ви зможете укласти хороший контракт. Практика показує, що це особливо добре працює при пролонгації стікали контрактів, коли вдається переглядати ціни особливо ефективно, досягаючи свій «target price».

Користуючись трьома цими прийомами, ви завжди зможете укладати вигідні контракти і будувати зі своїми постачальниками довгострокове співробітництво. Ви можете подумати, що подібними прийомами можуть користуватися тільки великі компанії, але це не зовсім вірно. Навіть невелика, починаюча компанія, керуючись написаними вище рекомендаціями, зможе укладати хороші контракти. Так, можливо, мова буде йти не про знижки в 40-50%, але отримати знижку в 20% і закласти основу хорошим довгостроковим відносинам вона зможе.



Раціоналізація та оптимізація!
Остання тема за рахунком, але не за важливістю, — це питання раціоналізаторства в ІТ. В період кризи, компанії найчастіше починають скорочення витрат з ІТ, і в такі моменти попит на раціональне використання ІТ-інфраструктури різко зростає. І якщо керівник дата-центру самостійно виступить з раціоналізаторською пропозицією перед керівництвом компанії, це буде тільки в плюс.

Для початку давайте розберемося, що ж таке раціональне використання ІТ-інфраструктури. Як я зазначав вище, будь-яка інфраструктура повинна мати «надлишкові» потужності, такі, щоб покривати постійно зростаючі запити в потужності. Але цей «надлишок» буде необхідний якийсь майбутній момент часу, і коли саме він настане, не завжди відомо. Деякі компанії йдуть найпростішим шляхом, купують «тут і зараз» топове «залізо», в надії, що в найближчі рік-два вони зможуть використовувати його на повну. Проходить рік, виходять нові, більш досконалі «залізяки», куплене обладнання морально застаріває, але до його повного завантаження ще далеко. Відбувається другий рік, обладнання встигає застаріти вже і фізично, але завантаження знову не повна. Виходить, що за ці два роки компанія витратила зайві гроші на обладнання та підтримання його в робочому стані, і в підсумку не змогла використати його по «повній програмі». Додатковою проблемою могло стати і те, що, купивши одразу самий топ один раз і «з запасом», компанія могла не отримати знижку, розповівши про свої потреби на перспективу, про яку ми говорили раніше. Як раціоналізувати дану ситуацію? Насамперед, щодня слідкуйте за потребами в нових потужностях і будуйте графіки. Так-так, той самий капасити планнинг, не один раз вже згадуваний. Він вірний, правдивий і актуальне для всього, що стосується дата-центрів: канали зв'язку, утилізація всіх ресурсів, усього обладнання згідно його ролей і функцій, пропускна здатність файрволів (а раптом завтра ваша компанія вирішить сертифікуватися за PCI DSS, і у вас несподівано попросять включити IDS/IPS, що знизить пропускну здатність файрволла у 3 рази?). Дуже рідко потреба в потужностях протягом короткого проміжку часу зростає в два рази і утримується на цьому рівні, як правило вона зростає поступово. Склавши графік, вважаючи, яке саме обладнання буде потрібно зараз, як швидко його можна закупити і встановити, і коли потрібно буде вводити в експлуатацію нове, можна йти до постачальників обладнання, розмовляти з ними і укладати довгострокові контракти, керуючись моїми рекомендаціями вище.

Буває й інша ситуація, коли для різних завдань компанія використовує схоже, багато в чому дублює один одного обладнання. З одного боку, якихось особливо «надлишкових потужностей» не створюється, з іншого боку, це обладнання займає місце в стійках і витрачає електроенергію. Саме в цій ситуації ми й опинилися не так давно. Два головних продукту Acronis — це Acronis Backup Cloud і Acronis Recovery. Для надання послуг у рамках цих продуктів використовуються різні, відрізняються за своїм специфікаціям набори «заліза». Незважаючи на це, було розуміння, що тут є місце для оптимізації, і ми вирішили, що необхідно зіставити характеристики і специфікації цих наборів заліза в кожному з наших американських дата-центрів. На основі цього аналізу ми змогли виділити чотири основних специфікації, які можуть використовуватися і які відповідають головним вимогам: максимальні ресурси на один рек юніт і мінімально можливе енергоспоживання. Так як 36-й місячний цикл амортизації наявного обладнання підходив до свого кінця, ми вирішили централізовано закупити обладнання, виходячи саме з отриманих специфікацій, і оновити свої дата-центри в США до кінця року. За нашими розрахунками, кількість займаних місць у стійках має зменшиться приблизно в 2 рази (ура, OPEX на колокейшн знижуємо!), а обсяг ресурсів сторідж, оперативна пам'ять процесорні ядра – значно збільшується.



Що хочеться сказати в завершенні цього поста. Управління дата-центром дуже відповідальна і цікава задача, особливо, коли розумієш, що за петабайтами даних ховаються важливі документи, фотографії з сімейних архівів, начерки віршів або щось на зразок цього. Що файли, які ми зберігаємо, є елементами чиєюсь цифровий особистості. В таких міжнародних компаніях, як Acronis, коли дата-центри розкидані по всьому світу, управління ІТ-інфраструктурою — це ще й серйозний професійний виклик. Вранці ти працюєш з Токіо, в обід — зі Страсбургом, а ввечері — з Далласом. Кожен з дата-центрів володіє своїми особливостями, ми вже розповідали про це в одному з попередніх постів, і за один робочий день ти робиш свого роду «подорож навколо світу», знайомлячись з «культурами різних країн і народів. Само собою в такій роботі є і своя специфіка: робочий день може початися в 6.00 і триватиме до 22.00, попутно випробувавши ваші нерви і кмітливість на міцність, але такі челленджи роблять з нас справжніх професіоналів своєї справи.

https://www.linkedin.com/pulse/senior-linux-system-administrator-wanted-alexander-ragel?trk=prof-post
http://www.acronis.com/ru-ru/company/employment/vacancy/
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.