NetApp стає ще ефективнішою з inline dedupe

Кілька днів тому стала доступна версія Data ONTAP 8.3.2RC1. «RC» означає Release Candidate, а отже, у відповідності з прийнятими в NetApp правилами іменування версій, цей реліз вже пройшов всі внутрішні тести і може використовуватися замовниками не тільки для оцінки нових можливостей, але і для продуктива, включаючи системи, на яких працюють бізнес-критичні завдання. Підтримка вендора повністю поширюється на системи, що працюють на «RC» версіях Data ONTAP.

Продавці NetApp (так, це ми теж ;) не втомлюються нагадувати (і роблять це абсолютно правильно), що висока утилізація дискових ресурсів у системах NetApp досягається за рахунок використання програмних засобів оптимізації — дедуплікаціі і компресії.

image

Інформація нижче — це короткий огляд можливостей NetApp Data ONTAP 8.3.2RC1, який буде корисний «ще не зубрам».

Дедупликация доступна замовникам вже дуже давно і, з моменту своєї появи, працює виключно в «оффлайн» режимі — за розкладом запускається процес, який шукає повторювані блоки даних і залишає на диску тільки один з них. Система при цьому не тільки порівнює хеш-суми від блоків, але і самі дані, що гарантує відсутність хеш-колізій.

Це дозволяє уникнути проблем з продуктивністю — включення дедуплікаціі не призведе ні до яких змін в навантаженні на процесор/пам'ять СГД. Однак для цілого ряду завдань такий механізм дедуплікаціі не є оптимальним. Уявіть собі, що у вас є ферма з безлічі віртуальних робочих місць (VDI) і вам потрібно провести оновлення ПЗ на всіх дестктопах або встановити патч для ОС. В цей час на диски буде записано безліч ідентичних блоків даних. Так, звичайно, потім пройде процес дедуплікаціі і «зайве» дисковий простір звільниться, але саме оновлення призведе до величезного числа операцій запису. А значить, ми отримаємо перевантажений бек-енд і, як наслідок, це може позначитися на продуктивності інших сервісів, які працюють з даною СГД.

З появою cDOT 8.3.2 у власників СГД NetApp є рішення — inline dedupe (дедупликация «на льоту»). Для All Flash СГД підтримка inline dedupe включена «з коробки» на всіх новостворюваних томах, а також може бути включена на вже існуючих томах з даними (без перетворення томи). Для СГД, що використовують Flash Pool, онлайн-дедупликация працює тільки для операцій запису на SSD і може бути також включена як на нових, так і на вже створених томах. Для систем, побудованих на звичайних дисках, новий режим необхідно включати примусово. Керувати роботою інлайн-дедуплікаціі можна командою

volume efficiency через опцію -inline-deduplication (true / false):

volume efficiency modify -vserver SVM_test -volume /vol/ volume-001 -inline-deduplication true

Нижче таблиця підтримуваних оптимізації режимів для AFF та інших систем NetApp FAS:
image

Dtata ONTAP виділяє приблизно 1% від загальної оперативної пам'яті для зберігання хешів записуваних блоків. Щоб зберегти високу продуктивність, розробникам довелося відмовитися від глобальної дедуплікаціі — вона зажадала занадто багато пам'яті і процесорних ресурсів для реалізації. В пам'яті зберігаються тільки хеш записаних нещодавно блоків — при перезавантаженні сховище буде очищено і статистика буде накопичуватися заново.

Ще одна важлива особливість — міграція тома (Data Motion) призведе до того, що всі переваги від дедуплікаціі зникнуть до тих пір, поки не відпрацює постпроцесинг. Це потрібно враховувати при плануванні перенесення дедуплицированных даних усередині системи.

Щоб підвищити ефективність від inline dedupe, можливо спільне використання з «класичної» постпроцессинговой схемою. Для All Flash СГД постпроцесинг спочатку відключений (для мінімізації загального числа операцій запису), тому його потрібно буде примусово включити.

Використання інлайн-дедуплікаціі не скасовує інших можливостей підвищення ефективності зберігання даних в системах зберігання NetApp. При одночасному включенні онлайн компресії і дедуплікаціі, порядок роботи буде таким:
  • inline zero-block reduplication — виключаються порожні (заповнені нулями) блоки
  • inline compression — дані стискаються
  • inline deduplication — стислі блоки перевіряються на ідентичність хешів; якщо хеші збігається, порівнюються цілком при збігу хешей і повторювані блоки виключаються із запису на диски


За рахунок відмови від глобальної дедуплікаціі, розробникам Data ONTAP вдалося реалізувати досить цікавий механізм оптимізації операцій запису, який добре працює для ряду видів навантаження і відрізняється мінімальним впливом на продуктивність системи. А за рахунок зниження навантаження на бек-енд, в деяких випадках можна говорити і про збільшення інтегральної продуктивності системи. Будь володар системи NetApp (підтримуючої cDOT 8.3) може перевірити ефективність від інлайн-дедуплікаціі, оновившись до версії 8.3.2RC1. Звичайно, бажано проводити експерименти на тестових системах або в рамках пілотів — перенастроювати працює продуктив перед Новим Роком ми не радимо нікому :)

У своїй роботі нам доводилося стикатися з різними ситуаціями, аж до того, що під час роботи постпроцессинговой дедуплікаціі переставало вистачати продуктивності системи на основне навантаження. Все це можна і потрібно оцінювати ще на етапі розробки проекту, закладаючи необхідний запас потужності при виборі системи зберігання даних. Фахівці Трініті володіють великими знаннями і багатим досвідом для проведення передпроектних досліджень і сайзинга СГД під різні вимоги замовників.

Читайте більше оглядів блозі Трініті.
А також скористайтеся напрацюваннями Трініті:


Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.