Під капотом у нової вироби Dell + EMC — флешового сховища за ціною дискового

Відразу скажу головне — заява про «ціну дискової» стосується тільки спеціальних акційних цін на Unity, які EMC дало нам як офіційного партнера в Росії під промо нової моделі СГД. Акція стосується не всіх, деталі в пошту. Звичайні ціни — просто хороший міцний midrange під свою специфіку.

Отже, поїхали. EMC вже багато років небайдужа до флешам, але в минулому році конкретно заморочилась, вирішивши, що майбутнє за ним. І випустило робочу і не дуже дорогу штуку. Це майже звичайний мідрейндж з SSD-дисками (нюанси трохи пізніше). Ніяких «встромляємо лом, а вона продовжує працювати», але зате значна продуктивність під бази даних і виртуалки плюс різні дрібні фішки.


Ось яскравий приклад оптимізації — раніше тут був окремий ДБЖ-модуль у своєму кожусі, і він змінювався «на гарячу». А тепер — Li-ion батарея з поліетиленової захистом від протікання всередині контролера.

А ще вони настали багатьом вендорам на улюблений мозоль і зробили ціну підтримки однаковою на весь час. А то, знаєте, багато великі вендори люблять ставити таку ціну на 4-й і 5-й рік, що простіше замінити на нове залізо. Ну і так, у цих хлопців вихід з ладу диска по зносу вважається гарантійним випадком, не в приклад деяким любителем зірочок і дрібного шрифту в гарантійну політику.

Все, тепер пішли втикати в неї лом і тестувати. Забігаючи вперед скажу, що з 9 дисків зняли 80 тисяч иопсов.

Об'єднання Dell і EMC

Головне питання — що буде з лінійкою СГД після об'єднання. Найбільше запитували, причому телефонували навіть ті, у кого залозки трирічної давності. Офіційного повідомлення поки немає, але ЕМС в сегменті мзс-рейнджу завжди лідирувала, і тут Делл не буде рубати курку, яка несе золоті яйця. І вихід нового Юніті — цьому підтвердження.

Що за залізка і як зроблена




Чорні блоки праворуч вгорі — охолодження (флеш-штука гаряча, постійно потрібно дути), далі батарея, в середині вся начинка і процесор (ось видно DIMM близько помаранчевого блоку), лівіше в Р-образному кожусі — блок живлення, ще вентилятори (не забуваємо дути на проц) і місце під IO-модулі.

Юніті сама по собі — це заміна поточних VNX з точки зору маркетингу. Залізо тут стандартне, два контролера на базі процесорів х86 плюс полиці з SSD-дисками, підключаються по шині SAS3. А ось мікрокод тут сильно перероблений (причому його частково писали російські программеры з Пітера), рівно як і нові алгоритми роботи з дисками. Підхід був нестандартний: хоч в лінійці є і флешовые, і гібридні системи, розробка йшла від all-flash, а вже потім робилася сумісність з HDD (благо це питання вивчене). Тобто оверхед, звичайно, поверх SSD є (немає його тільки там, де замість дисків використовуються голі мікросхеми флеш-фабрики, а це взагалі інші ціни), але затримки і продуктивність дуже добре вийшло оптимізувати.


Тільки не читайте дрібну підпис :)

Головна мотивація розпрощатися з шпинделями — це ціна. На дозвіллі я вважав ціну на гібридну СГД і all-flash — розліт виходить 30-40% з урахуванням знижок (на флеш вони більше). Це вже не порядок, як раніше, і, отже, можна думати про використання їх там, де раніше бігали НЖМД. Та й дико це — пригадую, як доводилося по 100 шпинделів набирати для продуктивності, а потім ще їх обсяг різати, т. к. виходили зайві терабайти. І ще штрафняки на RAID не забути відняти. А буває, приходить замовник із запитом на 10-15 тисяч IOPS з базенки на 3-4 Тб. І що накажете – 300Гб 15к в дзеркало??? Зараз у лінійці SSDшки від 400 ГБ до 15 (!) ТБ. Загалом, потрібно вважати під завдання. Звертайтеся, контакти внизу. Але щось я відволікся.



Не забули архітектори і про дрібні філії компаній. Є версія у вигляді віртуальної машини під Vmware (обіцяють і інші гипервизоры підтягнути, якщо буде попит), яка ставиться в далекий маленький філія поверх сервера з дисками або зовсім простий полицею, і після цього всі його простір будуть бачитися як повноцінна СГД Unity. це дає такі можливості, як реплікація з філій, снапшоти й управління з єдиного вікна. Тому й Unity, власне.

Раніше до залозу треба було докуповувати окремо ліцензію на ємність. Для багатьох замовників це було незручно. Зараз цього немає. І немає окремих продуктів — реплікація, блокові і файлові протоколи, снепшоты, тиринг і фасткэш (для гібридних систем) включені в поставку.

На all-flash постійно запитують про надійність — і ось EMC зробили висновок, що флешовые системи підтримувати цілком собі нормально, тому що флеш майже вічний, бо без рухомих частин і зношується ну дуже повільно. І тому ціна однакова для кожного року підтримки, як я вже говорив (але це не відноситься до гібридних сховищ). Ще смачне — знову ж таки, згадував, поки масив на гарантії або розширеної гарантії — якщо диск вийде з ладу з причини зносу, вони його поміняють неважливо на якому році. У іншого відомого вендора це вважається за проблему замовника та негарантийным випадком. Теж знайшли комусь наступити на мозоль.


Дуже зручно за обсягом — можна хоч 200 Тб в одну полицю запхати, якщо треба. У порівнянні з шпиндельними хранилками дуже навіть приємно.

Є у нас вже і бойові впровадження — незважаючи на травневий реліз залозки. Замовник розкинув ROI, TCO і зрозумів, що гібрид брати не вигідно. У результаті там Юніті 400F (F – значить Flash) 47 SSD по 1,6, виходить близько 60 Тб корисного місця в RAID5. Все це в 4 юніти. Видає 140 тисяч iops.

В цілому система, як правило, зроблена по-ірландськи (у них завод в Корку в Ірландії). Збірка акуратна і красива, але дуже своєрідна за рішеннями. Наприклад, контролери (два леза) кріпляться до шасі здоровенним болтом, який проходить через весь масив. Завдяки цій осі всі роз'єми рівне входять один в одного на бэкплейне.


Ось ці болти. Поки їх акуратно докручиваешь на останньому сантиметрі, відчуття як при стикування з МКС.



На борту є вбудований 10 BASE-T для роздачі файловим протоколами або блочного iSCSI. Він дешевий, тому не здорожує конструкцію, але безсумнівно принесе користь. А ось основний комунікаційний порт ви обираєте під свою інфраструктуру. При замовленні можна вибрати які трансивери підуть в конвергентний роз'єм вводу-виводу (16 FC або 10 Eth / ISCSI). Їх по 2 на контролер. Треба більше — є модуль розширення, куди цих портів можна добити. См. схему нижче. І ніяких окремих файлових контролерів — все вже на борту. Це дуже зручно, треба сказати, хоча швидше актуально для гібридних моделей, ніж повністю твердотільних. Все-таки для файлопомоек флеш поки що дорогий. Ну або ж для любителів будувати Vmware на NFS, що дуже популярним останнім часом.

Процесори і пам'ять не викликають подиву — старий добрий Інтел.

Всередині два SSD для скидання брудного кеш при відключенні живлення, в кожному контролері вони свої. ОС ставиться на перші 4 диска. Порадую тих, хто знайомий з попередніми лінійками від ЕМС: ці диски тепер можна поєднувати з усіма іншими в пул під дані. Раніше вони часто ставали мертвим вантажем, на які крім образів віртуальних машин годі було покласти. Та й вендор вкрай не рекомендував їх навантажувати. Зараз ласка. Тільки для високонавантажених інсталяцій ми все ж рекомендуємо дотримуватися цього старого правила. Вони тому і системні, що важливі. А без навантаження ребилд завжди швидше проходить. Ребилд 1.6 Тб диска під навантаженням 50т IOPS, до речі, зайняв трохи менше двох годин. Результат цей бачиться мені цілком гідним.


2 кабелю живлення (чорний і сірий по краях), 2 керуючих (по зеленому в юніт), 2 frontend (сині).

Лінійка


У хорошого меч джедая синій, а у дуже хорошого — серебистый: зверніть увагу на логотипи. За увагу до деталей виробнику окремий плюс в карму.



Тести

Тестували стандартним останнім часом для нас методом від rpokruchin.

Результати вийшли наступні:
1. Почнемо з характерних для SSD навантажень – випадкового читання і запису. Виділив значення, які можна прийняти за еталон. До речі, видно, що система всередині себе працює блоком 8К, т. к. кількість IOPS починає зменшуватися тільки при більшому розмірі, а на менших показує практично той же результат. Якщо підходити до питання чітко, то результат на випадковому читанні – 63,5 тисячі IOPS (коли приймаємо 1мс за відсічення і все, що вище — не в рахунок). Якщо на це увагу не акцентувати, то можна вважати, що 86 тисяч ми з неї видушили. Хоча кожен може вирішувати сам, які результати вважати правильними. Для цього і наведена вся таблиця на різних блоках і чергах:



Що цікаво, на випадкового запису результати виявилися кращими, ніж ми думали. Продуктивність вийшла гірше тільки на 20%. Може бути, звичайно, кеш СГД відпрацював на п'ятірку, хоча всіляко намагалися його обійти хіба тільки що не вимикали. Але це було б неправильно, тому що його не включили в дизайн, щоб лихі хлопці з Кроку його гасили. Так і в продуктиве все одно він буде включений.



Не залишили без уваги також навантаження при бэкапах, коли йде послідовне читання великим блоком і важлива швидше пропускна здатність, ніж час відгуку і иопсы (хто захоче кинути в мене цеглою, заздалегідь погоджуся, що так, при бэкапах блок може бути ще більше, але загальної картини це не змінює):



І, нарешті, навантаження, характерна для заливки даних — послідовний запис великими блоками.



З таблиці можна помітити, що після певного моменту продуктивність вже не росте, а от час відгуку збільшується. Тут доводиться згадати, що все-таки система мидрейнджовая, і зірок з неба не обіцяла. Тим більше на 9 дисках, з яких 4 системних (Так, ми погані хлопці, не слідуємо своїм кращим практикам). Просто потрібно знати з самого початку її стелю і стежити за своїм продуктивом. Чим вище модель в лінійці — тим вище її стеля. Він, до речі, майже чесно вказаний в даташіте (є в посиланнях нижче). Це потрібно враховувати при покупці.



Що цікаво, звичайно, високі показники вона виходить на невеликій кількості дисків — із збільшенням кількості дисків вона швидко упреться в означений стелю і далі продуктивність зростати не буде, але зате за свої гроші працює. Як ми зрозуміли — причина в тому, що система впирається в потужність контролера. На логічне питання була отримана відповідь — за все в цьому житті треба платити. У разі якщо потрібна продуктивність більше — потрібна велика модель.

Звичайно, коли дивишся на вільні слоти для плашок пам'яті на материнській платі, хочеться додати туди кілька серверних планок по кілька сотень доларів і отримати додатковий кеш (кеш там – звичайні DIMM по 16 Gb). Або поміняти процесори теж заодно (в молодшої моделі шестиядерні 1,6 Ггц). Але така дія зніме желзку і гарантії відразу, на жаль. Правда, я знаю чоловіка, який примудрився зняти зі своєї СГД систему магнітного знищення дисків і видати повний відмова за гарантійний випадок, тому, може, хтось їх і буде переставляти перед приїздом інженерів, але щось малоймовірно.

Інтерфейс





Тепер на HTML 5. GUI відмінно працює на Windows і Linux, для цінителів автоматизації є cli і REST API. Дуже багато зусиль було докладено до оптимізації. Виконання завдань реально легше. Зручні визарды прийшли на зміну біганині по декількох вкладках. Realt-time та історичну статистику продуктивності можна дивитися в онлайн режимі без використання додаткових утиліт. Графіки налаштовуються в тому ж інтерфейсі, управління дуже гнучке.



Крім адміністративних завдань дуже спростилися сервісні операції. Всі вони тепер зібрані в одній вкладці. Логи з масиву збираються швидше і відразу з обох контролерів. У Web GUI з'явилися такі операції як Spyware і оновлення коду масиву \ дисків.



Є управління з хмари: при бажанні можна зарегаться в спеціальному сервісі, куди система буде зливати свої лічильники — будуть пропонуватися поради щодо оптимізації ресурсів та управління. Зроблено це, звичайно, для того, щоб ви не пропустили апгрейд і дозакупівлю заліза, але, начебто, користь теж є.

Є ще класні тулзы у партнерів по оцінці поточної інфраструктури — можна зібрати логи з ваших масивів, проаналізувати і на виході дізнатися, яка Юніті з урахуванням зростання на 3-5 років замінить всі поточні масиви. І плюс до цього можна зрозуміти, чи потрібен allflash або гібридної достатньо.

З віртуальної Unity можна пограти — вона скачується у вигляді демки з ліцензією на некомерційне використання безкоштовно за цим посиланням.

Резюме

Виробник поставив себе на місце замовника і врахував свої помилки: випустив гідну по продуктивності хранилку, спростив інтерфейс і ліцензування і забезпечив прогнозовану вартість володіння за рахунок фіксованої вартості підтримки.

На додачу до традиційно високій якості продуктів і сервісу можна сміливо говорити, що система варта уваги корпоративних замовників практично будь-якого рівня. Єдине питання — що буде з EMC у світлі об'єднання з Dell. Особисто я думаю, що все так і залишиться, але це, як кажуть, одному Деллу відомо.


Ось так зараз може виглядати 100Тб флеша

Система була випущена в травні, у нас є позитивний досвід місячних тестів і впровадження у замовників (один з прикладів вище). По секрету скажу, що крім тестовій ми «під шумок» ще купили для своєї інфраструктури одну гібридну і одну флешовую систему і вже експлуатуємо їх під внутрішні завдання.

Посилання

Старий огляд VNX
EMC ScaleIO – згадана програмно-визначається СГД
Моя пошта для запитань і для запиту акційних цін (на жаль, кожного учасника EMC погоджує під промо-ціни окремо, тому процедура така нетривіальна) – vbolotnov@croc.ru
Ну і для любителів даташітов: флешовой і гібридної лінійок систем зберігання
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.