Обробка та зберігання даних: від давнини до Цодів

Наш час часто називають інформаційним століттям. Однак інформація була критично важлива для роду людського на протязі всього його існування. Людина ніколи не був найшвидшим, найбільш сильним і витривалим тваринам. Своїм становищем у харчовому ланцюзі ми зобов'язані двом речам: соціальності і здатності передавати інформацію більш ніж через одне покоління.


Те, як інформація зберігалася і поширювалася крізь століття, продовжує залишатися буквально питанням життя і смерті: від виживання племені і збереження рецептів традиційної медицини до виживання виду і обробки складних кліматичних моделей.

Подивіться на інфографіку (кликабельна для перегляду повної версії). Вона відображає еволюцію пристроїв зберігання даних, і масштаби дійсно вражають. Однак ця картинка далека від досконалості — вона охоплює якихось кілька десятиліть історії людства, вже живе в інформаційному суспільстві. А між тим дані накопичувалися, транслювалися і зберігалися з того моменту, звідки нам відома історія людства. Спершу це була звичайна людська пам'ять, а в недалекому майбутньому ми вже чекаємо зберігання даних голографічних шарах і квантових системах. На Хабре вже неодноразово писали про історію магнітних накопичувачів, перфокарти та диски розміром з будинок. Але ще жодного разу не було зроблено подорож в початок, коли не було залізних технологій і поняття даних, але були біологічні та соціальні системи, які навчилися накопичувати, зберігати, передавати інформацію. Спробуємо сьогодні прокрутити всю історію в рамках одного поста.


Джерело зображення: Flickr

До винаходу писемності
До того, як з'явилося те, що можна без сумніву назвати писемністю, основним способом зберегти важливі факти була усна традиція. У такій формі передавалися соціальні звичаї, важливі історичні події, особистий досвід або творчість оповідача. Цю форму складно переоцінити, вона продовжувала процвітати аж до середніх століть, далеко після появи писемності. Незважаючи на незаперечну культурну цінність, усна форма — еталон неточності і спотворень. Уявіть собі гру в «зіпсований телефон», в яку люди грають на протязі декількох століть. Ящірки перетворюються в драконів, люди знаходять собачі голови, а достовірну інформацію про побут і звичаї цілих народностей неможливо відрізнити від міфів і легенд.


Боян

Від клинопису до друкарського верстата
Для більшості істориків народження цивілізації з великої літери невідривно пов'язане з появою писемності. Згідно з поширеними теоріями, цивілізація в сучасному її розумінні з'являється в результаті створення надлишків їжі, поділу праці і появи торгівлі. В долині Тигру і Євфрату сталося саме це: родючі поля дали грунт торгівлі, а комерція, на відміну від епосу, вимагає точності. Було це приблизно в 2700 р. до нашої ери, тобто 5700 років тому. Левова частка шумерських табличок з клинописом заповнені нескінченною низкою торгових транзакцій. Не все, звичайно, так банально, наприклад, розшифровка шумерської клинопису зберегла для нас найстарішу на даний момент літературну роботу — «Епос про Гільгамеша».


Глиняна табличка з клинописом

Клинопис, безумовно, була чудовим винаходом. Глиняні таблички непогано збереглися, що вже говорити про клинопису, вибитою на камені. Але у клинопису є однозначний мінус — швидкість, і фізичний (не в мегабайтах) вага підсумкових «документів». Уявіть, що вам потрібно терміново написати і доставити кілька рахунків у сусіднє місто. З глиняними табличками така робота може стати в буквальному сенсі непідйомною.

У багатьох країнах, від Єгипту до Греції, людство шукало способи швидко, зручно та надійно фіксувати інформацію. Все більше люди приходили до тієї чи іншої варіації тонких листів органічного походження і контрастних «чорнила». Це вирішувало проблему зі швидкістю і, так би мовити, «ємністю» на кілограм ваги. Завдяки пергаменту, папірусу і, в кінцевому рахунку, папері людство отримало свою першу інформаційну мережу: пошту.

Однак, з новими перевагами прийшли нові проблеми: все, що написано на матеріалах органічного походження має властивість розкладатися, вицвітати, так і просто горіти. В епоху від темних століть аж до винаходу друкарського преса великою і важливою справою було копіювання книг: буквальне переписування начисто, літера за літерою. Якщо уявити складність і трудомісткість цього процесу, легко зрозуміти, чому читання і лист залишалися привілеєм дуже вузького прошарку монашества та знатних людей. Проте в середині п'ятнадцятого століття сталося те, що можна назвати Першою Інформаційною Революцією.

Від Гутенберга до лампи
Спроби спростити і прискорити набір тексту за допомогою комплектів заздалегідь відлитих словоформ або букв і ручного преса робили ще в Китаї в 11 столітті. Чому ж ми мало знаємо про це і звикли вважати батьківщиною друку Європу? Поширенню набірної друку в Китаї завадила їх власна складна писемність. Виробництво літер для повноцінної друку на китайському було занадто трудомістким.

Завдяки Ґутенберґові ж, у книг з'явилося поняття примірника. Біблія Гутенберга була віддрукована 180 разів. 180 копій тексту, і кожна копія підвищує ймовірність, що пожежі, повені, ледачі переписувачі, голодні гризуни не будуть перешкодою для майбутніх поколінь читачів.


Друкарський верстат Гутенберга

Ручний прес і ручний підбір літер, однак, не є, звичайно, оптимальним по швидкості і роботи процесом. З кожним століттям людське суспільство прагнуло не тільки знайти спосіб зберегти інформацію, але й поширити її як можна більш широкого кола осіб. З розвитком технологій, еволюціонувала як друк, так і виробництво копій.

Ротаційна друкарська машина була винайдена у кінці дев'ятнадцятого століття, і її варіації використовуються аж до сьогоднішнього дня. Ці махини, з безперервно обертовими валами, на яких закріплені друковані форми, що були квінтесенцією індустріального підходу і символізували дуже важливий етап в інформаційному розвитку людства: інформація стала масовою, завдяки газетам, листівок і здешевленню книг.

Масовість, однак, не завжди йде на користь конкретного шматочка інформації. Основний носій, папір і чорнило, все так само схильні до зносу, старості, втраті. Бібліотеки, повні книг по всім можливим областях людських знань, ставали все більш об'ємні, займаючи величезні простори і вимагаючи все більше ресурсів для свого обслуговування, каталогізації та пошуку.

Черговий зсув парадигми у сфері зберігання інформації стався після винаходу фотопроцесса. Кільком інженерам прийшла в голову світла думка, що мініатюрні фотокопії технічних документів, статей і навіть книг можуть продовжити исходниками життя і скоротити необхідне для їх зберігання місце. Отримані в результаті такого розумового процесу мікрофільми (мініатюрні фотографії та обладнання для їх перегляду) увійшли в ужиток у фінансових, технічних і наукових колах в 20-х роках двадцятого століття. У мікрофільму багато плюсів — цей процес поєднує в собі легкість копіювання і довговічність. Здавалося, що розвиток способів зберігання інформації досягло свого апогею.


Мікроплівка, використовується досі

Від перфокарт і магнітних стрічок до сучасних ЦОДам
Інженерні уми намагалися вигадати універсальний метод обробки та зберігання інформації ще з 17-го століття. Блез Паскаль, зокрема, зауважив, що якщо вести обчислення в двійковій системі числення, то математичні закономірності дозволяють привести рішення завдань у такий вигляд, який робить можливим створення універсальної обчислювальної машини. Його мрія про такий машині залишилася лише гарною теорією, однак, через століття, в середині 20-го століття, ідеї Паскаля втілилися в залозі і породили нову інформаційну революцію. Деякі вважають, що вона все ще триває.

Те, що зараз прийнято називати «аналоговими» методами зберігання інформації, передбачає, що для звуку, тексту, зображень і відео використовувалися свої технології фіксації та відтворення. Комп'ютерна пам'ять же універсальна — все, що може бути записано, виражається за допомогою нулів і одиниць і відтворюється за допомогою спеціалізованих алгоритмів. Перший спосіб зберігання цифрової інформації не відрізнявся ні зручністю, ні компактністю, ні надійністю. Це були перфокарти, прості картонки з дірками в спеціально відведених місцях. Гігабайт такий «пам'яті» міг важити до 20 тонн. У такій ситуації складно було говорити про грамотної систематизації або резервному копіюванні.

Перфокарта

Комп'ютерна індустрія розвивалася стрімко і швидко проникала у всі можливі області людської діяльності. У 50-х роках інженери «запозичили» запис даних на магнітну стрічку у аналогової аудіо та відеозаписи. Стримери з касетами обсягом до 80 Мб використовувалися для зберігання і резервного копіювання даних аж до 90-х років. Це був непоганий спосіб з відносно тривалим терміном зберігання (до 50 років) і невеликим розміром носія? Крім того, зручність їх використання та стандартизація форматів зберігання даних ввела поняття резервного копіювання у побутовий обіг.


Один з перших жорстких дисків IBM, 5 МБ

У магнітних стрічок і систем, пов'язаних з ними, є один серйозний недолік — це послідовний доступ до даних. Тобто, чим далі запис знаходиться від початку стрічки, тим більше часу буде потрібно для того, щоб її прочитати.

У 70-х роках 20-го століття був проведений перший «жорсткий диск (HDD) у тому форматі, в якому він відомий нам сьогодні — комплект з декількох дисків з намагничивающимся матеріалом і головками читання/запису. Варіації цієї технології використовуються і сьогодні, поступово поступаючись в популярності твердотільних накопичувачів (SSD). Починаючи з цього моменту, протягом всього комп'ютерного буму 80-х формуються основні парадигми зберігання, захисту і резервного копіювання інформації. Завдяки масовому поширенню побутових і офісних комп'ютерів, що не володіють великим обсягом пам'яті і обчислювальної потужності, зміцнилася модель «клієнт-сервер». По початку «сервера» були здебільшого локальними, своїми для кожної організації, інституту або фірми. Не було якоїсь системи, правил, інформація дублювалася в основному на дискети або магнітні стрічки.

Поява інтернету, однак, стимулювало розвиток систем зберігання та обробки даних. У 90-х роках, на зорі «міхура доткомів» почали з'являтися перші дата-центри, або ЦОД-и (центри обробки даних). Вимоги до надійності та доступності цифрових ресурсів росли, разом з ними зростала складність їх забезпечення. Із спеціальних кімнат у глибині підприємства або інституту дата-центри перетворилися в окремі будівлі зі своєю хитрою інфраструктурою. У той же час, у ЦОД-ів кристалізувалася свого роду анатомія: самі комп'ютери (сервери), системи зв'язку з інтернет-провайдерами і все, що стосується інженерних комунікацій (охолодження, системи пожежогасіння та фізичного доступу в приміщення).

Чим ближче до сьогоднішнього дня, тим більше ми залежимо від даних, які зберігаються десь у «хмарах» ЦОД-ів. Банківські системи, електронна пошта, онлайн-енциклопедії і пошукові механізми — все це стало новим стандартом життя, можна сказати, фізичним продовженням нашої власної пам'яті. Те, як ми працюємо, відпочиваємо і навіть лікуємося, всього цього можна нашкодити простий втратою або навіть тимчасовим відключенням від мережі. У двотисячних роках були розроблені стандарти надійності дата центрів, від 1-го до 4-го рівня.

Тоді ж з космічної та медичної галузей почали активно проникати технології резервування. Звичайно, копіювати і розповсюджувати інформацію з тим, щоб захистити її в разі знищення оригіналу люди вміли давно, але саме дублювання не тільки носіїв даних, але і різноманітних інженерних систем, а також необхідність передбачати точки відмовила і можливих людських помилок відрізняє серйозні Цод. Наприклад, ЦОД, що належить до Tier I буде лише обмежену надмірність зберігання даних. Вимоги до Tier II вже прописано резервування джерел живлення і наявність захисту від елементарних людських помилок, а Tier III передбачає резервування всіх інженерних систем та захист від несанкціонованого проникнення. Нарешті, вищий рівень надійності Цод, четвертий, вимагає додаткове дублювання всіх резервних систем і повна відсутність точок відмови. Кратність резервування (скільки саме резервних елементів припадає на кожен основний) зазвичай позначається буквою M. З часом вимоги до кратності резервування тільки росли.

Побудувати ЦОД рівня надійності TIER-III, — це проект, з яким впорається тільки виключно кваліфікована компанія. Такий рівень надійності та доступності означає, що, як інженерні комунікації, так і системи зв'язку дубльовані, і дата-центр має право на простий тільки в кількості близько 90 хвилин на рік.

У нас в Safedata такий досвід є: в січні 2014 року в рамках співпраці з Російським Науковим Центром «Курчатовський Інститут» нами був введений в експлуатацію другий дата-центр SAFEDATA — Москва-II, який відповідає вимогам рівня TIER 3 стандарту TIA-942, раніше ж (2007-2010) ми побудували дата-центр Москва-I, який відповідає вимогам рівня TIER 3 стандарту TIA-942 і відноситься до категорії центрів зберігання і обробки даних з захищеною мережевою інфраструктурою.

Ми бачимо, що в IT відбувається ще одна зміна парадигми, і пов'язана вона з data science. Обробка і зберігання великих обсягів даних стають актуальними як ніколи. У якомусь сенсі, будь-який бізнес повинен бути готовий стати трохи вченими: ви збираєте величезну кількість даних про ваших клієнтів, обробляєте їх і отримуєте для себе нову перспективу. Для реалізації таких проектів потрібно оренда великої кількості потужних серверних машин і експлуатація буде найдешевшою. Або, можливо, ваша внутрішня ІТ-система настільки складна, що на підтримку її йде надто багато ресурсів компанії.

У будь-якому випадку, для будь-яких цілей вам не знадобилися значні обчислювальні потужності, у нас є послуга «Віртуального Цод». Інфраструктура як сервіс — не новий напрямок, однак ми вигідно відрізняємося цілісним підходом, починаючи від специфічно ІТ-шних проблем, на кшталт перенесення корпоративних ресурсів у «Віртуальний ЦОД», до юридичних осіб, таких як консультація по актуального законодавства РФ у сфері захисту даних.

Розвиток інформаційних технологій схоже на нещадно мчить вперед поїзд, не всі встигають застрибнути у вагон коли їм надається можливість. Де-то до сих пір використовують паперові документи, в старих архівах зберігаються сотні не оцифрованих мікрофільмів, державні органи можуть досі використовувати дискети. Прогрес ніколи не буває лінійно-рівномірним. Ніхто не знає, скільки важливих речей ми назавжди втратили і яка кількість годин було витрачено через досі не цілком оптимальних процесів. Зате ми Safedata знаємо, як не допустити порожніх витрат і непоправних втрат конкретно у вашому випадку.
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.