Інтерв'ю з віце-президентом з технологічної стратегії компанії MapR

Вітаю, Хабр! Я трохи допомагав своїм друзям готувати конференцію CEE-SECR 2016 і в процесі познайомився з Крістал Валентайн – віце-президентом компанії MapR з технологічної стратегії. Крістал молодець, дуже зібрана, цілеспрямована, глибоко розуміє свою галузь При своїй виключній зайнятості вміє дуже комфортно співпрацювати. Та і компанія її не з останніх. Думаю, її доповідь в Москві буде дуже цікавим, а мені захотілося більше дізнатися про погляди на майбутнє галузі віце президента з технологічної стратегії і я придумав зробити з Крістал інтерв'ю. Ось що у мене вийшло. Крістал вельми люб'язно відповіла на всі питання, які я поставив. В цілому ж відповіді Крістал відрізняє щільність наданої інформації на рядок тексту, чіткість формулювань, вміння залишатися в бажаних межах і чітке бачення місії компанії і майбутнього ринку.

imageЯ: впродовж кількох років масштабована файлова система була унікальною особливістю архітектури MapR. Зараз же саме зберігання даних стає все дешевше і дешевше, а користувачі більше зацікавлені в гнучкості і продуктивності системи. Розкажіть які нові ключові рішення в розвитку MapR, повинні відповісти на зростаючі вимоги споживачів.

Крістал (далі-До): Компанія MapR пройшла досить довгий і непростий шлях з моменту початку своєї історії у 2009 році. У міру свого розвитку компанія впроваджувала низку провідних галузевих інновацій, і сьогодні всі ці інновації зібрані воєдино в Конвергентній Платформі Даних MapR (далі CDP MapR).

Коли MapR вперше вийшла на ринок у 2011 році, вона отримала популярність завдяки корпоративній системі Hadoop, побудованої на основі файлової системи MapR, запатентованого високопродуктивного масштабованого шару зберігання даних, який підтримує Apache HDFS API. Цей продукт був визнаний Forrester (компанією в США, займається незалежними дослідженнями в області технологій і ринку) найкращої Hadoop-платформою.

У 2013 році компанія представила ринку MapR DB – NoSQL базу з підтримкою Apache HBase API. Forrester також зазначив цей продукт як кращу NoSQL базу даних. Пізніше в MapR DB була додана підтримка JSON документів, а в 2014 році з'явився Apache Drill. Він був визнаний кращим інструментом SQL за версією Gigaom (Медіа компанія в Каліфорнії).
У минулому році MapR представила продукт MapR Streams – масштабовану систему передачі повідомлень, що підтримує Apache Kafka API і володіє високою продуктивністю і високою пропускною спроможністю.

Безумовно, кожен з цих інструментів може бути використаний поодинці, багато з них були визнані кращими в своєму сегменті. Але, на мій погляд, максимальний ефект від використання CDP MapR виникає при роботі всіх цих продуктів – великого сховища даних різного рівня доступності, масштабованої NoSQL і потокової передачі і зберігання повідомлень на єдиній платформі. У CDP всі файли, таблиці і потоки – знаходяться потенційно в декількох центрах обробки даних – можуть бути доступні в єдиному просторі. Платформа підтримує безліч різних обчислювальних систем (включаючи MapReduce, Spark, YARN jobs і багато інших) з багатокористувацьким доступом. Це дає можливість створювати додатки з сучасною архітектурою, коли старі дані використовуються разом з новими джерелами даних на високопродуктивної платформи.

В майбутньому також очікується впровадження дуже цікавих інноваційних продуктів і опцій. Наприклад, нещодавно ми оголосили про те, що CDP буде підтримувати микросервисы.

Я: Які значні релізи Ви передбачаєте на ринку великих даних і машинного навчання найближчим часом?

: Ми живемо в надзвичайно захоплююче і круте час, тому що велика частина теорій машинного навчання і штучного інтелекту була розроблена ще в 50-ті роки, але зараз у нас є достатньо потужні платформи великих даних, які здатні підтримати ці навантажені даними алгоритми в тому масштабі, швидкості і вартості, які дозволяють втілити ці теорії в життя.

Ринок зростає неймовірно швидко. Складно визначити якийсь один конкретний продукт. Але я думаю, ми побачимо серйозний розвиток деяких секторів, а саме, інтернет речей, хмарні обчислення (зокрема, гібридні хмари або програми, які здатні використовувати декілька центрів обробки даних), микросервисы (які мають ряд переваг і ідеально підходять для навчання і валідації моделей машинного навчання), а також deep learning.

Я: Коли три роки тому MapR встановив партнерські відносини з Skytree, це був великий крок у правильному, але незвіданому напрямку. Тепер переваги цього напряму очевидні й зрозумілі для всіх. Але чи не здається вам, що зараз на ринку машинного навчання продукти з відкритим вихідним кодом більш затребувані, ніж патентовані?

: Перевага CDP – дати можливість користувачам широкий вибір інструментів і тим самим забезпечити гнучкість процесу аналізу і обробки даних. Так, безумовно, продукти з відкритим вихідним кодом швидко розвиваються. Але багато клієнтів шукають таких партнерів, як SkyTree, щоб забезпечити швидкий старт за рахунок застосування вже різноманітних алгоритмів і моделей машинного навчання. Зрештою, ми хочемо надати свободу розробникам додатків. CDP надає таку можливість і покращує роботу додатків, незалежно від того, чи використовують вони open source продукти або закриті системи.

MapR Converged Data Platform
image

Я: Як по вашому, Spark і Hadoop конкурують між собою? Або все-таки ці технології скоріше доповнюють один одного? Що з них Ви б порадили для побудови інфраструктури бізнесу?

: Ринок великих даних має досить комплексний характер. На сьогодні споживач має широким вибором open source рішень, сфокусованих на застосування якогось одного підходу до обробки даних. В результаті додатка з більш комплексними характеристиками часто вимагають складних, складових архітектур, які складаються з кількох рішень, що працюють на різних кластерах і сполучених набором протоколів.

Одне з таких рішень – Apache Spark. Не так давно Apache Spark почав набирати популярність, тому що він використовує методи, що дозволяють спростити операції введення-виведення у порівнянні з традиційним підходом, який Apache реалізував у вигляді MapReduce завдань, а також оскільки Apache Spark пропонує в своєму API більше інструментів, ніж Map Reduce.

Однак Spark не має в своєму розпорядженні власним шаром зберігання даних, тому буває, що він працює на кластері MapR або Apache Hadoop. Тому, відповідаючи на Ваше запитання, можу сказати, що вони, скоріше, доповнюють один одного. Хоча на сьогоднішній день очевидно, що користувачі радше воліють Apache Spark ніж «просто» Map Reduce завдання. Але тут слід чітко розуміти різницю між обчислювальною системою та інфраструктурою. Зрештою, і Spark, і Hadoop дозволяють розробляти цікаві програми, але для великих організацій було б розумно мати цілісний підхід до своїх даних, а саме – використовувати платформу, здатну підтримувати як Hadoop, так і Spark поряд з багатьма іншими обчислювальними системами.

Я: Відомо, що MapR і Google – компанії-партнери, MapR надає послуги на базі хмари Google. Як ви думаєте, який вплив на ваш продукт надасть чіп Tensor Processing?

: Взагалі у MapR є партнерські відносини з усім великими постачальниками хмарних технологій, включаючи Google Cloud. І, до речі кажучи, Google Capital – один з наших інвесторів. У нас велика партнерська програма, в тому числі з Amazon Web Services, Microsoft Azure і CenturyLink Cloud.

Ми переконані, що хмарні обчислювальні платформи в майбутньому продовжать завойовувати ринок. Тому з одного боку ми хочемо розвивати ті обчислювальні системи, які наші клієнти побажають використовувати, і з іншого боку, ми хочемо дати їм можливість використовувати ту інфраструктуру, яка зручна для них, будь то локальна інфраструктура (on-premise) або загальнодоступна або навіть поєднання обох видів.

Google Tensor Flow і TPU є прикладом відмінних інновацій, що розробляються постачальником хмарної технології. Адже в кінці кінців, алгоритми машинного навчання (працюватимуть вони на TPU чи ні) тільки виграють від здатності використовувати великі набори даних для навчання. Це, укупі з можливістю підтримки потоку даних в режимі реального часу і розвитком гнучкої микросервисной практики тестування та тренування множинних моделей, робить CDP дуже привабливою для тих клієнтів, які використовують машинне навчання, в тому числі і на Google Cloud.

Я: Розкажіть про ваших улюблених кейсах використання технологій MapR клієнтами.

: насправді, клієнти MapR, як правило, технічно підковані люди, вони вибирають CDP, тому що сфокусовані на вирішенні інноваційних завдань, значить, і платформа потрібна така, яка надасть широке поле для розвитку конкурентних переваг. Мені здається, дуже цікава сфера Adtech, оскільки це індустрія, розвиток якої безпосередньо визначається технологією. Головна конкурентна перевага компанії, яка працює у цій сфері, має складатися в якості і швидкості її платформи. У багатьох відносинах Adtech не існувало б у тому вигляді, в якому ми знаємо цю сферу, якби не величезні досягнення в області обчислювальних платформ.

Але в цілому, мій улюблений кейс – це проект Aadhaar, який був реалізований урядом Індії. Населення Індії дуже різноманітне, чисельність його – 1,3 мільярда людей. Ці люди населяють 640000 сіл і говорять на 22 офіційних мовах. Величезне число робітників – мігрантів (300 мільйонів), рівень бідності населення дуже високий, 60% населення живуть менш ніж на 2$ в день. У країні проживають 75 мільйонів безпритульних людей. Уряд витрачає близько 40 мільярдів доларів в рік на субсидії для бідних, включаючи харчування, паливо, транспортування. Але більша частина цих грошей зникла в невідомому напрямі з-за шахрайства і корупції. Проблема полягала в тому, що в країні не було надійної державної системи ідентифікації. З-за низького рівня грамотності населення уряд вирішив запровадити біометричний базу даних, яка могла б ідентифікувати громадянина Індії на основі його відбитків пальців і сканування райдужної оболонки ока.

Проект був запущений в 2009 році і працює на основі CDP MapR. На сьогоднішній день більш ніж 1 мільярд жителів вже зареєстрований в системі. Це становить 95% дорослого населення Індії. Кожен день в системі реєструються 500000 нових людей. Більше 100 мільйонів авторизацій виконується системою щодня. Середній час відгуку – 200 мілісекунд. Система використовує дзеркало MapR для більшої доступності і для запобігання помилок, тому навіть перебої електрики або мережі не здатні вивести її з ладу.

Я люблю цей кейс, оскільки він є прекрасним прикладом того, як технології змінюють життя людей на краще. Урядові субсидії в Індії нарешті доходять до всіх одержувачів і покращують якість життя тих, хто цього потребує.

Я: Яку стратегію Ви б рекомендували компаніям, які намагаються інтегрувати великі дані в їх бізнес-стратегію?

: Ми в MapR часто говоримо про те, що компаніям необхідно розробити спеціальну стратегію даних. Поняття маркетингової стратегії, технологічної стратегії, цінової стратегії звичні і зрозумілі для бізнесу. Але сьогодні цього мало, сьогодні бізнесу також необхідно мати стратегію даних. Всі компанії незалежно від індустрії сьогодні визнають, що величезні можливості приховані у правильному використанні доступних їм даних. Для того, щоб зробити це найбільш ефективним чином, ІТ-компанії мають змінити свій спосіб мислення. Тепер не додатка диктують, які дані необхідні. Тепер дані повинні займати центральне місце. Використання платформи даних, яка надає швидкий, безпечний і простий доступ до всіх даними організації, дозволить прискорити розвиток багатьох інноваційних програм.
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.