Запрошуємо на HadoopKitchen



Поспішаємо повідомити вам про нашу нову ініціативу, яка буде цікава як програмістам, так і ряду інших IT-фахівців: 27 вересня, у наступну суботу, в офісі Mail.Ru Group відбудеться перша зустріч HadoopKitchen. Чому саме Hadoop і чим ця зустріч може бути цікава непрограммистам?

  • Hadoop є центром цієї екосистеми, з ним пов'язані численні проекти і технології.
  • Багато компаній цілком покладаються на комерційні дистрибутиви Hadoop.
  • Hadoop входить в продуктові лінійки майже всіх великих постачальників інформаційних технологій, що говорить про його затребуваності та популярності.
Програма першої Hadoop-зустрічі буде дуже насиченою, виступлять аж чотири доповідача. Всі вони чудові фахівці з великим досвідом, яким хочуть поділитися з аудиторією. Під катом читайте програму заходу та анонси доповідей.

Програма заходу:

11:00-Реєстрація та welcome coffee.

12:00 Олексій Філановський (Cloudera Certified Developer for Apache Hadoop, старший консультант відділу продажів, Oracle) розповість про нові цікаві можливості Hadoop v2. Звичайно, це не буде сухим перерахуванням з короткими описами, Олексій також розбере різні сценарії використання цих можливостей, а заодно розповість про деяких прикладах з практики.

Hadoop-екосистема набирає популярність семимильними кроками, усе більше і більше користувачів починають використовувати її не тільки для синтетичних тестів, для задоволення власної цікавості, але і продуктивної середовищі підприємства. Даний факт пояснює бурхливий розвиток продукту. Більше користувачів, більше побажань для розробників. В рамках цієї доповіді будуть висвітлені основні можливості, що з'явилися в Hadoop v2.

13:00 Микита Макєєв (Data Team lead, IponWeb) повідає присутніх особливі знання про те, як можна розширити можливості Hadoop Streaming при роботі з сучасними форматами даних Avro і Parquet.

Map-Reduce, Avro і Parquet без Java. Ну майже. Hadoop Streaming — відмінний спосіб осідлати Hadoop зокрема і пакетну обробку великих обсягів даних взагалі. Майже не потрібно знати Java, а тільки приблизно уявляти, як працює MapReduce, і вміти писати на якому-небудь мові програмування, яка може обробляти рядки тексту. Практично будь-яка задача, яка може бути вирішена за допомогою MapReduce, може бути вирішена за допомогою Hadoop Streaming. Переваги очевидні — простота розробки, немає проблем з кадрами, невисокі витрати на входження.

Одне з найбільш розповсюджених застосувань Hadoop Streaming — обробка текстових логів або інших даних, поданих у вигляді тексту. Проте популярність стрімко завойовують більш складні, ніж просто текст, формати. Можна зберегти можливість обробляти дані за допомогою скриптових мов і при цьому використовувати всі переваги, якими володіють сучасні формати даних, такі як Avro і Parquet?

Ми справляємося з цим завданням, використовуючи деяку кількість Java-коду і JSON як сполучна ланка. Як водиться, скрізь є нюанси, особливості, а часто і особливі унікальні «граблі» про яких і буде розказано.

14:00 Максим Лапань (провідний програміст проекту Пошук, Mail.Ru Group) розповість захоплюючу історію про те, як в Mail.Ru Group здійснюється управління кластерами Hadoop. Доповідач не обійде стороною і ті труднощі, які поставали на шляху команди розробників по мірі розвитку і розширення системи. Доповідь буде присвячена практичній стороні експлуатації кластера Hadoop/HBase, протягом останніх трьох років використовуваного Пошук Mail.Ru. За цей час система зросла з 30 до 400 серверів, об'єм сховища з 400ТБ до 9ПБ. Теми, які планується порушити:
  • як ми винайшли свій bigtop: структура і логіка наших збірок rpm-пакетів, підтримка декількох кластерів, робота користувачів, особливості конфігурації компонентів Hadoop;
  • моніторинг та аналіз ефективності кластера: як ми стежимо за роботою кластерів, які метрики використовуємо;
  • проблеми адміністрування великий інсталяції Hadoop/HBase.
15:00 Обід. Війна війною, а обід за розкладом.

З 15:45 до 17:45 у форматі World Cafe всі бажаючі зможуть взяти участь у спільному визначенні та обговорення найбільш актуальних питань експлуатації Hadoop.

О 18:00 Олексій Грищенко (Pivotal Enterprise Architect, EMC Corporation) виступить з доповіддю про те, які особливості і нюанси характерні для архітектурного рішення Pivotal HAWQ, а також розповість про його взаємодії з Hadoop. В рамках доповіді будуть висвітлені наступні теми:
  1. Поточне становище на ринку рішень, що реалізують SQL-інтерфейс для роботи з даними в HDFS. Останнім часом ця тема вкрай активно набирають популярність, що здебільшого пов'язано з популяризацією Hadoop в корпоративному секторі. Я коротко розповім про основні існуючі на даний момент рішення і принципові проблеми, з якими стикаються всі подібні системи.
  2. Компоненти рішення Pivotal HAWQ та їх взаємодія з HDFS. Тут я детально розповім про те, з яких компонент складається наша СУБД, як вони розташовуються на кластері, яким чином вони пов'язані з HDFS і як вони зберігають дані
  3. Детальний розбір процесу виконання запиту. В якості прикладу буде дано нескладний запит, процес його виконання буде розписано по кроках від надходження запиту в систему до повернення даних, клієнтського додатку. Також тут я коротко розповім про відмітних особливостях обробки запитів у HAWQ порівняно з іншими системами.
  4. Можливості організації доступу до кастомизированным форматів зберігання даних на HDFS, а також до різних зовнішніх систем. Тут я розповім про фреймворку PXF та можливості його розширення, наведу приклад реалізованого мною компонента
  5. Інші можливості HAWQ і напрямок подальшого розвитку. Я розповім про можливості використання HAWQ для вирішення задачі інтелектуального аналізу даних, а також висвітлю напрямок, в якому наша платформа розвивається і яких змін варто чекати.
Обов'язково візьміть з собою документ, що посвідчує особу, у нас сувора охорона. Також вам необхідно буде зареєструватися.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.