Останнім часом все частіше говорять про рішення безпеки «наступного покоління», побудованих на Великих даних із застосуванням штучного інтелекту. Але наскільки такі рішення ефективні? І яким чином необхідно їх оцінювати? Спробуємо розібратися на прикладі Adaptive Defense 360.
Читати далі →

Ми 1cloud часто розповідаємо про технології, наприклад, нещодавно ми писали про машинному навчанні і all-flash-масивах зберігання даних. Сьогодні ми вирішили поговорити про Big Data. Найчастіше основним визначенням великих даних вважають відомі «3V» (Volume, Velocity і Variety), які ввів аналітик Gartner Дуг Лейни (Doug Laney) в 2001 році.

При цьому іноді найважливішим вважають саме обсяг даних, що частково зумовлено самою назвою. Тому багато замислюються тільки про те, дані якого розміру можна вважати великими. У цій статті ми вирішили з'ясувати, що насправді важливо у великих даних крім розміру, як вони з'явилися, чому їх критикують і в яких сферах вони успішно застосовуються.


Читати далі →

Навіщо потрібно ще більше дата-центрів: сьогодні і завтра аналітики великих даних

Навіщо зберігати стільки даних в споруджуваних все більше і більше дата центрах? Одна зі сфер застосування біг дата — прогнозна аналітика. Вона відповідає на запитання: що означають ці цифри про нас, де зараз використовується аналітика і що буде через три роки?

Прогнозування — основа оптимізації
Кількість даних росте зі швидкістю, яку людині неможливо уявити. Дані ніщо без аналізу. Тільки неймовірне кількість закодованої в одиниці і нулі інформації. Навіщо будують нові дата-центри? Що і чому зберігається, а також обробляє в їх глибинах?

Ми всі чули про контекстної реклами, показ якої грунтується на наших перевагах, про яких пошукові машини дізнаються з наших дій онлайн. Але от про інші сфери мало хто говорить широкій публіці. А адже крім того, що біг дата в сумі з прогнозною аналітикою дозволяє рекламодавцям і банкам заробляти неймовірні гроші, вони допомагають рятувати людські життя.



Читати далі →

Захист великих даних – як правильно почати і мінімізувати можливі ризики?

Раніше серйозну інфраструктуру для зберігання та аналізу Великих даних (Big Data) могли дозволити собі тільки масштабні організації, наприклад, державні структури або великі підприємства. Сьогодні ж, по мірі того, як технології стають все більш доступними, великі дані знаходять все більш різноманітне застосування в самих різних областях. При цьому, як і у випадку багатьох інших нових технологій, розвиток великих даних не тільки відкриває можливості, але і пов'язане з численними труднощами, і багато організації задаються питанням, яким чином їм краще вчинити з нагромаджуваними даними?



Читати далі →

Розробка на R: таємниці циклів

Менше тижня тому в журналі Хакер вийшла авторська версія матеріалу, присвяченого фічами при використанні циклів при розробці на R. За погодженням з Хакером, ми ділимося повною версією першій статті. Ви дізнаєтеся про те, як правильно писати цикли при обробці великих обсягів даних.

Читати далі →

Система зберігання для мільярдів записів з доступом по ключу

Навіть слон не витримає стільки даних
Постановка завдання
В одному з минулих проектів мені була поставлена задача написання системи для зберігання мільярдів записів. Доступ до даних повинен здійснюватися по ключу: одному ключу в загальному випадку відповідає безліч (на практиці, аж до десятків мільйонів) записів, які можуть додаватися, але не модифікуватися або видалятися.
До такої кількості записів існуючі SQL/NoSQL системи зберігання виявилися погано пристосовані, тому клієнт запропонував з нуля розробити спеціалізоване рішення.
Читати далі →

Як працює стрімінг Netflix

«Якщо ви можете кешувати дуже ефективним способом, ви часто можете змінити правила гри»
Ми, розробники програмного забезпечення, часто стикаємося з проблемами, які вимагають поширення деякого набору даних, який не відповідає назві «великі дані». Прикладами проблем такого типу є наступні:

  • Метадані продукту в інтернет-магазині
  • Метадані документа в пошуковій машині
  • Метадані фільмів і ТБ-шоу
Стикаючись з цим, ми зазвичай обираємо один з двох шляхів:

  • Зберігання цих даних в якомусь централізованому сховищі (наприклад, реляційна СУБД, інформаційний склад NoSQL або кластер memcached) для віддаленого доступу користувачів
  • Серіалізація (наприклад, як json, XML тощо) і поширення серед споживачів, які будуть зберігати локальну копію
Застосування кожного з цих підходів має свої проблеми. Централізація даних може дозволити вашому набору даних необмежено зростати, однак:

Читати далі →

Передбачення тяжкості страхових вимог для компанії Allstate. Дипломний проект нашого випускника

Хабр, привіт! Наш випускник 4-го набору програми «Фахівець з великим даними» Кирило Данилюк поділився своїм дослідженням, яке він виконав в якості фінального проекту в одному з курсів. Вся документація і опис є на його гітхабі. Тут же ми наводимо переклад його звіту. Обережно — лонгрид.

Читати далі →

Як ми брали участь у HR-хакатоне. Наші випускники діляться своїм рішенням і враженнями від участі

Всім привіт!
23-24 листопада в Digital October проходив хакатон з аналізу даних в HR-сфері, в якому перемогла команда випускників нашої програми "Фахівець з великим даними". Кирило Данилюк, Ігор Парфьонов, Єгор Андрєєв і Олександр Иваночкин діляться своїм рішенням і враженнями від участі.
Читати далі →

data.table: вичавлюємо максимум швидкості при роботі з даними в мові R

На ексклюзивних умовах представляємо для вас повний варіант статті з журналу Хакер, присвяченій розробці на R. Під катом ви дізнаєтеся, як вичавити максимум швидкості при роботі з табличними даними в мові R.

Читати далі →