Запрошуємо на Data Fest⁴ 11 і 12 лютого



Майже через два тижні у нашому московському офісі відбудеться Data Fest⁴ — вже четверта конференція, яка об'єднує дослідників, інженерів і розробників, пов'язаних з Data Science у всіх його проявах. Вас чекає багата програма, безліч теоретичних і практичних секцій. Подробиці читайте під катом.

Читати далі →

Різниця між статистикою і наукою про даних

Здравствуйте, шановні читачі.

Ми знову спробуємо порадитися з вами з приводу актуальності орейлевской новинки. Цього разу мова піде про статистику для Data Science.

Обсяг оригіналу — 250 сторінок, дата виходу — 25 лютого.



У книзі розглянуті лаконічні кейси з невеликою кількістю графіків і прикладів мовою R.

Щоб роздумувати і голосувати було цікавіше — під катом знайдете статтю, автор якої намагався вловити й описати різницю між статистикою і Data Science

Читати далі →

Random Forest: прогулянки по зимовому лісі

Random Forest
1. Вступ
Це невелике практичне керівництво по застосуванню алгоритмів машинного навчання. Зрозуміло, існує чимала кількість алгоритмів машинного навчання та способів математичного (статистичного) аналізу інформації, однак, ця замітка присвячена саме Random Forest. У замітці показані приклади використання цього алгоритму для задач класифікації і регресії, а також подані деякі теоретичні пояснення.

Читати далі →

Навіщо потрібно ще більше дата-центрів: сьогодні і завтра аналітики великих даних

Навіщо зберігати стільки даних в споруджуваних все більше і більше дата центрах? Одна зі сфер застосування біг дата — прогнозна аналітика. Вона відповідає на запитання: що означають ці цифри про нас, де зараз використовується аналітика і що буде через три роки?

Прогнозування — основа оптимізації
Кількість даних росте зі швидкістю, яку людині неможливо уявити. Дані ніщо без аналізу. Тільки неймовірне кількість закодованої в одиниці і нулі інформації. Навіщо будують нові дата-центри? Що і чому зберігається, а також обробляє в їх глибинах?

Ми всі чули про контекстної реклами, показ якої грунтується на наших перевагах, про яких пошукові машини дізнаються з наших дій онлайн. Але от про інші сфери мало хто говорить широкій публіці. А адже крім того, що біг дата в сумі з прогнозною аналітикою дозволяє рекламодавцям і банкам заробляти неймовірні гроші, вони допомагають рятувати людські життя.



Читати далі →

Огляд Knime Analytics Platform — open source системи для аналізу даних

ПРО KNIME
Вашій увазі пропонується огляд Knime Analytics Platform – open source фреймворку для аналізу даних. Даний фреймворк дозволяє реалізовувати повний цикл аналізу даних включає читання даних з різних джерел, перетворення і фільтрацію, власне аналіз, візуалізацію і експорт.

Скачати KNIME (eclipse-based десктоп додаток) можна звідси: www.knime.org

Кому може бути цікава ця платформа:

  • Тим, хто хоче аналізувати дані
  • Тим, хто хоче аналізувати дані і не володіє навичками програмування
  • Тим, хто хоче покопатися в непоганий бібліотеці реалізованих алгоритмів і, можливо, дізнатися щось нове

Читати далі →

Розробка на R: таємниці циклів

Менше тижня тому в журналі Хакер вийшла авторська версія матеріалу, присвяченого фічами при використанні циклів при розробці на R. За погодженням з Хакером, ми ділимося повною версією першій статті. Ви дізнаєтеся про те, як правильно писати цикли при обробці великих обсягів даних.

Читати далі →

Огляд ринку праці в області і big data data science

Хабр, привіт! За відповідним пошуковим запитам знайшлося близько 1000 вакансій, потім вони були вручну відфільтровані по заголовкам і описами, і для підготовки огляду ми використовували 288 активних вакансій в області і big data data science з HeadHunter.

Насправді активних вакансій більше, оскільки до уваги не приймалися інші ресурси (наприклад, SuperJob, Blastim, соціальні мережі, сайти компаній). Крім того, потрібно розуміти, що це всього лише знімок поточної ситуації, щодня вакансії заповнюються і з'являються нові.

Читати далі →

jl-sql: працюємо з JSON-логами в командному рядку за допомогою SQL

Вступ нікому не цікаво, тому почну відразу з прикладів використання
json-pipe-sql
% cat log.json

{"type": "hit", "client": {"ip": "127.1.2.3"}}
{"type": "hit", "client": {"ip": "127.2.3.4"}}
{"type": "hit", "client": {"ip": "127.3.4.5"}}
{"type": "hit", "client": {"ip": "127.3.4.5"}}
{"type": "hit", "client": {"ip": "127.1.2.3"}}
{"type": "click", "client": {"ip": "127.1.2.3"}}
{"type": "click", "client": {"ip": "127.2.3.4"}}

Виконуємо запит:
% cat log.json | jl-sql 'SELECT client.ip, COUNT(*) AS count WHERE type = "hit" GROUP BY client.ip'

{"client":{"ip":"127.1.2.3"},"count":2}
{"client":{"ip":"127.2.3.4"},"count":1}
{"client":{"ip":"127.3.4.5"},"count":2}

Читати далі →

Як працюють ІТ-фахівці. Юрій Горюнов, керівник групи обробки даних Defencegroup



Ми продовжуємо розпитувати фахівців про режим праці та відпочинку, професійні звички, про інструментарій, який вони використовують, і багато чому іншому.

Буде цікаво з'ясувати, що їх об'єднує, в чому вони суперечать один одному. Можливо, їх відповіді допоможуть виявити якісь загальні закономірності, корисні поради, які допоможуть багатьом з нас.

Сьогодні наш гість — Юрій Горюнов, керівник групи обробки даних Defencegroup. Однією з найважливіших складових успіху розробника він вважає вміння спілкуватися. А його лайфхак полягає в автоматизації життєвого циклу… людини.
Читати далі →