Спеціально для тих, хто не встиг зареєструватися на Superjob Data Science Meetup, ми організуємо пряму трансляцію події на Youtube або Facebook.

Початок у 19:00 за московським часом.
image

Читати далі →

Досить часто enterprise завдання з обробки даних зачіпають дані, які супроводжуються тимчасовою міткою. В R такі мітки, зазвичай зберігаються як клас
POSIXct
. Вибір методів роботи з таким типом даних за принципом аналогії може привести до великого розчарування і переконання про крайню повільності R. Хоча якщо поглянути на цю трохи пильніше, то виявляється, що справа не зовсім в R, а в руках і голові.
Нижче торкнуся пару кейсів, які зустрілися в цьому місяці і можливі варіанти їх вирішення. В ході вирішення з'являються дуже цікаві питання. Заодно згадаю інструменти, які виявляються дуже корисними для вирішення подібних завдань. Практика показала, що про їхнє існування знають небагато.

Читати далі →

Хабр, привіт! У сучасному машинному навчанні та науці про даних можна виділити кілька трендів. Перш за все, це глибоке навчання: розпізнавання зображень, аудіо та відео, обробка текстів на природних мовах. Ще одним трендом стає навчання з підкріпленням — reinforcement learning, що дозволяє алгоритмам успішно грати в комп'ютерні і настільні ігри, і дає можливість постійно поліпшувати побудовані моделі на основі відгуку зовнішнього середовища.

Є і ще один тренд, менш помітний, так як його результати для зовнішніх спостерігачів виглядають не так вражаюче, але не менш важливе — автоматизація машинного навчання. У зв'язку з його стрімким розвитком знову актуальним стає питання про те, чи не будуть data scientist'и зрештою автоматизовані і витіснені штучним інтелектом.

Читати далі →

Незважаючи на те, що завдання рядового бізнесу дуже часто далекі від популярної теми великих даних і машинного навчання і часто пов'язані з обробкою щодо малих обсягів інформації [десятки мегабайт — десятки гігабайт], розмазаний в довільних уявленнях з різних видів джерел, застосування R в якості основного інструменту дозволяє легко і елегантно автоматизувати і прискорити ці завдання.
І, природно, після проведення аналізу необхідно все це презентувати, для чого можна з успіхом використовувати Shiny. Далі я наведу ряд трюків і підходів, які можуть допомогти в цій завданнях. Упевнений, що будь-який практикуючий аналітик зможе легко додати свої хитрощі, все залежить від розв'язуваного класу завдань.

Читати далі →

Superjob запрошує на Data Science Meetup. Зустрічаємося 2 березня в нашому офісі на Малій Дмитрівці.

image

Теми та спікери:

  • «Застосування алгоритмів пошуку нечітких дублікатів в пошуку вакансій»
Дмитро Кожокарь, старший розробник Superjob, розповість про досвід створення ефективного алгоритму пошуку нечітких дублікатів серед великої кількості напівструктурованих текстових записів. У доповіді розглядається використання функції з сімейства locality-sensitive hashing з додатковими оптимизациями для виявлення схожих вакансій і подальшого об'єднання їх у кластери.

Читати далі →

Дані краще, ніж нафта, або шостий набір на програму big data

Хабр, привіт!

Складно повірити, але 16 березня ми запустимо вже 6 набір нашій програми «Фахівець з великим даними».

image

На поточний момент у нас вже близько 160 випускників, які з різним ступенем залученості застосовують знання та навички, отримані на програмі. Напевно, можна задатися, питанням, чи потрібно таку кількість кадрів. Відповіді на це резонне сумнів є два. По-перше, ми тримаємо руку на пульсі і періодично проводимо аналіз ринку. По-друге, ринок не є статичною сутністю і зростає, причому кількість відкритих вакансій не є достатнім показником для вимірювання цього попиту.

Читати далі →

Вебінар: Введення в Singularity



Команда FlyElephant запрошує всіх на вебінар "Введення в Singularity", який проведе
Gregory Kurtzer (HPC Systems Architect і Technical Lead в Lawrence Berkeley National Laboratory).
Вебінар буде проходити завтра, 15 лютого, о 19:00 (EET) / 9:00 am (PST). Мова — англійська.

Читати далі →

Дедлайн конкурсу Stepik Contest продовжено до 31 березня, саме час створювати IT-завдання

Новорічні свята і січень пройшли дуже швидко і замість великої кількості курсів для конкурсу Stepik Contest команда Stepik отримала безліч запитів з проханнями продовжити дедлайн. Ми вирішили продовжити термін конкурсу до 31 березня, а зараз — підвести проміжні підсумки, відповісти на питання і роз'яснити все неочевидні моменти конкурсу.

Отже, конкурс Stepik Contest, дедлайн 31 березня, щоб виграти від $2 до $10K потрібно створити 20+ задач за темами IT на платформі Stepik, adaptive.stepik.org.



Читати далі →

Як налагоджувати моделі машинного навчання

image

Я розмірковував, в основному з точки зору викладача, про те, як навчити налагоджувати моделі машинного навчання. Особисто мені здається корисним розглянути модель з точки зору помилок різного роду: байєсова помилка (наскільки помилковий кращий з можливих класифікаторів), помилка апроксимації (що ми втратимо через обмеження класу гіпотези), помилка оцінки (пов'язана із обмеженою довжиною вибірки), помилка оптимізації (що станеться, якщо не знайти глобальний оптимум для задачі оптимізації). Я зрозумів, що корисно спробувати віднести помилку до певної області, а потім усувати недоліки в цій конкретній області.
Читати далі →

Різниця між статистикою і наукою про даних

Здравствуйте, шановні читачі.

Ми знову спробуємо порадитися з вами з приводу актуальності орейлевской новинки. Цього разу мова піде про статистику для Data Science.

Обсяг оригіналу — 250 сторінок, дата виходу — 25 лютого.



У книзі розглянуті лаконічні кейси з невеликою кількістю графіків і прикладів мовою R.

Щоб роздумувати і голосувати було цікавіше — під катом знайдете статтю, автор якої намагався вловити й описати різницю між статистикою і Data Science

Читати далі →