Доброго дня, колеги! Це блог відкритої російськомовній дата саєнтологічної ложі. Нас вже легіон, точніше 2500+ людина в слаке. За півтора року ми нагенерили 800к+ повідомлень (заради цього слак виділив нам корпоративний обліковий запис). Наші люди є скрізь і, може, навіть у вашій організації. Якщо ви цікавитеся машинним навчанням, але з якихось причин не знаєте про Open Data Science, то можливо ви в курсі заходів, які організовує спільнота. Самим масштабним з них є DataFest, який проходив нещодавно в офісі Mail.Ru Group, за два дні його відвідало 1700 осіб. Ми ростемо, наші ложі відкриваються в містах Росії, а також у Нью-Йорку, Дубаї і навіть у Львові, так, ми не воюємо, а іноді навіть і вживаємо міцні напої разом. І так, ми некомерційна організація, наша мета — просвітництво. Ми робимо все заради мистецтва. (пс: на фотографії ви можете спостерігати засідання ложі в одному з таємних храмів у Москві).

Мені випала честь зробити перший пост, і я, мабуть, отклонюсь від своєї звичної нейромережевої тематики і зроблю пост про базові поняття машинного навчання на прикладі однієї з найбільш простих і найбільш корисних моделей — лінійної регресії. Я буду використовувати мову пітон для демонстрації експериментів і відтворення графіків, все це ви з легкістю зможете повторити на своєму комп'ютері. Поїхали.


Читати далі →

Automatic Relevance Determination або машинне навчання коли даних дуже мало

Коли мова заходить про машинне навчання, зазвичай мають на увазі великі обсяги даних — мільйони чи навіть мільярди транзакцій, з яких треба зробити складний висновок про поведінці, інтересах або поточному стані користувача, покупця або якого-небудь апарату (робота, автомобіля, дрона або верстата).
Однак у житті звичайного аналітика самої звичайної компанії багато даних зустрічається нечасто. Скоріше навіть навпаки — у вас буде мало або дуже мало даних — буквально десятки або сотні записів. Але аналіз все ж потрібно провести. Причому не який потрапило аналіз, а якісний і достовірний.
Часто ситуація ускладнюється ще і тим, що ви без праці можете нагенерить для кожного запису багато ознак (найчастіше додають поліноми, різницю з попереднім значенням і значенням за минулий рік, one-hot-encoding для категоріальних ознак тощо). Ось тільки зовсім нелегко розібратися, які з них дійсно корисні, а які тільки ускладнюють модель і збільшують помилки вашого прозноза.
Для цього ви можете скористатися методами байєсової статистики, наприклад, Automatic Relevance Determination.
Читати далі →