Машинне навчання: Питання і відповіді



Як ви вже встигли помітити, ми досить часто звертаємо увагу на тему машинного навчання. Так, ми розповідали про глибокому навчанні, писали про роботі з даними і адаптували різні збірки джерел по темі: 1, 2, 3.

Сьогодні ми вирішили подивитися на найбільш цікаві запитання та відповіді по темі машинного навчання на ресурсі Quora.


Яку мову програмування найкраще підходить для машинного навчання?

Йошуа Бенгио (голова Інституту Алгоритмів Машинного Навчання, Монреаль) каже, що багато років вони програмують на Python, поряд з іншими мовами. Але йому б хотілося використовувати що-небудь на зразок Python, що при цьому мало б більш потужним компілятором, здатним видавати ефективний і розподілений (за кластерами) код, який буде легко переносити.

Саме з цієї причини вони почали розробляти бібліотеку Theano (не можна сказати, що це повноцінна мова – скоріше набір функцій для створення виразів і компілятор).

Скільки алгоритмів використовується в рекомендаційній системі Netflix? Існує думка, що більш 800. Чи Так це?

Ксав'є Аматриан (технічний директор Netflix з 2011 по 2014) говорить, що все залежить від того, що мається на увазі під системою рекомендацій. Якщо мова йде про уподобання на основі рейтингу, то для них використовуються два алгоритму.

Якщо ж питання передбачає в цілому рекомендаційну екосистему Netflix, то, звичайно ж, використовується куди більше алгоритмів, але ніяк не 800. Тут він описує, як працює алгоритм рекомендації фільмів.

чи Дійсно необхідно здобувати докторську ступінь, щоб мати хорошу роботу в сфері машинного навчання? Чи Правда, що в таких компаніях, як Google докторська ступінь – це базова вимога [кандидатів]?

Бен Чжао (професор інформатики Каліфорнійського університету) знайомий з багатьма студентами, які після закінчення навчання отримали посаду в Google, Microsoft, Twitter, Linkedin і Zynga. Більшість з них отримали ці посади не завдяки мірою, а тому, що в свій час вони разом з Чжао проводили дослідження по аналітиці соціальних мереж або потрапили в розумні руки відділу кадрів.

Отримання докторського ступеня, безумовно, дає свої переваги. Це – можливість вивчати нині існуючі проблеми і постійно виникають технології роботи з ними ще кілька років. Тому докторська ступінь точно не завадить в отриманні посади (якщо кандидат дійсно хоче займатися виключно питаннями машинного навчання).

— Що ви думаєте про нещодавно випущеному Yahoo зводі даних по машинному навчання?

Джеймс Бейкер (займався машинним навчанням ще до того, як його почали так називати) сподівається, що це зумовить і інші компанії випустити аналогічні набори. Він прекрасно розуміє, якого обсягу має бути цей набір, тому не збирається самостійно вивчати його – він зацікавлений в помічниках або колаборації з ким-небудь.

Складність одиночної роботи з такими наборами даних, як зазначає Джеймс, полягає в тому, що у дослідника може не виявитися достатньо потужностей для її обробки.

У самого Джеймса є теоретична модель глибокого навчання, яку він хотів би застосувати до цього набору від Yahoo, але проблема полягає в тому, що його «залізо» це не потягне, крім того, йому не вистачає помічників в обслуговуванні його моделі.

Тому він шукає зацікавлених осіб, а дослідникам, які знаходяться в подібному положенні, Джеймс настійно рекомендує дочекатися формування команд ентузіастів – так шанс на практиці скористатися даними від Yahoo може серйозно зрости.

Чому існує так мало стартапів в області машинного навчання і в області обробки природної мови?

Джозеф Туриан (консультант з питань Data Mining і обробки природної мови) зазначає: справа в підвищених ризиках. Більшість технологічних стартапів стикається з відносно високими маркетинговими ризиками, які врівноважуються порівняно низькими ризиками, що стосуються технологічної складової.

У сфері машинного навчання та обробки природної мови високі як маркетингові, так і технологічні ризики – все це не дозволяє засновникам таких стартапів залучати стороннє фінансування. Не на користь засновників говорить у даному випадку той факт, що у них далеко не завжди є адекватне уявлення про бізнес і ринкових відносинах в цілому – більшу частину часу фахівці з машинного навчання проводять у таких спокійних і мало схильних до впливу «великого світу» місцях, як університети і великі корпорації.

Джеймс Бейкер доповнює відповідь Джозефа. Він підкреслює, що незважаючи на загальний песимізм] в цих областях працює більше стартапів, ніж ми звикли думати. Він зазначає, що стартапи, які використовують в роботі технології машинного навчання або обробки природної мови, повинні використовувати великі обсяги даних.

У цьому середовищі їх конкурентами стають такі гіганти, як Google, Microsoft та ін., тому, прагнучи уникнути конкуренції, маленькі компанії просто не афішують цю складову своєї роботи.

Які чудові ідеї найбільш популярні у сфері машинного навчання?

Чарльз Мартін вважає, що одна з них це – нейронна мережа Хопфилда, її зв'язок з моделлю Изинга та її застосування в сучасній реалізації глибокого навчання. Такі прості моделі знаходять своє застосування не тільки в статистичній фізиці, але і в розвитку сучасних алгоритмів глибокого навчання.

Він також відзначає важливість обмеженою машини Больцмана в машинному навчанні незважаючи на те, що з моменту появи цієї архітектури і до моменту її активного застосування в моделях глибокого навчання пройшло майже 20 років.

Абинав Маур'я додає до цього списку kernel trick (ядерний метод) для методу опорних векторів (список найбільш часто використовуваних функцій для цього методу можна знайти тут). Інші дослідники зазначають метод максимальної правдоподібності (за його зрозумілість і простоту) і теорію наближено правильного навчання Леслі Гебріела Веліант – за те, що вона широко використовується у сучасних алгоритмів машинного навчання.

Які алгоритми повинен використовувати кожен, хто досліджує дані?

У Вільяма Чена (дослідника даних в Quora) є 3 улюблених алгоритму:

На його думку моделі регресії вкрай ефективні, а знання статистики допоможе розкрити їх прихований потенціал. Random Forests йому подобається за хорошу здатність прогнозування, а з TF-IDF зручно конвертувати текстову інформацію у числові вектора. Інші дослідники відзначають також перцептрон метод k-середніх, рекурентні нейронні мережі.

Яке майбутнє чекає науку про даних?

Брайан Ланж (дослідник даних в Datascope) вважає, що з'являться нові джерела даних: дані, які будуть генерувати сенсори на виробництві, в транспорті, навіть в офісах, стануть джерелом нової інформації для дослідників.

З'являться нові інструменти, що значно спрощують роботу з даними. В першу чергу це пов'язано з появою відкритих бібліотек і активним обміном інформацією між дослідниками. Брайан підкреслює: алгоритми, які 10 років тому доводилося писати вручну, зараз знаходяться в прямому доступі і їх легко інкорпорувати в роботу.

Професія дослідника даних поповниться рядом різновидів. На думку Брайана, із зростанням кількості інформації і завдань, які виконує дослідник даних, все більше працівників з різних підрозділів компаній почнуть в тій чи іншій мірі працювати в області data science – робота дослідників не буде обмежуватися одним відділом.

Діма Корольов (спеціаліст по роботі з Великими даними), навпаки, вважає, що в майбутньому з'явиться full-stack інженер по роботі з даними (за аналогією з full-stack розробниками). Він розповідає, що, приміром, на обробці чисел в Excel, застосування різних моделей в Python або R і трансляції результатів в режимі реального/близького до реального часу, зараз зазвичай зайняті три людини. У майбутньому ж потрібно один, який буде виконувати безліч процесів від початку і до кінця.

чи Існують прості проекти щодо застосування машинного навчання на фінансових ринках?

Володимир Новаківський (завідуючий машинним навчанням в Quora) вважає, що будь-який проект, добре пророкує результати торгів однозначно не буде простим. Він пропонує замислитися про двох областях, в яких машинне навчання може бути успішно застосоване в сфері трейдингу.

Перша область: прогнозування показників, які опосередковано впливають на торги. Одними з таких показників може бути волатильність (машинне навчання можна використовувати для поліпшення GARCH-моделі волатильності), рівень безробіття або показник інфляції.

Суть іншого напрямку для роботи полягає в аналізі поведінки ринкових цін.

За словами Володимира, для створення непоганого проекту, що дозволяє розібратися в темі трейдингу, досить застосувати машинне навчання для аналізу цін, не перевантажуючи» модель інформацією про транзакційних витратах: звичайно, з такою моделлю не можна торгувати на біржі, але вона може відмінно підійти для того, щоб відчути професію.

В чому різниця між «великими даними» і «машинним навчанням»?

Володимир Новаківський пояснює, що «великі дані» безпосередньо не пов'язані з якими-небудь конкретними обчисленнями. Наприклад, створення технології для агрегування даних про мільярди транзакцій по кредитках і формування SQL-запитів до отриманого масиву, щоб зрозуміти, скільки операцій було здійснено на суму понад $10 – завдання, що відноситься до сфери великих даних, але не має відношення до машинного навчання.

Володимир зазначає, що великий обсяг даних для проведення обчислень не є обов'язковою складовою машинного навчання – алгоритми можна запускати і на порівняно невеликих масивах (на великих вони, тим не менш, як правило, більш ефективні, тому так часто ці два поняття між собою перегукуються).

P. S. У нашому блозі ми пишемо про розробки систем зв'язку і про перші кроки на шляху до просунутого програмування. Постараємося радувати вас регулярними публікаціями, друзі.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.