Як Big Data використовують для аналізу фондового ринку



У нашому блозі ми неодноразово писали про різних інструментах, що використовуються для аналізу ситуації на фондовому ринку і створення прогнозів можливих обвалів і змін цін (цьому матеріалі зібрані всі розглянуті алгоритми та інструменти). Одним з найпопулярніших засобів аналізу є різні технології роботи з Великими Даними — наприклад, Hadoop, NoSQL.

Сьогодні ми розглянемо два експерименти, в ході яких дослідники застосовували Big Data для створення прогнозів рухів на фондовому ринку.

Прогнозування волатильності з допомогою аналізу думок інвесторів

Дослідники з Технологічного інституту в індійському місті Коимбатор опублікували роботу, присвячену використанню механізмів аналізу Big Data для визначення тональності громадської думки використання цих даних для створення прогнозів рухів на фондовому ринку.

Зокрема, аналізувалися повідомлення та відгуки, які інвестори і трейдери залишали на сайтах бірж і фінансових організацій.

У процесі аналізу необхідно було зібрати дані, а потім виділити з них маркери, що вказують на те, позитивне або негативне-це вислів. При цьому необхідно враховувати особливості природної мови, які необхідно враховувати для уникнення помилок — наприклад, фраза «непогано» є позитивною характеристикою.



Подібну класифікацію можна проводити різними способами — на рівні документа, пропозиції або фрази. Для цього можуть застосовуватися різні механіки машинного навчання — наприклад, алгоритми для навчання з «учителем», без вчителя, які протиставляють один одному.

В останньому випадку для опрееделения загальної тональності висловлювання часто використовують аналіз лексикону — система шукає слова, які висловлюють думку (opinion words), наприклад прилагальные.

У разі ж навчання з вчителем використовуються навчальні вибірки, в яких містяться вхідні дані і бажаний результат аналізу. Для порівняння цих даних можна використовувати наївний баейсовский класифікатор або алгоритм опорних векторів.



Лінійний класифікатор по алгоритму опорних векторів

Дані про тональності висловлювань інвесторів також зіставляють з історичними даними для визначення фінансової волатильності — після цього можна виробити прогнози про те, якою ця величина може бути в майбутньому. Під волатильністю тут розуміється зміна вартості фінансового активу за певний період часу.

Для аналізу часових рядів застосовуються моделі авторегрессионной умовної гетероскедастичності (ARCH) — вони призначені для аналізу процесу кластеризації волатильності на фінансових ринках. Яка виражається в тому, що періоди високої волатильності змінюються періодами низької волатильності. При цьому середня волатильність залишається відносно стабільною — все це дозволяє прогнозувати, який волатильність може бути в майбутньому.

При цьому, ARCH-модель передбачає залежність умовної дисперсії тільки від квадратів минулих значень часового ряду. Ця модель була узагальнена, коли було висунуто припущення, що умовна дисперсія залежить також від минулих значень самойсебя — у результаті з'явилася модель GARCH (Generalised ARCH).

Схема роботи

Дослідники розробили систему, яка застосовує алгоритм опорних векторів до GARCH-моделі для предиктивного аналізу ситуації на фондовому ринку. Працює вона за наступною схемою:

  • На початку з популярних фінансових сайтів викачуються огляди аналітиків, відгуки інвесторів і трейдерів, а також логи їх відкритих чатів в процесі торгів у текстовому форматі, крім того, в систему завантажуються новини з сайтів компаній, чиї акції торгуються на біржах;
  • За допомогою алгоритму опорних векторів визначається тональність висловлювань (експерименти показали, що цей алгоритм дозволяє створити більш точну класифікацію, ніж у разі застосування байєсівського класифікатора);
  • за той же період часу завантажуються історичні дані значень аналізованого фондового індексу — ця інформація використовується для обчислення волатильності моделі GARCH;
  • На основі отриманих даних генеруються прогнози тренди волатильності для окремих акцій (для акцій невеликих компаній модель працює краще, ніж для великих).

Система для вибору перспективних акцій на основі даних Twitter

Дослідники з Лондонського Imperial College в свою чергу опублікували оповідання про створення інструменту для аналізу публікацій в соцмережах і виявлення кореляцій цих даних з трендами фондового ринку для формування портфоліо перспективних акцій.

Різні дослідження, в тому числі вчених Стенфордського університету, демонструють наявність кореляції індексу Доу-Джонса і настроїв користувачів Twitter:



Аналіз цієї інформації дозволяє виробляти прогнози щодо майбутніх рухів цін. Англійські дослідники створили додаток, який завантажує твіти, які пов'язані з компаніями, що входять в індекс S&P 500, запускає Hadoop джоб для створення агрегованої оцінки тональності для кожного висловлювання та набору акцій (портфоліо), а потім ранжує портфоліо, чиї оцінки позитивній тональності вище, ніж у інших.



Архітектура програми

Демо-система працює в кластері Hadoop 1.1.2 і IBM GPFS 3.6. Кожен вузол обладнаний вісьмома чіпами Intel Xeon 2.5 GHz CPU, 8 GB пам'яті і 250 GB сховища, ОС — RedHat Linux.

За словами творців додатки, інвестори можуть використовувати його для вибору найбільш перспективних в даний момент акцій для торгівлі — цей інструмент не призначений для точного передбачення цін акцій, але допомагає вибрати ті, по яких можна очікувати руху в ту або іншу сторону.

Інші матеріали про прогнозуванні цін акцій у блозі ITinvest:



Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.