Можуть всі фінансові моделі бути помилковими: 7 джерел ризику виникнення збитків



На Хабре і в аналітичному розділі нашого сайту ми багато пишемо про тенденції фінансового ринку та стратегії поведінки на ньому. Дуже часто фінансові моделі, так чи інакше, побудовані на умоглядних висновках. І те, наскільки сильно модель покладається на такі дані, залежить її придатність для використання. Цей показник можна розрахувати за допомогою ризику-моделі.

Творець сайту Тьюринга Finance і аналітик хедж-фонду NMRQL Стюарт Рід опублікував цікавий матеріал на тему аналізу можливих ризиків використання фінансових моделей. В матеріалі розглядаються кілька факторів, що впливають на виникнення ризиків — тобто ймовірності фінансових втрат при використанні моделі. Ми представляємо вашій увазі головні моменти цієї роботи.

Помилкові передумови

В основі будь-якої фінансової моделі лежать якісь припущення. Тому при побудові моделі важливо уникати тих припущень, які роблять модель непридатною для вирішення поставлених завдань. Не можна забувати про «бритви Оккама», не множте сутності без потреби. Це правило особливо критично при освоєнні машинного навчання. В нашому випадку даний принцип можна витлумачити так: якщо стоїть вибір між двох моделей з рівноцінною точністю прогнозів, та, що використовує меншу кількість параметрів, буде ефективніше.

Це не означає, що «проста модель краще складною». Це одне з небезпечних помилок. Головна умова – рівноцінність передбачень. Справа не в простоті моделі. Робота з технологіями складних обчислень у фінансах робить будь-яку модель неудобоваримой, неэлегантной, але, в той же час, більш реалістичною.

Існує три різновиди помилкових передумов. Ніхто не каже, що ці припущення, зазвичай приймаються на віру, роблять модель абсолютно марною. Мова йде про те, що ризик її неефективності існує.

1. Лінійність
Лінійність – це припущення про те, що відношення між двома будь-якими змінними може бути виражене через пряму лінію графіка. Це уявлення глибоко засіло у фінансовому аналізі, оскільки більшість кореляцій є лінійними співвідношеннями двох змінних.

Тобто багато хто спочатку переконані, що співвідношення має бути лінійним, хоча в реальності кореляція може бути і нелінійною. Такі моделі можуть працювати для невеликих прогнозів, але не охоплювати всі їх різноманітність. Альтернативний варіант – передбачити нелінійне поведінку. В цьому випадку модель не може охопити всю складність та суперечливість цієї системи і страждати від нестачі точності.

Іншими словами, якщо задати нелінійні відносини, будь-які лінійні вимірювання або не будуть здатні виявляти взаємозв'язки взагалі, або будуть переоцінювати їх стабільність і міцність. В чому тут проблема?



В управлінні портфелем вигода від диверсифікації базується на використанні матриці історичної кореляції по вибраних активів. Якщо співвідношення між будь-якими двома активами нелінійно (так буває з деякими деривативами), кореляція буде переоцінювати або недооцінювати вигоду. При такому розкладі ризики в портфелі стануть менше або більше від очікуваних. Якщо компанія резервує капітал для своїх потреб і припускає лінійне співвідношення між різними чинниками ризику, це призведе до помилки обсягів капіталу, який необхідно зарезервувати. Стрес-тести не відображають реальних ризиків компаній.

Плюс до всього, якщо в ході розробки моделі задіюється класифікація, де співвідношення між двома класами даних нелінійно, алгоритм може помилково прийняти їх за один клас даних. Лінійний класифікатор може навчитися поводитися з нелінійними даними, для цього потрібно використовувати прийом з ядрами — перехід від скалярних творів до довільним ядер.

2. Стаціонарність
Сенс уявлення про стаціонарності полягає в тому, що трейдер, що створює фінансову модель, переконаний, що змінна або розподіл, з якого її вычленили, постійні в часі. У багатьох випадках стаціонарність – це цілком розумне припущення. Наприклад, «важка» константа навряд чи істотно змінюється день у день. На те вона і константа. Але для фінансових ринків, які є адаптивними системами, все трохи заплутаніше.

При оцінці ризику моделі слід мати на увазі, що кореляції, волатильність і фактори ризику можуть бути не стаціонарні. Для кожного з них протилежне переконання веде до своїх неприємностей.

За кореляції було написано вище. Тут прийняття її стаціонарності спотворює ризики диверсифікації портфеля. Кореляції нестабільні і «скидаються» при розворотах ринку.



На цій діаграмі представлено поведінка кореляції для 15 фінансових індексів в Південній Африці. Тут видно часові відрізки, коли кореляції ламається. На думку Стюарта Ріда, вся справа у фінансовому плечі, леверидже — акції компаній з різних галузей «з'єднуються» трейдерами, які ними торгують.

Волатильність також найчастіше представляють стаціонарної змінної. Особливо, якщо в моделі цін на пайові цінні папери використовується стохастичний підхід. Волатильність – це критерій, що визначає, наскільки доходи по цінних паперах варіюються по часу. Наприклад, для деривативів вважається, що чим вище волатильність, тим вище ціни. Тому що є висока ймовірність того, що вони втратять свою вартість. Якщо модель недооцінює волатильність, швидше за все, має місце і недооцінка вартості деривативів.

Стохастичний процес лежить в основі моделі Блека-Шоулза і працює за принципом броунівського руху. Ця модель передбачає постійну волатильність у часі. Відчуйте різницю між діапазоном можливої прибутку в даній моделі і моделі Хестона, що використовує показник CIR (модель Кокса-Ингеросолла-Росса), щоб визначити випадкову волатильність.





На першому графіку діапазон потенційних кінцевих значень лежить між 500 і 2000. У другому випадку він становить від 500 до 2500. Це приклад вплив волатильності. Крім того, багато трейдерів при проведенні бэктеста своєї стратегії за замовчуванням беруть міркування про постійності чинників ризику. У реальності такі фактори як моментум, повернення середніх значень можуть надавати різний вплив, коли стан ринку серйозно змінюється.

На гифке нижче показано динамічний розподіл і те, як генетичний алгоритм адаптується до зміною розподілу з плином часу. Такі динамічні алгоритми необхідно використовувати при реалізації ризик-менеджменту:



3. Нормальність
Припущення нормальності означає, що наші випадкові змінні керуються принципом нормального (гауссівського) розподілу. Це зручно з кількох причин. Поєднання будь-якого числа нормальних розподілів у підсумку саме приходить до нормального розподілу. Їм також легко управлятися за допомогою математичних формул, а значить, математики здатні створити на його основі стрункі системи для вирішення комплексних проблем.

Заковика в тому, що багато моделей, включаючи дельта-нормальний підхід, припускають, що дохідність ринкового портфеля також має нормальний розподіл. На актуальному ринку прибутковість має свої ексцеси і більш довгі хвости. Це означає, що багато компаній недооцінюють вплив ризику хвоста, який вони розраховують (або не розраховують) для кризи на ринку.

У приклад можна привести обвал ринку в 1987 році. 19 жовтня того року більшість фондових ринків по всьому світу втратили понад 20%. Примітно те, що в нормальному світі, де все слід нормального розподілу, це було б неможливо.



Статистичні спотворення

Статистика бреше. Якщо тільки не задовольняє чиїсь інтереси. В кінцевому підсумку, все залежить від способу її розрахунку. Нижче обговорюються найбільш часті причини спотворень в статистиці, що впливають на результат.

4. Помилка вибірки
Нерідко до спотворення статистичного результату призводять помилки вибірки. Простіше кажучи, ймовірність патерну, представленого у вибірці, безпосередньо залежить від його ймовірності в реальній групі. Існує декілька методів вибору шаблону. Найбільш популярні: довільна вибірка, систематична вибірка, стратифікована і кластерної вибірки.

У простій випадковій вибірці кожен патерн має рівні шанси стати частиною шаблону. Все це годиться, коли досліджувана область містить один клас патернів. Тоді проста вибірка діє швидко і ефективно. Інша ситуація виникає, коли в наявності кілька класів патернів, ймовірність кожного рознесена по цих класах. В такому випадку вибірка буде нерепрезентативною, а підсумковий результат спотворений.



Стратифікована вибірка може бути придатна для маркованих даних, коли певне число патернів вибирається з кожного класу відповідно до його вагою. Наприклад, у нас є задані патерни, що належать трьом класам – A. B, C. Розподіл патернів з них – 5%, 70% і 25% відповідно. Тобто вибірка з 100 патернів буде містити 5 патернів класу A, 70 – B і 25 – C. Ця вибірка буде репрезентативною, але використовувати її можна лише для маркованих даних.

Багатоступенева або кластерна вибірка дозволяє застосовувати стратифицированный підхід до не маркованих даними. На першому етапі дані розподіляються по класах з допомогою алгоритму кластерного (k-середні або мурашиний алгоритм). На другому етапі вибірка проводиться пропорційно вазі і значення кожного класу. Тут недоліки попередніх методик подолані, але результат починає залежати від ефективності кластерного алгоритму.

Є ще і прокляття розмірності, яке не залежить від застосовуваної методики вибірки. Воно означає, що число патернів, необхідних для репрезентативної вибірки зростає експоненціально разом з атрибутами в цих паттернах. На певному рівні стає практично неможливо створити репрезентативну вибірку, а значить, отримати неспотворений результат статистики.

5. Помилки підгонки
Так звана переподгонка трапляється, коли модель описує шум (випадковість) в наборі даних, замість того, щоб встановлювати основні статистичні співвідношення. Продуктивність у межах вибірки буде фантастична, поза межами вибірки – ніяка. Про таку модель зазвичай говорять, що вона володіє низьким рівнем генералізації. Переподгонка проявляється там, де самка модель надто складна (або стратегія навчання занадто проста). Складність і важкість у даному випадку відносяться до числа параметрів, які можуть бути налаштовані в моделі.

На форумах квантів можна знайти багато описів того, як виникає переподгонка. Стюарт Рід впевнений, що кванти навмисно допускають цю помилку, щоб показати своє ставлення луддитів до використання складних моделей. Наприклад, глибоких нейронних мереж в трейдингу. Деякі доходять до того, що заявляють, що проста лінійна регресія переборе будь-яку комплексну модель. Ці люди не враховують ефект недоподгонки, коли модель занадто проста для навчання статистичним премудростям.



Але в будь-якому випадку, якими б статистичними помилками модель не грішила, багато залежить від навчальної стратегії. Для того щоб уникнути переподгонки багато дослідників використовують техніку кросс-валідації. Вона розділяє набір даних по репрезентативним розділами: навчання, тестування і валідація (підтвердження результату). Дані проганяються через всі три розділу незалежно. Якщо модель демонструє ознаки переподгонки, її навчання переривається. Єдиний недолік такого підходу: для незалежної перевірки вам потрібно велику кількість даних.

6. Недовговічність
Помилкою буде використовувати для статистичного аналізу дані, які живуть лише на певних відрізках часу. Класичний приклад цього – використання даних по виручці хедж-фондів. За останні 30 років купа фондів або злетіли вгору або схлопнулись. Якщо вже оперувати даними з хедж-фондам, то брати лише ті, які працюють зараз, вважає Рід. У цьому випадку ми виключаємо ризики, які призвели до невдач. Цей показник називається ефектом вижив. Як він працює, представлено на діаграмі.



7. Пропуск змінних
Ще одна помилка проявляє себе, коли опущена одна чи більш важливих казуальних змінних. Модель може невірно компенсувати відсутню змінну, переоцінивши значення інших змінних. Це особливо критично, якщо включені змінні корелюють з тими, що не були включені. У гіршому випадку ви отримаєте невірний прогноз.



Зрозуміти, які незалежні змінні можу внести істотний внесок в коректність прогнозу, не просто. Самий логічний спосіб: знайти ті змінні, які б пояснювали більшість відхилень щодо залежних змінних. Такий підхід називається best-subset – пошук підмножини змінних, які найкраще передбачають відгуки на залежну змінну. Альтернативний варіант – знайти власні вектори (лінійна комбінація доступних змінних), які відповідальні за відхилення в залежних змінних. Зазвичай цей підхід використовують в парі з методом головних компонент (PCA). Проблема з них полягає в тому, що він може переподгонять дані. І, нарешті, ви можете додавати змінні в свою модель багаторазово. Даний підхід застосовується в множинної лінійної регресії і в адаптивних нейронних мережах.

Висновок

Створити модель, яка б не продукувала якісь спотворення, практично неможливо.
Навіть якщо трейдер, що займається розробкою стратегії, вдасться уникнути описаних вище помилок, все одно залишається людський фактор. Тому що моделлю хтось буде користуватися — навіть якщо це сам її автор.

Однак, важливий момент тут полягає в тому, що незважаючи на всі мінуси і неточності, деякі моделі все ще корисні і працюють краще за інших.

Інші матеріали по темі алгоритмічної торгівлі від ITinvest:



Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.