Аналізуємо дивні кореляції

    
 
Недавно помітив у стрічці фейсбука посилання на статтю з купою прикладів «дивних кореляцій» як на картинці. Першоджерело виявляється тут , і там таких прикладів штук 20. Вирішив по-практикуватися в статистиці і перевірити наскільки ці кореляції дивні насправді.
 
Зацікавлених прошу під кат.
 
 
 

Прибираємо тренди

Якщо два показники весь час ростуть, то у них буде позитивна кореляція, і в цьому немає нічого дивного. Кореляцію потрібно міряти по стаціонарним змінним. Щоб прибрати тренди я побудував лінійну регресію від часу за кожним показником, вирахував з фактичних даних і перевірив кореляцію залишків.
 
В деяких випадках кореляція сильно знизилася:
 
 
 
В інших — нічого не помінялося:
 
 
 
Значить має бути щось ще!
 
До речі, я помітив, що позитивних кореляцій знайдено істотно більше, ніж негативних. Думаю справа в тому, що в базі показників, які використовував автор, дуже багато зростаючих показників. Люди взагалі дуже люблять вимірювати щось зростаюче. В результаті купа показників, для яких «залишки від тренда» мають сильну негативну кореляцію, виявилися не знайдені, так як співпадаючий позитивний тренд зсував кореляцію ближче до нуля.
 
 

Яка взагалі ймовірність отримати таку кореляцію випадково?

Ось тут ми візьмемося за формули! У мене вийшло, що в середньому в цих змінних по 11 точок і після корекції на тренди середня кореляція в районі 70%. Знаючи кореляцію і кількість точок можна отримати змінну, яка розподілена як t-Стьюдента з числом ступенів свободи n-2:
 
 
 
Отримуємо t = 2.98 і ймовірність отримати таку кореляцію при незалежних змінних — порядку 0.77%. Отримана цифра досить вражаюча, але питання не закрите!
 
 

Причому тут парадокс близнят?

Ймовірність в 0.77% здається занадто низькою, щоб вірити в випадковий збіг, але інтуїція тут помиляється. Ця ситуація схожа на відомий парадокс днів народження
 
Ймовірність, що дві людини народилися в один день дорівнює 1/365. Але серед усього 23 осіб з 50% ймовірністю знайдеться пара народжених в один день. Так відбувається, тому що нам не важливо які саме дві людини це будуть, а серед 23 чоловік можна скласти безліч пар.
 
За ж саме відбувається і з кореляцією різних показників, якщо не важливо які з них будуть корелювати. Дві випадкових змінних будуть сильно корелювати в одній спробі з 65. Я множащимся ймовірність на 2, так як кореляція нижче -70% теж нас цікавить.
 
 
 
Але якщо взяти всього лише 9 випадкових змінних (по 11 точок у кожній), то з імовірністю 50% там буде кореляція більш 70% або менше — 70%
 
 
 
На практиці напевно довелося переглянути набагато більше змінних. Дуже багато показників насправді можуть або повинні корелювати і відфільтрувати саме «дивовижні» було складно. Але після статистичного аналізу видно, що і в знайдених показниках немає нічого дивного. Знову інтуїція підводить людини в питаннях оцінки ймовірностей.
    
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.