Як перевірити причинний зв'язок без експерименту?



Сьогодні поговоримо про встановлення причинних зв'язків між явищами, коли неможливо провести експеримент і А/В-тести.
Це досить проста стаття, яка буде корисна починаючим в статистиці і машинному навчанні або тим, хто раніше над такими питаннями не замислювався.

Дійсно пацієнтам, що тестують нові ліки, стає краще з-за ліки, або вони все одно б одужали? Ваші продавці дійсно ефективні або ж вони говорять із тими клієнтами, які і так готові зробити покупку? Дійсно Сойлент (або рекламна кампанія, яка обійдеться фірмі в мільйон доларів) варто вашого часу?



Встановлення причинних зв'язків
Причинний зв'язок неймовірно важлива, але іноді її дуже складно встановити.

До вашого столу підходить колега. Він замішує собі Сойлент — розчинний замінник їжі, і пропонує вам спробувати. Сойлент виглядає огидно, і ви цікавитеся, чому ж він корисний. Колега відповідає, що його друзі, які вживали цей напій протягом декількох місяців, нещодавно пробігли марафон. А до цього вони не бігали? — Бігали, в минулому році вони теж пробігли марафон.

В ідеальному світі ми могли б у будь-який час провести експеримент — золотий стандарт у встановленні причинних зв'язків. У реальності це не завжди можливо. Є сумніви в етичності застосування плацебо або небезпечних неперевірених ліків. Керівництво може не захотіти намагатися продавати товар випадкового набору покупців з метою отримання можливого короткочасного підйому прибутку, так і команда, яка отримує бонуси з продажу, може збунтуватися проти цієї ідеї.

Як же встановити причинні зв'язки, не застосовуючи A/B тестування? Тут і вступають в гру Propensity Modeling й інші методи встановлення причинних зв'язків.

Propensity Modeling
Отже, припустимо, що ми хочемо змоделювати ефект від вживання Сойлента, використовуючи метод Propensity Modeling (метод підбору контрольних груп за індексом відповідності). Щоб пояснити його ідею, проведемо уявний експеримент.

Уявімо, що у Бреда Пітта є брат-близнюк — точна його копія. Бред 1 і Бред 2 прокидаються в один і той же час, однаково харчуються, отримують однакові фізичні навантаження. Одного разу Бреду 1 вдається купити останню пачку Сойлента у вуличного торговця, а Бред 2 не встигає, тому тільки Бред 1 починає включати Сойлент в свою дієту. При такому сценарії будь-яке подальше розходження в самопочутті близнюків — зовсім виразно наслідок вживання Сойлента.

Переводячи вищеописаний сценарій в реальне життя, один із способів оцінити вплив Сойлента на здоров'я був би таким:

Для кожного індивіда, вживає Сойлент, ми знаходимо не вживає, порівнянного за спостережуваними характеристиками з першим. Наприклад, ми могли б поставити у відповідність п'є Сойлент Jay-Z непитущого Каньє Уеста, употребляющей Наталі Портмэн — не употребляющую Кіру Найтлі, а любительці Сойлента Дж. К. Роулінг — нелюбительницу Стефані Мейєр.
Ми вимірюємо ефект Сойлента як відмінності між кожною парою «близнюків».

Тим не менш, на практиці знайти максимально схожих людей неймовірно складно. Дійсно Jay-Z відповідає Каньє, якщо Jay-Z спить в середньому на годину більше Каньє? А чи можемо ми порівняти Jonas Brothers та One Direction?

Propensity Modeling — це спрощення вищевикладеного методу підбору контрольних груп. Замість знаходження схожих індивідів на підставі численних характеристик, ми встановлюємо відповідність на підставі одного єдиного індексу, що характеризує ймовірність того, що індивід буде пити Сойлент («propensity», «схильність»).

Більш детально, метод підбору контрольних груп на підставі індексу відповідності полягає в наступному:

  • Для початку визначимо, які з характеристик індивіда будуть служити критеріями відбору (наприклад, як людина харчується, коли спить, де живе, і т. д.)

  • Потім побудуємо імовірнісну модель (скажімо, логістичні регресію) на підставі відібраних змінних, щоб передбачити, чи буде користувач пити Сойлент. Наприклад, наша навчальна вибірка може складатися з безлічі людей, деякі з яких замовили напій в перший тиждень березня 2016 року, і навчимо класифікатор визначати, хто з користувачів стане користувачем Сойлента.

  • Імовірнісна оцінка того, що індивід стане користувачем нашого продукту, називається індексом відповідності.

  • Сформуємо декілька груп, наприклад, нехай буде всього 10 груп: у першу входять користувачі з імовірністю початку вживання Сойлент рівній 0-0.1, у другу — з імовірністю 0.1-0.2, і т. д.

  • І нарешті, порівняємо адептів і не-адептів Сойлента у кожній групі (наприклад, порівняємо їх фізичну активність, вага або будь-який інший показник здоров'я), щоб оцінити ефект від напою.


Наприклад, ось гіпотетичний розподіл питущих і непитущих Сойлент за віком. Ми можемо помітити, що ті, хто вживає напій, в основному, старше, і цей втручається фактор — одна з причин, по якій ми не можемо просто провести кореляційний аналіз.



Після навчання моделі оцінювати індекс відповідності та розподілу користувачів по групах в залежності від даного індексу ось так може виглядати графік, що характеризує вплив напою на відстань, яке споживач пробігає в тиждень.



На цьому гіпотетичному графіку кожна з частин відповідає групі з індексом відповідності, а тиждень почала впливу — перший тиждень березня, коли груп випробовуваних отримала перші порції Сойлента. Ми бачимо, що до цього тижня всі випробовувані пробігали непогані відстань. Тим не менше, після того як група, яка отримує препарат, починає «лікування», вони починають бігати більше, так що ми можемо оцінити ефект від вживання напою.

Інші методи встановлення причинних зв'язків
Без сумніву, існує багато інших методів встановлення причинних зв'язків між спостережуваними явищами. Я коротенько розповім про двох своїх улюблених (я спочатку написав цей пост у відповідь на питання з Quora, тому і приклади взяв звідти).

Побудова моделі розривною регресії
На ресурсі Quora не так давно почали відображати значки статусів (бейджи) на сторінках профілів найбільш активних користувачів. Припустимо, ми хочемо оцінити ефект від цього нововведення (припустимо, що раз функціональність вже додана, провести А/В тестування неможливо). Зокрема, нас цікавить, чи допоможе користувачеві бейдж Топ-Автора придбати більше передплатників.

Для простоти припустимо, що бейдж видається кожному користувачеві, який за попередній рік отримав 5000 і більше голосів. Ідея, яка лежить в основі розривною регресії, полягає в тому, що відмінність між користувачами, що знаходяться поблизу порога, що визначає отримання або неотримання бейджа (наприклад, тими, хто заробив 4999 голосів і не отримав бейдж, і тими, хто заробив 5000 голосів і отримав бейдж) можна вважати більш-менш випадковим подією. Це означає, що ми можемо використовувати вибірку, взяту в безпосередній близькості від зазначеного порогу, для встановлення причинних зв'язків.

Наприклад, на уявному графіку нижче розрив в районі 5000 передплатників дозволяє зробити висновок, що бейдж Топ-Автора в середньому призводить до збільшення числа передплатників на 100.



Природний експеримент
Тим не менш, з'ясування впливу бейджів на кількість передплатників — не надто цікаве питання (це лише простий приклад). Можна було б поставити більш глибоке питання: що відбувається, коли користувач знаходить свого улюбленого автора? Вдохновлят автор читача на створення власних матеріалів, подальші дослідження, тим самим заохочуючи подальше взаємодія з сайтом? Наскільки важливий контакт з кращими авторами порівняно з читанням випадкової добірки кращих статей?

Я вивчав аналогічний випадок, коли працював в Google, тому, замість уявного прикладу з Quora, розповім краще про працю, який займався там.

Припустимо, ми хочемо зрозуміти, що сталося б, якщо б ми могли поставити у відповідність кожному користувачеві ідеальний канал на YouTube.

  • Призводить захоплення одним каналом до збільшення залученості користувача поза рамками цього каналу, наприклад, тому що користувач заходить на YouTube, щоб подивитися свій улюблений канал, а потім залишається подивитися що-небудь ще? Таке явище називається мультиплікативний ефект. Приклад з світу телебачення: телеглядач залишається вдома недільного вечора спеціально, щоб подивитися черговий епізод «Відчайдушних домогосподарок», а коли серія закінчується, перемикає канали в пошуках чого-небудь цікавого.

  • Призводить захоплення одним каналом до збільшення активності на цьому каналі (так званий адитивний ефект)?

  • Заміщує чи улюблений канал інші канали в списку переваг користувача? Зрештою, час, який користувач може проводити на сайті, обмежена. Це називається нейтральний ефект.

  • Навпаки, не зменшується час, який користувач проводить на сайті, з появою ідеального каналу, так як він витрачає менше часу на аналіз і пошук цікавих відео? Тоді ми спостерігали б негативний ефект.


Як завжди, ідеально було б провести A/B тестування, але в даному випадку це неможливо: ми не можемо змусити користувача полюбити певний канал (ми можемо рекомендувати канали користувачам, але вони зовсім не обов'язково їм сподобаються), ми також не можемо заборонити їм дивитися інші канали.

Один з підходів до дослідження цього ефекту — природний експеримент — сценарій, коли Всесвіт сама генерує для нас вибірку, близьку до випадковою. Ось у чому його ідея.

Розглянемо користувача, який завантажує нове відео щосереди. Одного разу він повідомляє передплатникам, що не буде розміщувати нових відео протягом декількох тижнів, поки він у відпустці.

Як відреагують передплатники? Чи перестануть вони дивитися YouTube по середах, тому що зазвичай вони відвідують сайт тільки заради цього каналу? Або їх активність не зміниться, так як вони дивляться згаданий канал тільки коли він з'являється на головній сторінці?

Тепер навпаки, давайте уявимо, що канал почав завантажувати нові відеозаписи по п'ятницях. Почнуть передплатники відвідувати сайт також і по п'ятницях? І будуть вони, раз вже зайшли на YouTube, дивитися тільки нове відео, або це породить водоспад пошукових запитів і пов'язаного контенту?

Виявляється, всі ці сценарії можуть мати місце. Ось, наприклад, календар завантаження відео одним популярним каналом YouTube. Як видно, в 2011 році вони зазвичай публікували відео по вівторках і п'ятницях, але в наприкінці року зрушили дні публікації на середу і суботу.



Використовуючи це зміна в розкладі в якості природного експерименту, який псевдовипадково скасовує перегляд улюбленого каналу по певних днях і вводить його за іншим, можемо спробувати зрозуміти ефект від вдалої рекомендації ідеального каналу.

Цей приклад природного експерименту може здатися дещо заплутаним. Наступний приклад, можливо, може служити більш наочною ілюстрацією ідеї. Припустимо, ми хочемо дослідити вплив величини доходу на душевне здоров'я. Ось ця стаття у Нью-Йорк Таймс описує природний експеримент, в рамках якого індіанці черокі розподіляли доходи від казино між членами племені, таким чином «випадково» виводячи деяких з них зі стану бідності.

Визначення факторів зростання
Повернемося до Propensity Modeling.

Уявімо, що ми співробітники групи розвитку нашої компанії, і перед нами стоїть завдання знайти спосіб перетворювати випадкових відвідувачів сайту у користувачів, які повертаються на нього кожен день. Що ж нам робити?

Якщо б ми використовували Propensity Modeling, підхід був би таким. Ми могли б взяти список подій (установка мобільного додатку, авторизація, підписка на розсилку, або на певного користувача тощо) і побудувати модель на основі індексу відповідності для кожного з них. Потім ми могли б ранжувати кожне з подій залежно від ефекту, який вона має на залученість користувача, і використовувати наш впорядкований список в наступній ітерації (або з допомогою цих цифр переконати керівництво, що нам потрібно більше ресурсів). Це дещо ускладнена ідея побудови регресійної моделі залученості (або регресійної моделі відтоку клієнтів та оцінки ваги кожної функціональності.

Незважаючи на те що я пишу цей пост, я не великий шанувальник використання Propensity Modeling для багатьох програм у сфері техніки (я не працював у сфері медицини, тому у мене немає певної думки про його корисності в цій області, хоча, думаю, тут воно необхідно). Я прибережу всі мої доводи для наступного разу, скажу лише, що аналіз причинних зв'язків — неймовірно складна штука, і ми ніколи не зможемо врахувати всі приховані фактори, що впливають на ставлення користувача. До того ж, просто той факт, що нам доводиться вибирати, які з подій включати в нашу модель, означає, що ми віримо в користь кожної з них, в той час як насправді ми хотіли б виявити приховані фактори, що впливають на залученість, про яких ми ніколи б і не подумали.

Висновок
Підсумуємо: Propensity Modeling — це потужна техніка виявлення причинних залежностей в відсутність можливості проведення випадкового експерименту.

Чистий кореляційний аналіз на основі спостережень, врешті-решт, може бути вкрай небезпечним. Наведу свій улюблений приклад: якщо ми виявимо, що в містах з найбільшим штатом поліції зазвичай вище рівень злочинності, чи означає це, що ми повинні скоротити кількість поліцейських, щоб скоротити злочинність в країні?

В якості ще одного прикладу — стаття про замісної гормональної терапі в рамках дослідження здоров'я медичних сестер (Nurses' Health Study).

І пам'ятайте, що модель зазвичай настільки хороша, наскільки гарні дані, які ви подаєте на вхід. Врахувати всі приховані змінні, які можуть мати значення, — дуже складне завдання, і в причинно-наслідковому моделі, яка здається вам добре продуманою, насправді може не вистачати деяких факторів (я десь чув, що Propensity Modeling у випадку з медсестрами призвело до помилкових висновків). Тому завжди варто розглянути альтернативні підходи до вирішення вашої задачі, немає методів встановлення причинних зв'язків простіше, а може бути варто просто запитати користувачів. І навіть якщо випадковий експеримент здається вам зараз непідйомним завданням, спроба може допомогти уникнути багатьох проблем в подальшому.

О, а приходьте до нас працювати? :)wunderfund.io — молодий фонд, який займається високочастотної алготорговлей. Високочастотна торгівля — це безперервне змагання кращих програмістів і математиків всього світу. Приєднавшись до нас, ви станете частиною цієї захоплюючої сутички.

Ми пропонуємо цікаві і складні завдання з аналізу даних і low latency розробки для захоплених дослідників і програмістів. Гнучкий графік і ніякої бюрократії, швидко приймаються рішення і втілюються в життя.

Приєднуйтесь до нашої команди: wunderfund.io
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.