Основи статистики: просто про складні формулах

Статистика навколо нас
Статистика і аналіз даних пронизують практично будь-яку сучасну галузь знань. Все складніше стає провести кордон між сучасною біологією, математикою та інформатикою. Економічні дослідження та регресійний аналіз вже практично невіддільні один від одного. Один з відомих методів перевірки розподілу на нормальність — критерій Колмогорова-Смирнова. А ви знали, що саме Колмогоров вніс величезний внесок у розвиток математичної лінгвістики?

Ще будучи студентом психологічного факультету Спбду я зацікавився когнітивною психологією. До речі, Іммануїл Кант не вважав психологію наукою, так як не бачив можливості застосовувати математичні методи. Мої поточні дослідження присвячені моделювання психічних процесів, і я сподіваюся, що такі напрями в сучасній когнітивній психології, як обчислювальні та коннективисткие моделі, пом'якшили б його ставлення!

Звичайно, статистика застосовується далеко за межі наукових лабораторій: в рекламі, маркетингу, бізнесі, медицині, освіті і т. д. Але, що найцікавіше, базові знання аналізу даних вкрай корисні і в повсякденному житті. Наприклад, думаю, всі ви знайомі з поняттям середнього арифметичного. Середнє значення дуже часто використовується в ЗМІ при обговоренні різних соціально-економічних показників, доходів, рівня безробіття і т. д. В 2005 році британські ЗМІ писали про те, що середній рівень доходу населення не тільки не зріс, але знизився на 0,2 % порівняно з попереднім роком. Миготіли заголовки «Доходи населення знизилися вперше з 1990 року». Деякі політики навіть використовували цей факт, критикуючи діючий уряд. Однак, важливо розуміти, що середнє арифметичне — хороший показник, коли наш ознака має симетричне розподіл (багатих стільки ж, скільки бідних). Реальний розподіл доходів має скоріше наступний вигляд:



Розподіл має явно виражену асиметрію: дуже заможних людей помітно менше, ніж представників середнього класу. Це призводить до того, що в даному випадку банкрутство одного з мільйонерів може значно вплинути на цей показник. Набагато інформативніше використовувати значення медіани для опису таких даних. Медіана — це значення зарплати, яке знаходиться в самій середині розподілу доходів (50% всіх спостережень менше медіани, 50% — більше). І, як не дивно, медіана доходу в 2005 році у Великобританії, на відміну від середнього значення, продовжила своє зростання. Таким чином, якщо ви знаєте про різних типах розподілу і різних заходи центральної тенденції (середнє і медіана), то вас не так просто ввести в оману в таких випадках, як описано в прикладі.

Чорний ящик статистичного аналізу
Як ми вже з'ясували, чим би ви не планували займатися, ймовірність зіткнутися з курсу «математична статистика в вашій області» поступово наближається до одиниці. Однак, часто заняття по введенню в статистику не викликають захоплення у студентів нетехнічних факультетів. Через кілька занять з'ясовується, що такі базові поняття, як, наприклад, кореляція являють собою щось наступне:



І, зневірившись досконально розібратися з походженням цих сум і квадратних коренів, студент може почати сприймати статистику наступним чином: «якщо r > 0, то позитивна зв'язок, а якщо менше 0, то негативна»; «якщо p-рівень значущості менше 0.05 — то добре, якщо від 0.05 до 0.1 — то не дуже добре, а якщо більше 0.05 — погано». Допомагаючи студентам готуватися до іспиту, не раз стикався з такими заклинаннями! Також, зрозуміло, ніхто не розраховує всі ці показники вручну, використовуючи, наприклад, SPSS, можна за секунду загугліть покрокову інструкцію «як порівняти два середніх».
  1. Тиснемо сюди
  2. Знімаємо/ставимо галочки тут
  3. p < 0.05 -> profit
Статистичний аналіз починає нагадувати чорний ящик: на вхід подаються дані, на вихід — таблиця основних результатів і значення p-рівень значущості (p-value), який і розставить всі крапки над i.

Про що нам, власне, говорить p-value?
Припустимо, ми вирішили з'ясувати, чи існує взаємозв'язок між пристрастю до кривавих комп'ютерних ігор і агресивністю в реальному житті. Для цього були випадковим чином сформовані дві групи школярів по 100 осіб у кожній (1 група — фанати стрілялок, друга група — не грають у комп'ютерні ігри). В якості показника агресивності виступає, наприклад, кількість бійок з однолітками. У нашому уявному дослідженні виявилося, що група школярів-ігроманів дійсно частіше конфліктує з товаришами: в першій групі середнє значення конфліктів виявилося 10, а у другій групі 6. Але як нам з'ясувати, наскільки статистично достовірні отримані відмінності? Може бути, ми отримали наявну різницю абсолютно випадково? Для відповіді на ці питання і використовується значення p-рівень значущості (p-value) — це ймовірність отримати такі або більш виражені відмінності за умови, що в генеральній сукупності ніяких відмінностей насправді немає. Іншими словами, це ймовірність отримати такі або ще більш сильні відмінності між нашими групами, за умови, що, насправді, комп'ютерні ігри ніяк не впливають на агресивність. Звучить не так вже й складно. Проте, саме цей статистичний показник дуже часто інтерпретується неправильно.

А тепер кілька прикладів про p-value


Отже, ми порівняли дві групи школярів між собою за рівнем агресивності за допомогою стандартного t-тесту і отримали, що заповітний p-рівень значущості менше 0.05 (наприклад 0.04). Але про що насправді говорить нам отримане значення p-рівень значущості? Отже, якщо p-value — це ймовірність отримати такі або більш виражені відмінності за умови, що в генеральній сукупності ніяких відмінностей насправді ні, то яке, на ваш погляд, твердження вірне:
  1. Комп'ютерні ігри — причина агресивної поведінки з вірогідністю 96%.
  2. Ймовірність того, що агресивність і комп'ютерні ігри не пов'язані, дорівнює 0.04.
  3. Якщо б ми отримали p-рівень значущості більше, ніж 0.05, це означало б, що агресивність і комп'ютерні ігри ніяк не пов'язані між собою.
  4. Вірогідність випадково отримати такі відмінності дорівнює 0.04.
  5. Усі твердження неправильні.
Якщо ви вибрали п'ятий варіант, то абсолютно праві! Але, як показують численні дослідження, навіть люди зі значним досвідом в аналізі даних часто некоректно інтерпретують значення p-value (наприклад, можна подивитися цю цікаву статтю).

Давайте розберемо всі відповіді по порядку:
  1. Перше твердження — приклад помилки кореляції: факт значущою взаємозв'язку двох змінних нічого не говорить нам про причини і наслідки. Може бути, це більш агресивні люди воліють проводити час за комп'ютерними іграми, а зовсім не комп'ютерні ігри роблять людей агресивніше.
  2. Це вже більш цікаве твердження. Вся справа в тому, що ми спочатку приймаємо за дане, що ніяких відмінностей насправді немає. І, тримаючи це в розумі як факт, розраховуємо значення p-value. Тому правильна інтерпретація: «Якщо припустити, що агресивність і комп'ютерні ігри ніяк не пов'язані, то ймовірність отримати такі або ще більш виражені відмінності склала 0.04».
  3. А що робити, якщо ми отримали незначущі відмінності? Чи означає це, що ніякого зв'язку між досліджуваними змінними немає? Ні, це означає лише те, що відмінності, може бути, і є, але наші результати не дозволили їх виявити.
  4. Це безпосередньо пов'язано із самим визначенням p-value. 0.04 — це ймовірність отримати такі або ще більш екстремальні відмінності. Оцінити ймовірність отримати саме такі відмінності, як в нашому експерименті, в принципі неможливо!
Ось такі підводні камені можуть ховатися в інтерпретації такого показника, як p-value. Тому дуже важливо розуміти механізми, закладені в основі методів аналізу і розрахунку основних статистичних показників.

Онлайн-курс з основ статистики: складні формули нескладним мовою
Зараз я пишу дисертацію на факультеті психології Спбду і викладаю статистику біологам в Інституті біоінформатики. Грунтуючись на курсі лекцій, що читаються і власного дослідницького досвіду, виникла ідея створити онлайн-курс по введенню в статистику російською мовою для всіх бажаючих, необов'язково биоинформатиков чи біологів.

Існує багато хороших онлайн-курсів з аналізу даних і статистики (наприклад, такий, такий,або), але практично всі вони на англійській мові. Сподіваюся, що курс буде корисним для тих, хто тільки знайомиться з основами статистики. В ньому я намагаюся в максимально доступній формі розібрати основні ідеї і методи аналізу даних, приділяючи особливу увагу самої ідеї статистичної перевірки гіпотез і інтерпретації одержуваних результатів. В якості прикладів будуть завдання з різних областей: від біоінформатики до соціології. Курс безкоштовний і всі його матеріали залишаться відкритими і після закінчення починається 15 лютого.

Корисні матеріали
Якщо ви знаєте які-небудь корисні курси або матеріали щодо впровадження в статистику. Діліться у коментарях!

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.