«Правда, чиста правда і статистика» або «15 розподілів ймовірностей на всі випадки життя»

Статистика приходить до нас на допомогу при вирішенні багатьох завдань, наприклад: коли немає можливості побудувати детерміновану модель, коли занадто багато факторів або коли необхідно оцінити правдоподібність побудованої моделі з урахуванням наявних даних. Ставлення до неї неоднозначне. Є думка, що існує три види брехні: брехня, нахабна брехня і статистика. З іншого боку, багато «користувачі» статистики занадто їй вірять, не розуміючи до кінця, як вона працює: застосовуючи, наприклад, тест Стьюдента до будь-яких даних без перевірки їх нормальності. Така недбалість здатна породжувати серйозні помилки і перетворювати «шанувальників» тесту Стьюдента ненависників статистики. Спробуємо поставити точки над i і розібратися, які моделі випадкових величин повинні використовуватися для опису тих або інших явищ і яка між ними існує генетичний зв'язок.

В першу чергу, цей матеріал буде цікавий студентам, що вивчають теорію ймовірностей і статистику, хоча і «зрілі» фахівці зможуть його використовувати в якості довідника. В одній з наступних робіт я покажу приклад використання статистики для побудови тесту оцінки значимості показників біржових торгових стратегій.

В роботі будуть розглянуті дискретні розподілу:
  1. Бернуллі;
  2. біномного;
  3. геометричне;
  4. Паскаля (від'ємне біномного);
  5. гіпергеометричний;
  6. Пуассона
а також неперервні розподіли:
  1. Гауса (нормальний);
  2. хи-квадрат;
  3. Стьюдента;
  4. Фішера;
  5. Коші;
  6. експоненційний (показовий) і Лапласа (подвійне експоненціальне, подвійне показове);
  7. Вейбулла;
  8. гамма;
  9. бета.
В кінці статті буде поставлено запитання для роздумів. Свої роздуми з цього приводу я викладу в наступній статті.

Деякі з наведених безперервних розподілів є приватними випадками розподілу Пірсона.

Дискретні розподіли
Дискретні розподілу використовуються для опису подій з недифференцируемыми характеристиками, визначеними в ізольованих пунктах. Простіше кажучи, для подій, результат яких може бути віднесений до деякої дискретної категорії: успіх або невдача, ціле число (наприклад, гра в рулетку, кістки), орел або решка і т. д.

Описується дискретне розподіл ймовірністю настання кожного з можливих результатів події. Як і для будь-якого розподілу ( у тому числі безперервного) для дискретних подій визначено поняття матожидания і дисперсії. Однак, слід розуміти, що матожидание для дискретної випадкової події — величина в загальному випадку ситуація, що не реалізується як результат одиночного випадкової події, а скоріше як величина, до якої буде прагнути середнє арифметичне результатів подій при збільшенні їх кількості.

У моделюванні дискретних випадкових подій важливу роль відіграє комбінаторика, так як ймовірність результату події можна визначити як відношення кількості комбінацій, що дають потрібний результат до загальної кількості комбінацій. Наприклад: у кошику лежать 3 білих м'яча і 7 чорних. Коли ми вибираємо з кошика 1 м'яч, ми можемо зробити це 10-ма різними способами (загальна кількість комбінацій), але тільки 3 варіанти, при яких буде обраний білий м'яч (3 комбінації, які дають необхідний результат). Таким чином, ймовірність вибрати білий м'яч: 3/10 (розподіл Бернуллі).

Слід також відрізняти вибірки з поверненням та без повернення. Наприклад, для опису ймовірності вибору двох білих м'ячів важливо визначити, чи буде перший м'яч повернуто в кошик. Якщо немає, то ми маємо справу з вибіркою без повернення (гіпергеометричний розподіл) і ймовірність буде така: (3/10) х (2/9) — ймовірність вибрати білий м'яч з початкової вибірки помножена на ймовірність знову вибрати білий м'яч з залишилися в кошику. Якщо ж перший м'яч повертається у кошик, то це вибірка з поверненням (Біномного розподілу). У цьому випадку ймовірність вибору двох білих м'ячів складе (3/10) х (3/10).

вгору

Розподіл Бернуллі

(взято отсюда)

Якщо кілька формалізувати приклад з кошиком наступним чином: нехай результат події може приймати одне з двох значень 0 або 1 з ймовірністю q і p відповідно, тоді розподіл ймовірності отримання кожного із запропонованих результатів буде називатися розподіл Бернуллі:
Bin_{p,q}\left(x\right)=\begin{cases}q,x=0\\ p, x=1\end{cases}

За традицією, вихід із значенням 1 називається «успіх», а результат зі значенням 0 — «невдача». Очевидно, що отримання результату «успіх або невдача» настає з імовірністю p+q=1.

Очікування і дисперсія розподілу Бернуллі:

E\{Bin_{p,q}\}=p\ \ \ \ \left(1.1.2\right)
D\{Bin_{p,q}\}=pq=p\left(1-p\right)\ \ \ \ \ left(1.1.3\right)

вгору

Біномного розподілу

(взято отсюда)

Кількість k успіхів у n випробуваннях, результат яких розподілено за Бернуллі з імовірністю успіху p (приклад з поверненням м'ячів в корзину), описується биноминальным розподілом:
B_{n,p}(k)=C^n_kp^kq^{n-k}\ \ (1.2.1)
де C^n_k={n!\over{k!(n-k)!}}— число сполучень із n по k.

По іншому можна сказати, що біномного розподілу описує суму з n незалежних випадкових величин, які вміють розподіл Бернуллі з імовірністю успіху n.
Очікування і дисперсія:

E\{B_{n,p}\}=np\ \ (1.2.2)
D\{B_{n,p}\}=npq\ \ (1.2.3)
Біномного розподілу справедливо тільки для вибірки з поверненням, тобто, коли ймовірність успіху залишається постійною для всієї серії випробувань.

Якщо величини X і Y мають биноминальные розподілу з параметрами відповідно, то їх сума також буде розподілена биноминально з параметрами .

вгору

Геометричний розподіл

(взято отсюда)

Уявімо ситуацію, що ми витягуємо м'ячі з кошика і повертаємо назад до тих пір, поки не буде витягнуто білий кулю. Кількість таких операцій описується геометричним розподілом. Іншими словами: геометричний розподіл описує кількість випробувань n до першого успіху при ймовірності настання успіху в кожному випробуванні p. Якщо n мається на увазі номер випробування, в якому настав успіх, то геометричний розподіл буде описуватися такою формулою:

Geom_p(n)=q^{n-1}p\ \ (1.3.1)
Очікування і дисперсія геометричного розподілу:

E\{Geom_p\}={1\over{p}}\ \ \ (1.3.2)
D\{Geom_p\}={q\over{p^2}}\ \ \ (1.3.3)

Геометричний розподіл генетично пов'язане з експоненціальним розподілом, яке описує безперервну випадкову величину: час до настання події, при постійній інтенсивності подій. Геометричний розподіл також є окремим випадком негативного биноминального розподілу.

вгору

Розподіл Паскаля (від'ємне біномного рспределение)

(взято отсюда)

Розподіл Паскаля є узагальненням геометричного розподілу: описує розподіл кількості невдач k в незалежних випробуваннях, результат яких розподілено за Бернуллі з імовірністю успіху p до настання r успіхів у сумі. При r=1, ми отримаємо геометричне розподіл величини k+1.

NB_{r,p}(k)=C^{k+r-1}_kp^rq^k\ \ (1.4.1)
де З — число сполучень.

Очікування і дисперсія негативного биноминального розподілу:

E\{NB_{r,p}\}={rq\over{p}}\ \ \ (1.4.2)
D\{NB_{r,p}\}={rq\over{p^2}}\ \ \ (1.4.3)

Сума незалежних випадкових величин, розподілених по Паскалю, також розподілена по Паскалю: нехай X має розподіл , а Y — . Нехай також X і Y незалежні, тоді їх сума буде мати розподіл

вгору

Гіпергеометричний розподіл

(взято отсюда)

Досі ми розглядали приклади вибірок з поверненням, тобто, ймовірність результату не змінювалася від випробування до випробування.
Тепер розглянемо ситуацію без повернення і опишемо ймовірність кількості успішних вибірок із сукупності із заздалегідь відомою кількістю успіхів і невдач (заздалегідь відома кількість білих і чорних м'ячів у кошику, козирних карт в колоді, бракованих деталей в партії і т. д.).
Нехай загальна сукупність містить N об'єктів, з них D позначені як «1», а N-D «0». Будемо вважати вибір об'єкта з позначкою «1», як успіх, а з позначкою «0» як невдачу. Проведемо n випробувань, причому вибрані объектв більше не будуть брати участь у подальших випробуваннях. Ймовірність настання k успіхів буде підкорятися гипергеометрическому розподілу:

HG_{N,D,n}(k)={C^D_kC^{N-D}_{n-k}\over{C^N_n}}\ \ (1.5.1)
де З — число сполучень.

Очікування і дисперсія:

E\{HG_{N,D,n}\}={nD\over{N}}\ \ (1.5.2)
D\{HG_{N,D,n}\}=n{D\over{N}}{N-D\over{N}}{N-n\over{N-1}}\ \ (1.5.3)

вгору

Розподіл Пуассона

(взято отсюда)

Розподіл Пуассона значно відрізняється від розглянутих вище розподілів своєї «предметної» областю: тепер розглядається не імовірність настання того чи іншого результату випробування, а інтенсивність подій, тобто середня кількість подій за одиницю часу.

Розподіл Пуассона описує ймовірність настання k незалежних подій за час t при середній інтенсивності подій :

P_{\lambda,t}(k)={\left(\lambda t\right)^k\over{k!}}e^{\lambda t}\ \ \ (1.6.1)

Очікування і дисперсія розподілу Пуассона:

E\{P_{\lambda,t}\}=\lambda t\ \ \ (1.6.2)
D\{P_{\lambda,t}\}=\lambda t\ \ \ (1.6.3)

Дисперсія і матожидание розподілу Пуассона тотожно рівні.

Розподіл Пуассона в поєднанні з експоненціальним розподілом, описує інтервали часу між наступами незалежних подій, складають математичну основу теорії надійності.

вгору

Неперервні розподіли
Неперервні розподіли, на відміну від дискретних, описуються функціями щільності (розподілу) ймовірності f(x), визначеними, в загальному випадку, на деяких інтервалах.

Якщо відома густина ймовірності для величини х: f(x) і визначено перетворення y=g(x), то щільність імовірності y може бути отримана автоматично:

f_y(y)=f\left(g^{-1}(y)\right)\left|{dg^{-1}\over{dy}}(y)\right|\ \ \ (2.0.1)

за умови дифференцируемости g(x).

Щільність ймовірності h(z) суми випадкових величин x і y (z=x+y) з розподілами f(x) і g(y) описується згорткою f і g:

h(z)=\int f(t)g(z-t)dt=(f*g)(z)\ \ \ (2.0.2)

Якщо розподіл суми випадкових величин належить до того ж розподілу, що й доданки, такий розподіл називається нескінченно діленим. Приклади нескінченно подільних розподілів: нормальне, хи-квадрат, гамма, розподіл Коші.

Щільність ймовірності h(z) твори випадкових величин x і y (z=xy) з розподілами f(x) і g(y) може бути обчислена таким чином:

h(z)=\int f(t)g(z/t)dt\ \ \ (2.0.3)


Деякі з наведених нижче розподілів є приватними випадками розподілу Пірсона, яке, в свою чергу, є рішенням рівняння:

{df\over{dx}}(x)={a_0+a_1x\over{b_0+2b_1x+b_2x^2}}f(x)\ \ \ (2.0.4)

де — параметри розподілу. Відомі 12 типів розподілу Пірсона, в залежності від значень параметрів.

Розподілу, які будуть розглянуті в цьому розділі, мають тісні взаємозв'язку один з одним. Ці зв'язки виражаються в тому, що деякі розподілу є приватними випадками інших розподілів, або описують перетворення випадкових величин, що мають інші розподілу.

На наведеній нижче схемі відображені взаємозв'язки між деякими з неперервних розподілів, які будуть розглянуті у цієї роботі. На схемі суцільними стрілками показано перетворення випадкових величин (початок стрілки вказує на початкове розподіл, кінець стрілки — на результуюче), а пунктирними — відношення узагальнення (початок стрілки вказує на розподіл, що є приватним випадком того, на яке вказує кінець стрілки). Для приватних випадків розподілу Пірсона над пунктирними стрілками вказано відповідний тип розподілу Пірсона.


Запропонований нижче огляд розподілів охоплює багато випадків, які зустрічаються в аналізі даних і моделюванні процесів, хоча, звичайно, і не містить абсолютно всі відомі науці розподілу.

вгору

Нормальний розподіл (розподіл Гауса)

(взято отсюда)

Щільність ймовірності нормального розподілу з параметрами описується функцією Гауса:
f(x)={1\over{\sigma \sqrt{2 \pi}}}e^{(x,\mu)^2\over{2\sigma^2}}\ \ \ (2.1.1)

Якщо , то такий розподіл називається стандартним.

Очікування і дисперсія нормального розподілу:

E\{N_{\mu,\sigma}\}=\mu\ \ \ (2.1.2)
D\{N_{\mu,\sigma}\}=\sigma^2\ \ \ (2.1.3)

Область визначення нормального розподілу — безліч натуральних чисел.

Нормальний розподіл є розподіл Пірсона типу VI.

Сума квадратів незалежних нормальних величин має розподіл хі-квадрат, а ставлення незалежних Гауссових величин розподілено Коші.

Нормальний розподіл є нескінченно діленим: сума нормально розподілених величин x і y з параметрами відповідно також має нормальний розподіл з параметрами , де .

Нормальний розподіл добре моделює величини, що описують природні явища, шуми термодинамічної природи і похибки вимірювань.

Крім того, згідно з центральною граничною теоремою, сума великої кількості незалежних доданків одного порядку сходиться до нормального розподілу, незалежно від розподілів доданків. Завдяки цій властивості, нормальний розподіл популярно в статистичному аналізі, багато статистичні тести розраховані на нормально розподілені дані.

На нескінченної подільності нормального розподілі заснований z-тест. Цей тест використовується для перевірки рівності матожидания вибірки нормально розподілених величин деякому значенню. Значення дисперсії має бути невідомо. Якщо значення дисперсії невідомо і розраховується на підставі аналізованої вибірки, то застосовується t-тест, заснований на розподіл Стьюдента.

Нехай у нас є вибірка обсягом n незалежних нормально розподілених величин з генеральної сукупності зі стандартним відхиленням висунемо гіпотезу, що . Тоді величина z={\bar{X}-\mu\over{\sigma \sqrt{n}}}буде мати стандартний нормальний розподіл. Порівнюючи отримане значення z з квантилями стандартного розподілу можна приймати або відхиляти гіпотезу з необхідним рівнем значущості.

Завдяки широкій поширеності розподілу Гауса, багато, не дуже добре знають статистику дослідники забувають перевіряти дані на нормальність, або оцінюють графік щільності розподілу «на око», сліпо вважаючи, що мають справу з Гауссовыми даними. Відповідно, сміливо застосовуючи тести, призначені для нормального розподілу і отримуючи абсолютно некоректні результати. Напевно, звідси і пішла чутка про статистику як найстрашніший вид брехні.

Розглянемо приклад: нам треба виміряти опори набору резистров певного номіналу. Опір має фізичну природу, логічно припустити, що розподіл відхилень опору від номіналу буде нормальним. Міряємо, отримуємо колоколообразную функцію щільності ймовірності для виміряних значень з модою в околиці номіналу резистров. Це нормальний розподіл? Якщо так, то будемо шукати браковані резистры використовуючи тест Стьюдента, або z-тест, якщо нам заздалегідь відома дисперсія розподілу. Думаю, що багато хто саме так і зроблять.

Але давайте уважніше подивимося на технологію вимірювання опору: опір визначається як відношення прикладеної напруги до струму протікає. Струм і напруга ми вимірювали приладами, які, в свою чергу, мають нормально розподілені похибки. Тобто, виміряні значення струму і напруги — це нормально розподілені випадкові величини з матожиданиями, відповідними істинних значень вимірюваних величин. А це означає, що отримані значення опору розподілені по Коші, а не за Гаусом.

Розподіл Коші лише зовні нагадує нормальний розподіл, але має більш важкі хвости. А значить запропоновані тести недоречні. Треба будувати тест на підставі розподілу Коші або обчислити квадрат опору, який в даному випадку буде мати розподіл Фішера з параметрами (1, 1).

до схеми
вгору

Розподіл хі-квадрат

(взято отсюда)

Розподіл описує суму n квадратів випадкових величин , кожна з яких розподілена по стандартному нормальному закону :

\chi^2_n(x)={{\left(1\over 2 \right)}^{k\over 2}\over{\Gamma\left({k\over{2}}\right)}}x^{{k\over 2}-1}e^{-{x\over 2}}\ \ \ (2.2.1)

де n — число ступенів свободи, x=\sum\limits_{i=1}^n {X^2_i}.

Очікування і дисперсія розподілу :

E\{\chi^2_n\}=n\ \ \ (2.2.2)
D\{\chi^2_n\}=2n\ \ \ (2.2.3)

Область визначення — множина невід'ємних натуральних чисел. є нескінченно діленим розподілом. Якщо x і y — розподілені за і мають ступенів свободи відповідно, то їх сума також буде розподілена за мати ступенів свободи.

є приватним випадком гамма-розподілу (а отже, розподілом Пірсона типу III) і узагальненням експоненціального розподілу. Відношення величин, розподілених за розподілено Фішеру.

На розподілі заснований критерій згоди Пірсона. з допомогою цього критерію можна перевіряти достовірність приналежності вибірки випадкової величини деякого теоретичного розподілу.

Припустимо, що у нас є вибірка деякої випадкової величини . На підставі цієї вибірки розрахуємо імовірності попадання значень X n інтервалів (k=1:n). Нехай також є припущення про аналітичному вираженні розподілу, у відповідність з яким, ймовірності попадання в обрані інтервали повинні складати . Тоді величини будуть розподілені по нормальному закону.

Наведемо до стандартного нормального розподілу: ,
де m={1\over n}\sum \limits_{i=1}^n {D_i}S=\sqrt {{1\over {n-1}}\sum \limits_{i=1}^n {D_i^2}}.

Отримані величини мають нормальний розподіл з параметрами (0, 1), а отже, сума їх квадратів розподілена за n-1 ступенем свободи. Зниження ступеня свободи пов'язано з додатковим обмеженням на суму ймовірностей попадання значень на інтервали: вона повинна бути дорівнює 1.

Порівнюючи значення з квантилями розподілу ви можете прийняти або відхилити гіпотезу про теоретичному розподілі даних з необхідним рівнем значущості.

до схеми
вгору

Розподіл Стьюдента (t-розподіл)

(взято отсюда)

Розподіл Стьюдента використовується для проведення t-тесту: тест на рівність матожидания вибірки стандартно нормально розподілених випадкових величин деякому значенню, або рівності матожиданий двох нормальних вибірок з однаковою дисперсією (рівність дисперсій необхідно перевіряти f-тестом). Розподіл Стьюдента описує відношення гаразд розподіленої випадкової величини до величини, розподіленої за хи-квадрат.

T-тест є аналогом z-тесту для випадку, коли дисперсія або стандартне відхилення вибірки невідомо і має бути оцінений на підставі самої вибірки.

Розглянемо приклад перевірки рівності матожидания нормальної вибірки деякому значенню: нехай нам дана вибірка нормальних величин об'ємом n з деякої генеральної сукупності, висунемо і перевіримо гіпотезу про те, що матожидание цієї сукупності дорівнює m.

Розрахуємо величину . Ця величина буде мати розподіл хи-квадрат. Тоді величина матиме розподіл Стьюдента c n-1 ступенем свободи, де:

T_{n}(x)={\Gamma \left({n+1 \over 2}\right) \over {\sqrt{n \pi}\Gamma \left({n \over 2}\right)\left(1+{x^2 \over n}\right)^{n+1 \over 2}}}\ \ \ (2.3.1)

де Р(x) — гамма-функція Ейлера.

Отримане значення можна порівнювати з квантилями розподілу Стьюдента та приймати або відхиляти гіпотезу про рівність маотожидания значенню m з необхідним рівнем значущості.

Очікування і дисперсія розподілу Стьюдента:

E\{T_{n}\}=0\ \ \ (2.3.2)
D\{T_{n}\}={n \over {n-2}}\ \ \ (2.3.3)
при n > 2.

до схеми
вгору

Розподіл Фішера

(взято отсюда)

Нехай X і Y-незалежні випадкові величини, які мають розподіл хі-квадрат зі ступенями свободи відповідно. Тоді величина матиме розподіл Фішера зі ступенями свободи , а величина — розподіл Фішера з ступенями свободи .
Розподіл Фішера визначено для дійсних невід'ємних аргументів і має щільність ймовірності:

F_{n_1,n_2}(x)={\sqrt{ (n_1x)^{n_1}n_2^{n_2}\over {(n_1x+n_2)^{n_1+n_2}}} \over {xB\left({n_1 \over 2},{n_2 \over 2} \right)}}\ \ \ (2.4.1)

Очікування і дисперсія розподілу Фішера:

E\{F_{n_1,n_2}\}={n_2 \over {n_2-2}}\ \ \ (2.4.2)
D\{F_{n_1,n_2}\}={2n_2^2(n_1+n_2-2) \over {n_1(n_2-2)^2(n_2-4)}}\ \ \ (2.4.3)

Матожидание визначено для , а диспересия — для .

На розподіл Фішера заснований ряд статистичних тестів, таких як оцінка значущості параметрів регресії, тест на гетероскедастичність і тест на рівність дисперсій нормальних вибірок (f-тест, слід відрізняти від точного тесту Фішера).

F-тест: нехай є дві незалежні вибірки гаразд розподілених даних обсягами відповідно. Висунемо гіпотезу про рівність дисперсій вибірок і перевіримо її статистично.

Розрахуємо величину . Вона буде мати розподіл Фішера зі ступенями свободи .

Порівнюючи значення F з квантилями відповідного розподілу Фішера, ми можемо прийняти або відхилити гіпотезу про рівність дисперсій вибірок з необхідним рівнем значущості.

до схеми
вгору

Розподіл Коші

(взято отсюда)

Розподіл Коші описує відношення двох гаразд розподілених випадкових величин. На відміну від інших розподілів, для розподілу Коші не визначені очікування і дисперсія. Для опису розподілу використовуються коефіцієнти зсуву і масштабу .

C_{x_0,\gamma}(x)={1\over{\pi \gamma \left(1+\left({x-x_0\over {\gamma}} \right)^2 \right)}}\ \ \ (2.5.1)

Розподіл Коші є нескінченно діленим: сума незалежних випадкових величин, розподілених по Коші, також розподілена по Коші.

до схеми
вгору


Експоненційний (показовий) розподіл і розподіл Лапласа (подвійне експоненціальне, подвійне показове)

(взято отсюда)

Експоненційний розподіл описує інтервали часу між незалежними подіями, що відбуваються з середньою інтенсивністю . Кількість наступів такої події за певний відрізок часу описується дискретним розподілом Пуассона. Експоненційний розподіл разом з розподілом Пуассона складають математичну основу теорії надійності.

Крім теорії надійності, експоненційний розподіл застосовується в описуванні соціальних явищ, в економіці, в теорії масового обслуговування, у транспортній логістиці — скрізь, де необхідно моделювати потік подій.

Експоненційний розподіл є приватним випадком розподілу хі-квадрат (для n=2), а отже, і гамма-розподілу. Так-як експоненціально розподілена величина є величиною хі-квадрат з 2-ма ступенями свободи, то вона може бути інтерпретована як сума квадратів двох незалежних нормально розподілених величин.

Крім того, експоненційний розподіл є чесним випадком розподілу Вейбулла.

Дискретний варіант експоненціального розподілу — це геометричний розподіл.

Щільність ймовірності експоненціально розподілу:

E_\lambda(x)=\lambda e^{-\lambda x}\ \ \ (2.6.1)

визначена для невід'ємних дійсних значень х.

Очікування і дисперсія експоненційного розподілу:

E\{E_\lambda\}={1 \over \lambda} \ \ \ (2.6.2)
E\{E_\lambda\}={1 \over \lambda^2} \ \ \ (2.6.3)

Якщо функцію щільності ймовірностей експоненціального розподілу дзеркально відобразити в область негативних значень, тобто, замінити х на |x|, то вийде розподіл Лапласа, яке також називається подвійним експоненціальним або подвійним показовим.

(взято отсюда)

Для більшого узагальнення, вводиться параметр зсуву, смещающий центр «з'єднання» лівої і правої частин розподілу вздовж осі абсцис. На відміну від експонентного, розподіл Лапласа, визначена на всій дійсній числовій осі.

L_{\alpha,\beta}(x)={\alpha \over 2}e^{-\alpha \left|x-\beta\right|} \ \ \ (2.6.4)

де — параметр масштабу, а — параметр зсуву.

Очікування і дисперсія:

E\{L_{\alpha, \beta}\}=\beta\ \ \ (2.6.5)
D\{L_{\alpha, \beta}\}={2 \over {\alpha^2}}\ \ \ (2.6.6)

Завдяки більш важких хвостів, ніж у нормального розподілу, розподіл Лапласа використовується для моделювання деяких видів похибок вимірювання в енергетиці, а також знаходить застосування у фізиці, економіці, фінансової статистики, телекомунікації і т. д.

до схеми
вгору

Розподіл Вейбулла

(взято отсюда)

Розподіл Вейбулла описується функцією щільності ймовірності наступного виду:

W_{k, \lambda}(x)={k \over {\lambda}}\left({x \over {\lambda}}\right)^{k-1}e^{-\left({x \over {\lambda}}\right)^k}\ \ \ (2.7.1)

де (> 0)- інтенсивність подій (аналогічно параметру експоненціального розподілу), а k — показник нестаціонарності (k > 0). При k = 1, розподіл Вейбулла вироджується в експоненційний розподіл, а в інших випадках описує потік незалежних подій з нестаціонарної інтенсивністю. При k > 1 моделюється потік подій з зростаючої з часом інтенсивністю, а при k < 1 — зі знижувальною. Область визначення функції розподілу щільності ймовірностей: невід'ємні дійсні числа.

Таким чином, розподіл Вейбулла — узагальнення експоненціального розподілу на випадок нестаціонарної інтенсивності подій. Використовується в теорії надійності, моделюванні процесів у техніці, у прогнозуванні погоди, в описі процесу подрібнення і т. д.

Очікування і дисперсія розподілу Вейбулла:

E\{W_{k, \lambda}\}=\lambda \Gamma\left(1 + {1 \over k} \right)\ \ \ (2.7.2)
D\{W_{k, \lambda}\}=\lambda^2 \left(\Gamma\left(1 + {2 \over k} \right ) - \Gamma\left(1 + {1 \over k} \right )^2\right)\ \ \ (2.7.3)

де — гамма-функція Ейлера.

до схеми
вгору

Гамма-розподіл (розподіл Ерланга)

(взято отсюда)

Гама-розподіл є узагальненням рапсределения хі-квадрат і, відповідно, експоненціального розподілу. Суми квадратів нормально розподілених величин, а також суми величин, розподілених за хи-квадрат і експоненціальному розподілу будуть мати гамма-розподіл.

Гама-розподіл є розподілом Пірсона III роду. Область визначення гамма-розподілу — натуральні невід'ємні числа.

Гамма-розподіл визначається двома неотрицательными параметрами k — число ступенів свободи (при цілому значенні ступенів свободи, гамма-розподіл називається розподілом Ерланга) і коефіцієнт масштабу .

Гама-розподіл є нескінченно діленим: якщо величини X і Y мають розподілу відповідно, то величина X+Y матиме розподіл

G_{k,\theta}(x)=x^{k-1}{e^{-{x \over \theta}}\over \Gamma(k) \theta^k}\ \ \ (2.8.1)

де Р(x) — гамма-функція Ейлера.

Очікування і дисперсія:

E\{G_{k,\theta}\}=k\theta\ \ \ (2.8.2)
D\{G_{k,\theta}\}=k\theta^2\ \ \ (2.8.3)

Гама розподіл широко застосовується для моделювання складних потоків подій, сум тимчасових інтервалів між подіями, в економіці, теорії масового обслуговування, логістики, описує тривалість життя в медицині. Є своєрідним аналогом дискретного негативного биноминального розподілу.

до схеми
вгору

Бета-розподіл

(взято отсюда)

Бета-розподіл описує частку суми двох доданків, що припадає на кожне з них, якщо доданки є випадковими величинами, що мають гамма-розподіл. Тобто, якщо величини мають гамма-розподіл, величини матимуть бета-розподіл.

Очевидно, що область визначення бета-розподілу [0, 1]. Бета-розподіл є розподіл Пірсона I типу.

B_{\alpha,\beta}={x^{\alpha -1}(1-x)^{\beta - 1}\over{B(\alpha, \beta)}}\ \ \ (2.9.1)

де параметри — позитивні натуральні числа, — бета-функція Ейлера.

Очікування і дисперсія:

E\{B_{\alpha, \beta}\}={\alpha \over{\alpha+\beta}}\ \ \ (2.9.2)
D\{B_{\alpha, \beta}\}={\alpha \beta \over{(\alpha+\beta)^2(\alpha+\beta+1)}}\ \ \ (2.9.3)

до схеми
вгору

Замість висновку
Ми розглянули 15 розподілів ймовірності, які, на мій погляд, охоплюють більшість найбільш популярних додатків статистики.

Наостанок, невелике домашнє завдання: для оцінки надійності біржових торгових систем використовується такий показник як профіт-фактор. Профіт-фактор розраховується як відношення сумарного доходу до сумарного збитку. Очевидно, що для системи, яка приносить дохід, профіт-фактор більше одиниці, і чим його значення вище, тим система надійніше.

Питання: який розподіл має значення профіт-фактора?

Свої роздуми з цього приводу я викладу в наступній статті.
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.