Статистика для математика


У сучасних умовах інтерес до аналізу даних постійно і інтенсивно зростає в абсолютно різних областях, таких як біологія, лінгвістика, економіка, і, зрозуміло, IT. Основу цього аналізу становлять статистичні методи, і розбиратися в них необхідно кожному поважаючому себе фахівця в data mining.

На жаль, дійсно хороша література, така що вміла б надати одночасно математично строгі докази і зрозумілі інтуїтивні пояснення, зустрічається не дуже часто. дані лекції, на мій погляд, надзвичайно гарні для математиків, які розуміються в теорії ймовірностей саме з цієї причини. За ним викладають магістрам в німецькому університеті імені Крістіана-Альбрехта на програмах «Математика» та «Фінансова математика». І для тих, кому цікаво, як цей предмет викладається за кордоном, я ці лекції перевів. На переказ у мене пішло кілька місяців, я розбавив лекції ілюстраціями, вправами і посиланнями на деякі теореми. Зауважу, що я не професійний перекладач, а просто альтруїст і аматор у цій сфері, так що прийму будь-яку критику, якщо вона конструктивна.

Коротенько, лекції ось про що:



Умовне математичне сподівання

Ця глава не відноситься безпосередньо до статистики, проте, ідеальна для старту її вивчення. Умовне математичне сподівання — це найкращий вибір для передбачення випадкового результату на основі вже наявної інформації. І це теж випадкова величина. Тут розглядаються різні властивості, такі як лінійність, монотонність, монотонна збіжність та інші інші.

Основи точкового оцінювання

Як оцінити параметр розподілу? Який для цього вибрати критерій? Які методи при цьому використовувати? Ця глава дозволяє відповісти на всі ці питання. Тут вводяться поняття незміщеної оцінки і рівномірно незміщеної оцінки з мінімальною дисперсією. Пояснюється, звідки беруться розподіл хі-квадрат і розподіл Стьюдента, і чим вони важливі при оцінюванні параметрів нормального розподілу. Розповідається, що таке нерівність Рао-Крамера та інформація Фішера. Також вводиться поняття експоненціального сімейства, багаторазово полегшує отримання гарної оцінки.

Байесовское і мінімаксне оцінювання параметрів



Тут описується інший філософський підхід до оцінки. В даному випадку параметр вважається невідомим тому, що він є реалізацією якоїсь випадкової величини з відомим (апріорних) розподілом. Спостерігаючи результат експерименту ми розраховуємо так зване апостеріорне розподіл параметра. На основі цього, ми можемо отримати Байєсівську оцінку, де критерієм є мінімум втрат у середньому, або минимаксную оцінку, мінімалізуючу максимально можливі втрати.

Достатність і повнота

Ця глава має серйозне прикладне значення. Достатня статистика — це функція від вибірки, така що достатньо зберігати тільки результат цієї функції для того, щоб оцінити параметр. Таких функцій багато і серед них виділяють так звані мінімальні достатні статистики. Наприклад, для оцінки медіани нормального розподілу достатньо зберігати лише одне число — середнє арифметичне по всій вибірці. Чи це працює також для інших розподілів, наприклад, для розподілу Коші? Як достатні статистики допомагають у виборі оцінок? Тут ви можете знайти відповіді на ці питання.

Асимптотичні властивості оцінок

Мабуть, найважливіше і необхідне властивість оцінки — це її спроможність, тобто прагнення до істинного параметру при збільшенні розміру вибірки. У цій главі розповідається якими властивостями володіють відомі нам оцінки, отримані описаними в попередніх розділах статистичними методами. Вводяться поняття асимптотичної незміщеності, асимптотичної ефективності і відстані Кульбака-Лейблера.

Основи тестування

Крім питання про те, як оцінити невідомий нам параметр, ми повинні якимось чином перевірити, чи задовольняє він потрібним властивостям. Наприклад, проводиться експеримент, в ході якого випробовується нові ліки. Як дізнатися, вище ймовірність одужання з ним, ніж з використанням старих ліків? У цьому розділі пояснюється, як будуються подібні тести. Ви дізнаєтесь, що таке рівномірно найбільш потужний критерій, критерій Неймана-Пірсона, рівень значущості, довірчий інтервал, а також звідки беруться відомі критерій Гаусса та t-критерій.

Асимптотичні властивості критеріїв

Як і оцінки, критерії повинні задовольняти певним асимптотичних властивостей. Іноді можуть виникнути ситуації, коли потрібний критерій побудувати неможливо, однак, використовуючи відому центральну граничну теорему, ми будуємо критерій, асимптотично прагне до необхідного. Тут ви дізнаєтеся, що таке асимптотичний рівень значущості, метод відношення правдоподібності, і як будуються критерій Бартлетта і критерій незалежності хі-квадрат.

Лінійна модель

Цю главу можна розглядати як доповнення, а саме, застосування статистики у випадку лінійної регресії. Ви дізнаєтеся про те, які оцінки хороші і в яких умовах. Ви дізнаєтесь, звідки взявся метод найменших квадратів, яким чином будувати критерії і навіщо потрібно F-розподіл.

Посилання на

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.