Привіт всім, мене звати Чудінов Денис і сьогодні ми будемо шукати математику в веб-аналітиці.
Трафік з усіх фізичних явищ, є досить складним з точки зору природи процесу, оскільки, наскільки мені відомо, ще ніхто не сформулював математичні закони, що описують трафік. Тим не менш, спробуємо застосувати елементарні методи теорії ймовірності і математичної статистики для формалізації і оцінки правдоподібності наших суджень.

Читати далі →

Розподіл Пуассона і футбольні ставки



Якщо об'єднати статистичні дані спортивних змагань з розподілом Пуассона, то можна розрахувати ймовірна кількість м'ячів, які будуть забиті під час футбольної гри. На цій підставі можна зрозуміти звідки беруться букмекерські ставки, а також навчитися самостійно їх розраховувати з допомогою R.
Читати далі →

Статистика для математика


У сучасних умовах інтерес до аналізу даних постійно і інтенсивно зростає в абсолютно різних областях, таких як біологія, лінгвістика, економіка, і, зрозуміло, IT. Основу цього аналізу становлять статистичні методи, і розбиратися в них необхідно кожному поважаючому себе фахівця в data mining.

На жаль, дійсно хороша література, така що вміла б надати одночасно математично строгі докази і зрозумілі інтуїтивні пояснення, зустрічається не дуже часто. дані лекції, на мій погляд, надзвичайно гарні для математиків, які розуміються в теорії ймовірностей саме з цієї причини. За ним викладають магістрам в німецькому університеті імені Крістіана-Альбрехта на програмах «Математика» та «Фінансова математика». І для тих, кому цікаво, як цей предмет викладається за кордоном, я ці лекції перевів. На переказ у мене пішло кілька місяців, я розбавив лекції ілюстраціями, вправами і посиланнями на деякі теореми. Зауважу, що я не професійний перекладач, а просто альтруїст і аматор у цій сфері, так що прийму будь-яку критику, якщо вона конструктивна.

Коротенько, лекції ось про що:

Читати далі →

«Правда, чиста правда і статистика» або «15 розподілів ймовірностей на всі випадки життя»

Статистика приходить до нас на допомогу при вирішенні багатьох завдань, наприклад: коли немає можливості побудувати детерміновану модель, коли занадто багато факторів або коли необхідно оцінити правдоподібність побудованої моделі з урахуванням наявних даних. Ставлення до неї неоднозначне. Є думка, що існує три види брехні: брехня, нахабна брехня і статистика. З іншого боку, багато «користувачі» статистики занадто їй вірять, не розуміючи до кінця, як вона працює: застосовуючи, наприклад, тест Стьюдента до будь-яких даних без перевірки їх нормальності. Така недбалість здатна породжувати серйозні помилки і перетворювати «шанувальників» тесту Стьюдента ненависників статистики. Спробуємо поставити точки над i і розібратися, які моделі випадкових величин повинні використовуватися для опису тих або інших явищ і яка між ними існує генетичний зв'язок.

Читати далі →

Байєсівської і задача про Морфеуса

Більше року тому, 17 квітня 2014, на Хабре з'явилася стаття (до дня смерті Томаса Байєса). Там було багато всього цікавого, але, як правило, більша частина обговорень в коментарях звелася до задачці, яка була лише епіграфом. Тоді я продивився статтю по діагоналі, а завдання і зовсім проігнорував.

А даремно…

Читати далі →

Lines і теорія ймовірностей



Кожен, хто грав в цю гру, знає: якщо зараз спробувати витягнути блакитну кульку, на який вказує курсор, щоб поставити замість нього бордовий, то один із приходять нових трьох кульок швидше за все «заткне» це місце. Якщо спробувати ще раз витягнути — заткне знову. Протягом всіх довгих років існування цього ефекту між моїми колегами періодично виникали суперечки, чи випадково це вийшло, або навмисно зроблена така «підлянка», щоб було важче грати.

За умовами гри вважається, що кульки повинні випадати у випадкові поля. Але з якоїсь причини, якщо у заваленій частині дошки є вільне поле, воно заповнюється в першу чергу.

У цій статті ви зможете повернутися на 20 років назад і побачити, як проходив приблизно тоді процес реверс-інжинірингу. Ми розглянемо 16-бітний асемблерний код, який вибирає місце для кульок. Тут не буде сучасних 32 — і 64-бітних інструкцій, обростаючих спеціальними наборами команд, не буде викликів всяких там dll, потоків і інших хитрувань. Тільки простий код. Мені здається, його зрозуміють навіть ті, хто жодного разу не бачив асемблера. Бажаючі зможуть виправити алгоритм, щоб він працював «чесно».

Читати далі →

Задача про ста коробках і порятунку ув'язнених – фінальний акорд

Вірний спосіб увійти в історію – відповісти, хто перемагає в шахах при ідеальній грі обох сторін (білі, чорні або дружба). Потрібні гросмейстери і суперкомп'ютери, щоб дізнатися істину? Чи достатньо олівця, паперу і красивої ідеї?

Математика вселяє надію, адже можна довести існування об'єкта, не пред'являючи його, знайти відповідь, не пояснюючи глибинні причини, чому він саме такий.

У задачі про ув'язнених і сто коробок схожа ситуація. Колосальна кількість можливих стратегій гри, одна з яких інтуїтивно здалася нам найкращою. Але можна обґрунтувати її оптимальність, не занурюючись в місиво варіантів?

У самому пості про завдання такого питання не поставлено. Однак вже в першому коментарі до нього користувач mayorovp піднімає тему, а трохи нижче avfonarev повідомляє про чудову статті, розкриває таємницю.

Цим варто перейнятися, тим більше що міркування прості і витончені. В цілому ж основна ідея посту не в рішенні конкретної задачі (що само по собі теж цікаво), а скоріше в тому, щоб в черговий раз дати привід здивуватися могутності або, як висловився Вігнера, незбагненною ефективності математики.

Читати далі →

Болти в чаї, або вебінар з теорії ймовірностей на практиці

У статті "Застосування Теорії ймовірностей у IT" автор (викладач теорії ймовірностей у Вузі) пише:
з року в рік я стикаюся з таким явищем, що студенти не розуміють, навіщо і чому їм вивчати цю дисципліну.
Це дійсно важлива проблема. Власник компанії мінімалістичних відео-уроків Common Craft і заодно автор книги "Мистецтво пояснювати" пише, що людині дуже важливо спочатку відповісти собі на питання «навіщо?», і тільки тоді він зацікавиться відповіддю на питання «як?» (напевно тому йому замовляли створення роликів в стилі Common Craft і Google, і Dropbox, і Twitter).

Тому я вирішив розібратися в теорії ймовірностей: накупив різних книжок типу "Задоволення від ікс", та потім ще найняв двох репетиторів по Skype.

У підсумку все стало прояснюватися, і було вирішено поділитися своїми інсайтами з широкою аудиторією.

Самий гарний приклад, з тих, що я знайшов — це болти в чаї. У радянські часи був ГОСТ на максимальний вміст болтів\гайок в чаї, які потрапляли туди при збиранні врожаю: «масова частка металомагнітної домішки» не повинна була перевищувати 5-7 грамів на тонну. Для цього перевіряли вибірку і з нею робили висновок по всій партії чаю.

І від цього прикладу можна переходити до більш глобального прикладом застосування статистичного аналізу — до японського економічного дива.

Загалом, все це згадується у тизері вебінару:


Читати далі →

Парадокс днів народження для трьох осіб

Багатьом відомий парадокс днів народження: у групі з 23-х випадково відібраних людей ймовірність того, що хоча б двоє з них мають збігається день народження, перевищує 1/2.

Проблема, яку я буду розглядати, сформульована у вигляді вправи в книзі Алгоритми: побудова й аналіз:
«Скільки потрібно взяти людина, щоб з тією ж імовірністю 1/2 зустріти хоча б трьох збігається з днем народження.»

Читати далі →

Машинне навчання - 3. Пуассонівський випадковий процес: перегляди та кліки

У попередніх статтях, присвячених імовірнісному опису конверсії сайту, ми розглядали число подій (переглядів і кліків), як вибірку випадкової величини, без залежності від часу. Тепер настав час зробити наступний крок і ввести її в розгляд.

Читати далі →