Як правильно брехати за допомогою статистики

  
Існують три види брехні: брехня, нахабна брехня і статистика (джерело )
Є такий чудовий жанр — "шкідливі поради ", в якому дітям дають поради, а діти, як відомо, все роблять навпаки і виходить все як раз правильно. Може бути і з усім іншим так вийде?
 
Статистика, інфографіка, big data, аналіз даних і data science — цим зараз хто тільки не зайнятий. Всі знають як правильно всім цим займатися, залишилося тільки комусь написати як НЕ потрібно цього робити. У даній статті ми саме цим і займемося.
 
Hazen Robert "Curve fitting ". 1978, Science.
 
Структура статті:
 
     
  1. Введення
  2.  
  3. упереджено вибірка (Sampling bias)
  4.  
  5. Правильно вибираємо середнє (Well-chosen average)
  6.  
  7. І ще 10 невдалих експериментів, про які ми не написали
  8.  
  9. Граємо зі шкалою
  10.  
  11. Вибираємо 100%
  12.  
  13. Приховуємо потрібні числа
  14.  
  15. Візуальна метафора
  16.  
  17. Приклад якісної візуалізації
  18.  
  19. Висновок і подальше читання
  20.  
 
  

упереджено вибірка (Sampling bias)

У 1948 році під час президентської гонки в США в ніч на оголошення результатів виборів Труман (демократи) проти Дьюї (республіканці) газета Chicago Tribune опублікувала свій, мабуть, самий знаменитий заголовок DEWEY DEFEATS TRUMAN (див. фото). Відразу після закриття дільниць газета провела опитування, обзвонив величезне (достатня для вибірки) кількість виборців, і все віщувало приголомшливу перемогу Дьюї. На фото ми бачимо що сміється Трумана, переможця виборів 48го року. Що ж пішло не так?
 
Людей обдзвонювали дійсно випадково і в достатній кількості, але в 48-му році телефон був доступний тільки людям певного достатку і рідко зустрічався у людей з невеликим заробітком. Таким чином, сам метод опитування вносить поправку в розподіл голосів. Вибірка не враховувала достатньо широкий пласт виборців Трумана (як правило демократи мають велику частку голосів серед бідного населення), яким телефон у свою чергу був недоступний. Така вибірка і називається упередженої (sampling bias ).
 
Народна творчість про даний феномен:
 
За даними інтернет-голосування 100% людей користуються інтернетом.
 
 
Зарплата випускників
Нікого не дивувало, що коли ми чуємо про зарплати випускників ВНЗ, то чомусь завжди це неправдоподібно високі цифри? У США зараз доходить справа навіть до судів , де випускники стверджують, що дані щодо зарплат штучно завищені.
 
(Картинка з How to Lie with Statistics )
Це досить стара проблема, згідно Daren Huff, подібний питання виникало у випускників Yale 24-го року. І насправді всі говорять правду, та тільки не всю. Збір статистики відбувався у вигляді опитувань (а в ті роки за допомогою паперової пошти). Відправляють відповідь далеко не всі, а тільки невелика частина всіх випускників; активніше за інших відповідають ті, у кого справи йдуть добре (що часто виражається в непоганій зарплаті), тому ми бачимо тільки «хорошу» частину картини. Це-то і створює упередженість вибірки і робить результати подібних опитувань абсолютно марними.
 
 

Правильно вибираємо середнє (Well-chosen average)

Уявімо собі компанію, в якій керівник отримує 25 тисяч, його заступник 7600, топ-менеджери з 5500, менеджери середньої ланки по 3,5 тисячі, молодші менеджери по 2,5 тисячі, а звичайні працівники по 1, 4000 (абстрактних кульків) на місяць.
 
І наше завдання представити інформацію про компанію в позитивному світлі. Ми можемо написати середня заробітна плата в компанії складає X, але що означає середнє ? Розглянемо можливі варіанти (див. схему нижче):
 
(Картинка з How to Lie with Statistics )
 
Арифметичне середнє деякого кінцевого безлічі X = {x i } — це таке число m рівне mean (X) з рівняння:
 
Це сама марна інформація з погляду працівника — 3,472 середня зарплата, але за рахунок чого виходить така висока цифра? За рахунок високих зарплат керівництва, що створює ілюзію, що працівник буде отримувати стільки ж. З точки зору працівника дана величина не є особливо інформативною.
 
Звичайно ж народна творчість не оминуло цю особливість «середньої величини» у вигляді середньо арифметичного
 
Чиновники їдять м'ясо, я — капусту. В середньому ми їмо голубці.
Медіана деякого розподілу P (X) (X = {x i }), це така величина m, що вона задовольняє наступному рівнянню:
  
Простіше кажучи, половина працівників отримує більше цієї величини, а половина менше — рівно середина розподілу! Дана статистика досить інформативна для працівників компанії, так як вона дозволяє визначити як зарплата співробітника співвідноситься з більшістю співробітників.
 
Мода кінцевого безлічі X = {x i }, це число m, яке зустрічається в X найчастіше. В даному випадку, мода може бути найбільш інформативна для людини, яка збирається почати працювати в даній компанії.
 
Таким чином залежно від ситуації під середнім значенням може розумітися будь-яка з зазначених вище величин (в принципі і не тільки з них). Тому принципово важливо зрозуміти, як же розраховується це середнє значення.
 
 

І ще 10 невдалих експериментів, про які ми не написали

Опустимо звичайну газету в сірчану кислоту, а журнал ТВ Парк — у дистильовану воду! Відчули різницю? З журналом нічого не сталося — папір як нова! (Весь ролик тут .)
 
Наші дослідження повідомляють, що зубна паста Doake's на 23% відсотка ефектніше конкурентів, і все це завдяки Dr Cornish's Tooth Powder! (Який напевно містив β-каротин і секретну формулу лісу — прим. Автора.) Ви напевно здивуєтеся, але дослідження дійсно провели і навіть випустили технічний звіт. І експеримент дійсно показав, що зубна паста на 23% відсотка ефективніше конкурентів (щоб це не значило). Але тільки чи це вся історія?
 
Насправді вибірка для експерименту складала всього лише дюжину чоловік (згідно Daren Huff і вже згаданій книзі). Це саме та вибірка, яка потрібна, щоб отримати будь-які результати! Уявімо, що ми підкидаємо монетку п'ять разів. Яка ймовірність, що всі п'ять разів випаде орел? (1/2) 5 = 1/32. Всього лише сто тридцять другий, це не може бути просто збігом, якщо випадуть всі п'ять орлів, адже так? А тепер уявімо, що ми повторюємо цей експеримент 50 разів. Хоч одна з цих спроб увінчається успіхом. Про неї-то ми і напишемо в звіті, а всі інші експерименти нікуди не підуть. Таким чином ми отримаємо виключно випадкові дані, які відмінно вписуються в нашу задачу.
 
 

Граємо зі шкалою

Припустимо, завтра потрібно показати на нараді, що ми наздогнали конкурентів, але числа трохи не сходяться, що ж робити? Давайте трохи посуваємо шкалою! Навіть відомий своєю якісною роботою з даними New York Times випустив подібний абсолютно збиває з пантелику графік (зверніть увагу на стрибок з 800к до 1,5 м в центрі шкали).
 
(Приклад з How to Display Data Badly Howard Wainer. The American Statistician, 1984.)
 
 

Вибираємо 100%

Уявімо, що минулого року молоко коштувало 10 копійок за літр і хліб був 10 копійок за буханець. Цього року молоко впало в ціні на 5 копійок, а хліб виріс на 20. Увага питання, що ми хочемо довести?
 
Уявімо, що минулий рік — це 100%, підстава для розрахунків. Тоді молоко впало в ціні на 50% відсотків, а хліб виріс на 200%, середнє 125%, а значить в цілому ціни зросли на 25%.
 
 
Давайте спробуємо ще разок, нехай поточний рік — 100%, значить ціни на молоко становили 200% минулого року, а хліб 50%. А значить, у минулому році ціни в середньому були на 25% вище!
 
(Графіки і приклад з глави «How to Statisticulate» How to Lie with Statistics )
 
 

Приховуємо потрібні числа

Кращий спосіб щось приховати — це відвернути увагу. Наприклад, розглянемо залежність кількості приватних і публічних шкіл (у тисячах штук) по роках. З графіка видно, що число публічних шкіл скорочується, а число приватних істотно не змінюється.
 
 
Насправді зростання числа приватних шкіл прихований на тлі числа публічних шкіл. Так як вони відрізняються на порядок, то фактично будь-які зміни будуть не помітні на шкалі з досить великим кроком. Перерісуем число приватних шкіл окремо; тепер ми чітко бачимо істотне зростання числа приватних шкіл, який був «прихований» на попередньому графіку.
 
(Приклад та графіки з How to Display Data Badly, Howard Wainer . The American Statistician, 1984.)
 
 

Візуальна метафора

Якщо порівнювати ні з чим, а заплутати дуже хочеться, то саме час для незрозумілих візуальних метафор. Наприклад, якщо ми зобразимо замість довжини площа на графіку, то будь-яке зростання буде здаватися набагато більш значним.
 
Розглянемо споживання кількості пива в США за 1970-1978 роки в мільйонах барелів і частку ринку компанії Schlitz (див. графік нижче). Непогано виглядає, переконливо. Чи не правда?
 
 
А тепер давайте позбудемося непотрібного «сміття» на даному графіку і перерісуем його в нормальному вигляді. Вже якось не так переконливо і серйозно виходить.
 
(Графіки і приклади з John P. Boyd, lecture notes How to Graph Badly or What. NOT to Do )
 
Перша картинка не бреше, всі числа в ній вірні, тільки вона неявно підносить дані в зовсім іншому світлі.
 
(Картинка з How to Lie with Statistics).
 
 

Приклад якісної візуалізації

Якісна візуалізація насамперед підносить результати, уникаючи неоднозначності, і передає достатню кількість інформації в стислому обсязі. Про роботу Шарль-Жозефа Мінара добре сказано тут :
 
 
Тут прекрасно абсолютно все, глядача не тримають за ідіота, і не витрачають його час на втиканіе в censored . Широка бежева смуга показує розмір армії в кожній точці походу. У правому верхньому кутку — Москва, куди приходить французька армія і звідки починається відступ, показане чорною смугою. До маршрутом відступу для додаткового інтересу прив'язаний графік часу і температури.
 
Висновок в результаті: здивований глядач порівнює розмір армії на старті з тим, що повернулося додому. Глядач весь в почуттях, він дізнався нове, він відчув масштаб, він заворожений, він зрозумів, що в школі нічого не дізнався.
 
 
(Charles Joseph Minard: Napoleon's Retreat From Moscow (The Russian Campaign 1812-1813), 1869.)
 
 

Висновок і подальше читання

 
76% всієї статистики взято з голови
Дана добірка покриває далеко не повний список прийомів, які усвідомлено, а також не усвідомлено спотворюють дані. Дана стаття насамперед демонструє, що ми повинні дуже уважно стежити за наданими нам статистичними даними та висновками зробленими на їх основі.
 
Короткий список до подальшого читання:
 How to Lie with Statistics — чудова невелика книга, неймовірно цікаво і добре написана, читається на одному диханні. Демонструє основні «помилки», які допускають ЗМІ (і не тільки вони) при роботі з даними.
 How to Display Data Badly. Howard Wainer. The American Statistician (1984) — збірка типових помилок і загальних «шкідливих» правил, найчастіше зустрічаються в роботах з візуалізацією даних.
 
  
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.