Сміх і гріх псевдорейтингів

    
 
Вчора мені на очі потрапила новину «країна Х займає% якесь місце в рейтингу хороших країн». Новина як новина, рейтинги такого типу робляться регулярно і в множині. Але в новини вказувався список «самих хороших» країн і сайт-джерело. Дані, які там наведені, викликають здоровий сміх, а методика підрахунку — подив. Про рейтинги і маніпуляції даними цей пост.
 
 

Лідери рейтингу

Отже, які країни на думку укладачів є самими хорошими?
 
     
  1. Ірландія
  2.  
  3. Фінляндія
  4.  
  5. Швейцарія
  6.  
  7. Нідерланди
  8.  
  9. Нова Зеландія
  10.  
  11. Швеція
  12.  
  13. Великобританія
  14.  
  15. Норвегія
  16.  
  17. Данія
  18.  
  19. Бельгія
  20.  
 
Це Топ-10. Вже досить дивний список, країни як правило невеликі, і ніяких спогадів, пов'язаних з їх «хорошими» і «поганими» справами в голову щось не приходить. Тим цікавіше зайти на їхній сайт і подивитися на повні списки і методику підрахунку.
 
 

Сайт

Дивимося їх сайт . Хіпстерскій модний дизайн вже навіває підозри, ладно, назвемо це причіпками і не будемо враховувати. Дивимося FAQ рейтингу:
 
The Good Country Index tries to measure how much each country on earth contributes to the planet and to the human race.
 Індекс Хороших Країн намагається виміряти внесок в планету і людство кожної країни на Землі.
 
 
Try thinking of "good" as a measure of how much a country contributes to the common good. So in this context "good" means the opposite of "selfish", not the opposite of "bad".
 Спробуйте подумати про «хороше» як про те, наскільки країна вкладається в загальне благо. У цьому контексті «хороший» — це антонім «егоїстичного", не антонім «поганого»
 
ОК, це подається як якийсь рейтинг альтруїзму країн. Із загального рейтингу як і раніше нічого не зрозуміло, давайте подивимося рейтинг за галузями.
 
 

Рейтинги по галузях

 
 
Числа є тільки в номерах рейтингу. Вихідні дані представлені якимись незрозумілими барами без вказівки значення, величини, порядку, та взагалі хоч чого-небудь осмисленого. Що сумно і викликає підозри.
 
 
Наука і технології
Топ-10: Великобританія, Австрія, Кіпр (!), Чехія, Ізраїль, Швейцарія, Фінляндія, Швеція, Угорщина, Нова Зеландія.
Критерії оцінки: іноземні студенти, експорт журналів, міжнародні публікації 2009 року, Нобелівські лауреати, патенти.
 
Вже можна сміятися. Кіпр з третім місцем отримує високі оцінки в категоріях «іноземні студенти», «експорт журналів», «нобелівські лауреати». Ви знаєте хоч одного Нобелівського лауреата з Кіпру? Гугл — тільки одного . США знаходяться на 26 місці, поступившись за Нобелівським лауреатам Боснії і Герцеговині та Ісландії.
 
 
 
Культура
Топ-10: Бельгія, Нідерланди, Мальта (!), Австрія, Німеччина, Естонія, Ірландія, Чехія.
Критерії: експорт «креативних товарів» і «креативних послуг», вклад в ЮНЕСКО, свобода пересування і свобода преси. Складно зрозуміти, як останні два пункти відносяться до культури, але в кожному разі третє місце Мальти викликає подив. Незалежно від того, як рахувати культуру — артефактами індустрії кіно, інді-геймдева або вагою випущених книг, вищий бал Мальта отримує незрозуміло за що.
 
 
Міжнародний мир і безпеку
Топ-10: Єгипет (!), Йорданія, Танзанія (!), Лесото, Уругвай, Того, Бенін, Парагвай, Нігерія, Еквадор.
Критерії: миротворці, внесок у миротворчий бюджет ООН, міжнародні конфлікти, експорт зброї, інтернет-безпека.
Якщо чесно, в цей момент у мене виникло відчуття, що рейтинг складався задом наперед, і перше місце найгірше. Але промотавши список до упору вниз, я помітив, що в хвості теж не виділяються країни — Литва, Латвія, Угорщина, Азербайджан.
А тепер, увага, в самому низу дрібним шрифтом вказано джерела даних і методологія їх обробки. Сподіваюся, всі згадали, що в рекламах і контрактах дрібним шрифтом пишуть зазвичай вельми неприємні і несподівані речі? Давайте подивимося:
 
 
All data is 2010 data unless otherwise indicated. Countries receive scores on each indicator as a fractional rank (0 = top rank, 1 = lowest) relative to all countries for which data is available. The actual simple ranks per category are based on the mean fractional ranks on the 5 indicators per category (subject to maximum 2 missing values ​​per category). The overall rank is based on the average of the category ranks.
 
 Всі дані відносяться до 2010 року, якщо не вказано інше. Країни отримують очки по кожному індикатору як дробовий ранг (0 = вищий, 1 = нижчий) щодо всіх інших країн, по яких доступні дані. Прості ранги по категоріям базуються на дрібних ранги по п'яти індикаторам на категорію (до двох параметрів можуть бути відсутні). Підсумковий ранг базується на середньому по рангах категорій .
 
Жаль (хоча, думаю, це зроблено навмисно), що немає прикладу розрахунку. Тому що незрозуміло, як вони вважають цей «дробовий ранг» — він є часткою із суми? Або чимось типу розподілу? Загалом, відсутність формул прямо натякає на недобросовісність авторів. Які ще проблеми можна виділити тут?
 
 
     
  1. Значення діляться на ВВП країн. Необхідність цього ніяк не обгрунтована. Можна припустити, що автори хотіли порахувати щось типу «скільки кожен громадянин віддає на світове процвітання зі своєї зарплати», але ВВП — це дуже грубе наближення до такого підрахунку. Далі, чому, наприклад, кількість миротворців ділиться на ВВП? У військовій справі важливіше абсолютні цифри, чому десять миротворців від багатої країни виходять гірше, ніж один від бідної (якщо ВВП бідної країни в одинадцять разів менше багатою, так і буде)?
  2.  
  3. Механізм перерахунку «дрібного рангу» в «простий ранг» ніяк не показаний.
  4.  
  5. Навіщо при підрахунку «простого рангу» береться середнє від рангів за категоріями? Чому країна, що зробила великий внесок в якійсь області, втратить його через відставання в інших областях? Чому не використовується проста сума балів, якщо ви вже один раз «нормували» на ВВП?
  6.  
 
 

Важливий обман рейтингів

У рейтингів є одне дуже оманливе властивість — без абсолютних даних вони стають набагато менш інформативними. Розглянемо приклад, гротескний для наочності:
Рейтинг 5 країн за доступністю комунальних послуг, кількість днів без гарячої води. Країни A, B, C, D, E, F, G. Країна C посіла третє місце в рейтингу. Начебто у неї хороше положення, чи не так? Тепер подивимося вихідні дані:
 
Погодьтеся, в цьому випадку третє місце в рейтингу небагато чого варто.
 
 

Висновок

Якщо ви побачите який-небудь рейтинг, неважливо, яка країна займає в ньому яке місце, поставтеся з до даних з певною часткою критичності, спробуйте подумати, звідки ці дані отримані, як оброблені, щоб не стати жертвою недобросовісних маніпуляторів.
    
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.