Тривіум теорії вимірювань

В статистиці і аналізі даних мається на увазі, що всі значення є дійсними числами (векторами дійсних чисел) або з легкістю можуть бути до них зведені. А ось, наприклад, в непараметричної і нечислової статистики, а також в економетриці дуже важливо на якій шкалою взяті дані, щоб розуміти, які операції і методи з ними застосовуються.

Проблема з визначенням шкал ще полягає в тому, що їх будують математики, суворо формалізуючи, що робить її незрозумілою більшості. Наприклад, у класичній книзі Пфанцагля шкали визначаються так:



Де с. о. — система з відносинами, а ч. с. о. — числова с. о., ті ж самі які використовуються в алгебрі і теорії нормальних форм реляційних баз даних. Якщо вам це просто і зрозуміло, можете далі не читати, для решти далі я розповім про шкали просто і зрозуміло і обосную важливість розуміння даного матеріалу.

Шкала найменувань (nominal scale). Застосовується для опису ознак, які можуть порівнюватися тільки на еквівалентність (дорівнює, не дорівнює). Такими шкалами вимірюються, наприклад, музичні смаки, частини мови, політичні погляди. Важливо знати, що інші операції, крім перевірки на збіг у таких шкалах робити не можна, тобто фанати репу просто не рівні фанатам Джастіна Бібера, хто з них крутіший сказати в цій шкалі неможливо. Числа тут можуть використовуватися тільки для класифікації об'єктів.

У цій шкалі також дозволені операції групування і класифікації, більш того, більшість класифікацій створено саме для таких шкал.

Шкала порядку, або рангова шкала (ordinal scale). Ця шкала володіє всіма властивостями шкали найменувань, з додаванням відносини порядку. Наприклад, ми не можемо сказати хто крутіший пожежний або таксист (шкала найменувань), але точно можемо сказати, що майор крутіше прапорщика (рангова шкала).

Для цієї шкали дуже важливо розуміти, що числа використовуються тільки в операціях порівняння, їх не можна складати або обчислювати середнє (генерал плюс рядовий не дорівнюють двом лейтенантам). Наведу ще один приклад. Всі люблять жарти на кшталт: «Після переїзду Васі з Росії в Індії середній IQ обох країн збільшився», що означає, що середній IQ в Росії більше, ніж в Індії, а Вася до среднероссийского не дотягує. Так от поняття «середній IQ» некоректно, так як IQ обчислюється за ранговою шкалою і спочатку складений так, щоб значення були розподілені нормально серед населення, і в жодному разі не можна стверджувати, що між IQ 141 і 142 така ж різниця, як між IQ 120 і 121. Просто жартуєте правильно: «Після переїзду Васі з Росії в Індії середній інтелект обох країн збільшився».

Шкала різниць, або інтервальна шкала (interval scale). Такими шкалами вимірюються дати, температури за Цельсієм і Фаренгейтом. У таких шкалах немає природної початкової точки відліку, хоча деякі люди довго будуть сперечатися, що відлік від Різдва або 1 січня 1970 року досить природним.

Більшість презентацій про Big Data починаються з історії про вагітну школярку. У тестувальників є своя байка про літаки. Коротко: американський літак розбився в Ізраїлі в районі Мертвого Моря з-за того, що його система розділила на нуль, як тільки висота літака над рівнем моря стала негативною. Я чув багато версій цієї байки: то літак полетів вниз головою, то стэлсы косяками йшли в саме море. Ця байка не дуже правдоподібна, якщо розуміти, що немає сенсу ділити на значення, взяте з інтервальної шкали, яким і є висота над рівнем моря. Справді, спробуйте знайти формулу, в якій температура за Фаренгейтом або широта місцевості стояли б у знаменнику.

Для результатів вимірювання у таких шкалах можна вважати середнє арифметичне, проводити кореляційний і регресійний аналізи, а ось вважати середнє гармонічне або геометричне не можна.

Шкала відносин (ratio scale). Для такої шкали природно наявність початку відліку. Вибачте за прагматизм, але все, що вимірюється грошима, потрапляє на дану шкалу. Якщо дата знаходиться на інтервальною шкалою, то вік буде перебувати на шкалі відносин. Іноді кажуть, що ця шкала володіє всіма властивостями інтервальної, але маленький нюанс: якщо для інтервальної шкали допустимі лінійні перетворення (множення на константу полюс зрушення), то тут тільки перетворення подібності (множення на константу). Більшість методів статистичного аналізу має на увазі, що значення будуть саме на такій шкалі, тому перед тим, як згодувати пакет аналізу числами, важливо переконатися в присутності природного початку відліку, інакше багато статистичні характеристики будуть неінформативними.

Ці чотири шкали в наші дні є загальноприйнятими, однак, коли теорія нечислової статистики тільки з'являлася, багато дослідники вводили свої класифікації. Ось, наприклад, сторінка з так і неопублікованої книги Тюріна:



Підхід з «придумуванням власних шкал може виявитися продуктивним у багатьох проектах. Однак важливіше робити перевірку на вироблені операції з даними і писати відповідні тести ще до того, як отримані значення. І пам'ятайте, що просто перевірки одиниць вимірювання (що роблять деякі мови програмування) не досить: час і вік вимірюються в тих же одиницях.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.