Кореляція, коваріація і девіація (частина 3)



У першій частині ми розповіли про суть перетворення девіації та його застосування до матриці квадратів відстаней. другий трохи напустили туману на спектри простих геометричних наборів.

У даній статті ми постараємося розкрити сенс перетворення девіації, для чого звернемося до прикладних задач, пов'язаних з обробкою та аналізом даних. Покажемо, як пов'язано перетворення девіації матриці відстаней зі статистикою — з дисперсією, кореляцією і ковариацией.

7. Центрування та нормування одновимірних координат
Проведемо розминку на простому і всім зрозумілою — центруванні і нормуванні даних. Нехай у нас є ряд чисел . Тоді операція центрування зводиться до знаходження середнього (центроїда набору)



і побудови нового набору як різниці між вихідними числами та їх центроїдом (середнім):



Центрування — це перший крок до власної системи координат (ССК) вихідного набору, оскільки сума центрированных координат дорівнює 0. Другим кроком є нормування суми квадратів центрированных координат до 1. Для виконання даної операції нам потрібно вирахувати цю суму (точніше середнє):



Тепер ми можемо побудувати ССК вихідного набору як сукупність власного числа S і нормованих чисел (координат):



Квадрати відстаней між точками вихідного набору визначаються як різниці квадратів компонент власного вектора, помножені на власне число. Звернемо увагу на те, що власне число S виявилося, дорівнює дисперсії вихідного набору (7.3).

Отже, для будь-якого набору чисел можна визначити власну систему координат, тобто виділити значення власного числа (вона ж дисперсія) і розрахувати координати власного вектора шляхом центрування та нормування вихідних чисел. Круто.

Вправа для тих, хто любить «мацати руками». Побудувати ССК для набору{1, 2, 3, 4}.
Відповідь.Власне число (дисперсія): 1.25.
Власний вектор: {-1.342, -0.447, 0.447, 1.342}.

8. Центрування і ортонормирование багатовимірних координат
Що, якщо замість набору чисел нам задано набір векторів — пар, трійок і інших розмірностей чисел. Тобто точка (вузол) визначається не однією координатою, а кількома. Як в цьому випадку побудувати БОК?

Так, можна побудувати матрицю квадратів відстаней, потім визначити матрицю девіації та розрахувати для неї спектр. Але про це ми дізналися не так давно. Зазвичай робили (і роблять) з іншого.

Введемо позначення компонент набору. Нам задані точки (вузли, змінні, вектори, кортежі) і кожна точка характеризується числовими компонентами . Звертаємо увагу, що другий індекс — це номер компоненти (стовпці матриці), а перший індекс — номер точки (вузли) набору (рядки матриці).

Що ми робимо далі? Правильно — центрируем компоненти. Тобто для кожного стовпця (компоненти) знаходимо центроїд (середнє) і віднімаємо його значення компоненти:





Ми отримали матрицю центрированных даних (СЦД) .
Наступним кроком нам ніби треба обчислити дисперсію для кожної компоненти і їх нормувати. Але ми цього робити не будемо. Бо хоч таким чином ми дійсно отримаємо нормовані вектори, але нам потрібно, щоб ці вектори були незалежними, тобто ортонормированными. Операція нормування не повертає вектора (а лише змінює їх довжину), а нам потрібно розгорнути вектори перпендикулярно один одному. Як це зробити?

Правильний (але поки даремний) відповідь — розрахувати власні вектори і числа (спектр). Даремний тому, що ми не побудували матрицю, для якої можна вважати спектр. Наша матриця центрированных даних (СЦД) не є квадратною — для неї власні числа не рассчитаешь. Відповідно, нам треба на основі СЦД побудувати якусь квадратну матрицю. Це можна зробити множенням СЦД на саму себе (звести в квадрат).

Але тут — увага! Неквадратную матрицю можна звести в квадрат двома способами — множенням вихідної на транспоновану. І навпаки — множенням транспонованої на вихідну. Розмірність і зміст двох отриманих матриць — різний.

Множачи СЦД на транспоновану, ми одержуємо матрицю кореляції:



З даного визначення (є і інші) випливає, що елементи матриці кореляції є скалярними добутками центрированных векторів. Відповідно, елементи головної діагоналі відображають квадрат довжини даних векторів.
Значення матриці — не нормовані (зазвичай їх нормують, але для наших цілей цього не потрібно). Розмірність матриці кореляції збігається з кількістю вихідних точок (векторів).

Тепер переставимо перемножаемые в (8.1) матриці місцями і отримаємо матрицю коваріації (знову ж опускаємо множник1/(1-n), яким зазвичай нормують значення коваріації):



Тут перемножуються компоненти (а не вектори). Відповідно, розмірність матриці коваріації дорівнює кількості вихідних компонент. Для пар чисел матриця коваріації має розмірність 2x2, для трійок — 3x3 і т. д.

Чому важлива розмірність матриць кореляції і коваріації? Фішка в тому, що оскільки матриці кореляції і коваріації відбуваються з твору одного і того ж вектора, то вони мають один і той же набір власних чисел, один і той же ранг (кількість незалежних розмірностей) матриці. Як правило, кількість векторів (точок) набагато перевищує кількість компонент. Тому про ранзі матриць судять по розмірності матриці коваріації.

Діагональні елементи коваріації відображають дисперсію компонент. Як ми бачили вище, дисперсія та власні числа тісно пов'язані. Тому можна сказати, що в першому наближенні власні числа матриці коваріації (а значить, і кореляції) дорівнюють діагональним елементам (а якщо межкомпонентная дисперсія відсутня, то рівні в будь-якому наближенні).

Якщо стоїть завдання знайти просто спектр матриць (власні числа), то зручніше її вирішувати для матриці коваріації, оскільки, як правило, їх розмірність невелика. Але якщо нам необхідно знайти ще і власні вектори (визначити власну систему координат) для вихідного набору, то необхідно працювати з матрицею кореляції, оскільки саме вона відображає множення векторів. Можливо, що оптимальним алгоритмом є поєднання диагонализаций двох матриць — спочатку знайшли власні числа для коваріації і потім на їх основі визначили власні вектори матриці кореляції.

Ну і раз вже ми так далеко зайшли, то згадаємо, що горезвісний метод головних компонент як раз і полягає в розрахунку спектра матриці коваріації/кореляції для заданого набору векторних даних. Знайдені компоненти спектру розташовуються уздовж головних осей еліпсоїда даних. З нашого розгляду це випливає тому, що головні осі — це і є ті осі, дисперсія (розкид) даних з яким максимальний, а значить, і максимально значення спектру.

Щоправда, можуть бути і негативні дисперсії, і тоді аналогія з еліпсоїдом (псевдоэллипсоидом?) вже не очевидна.

9. Матриця девіації відстаней — це матриця кореляції векторів
Все це чудово, але причому тут перетворення девіації?

Розглянемо ситуацію, коли нам відомий не набір чисел (векторів), що характеризують деякі точки (вузли), а набір відстаней між точками (причому між усіма). Чи достатньо цієї інформації для визначення ССК (власної системи координат) набору?

Відповідь ми дали в першої частини — так, цілком. Тут же ми покажемо, що побудована за формулою (1.3') матриця девіації квадратів відстаней і визначена нами вище матриця кореляції центрированных векторів (8.1) — це одна і та ж матриця.

Як таке вийшло? Самі в шоці. Щоб у цьому переконатися, треба підставити вираз для елементу матриці квадратів відстаней



у формулу перетворення девіації:



Зазначимо, що середнє значення квадратів матриці відстаней відображає дисперсію вихідного набору (за умови, що відстані в наборі — це сума квадратів компонент):



Підставляючи (9.1) і (9.3) (9.2), після нескладних скорочень приходимо до виразу для матриці кореляції (8.1):



Отже, ми переконалися, що застосовуючи операцію девіації до матриці евклідових відстаней, ми отримуємо відому матрицю кореляції. Ранг матриці кореляції збігається з рангом матриці коваріації (кількістю компонент евклідового простору). Саме ця обставина дозволяє нам будувати спектр і власну систему координат для вихідних точок на основі матриці відстаней.

Для довільної матриці відстаней (необов'язково евклідової) потенційний ранг (кількість вимірів) на одиницю менше кількості вхідних векторів. Розрахунок спектру (власної системи координат) дозволяє визначити основні (головні) компоненти, що впливають на відстані між точками (векторами).

Матриця відстаней між містами, наприклад, завідомо неевклідова, — ніяких компонент (характеристик міст) не встановлено. Перетворення девіації тим не менш дозволяє визначити спектр такої матриці і власні координати міст.

Але вже не в цій статті. Тут поки все, спасибі за приділений час.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.