Введення у поняття ентропії та її багатоликість

image
Як може здатися, аналіз сигналів і даних — тема досить добре вивчена і вже сотні раз згадувана. Але є в ній і деякі провали. В останні роки словом «ентропія» кидаються всі кому не лінь, толком не розуміючи, про що говорять. Хаос — так, безлад — так, в термодинаміці використовується — начебто теж так, стосовно до сигналів — і тут так. Хочеться хоча б трохи прояснити цей момент і дати направлення тим, хто захоче дізнатися трохи більше про ентропії. Поговоримо про ентропійний аналізі даних.

У російськомовних джерелах дуже мало літератури на цей рахунок. А цілісне уявлення взагалі отримати практично нереально. Благо, моїм науковим керівником виявився якраз знавець ентропійного аналізу і автор свіженької монографії [1], де все розписано «від і до». Щастя межі не було, і я вирішила спробувати донести думки на цей рахунок до більш широкої аудиторії, так що пару витягів візьму з монографії і доповню своїми дослідженнями. Може, комусь і стане в нагоді.

Отже, почнемо з початку. Шенноном у 1963 р. було запропоновано поняття міри усередненої інформативності випробування (непередбачуваності його результатів), яка враховує ймовірність окремих випадків (до нього був ще Хартлі, але це опустимо). Якщо ентропію вимірювати в бітах, і взяти основа 2, то отримаємо формулу для ентропії Шеннона
image, де Pi це ймовірність настання i-го результату.

Тобто в цьому випадку ентропія безпосередньо пов'язана з «несподіванкою» виникнення події. А звідси випливає і його інформативність — чим событин більш передбачувано, тим воно менш інформативно. Значить і його ентропія буде нижче. Хоча відкритим залишається питання про співвідношеннях між властивостями інформації, властивості ентропії і властивостями різних її оцінок. Як раз з оцінками ми і маємо справу в більшості випадків. Все, що піддається дослідженню — це інформативність різних індексів ентропії щодо контрольованих змін властивостей процесів, тобто по суті, їх корисність для вирішення конкретних прикладних задач.

Ентропія сигналу, що описується деяким чином (тобто детермінованого) прагне до нуля. Для випадкових процесів ентропія зростає тим більше, чим вище рівень «непередбачуваності». Можливо, саме з такої зв'язки трактувань ентропії ймовірність->непередбачуваність->інформативність і витікає поняття «хаотичності», хоча воно досить неконкретно і розпливчасто (що не заважає його популярності). Зустрічається ще ототожнення ентропії і складності процесу. Але це знову не одне і те ж.

Їдемо далі.

Ентропія буває різна чорна біла червона:
  • термодинамічна
  • алгоритмічна
  • інформаційна
  • диференціальна
  • топологічна
Всі вони розрізняються з одного боку, і мають загальну основу-з іншого. Звичайно, кожен вид застосовується для вирішення певних завдань. І, на жаль, навіть у серйозних роботах зустрічаються помилки в інтерпретації результатів розрахунку. А все пов'язано з тим, що на практиці в 90% випадків ми маємо справу з дискретним представленням сигналу безперервної природи, що істотно впливає на оцінку ентропії (насправді там в формулке з'являється поправочний коефіцієнт, який зазвичай ігнорують).

Для того, щоб трохи змалювати області застосування ентропії до аналізу даних, розглянемо невелику прикладну задачку з монографії [1] (якої немає в цифровому вигляді, і скоріше за все не буде).

Нехай є система, яка кожні 100 тактів перемикається між кількома станами і породжує сигнал x (малюнок 1.5), характеристики якого змінюються при переході. Але будь — нам не відомо.

Розбивши x на реалізації по 100 відліків можна побудувати емпіричну щільність розподілу і по ній обчислити значення ентропії Шеннона. Отримаємо значення, «рознесені» за рівнями (малюнок 1.6).

image

Як можна бачити, переходи між станами явно спостерігаються. Але що робити у випадку, якщо час переходів нам не відомо? Як виявилося, обчислення ковзним вікном може допомогти і ентропія так само «розноситься» на рівні.В реальному дослідженні ми використовували такий ефект для аналізу ЕЕГ сигналу (різнокольорові картинки про нього далі).

Тепер ще про одне цікаве властивість ентропії — вона дозволяє оцінити ступінь зв'язності декількох процесів. При наявності в них однакових джерел ми говоримо, що процеси пов'язані (наприклад, якщо землетрус фіксують в різних точках Землі, то основна складова сигналу на датчиках загальна). У таких випадках зазвичай застосовують кореляційний аналіз, проте він добре працює тільки для виявлення лінійних зв'язків. У випадку нелінійних (породжених тимчасовими затримками, наприклад) пропонуємо користуватися ентропією.

Розглянемо модель з 5ти прихованих змінних(їх ентропія показана на малюнку нижче ліворуч) та 3х спостережуваних, які генеруються як лінійна сума прихованих, взятих з тимчасовими зрушеннями за схемою, показаної нижче праворуч. Числа-це коефіцієнти і тимчасові зрушення (в звітах).

imageimage

Так от, фішка в тому, що ентропія зв'язкових процесів зближується при посиленні їх зв'язку. Чорт забирай, як це красиво!

image

Такі радості дозволяють витягти практично з будь найдивніших і хаотичних сигналів (особливо корисно в економіці та аналітики) додаткові відомості. Ми їх витягали з електроенцефалограми, вважаючи модну нині Sample Entropy і ось які картинки отримали.

image

Можна бачити, що стрибки ентропії відповідають зміні етапів експерименту. На цю тему є пара статей і вже захищена магістерська, так що якщо комусь будуть цікаві подробиці — з радістю поділюся. А так по світу за ентропії ЕЕГ шукають вже давно різні речі — стадії наркозу, сну, хвороби Альцгеймера і Паркінсона, ефективність лікування епілепсії вважають і тд. Але повторюся-найчастіше розрахунки провадяться без урахування поправочних коефіцієнтів і це сумно, так як відтворюваність досліджень під великим питанням (що критично для науки, так то).

Резюмуючи, зупинюся на універсальності ентропійного апарату та його дійсної ефективності, якщо підходити до всього з урахуванням підводних каменів. Сподіваюся, що після прочитання у вас з'явиться зерно поваги до великої і могутньої сили Ентропії.

P. S. При наявності інтересу, можу трохи детальніше поговорити наступного разу про алгоритми розрахунку ентропії і чому ентропія Шеннона зараз майже не використовують.

Література

1. Квіток О. В. Ентропійний аналіз даних у фізиці, біології і техніки. СПб.: Вид-во СПбГЭТУ «LETI», 2015. 202 с.
2.Abásolo D.,Hornero R., Espino P. Entropy analysis of the EEG background activity in alzheimer's disease patients // Physiological Measure-ment. 2006. Vol. 27(3). P. 241 – 253. epubs.surrey.ac.uk/39603/6/Abasolo_et_al_PhysiolMeas_final_version_2006.pdf
3. 28. Bruce Eugene N, Bruce Margaret C, Vennelaganti S. Sample entropy tracks changes in EEG power spectrum with sleep state and aging // Journal of Clinical Neurophysiology. 2009. Vol. 26(4). P. 257 – 266. www.ncbi.nlm.nih.gov/pubmed/19590434
4. Ентропійний аналіз як метод безгипотезного пошуку реальних (гомогенних) соціальних груп (О. В. шка ратан, Р. А. Яструбів) www.sociologos.ru/metody_i_tehnologii/Razdel_Analiz_dannyh/Statisticheskij_analiz/Entropijnyj_analiz_kak_metod_bezgipoteznogo_poiska_realnyh_gomogennyh_socialnyh
5. Энтропийные та інші системні закономірності: Питання управління складними системами. Прангишвили В. В. apolov-oleg.narod.ru/olderfiles/1/Prangishvili_I.V_JEntropiinye_i_dr-88665.pdf
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.