Логіка свідомості. Частина 11. Природне кодування зорової і звукової інформації

У попередньої частини були сформульовані вимоги до процедури універсального узагальнення. Одна з вимог наголошувала, що результат узагальнення повинен не просто містити набір понять, крім цього отримані поняття зобов'язані формувати певний простір, в якому зберігаються уявлення про те, як отримані поняття співвідносяться між собою.

Якщо розглядати поняття як «точкові» об'єкти, то таку структуру можна частково описати матрицею взаємних відстаней і представити у вигляді зваженого графа, де вершини — це поняття, а кожному ребру зіставлено число, що відповідає відстані між поняттями, які це ребро з'єднує.

Ситуація дещо ускладнюється, коли поняття мають природу множин (малюнок нижче). Тоді можливі формулювання типу: «поняття C містить поняття A і B», «поняття A і B різні», «поняття A і B мають щось спільне». Якщо покласти, що близькість визначається в інтервалі від 0 до 1, то про малюнок зліва можна сказати: «близькість A і C дорівнює 1, близькість B і C дорівнює 1, близькість A і B дорівнює 0).



Приклади співвіднесення понять

Систему з більш складною формою відносин можна записати у вигляді семантичного графа, тобто спрямованого графа, де вершини відповідають поняттям, а ребра – відносин між ними.

Питання узагальнення, пов'язаний з співвіднесенням понять, звучить так: чи можна якимось природним чином отримати систему співвіднесення понять, яка збереже основні властивості, наприклад, притаманні семантичного графу, і при цьому буде зручна в генерації та подальшому використанні? Виявляється, в біології людини є приклади того, коли подібні завдання вирішуються досить простим і витонченим способом. Цей спосіб ще не є узагальненням, але він показує можливість простого побудови простору, в якому природним чином виникає структура близькості понять.

Загадка ємності зорового нерва
Кодування зорової інформації можна розбити на кілька етапів. Від первинної картинки, одержуваної на сітківці, до складного опису зорових сцен з розумінням того, що і де зображено. У цій частині нас буде цікавити первинне кодування, тобто те, в якому вигляді інформація передається з ока в мозок.


Очей і сітківка (Девід Хьюбел «Око, мозок, зір»)

Все починається з того, що світло фокусується кришталиком на внутрішній поверхні ока, утворюючи там перевернуте зображення. Пройшовши через досить прозорий шар нейронів і нервових волокон, зображення досягає клітин, що реагують на світло: паличок і колбочок. Палички більш численні, ніж колбочки. Палички відповідають за чутливість при слабкому освітленні. Колбочки не реагують на слабке світло, вони відповідають за сприйняття дрібних деталей і колірний зір при хорошому освітленні.

Колбочки і палички перебувають у постійній імпульсної активності, характер якої залежить від кількості потрапляє на них світла. Ця активність не створює шипи, як у нейронів. Вона називається градуальной і проявляється у зміні мембранного потенціалу клітин. Сама залежність дещо парадоксальна – активність слабшає при збільшенні освітленості.


Будова сітківки (Девід Хьюбел «Око, мозок, зір»)

Колбочки і палички посилають сигнали на горизонтальні і біполярні клітини. Горизонтальні, біполярні та амакриновые клітини готують сигнали таким чином, що гангліозних клітини починають реагувати на певну картину, яка виникає на маленькій ділянці сітківки, в центрі якої вони перебувають. Активність гангліозних клітин – це спайки. Аксони гангліозних клітин утворюють вихід очі, тобто зоровий нерв.

У кожній ганглиозной клітини є рецептивное поле, яке визначає її активність. Рецептивное поле має форму кола. У ньому виділяється центральна область і периферія (малюнок вище).

Найбільш поширена реакція гангліозних клітин – це реакція на різницю освітлення центру і периферії їх рецептивних полів. Виходячи з цього, прийнято говорити, що багато гангліозних клітини реагують на межі об'єктів, присутніх на зображенні. При цьому вихід очі спрощено представляють як результат виділення контурів з вихідної картинки (малюнок нижче).


Виділення меж на зображенні

Труднощі починаються, коли виникає бажання зрозуміти, як же все-таки зоровий нерв передає зорову інформацію.

У сітківці дорослої людини налічується 6 — 7 мільйонів колбочок і близько 120 мільйонів палочек. Потенційно можна було б говорити про роздільної здатності ока у сто мегапікселів. Але зоровий нерв одного ока містить всього близько одного мільйона волокон. Тобто, виходить, що всього один мільйон волокон передає всю ту «красиву» картинку, що ми бачимо.

Якщо трактувати сигнали волокон зорового нерва як інформацію про окремих точках зображення, наприклад, контурного, то виходить, що дозвіл очі не перевищує один мегапіксель. Причому так як сигнали – це спайки, тобто імпульси однакової амплітуди, то ця мегапіксельна картинка виявляється ще й позбавленої інформації про будь-яких рівнях яскравості. Тобто взагалі-то говорять про те, що частота спайків може кодувати аналогові рівні. Але з цим є велика складність. Частота імпульсів гангліозних клітин відносно невелика, в середньому близько 10 – 30 Гц. Але око здатний повністю проаналізувати зображення за 13 мілісекунд (Potter, M. C., Wyble, B., Hagmann, C. E. et al. Atten Percept Psychophys (2014)). Таким чином виходить, що навряд чи на «один кадр» аналізованого оком зображення припадає більше одного імпульсу. А отже ні про яке кодування яскравості частотою сигналів мови не йде. Крім того, очевидно, що мозок крім інформації про контурі отримує інформацію і про колір, і про переходах освітленості, і про тонких лініях на зображенні.

Відповідно, виникає питання – як в одному мільйоні волокон, не використовуючи частотний кодування, вдається закодувати всі деталі зорової інформації? Не залишається нічого іншого, окрім як припустити, що механізм кодування далекий від того, щоб сигнал одного волокна зорового нерва описував стан однієї точки зображення.

Зорове кодування
Рецептивные поля сусідніх гангліозних клітин сильно перекриваються. При цьому центральні області рецептивних полів перетинаються лише незначно.


Перекриття рецептивних полів гангліозних клітин сітківки (Девід Хьюбел «Око, мозок, зір»)

Гангліозних клітини гостро реагують на невеликі світлові плями або затемнення, що припадають на центр їх рецептивного поля (Kuffler, S. W. 1953. /. Neurophysiol. 16: 37-68.). За типом реакції вони діляться на два типи: клітини з on-центром і клітини з off-центром. Клітини з on-центром найсильніше реагують на світлове пляма, що збігається з центром рецептивного поля, за умови затемнення периферії. Клітини з off-центром реагують точно також, але тільки їх стимул протилежний стимулу клітин з on-центром, тобто на центр має припадати темна пляма, а периферія повинна бути освітлена.

Обидва типи клітин реагують і на протилежний для себе стимул. Реагують тим, що спочатку на час дії стимулу пригнічують свою спонтанну активність, а потім при припиненні дії протилежної стимулу на деякий час з'являється викликана активність, яка поступово доходить до рівня спонтанної активності.

Розрізняють два типи гангліозних клітин: Мелкоклеточные (parvocellular. Ρ) і крупноклеточные (magnocellular, M) клітини. Більш дрібні Ρ клітини чутливі до дрібних деталей і здатні розрізняти кольори. Великі за розміром M клітини чутливі до рухомих об'єктів і добре реагують на зміну контрастності (Kaplan, E., and Shapley, R. M. 1989. Proc. Natl. Acad. Sci. USA 83: 2755-2757.). Таке ділення відноситься не до всіх, наприклад, у кішок, які не мають колірного зору, прийнято говорити про інший класифікації (Enroth-Cugell, C, and Robson, J. G. 1966. /. Physiol. 187: 517-552.).

Відповідь гангліозних клітин не є статичним. Клітини не просто реагують на різницю освітлення центру і периферії. Їх реакція виникає тільки в той момент, коли виникає ця різниця освітленості. Після чого відповідь клітини починає досить швидко згасати.


Реакція гангліозних клітин на різні стимули. Зліва – реакція клітини з on-центром, праворуч – з off-центром. Тривалість розгортки 2.5 секунди, імпульсам відповідають вертикальні лінії. (Девід Хьюбел «Око, мозок, зір»)

Така реакція призводить до того, що для того, щоб зображення залишалося видимим, воно повинно завжди бути рухомим. Експериментально показано, що якщо зафіксувати очей нерухомо відносно зображення, а для цього досить прикріпити джерело світла прямо на око, то досить швидко зображення зникає і стає невидимим (Riggs, L. A., and Ratliff, F. (1952), 'Effects of Counteracting the Normal Movements of the Eye', J. Opt. Soc. Amer., 42, 872-873.) ( Involuntary eye movements during fixation, R. W. Ditchburn and B. L. Ginsborg, J Physiolv.119(1); 1953 Jan 28PMC1393034).

Око постійно перебуває у русі (малюнок нижче). Рухи ока можна поділити на кілька типів. Мінімальне по амплітуді рух – тремор, на зображенні він видно як дрібна гребінка. Амплітуда тремору становить приблизно половину від відстані між сусідніми колбочками. Можна припустити, що у разі різкої межі, присутньої на зображенні, тремор забезпечує перетин цієї кордоном чутливої області колбочок, а значить, робить цю межу видимої для них. Це може бути суттєво, якщо зображення пред'являється короткочасно і цю функцію не встигає виконати очної дрейф.


Руху очі. Розмір осередків відповідає відстані між колбочками. Для центральної ямки це відповідає розміру центру рецептивного поля ганглиозной клітини

Швидкі рухи очей – саккады, здійснюють переклад погляду з однієї області зображення на іншу. Між великими саккадами стрибки очей тривають, але мають невелику амплітуду. Такі невеликі скачки називаються микросаккадами, на картинці вище вони видні як прямі лінії. Раніше ми говорили про те, що саккады і микросаккады необхідні для того, щоб навчити кору інваріантності до зміщень і створити відповідний простір контекстів. В інтервалах між микросаккадами очей не залишається нерухомим, він здійснює плавні дугоподібні руху, звані дрейфом. Саме на дрейф і накладається тремор, утворюючи характерну гребінку.

Роль дрейфу дуже цікава. Якщо взяти кордон об'єкта або тонку лінію, то дрейф забезпечить її зміщення. В тому числі в напрямку перпендикулярному до цієї межі. За рахунок хвилеподібною траєкторії дрейф гарантує ненульову складову зміщення в перпендикулярному напрямку для ліній і меж будь-якої орієнтації. Тобто, коли пряма на зображенні дрейфує по дузі, на малому масштабі це рівносильно зворотно-поступального руху цієї лінії в напрямку, перпендикулярному її орієнтації. Щоб було наочніше я зробив короткий відео.

При такому зміщенні кордон або лінія перетинає кілька центрів рецептивних полів гангліозних клітин.

На малюнку нижче показано одне з можливих положень кордону по відношенню до рецептивному полі ганглиозной клітини. Виникнення такого стану забезпечує реакцію клітини з on-центром, оскільки її центр виявляється освітлений сильніше ніж периферія в середньому. Якщо кордон змістити вправо так, щоб вона перетнула центр поля, то виникне картина, необхідна для активації клітини з off-центром, середня освітленість периферії буде вище освітленості центру.


Можливе положення границі на зображенні по відношенню до рецептивному полі ганглиозной клітини і центру поля

Відповідно, зміщення межі під час дрейфу створює потенційні умови для активації тих гангліозних on і off клітин, рецептивные поля яких вона перетинає під час свого зміщення.

Однак активуватися можуть не всі гангліозних клітини, рецептивные поля яких зачіпаються дрейфом. Деякі гангліозних клітини мають дирекционную чутливість (direction-selective ganglion cells — DSGC). Для спрацьовування таких гангліозних клітин необхідно, щоб кордон не просто з'явилася в рецептивном поле клітини, а, щоб вона прийшла з певної сторони, яка є для цієї клітини кращою (Barlow HB, Hill RM (1963) Selective sensitivity to direction of motion in ganglion cells of the rabbit's retina. Science 139: 412-414).

Дирекційний вибірковість гангліозних клітин виявляється дуже широкою (Organization and development of direction-selective circuits in the retina, Wei Wei, Marla B. Felleremail, Trends in Neurosciences Volume 34, Issue 12, p638–645, December 2011). Чутлива до напрямку клітина може давати відповідь в діапазоні 180 градусів, тобто для половини всіх можливих орієнтацій кордону (малюнок нижче).


Приклад діапазону напрямів, що викликають відповідь, у дирекционно чутливої ганглиозной клітини (Organization and development of direction-selective circuits in the retina, Wei Wei, Marla B. Felleremail, Trends in Neurosciences Volume 34, Issue 12, p638–645, December 2011).

Дирекційний чутливість у поєднанні з дрейфом перетворюють відповідні гангліозних клітини в детектори орієнтації кордонів. Дрейф переміщує по хвилеподібною траєкторії кордон. Це рівносильно поступального руху кордону в напрямку, перпендикулярному до цієї межі. Клітина, для якої цей напрямок потрапляє в її робочий діапазон, створює відповідний сигнал.

Ми розглянемо зараз дещо спрощену модель, щоб показати основну ідею. Не будемо зупинятися на зворотному ході, який може виникнути для деяких сполучень напрямків і форми дуги і ролі при цьому on і off клітин.

Широкий діапазон чутливості робить одиночну ганглиозную клітку «поганим» детектором орієнтації, але все стає не так погано якщо взяти відразу кілька таких детекторів. Для прикладу візьмемо впорядкований набір з 16 детекторів, що описує різні можливі орієнтації кордону (малюнок нижче). Нехай кожен детектор реагує на зображення кордону, якщо її орієнтація потрапляє в діапазон плюс мінус 90 градусів від власної орієнтації детектора. Тобто кожен такий детектор буде реагувати на половину від усіх можливих напрямків.


Набір з 16 детекторів, чутливих до різним орієнтаціям кордону. Показано переважні орієнтації. Кожен детектор спрацьовує від -90 градусів до +90 градусів до переважного напрямку

Якщо на такий набір детекторів подати зображення кордону, то приблизно половина з них спрацює (будемо вважати, що спрацьовують детектори, для яких цей образ лежить на межі їх чутливості). В результаті ми отримаємо картину активності на зразок тієї, що показана на малюнку нижче.


Картина спрацьовування детекторів орієнтації для різних образів

Якщо записати картину активності у вигляді бінарного вектора, то вийде послідовність, частина якої наведена на малюнку нижче.


Послідовність двійкових кодів, відповідна послідовності орієнтацій

Ця послідовність аналогічна коду Грея (F. Gray. Pulse code communication, March 17, 1953 (filed Nov. 1947). U. S. Patent 2,632,058), з тією різницею, що в коді Грея при переході до наступного елемента змінюється один біт, а в нашому прикладі два. Чудове властивість отриманих кодів – це плавність їх переходів. Плавність виникає за рахунок того, що при зміні кута додаються детектори, для яких орієнтація кордону починає потрапляти в їх діапазон і перестають спрацьовувати ті, для яких орієнтація виходить з їх діапазону. Це призводить до того, що при малій зміні кута зміни зачіпають лише невелика кількість детекторів, велика їх частина зберігає свій стан. Якщо різниця кутів перевищує діапазон стеження, то в кодах не залишається загальних елементів.

Скалярний добуток таких бінарних векторів можна використовувати як міру близькості між відповідними напрямками. Чим ближче кут, тим більше спільних одиниць, тим вище значення скалярного добутку.

Створимо штучну сітківку як прямокутну сітку «грубих» детекторів. Розподілимо основні напрямки детекторів випадковим чином. Подамо на сітківку зображення. Виникне картина активності детекторів (малюнок нижче).


Приклад зображення (зліва), слід активності детекторів (в середині), розкладання на поняття (праворуч) (програма моделювання зору, Д. Шабанов)

Отримана картина буде повторювати загальний контур зображення. При цьому в кожному місці контуру активність детекторів буде не просто відтворювати форму контуру, а буде створювати візерунок, що кодує напрямок кордону саме в цьому місці.

Сформуємо набір понять, необхідний для опису зображення. Для цього, як ми вже робили раніше, розіб'ємо зображення на області. Для кожної з областей введемо набір можливих орієнтацій. В результаті, ми отримаємо набір понять, в якому кожне поняття буде описувати орієнтацію кордону в певному місці. На малюнку вище правий фрагмент показує, як буде виглядати початкове зображення, описане в таких поняттях.

Зіставимо кожному поняттю бінарний код. Цей код можна отримати, зібравши з сітківки візерунок детекторів, відповідний тієї межі, що описує поняття. Повне зображення можна записати у вигляді довгого бінарного вектора, розмірність якого дорівнює загальному числу детекторів. Код кожного поняття має таку ж розмірність. При цьому значущими у такого коду є тільки ті розряди, які відповідають місцем поняття на зображенні. Місце на зображенні можна сприймати, як маску, застосовуючи яку до повного коду зображення можна отримати код поняття (малюнок нижче). У результаті код кожного поняття буде містити велику кількість нулів і відносно невелике число одиниць.

Приклад положення (маски) значущих біт поняття в загальному довгому коді. Місце поняття виділено сірим

Відповідно, при такому кодуванні межа однієї і тієї ж орієнтації набуває різний код залежно від її позиції на зображенні. Різним позиціям кордону незмінною орієнтації відповідають різні поняття. Ми можемо вибрати області (маски), що формують коди понять, так, щоб вони перетиналися між собою (малюнок нижче). Тоді ці поняття будуть мати загальні детектори. Це означає, що якщо в області перетину будуть загальні одиниці, то вони будуть спільними для обох понять. Це дає дуже цікавий ефект.

Близькі за змістом поняття, виявляються схожі за своїм бінарним кодом. Скалярний твір кодових бінарних векторів у таких понять буде тим більше, чим ближче один до одного ці поняття. Причому близькість понять при такому підході не враховується у двовимірному просторі «координати на зображенні», а в тривимірному просторі «координати на зображенні — орієнтація кордону». Тобто при визначенні близькості понять їх код автоматично враховує і їх близькість на площині зображення, і близькість їх орієнтацій.


Перетин просторових областей двох понять і спільні для них елементи опису

У сітківці ссавців виділяють до 20 різних типів гангліозних клітин, що відрізняються своєю реакцією на локальний контраст, напрям і швидкість руху, колір (Wässle H, Peichl L, Boycott BB (1981) Dendritic territories of cat retinal ganglion cells. Nature 292: 344-345) (DeVries SH, Baylor DA (1997) Mosaic arrangement of ganglion cell receptive fields in rabbit retina. J Neurophysiol 78: 2048-2060). Всі ці клітини створюють рівномірне покриття сітківки. Відповідно, можна говорити про те, що сітківка одночасно формує два десятки описів, які передаються в мозок (Rodieck RW (1998) The first steps in seeing. Sinauer, Sunderland MA). У це кодування включається докладна інформація про формі і кольорі видимих оком об'єктів. При цьому сигнал, що передається по одному аксонными волокну, несе вкрай «неточну інформацію, так як відноситься до ганглиозной клітини, має широкий діапазон сприйняття. Сукупність сигналів, що належать до однієї галузі, дозволяє цю неточність і створює код, який вже досить чітко описує, наприклад, кут локального контрасту, видимий колір або інформацію про рух об'єкта.

Сигнал гангліозних клітин формується за рахунок взаємодії горизонтальних, біполярних і амакриновых клітин сітківки. Виділяючи певні властивості зображення, вони транслюють це сигнали гангліозних клітин. При цьому можна припустити, що одні і ті ж гангліозних клітини можуть брати участь відразу в декількох системах кодування. У цьому випадку двійкові коди, що відносяться до різних описах, що накладаються один на одного, що при достатній розрядності і розрідженості кодування не заважає впевнено відновлювати вихідні сигнали. Це може пояснити походження спонтанних спайків, що спостерігаються, наприклад, у on і off клітин при відсутності характерного для них стимулу. Ці спонтанні спайки можуть бути, наприклад, фрагментом коду, що вказує на яскравість або колір того, що знаходиться зараз у цій області.

Колірний зір засноване на тому, що на сітківці випадковим чином розподілена мозаїка з колб, різних за своєю колірної чутливості. Розрізняють колбочки сприйнятливі до довгих (L-cone), середнім (M-cone) і коротким (S-cone) світловим хвилям (Kaiser PK, Boynton RM: Human color vision, edn 2. Washington, DC: Optical Society of America; 1996.). Приклад розподілу колірних колбочок у центральній ямці очі показаний на малюнку нижче. Центральна ямка володіє найбільшою гостротою зору і складається практично повністю з колбочок, чутливих до кольору, але потребують більшої освітленості, ніж палички. З цієї причини при слабкому освітленні центральна ямка сліпне.


Розподіл колірних колбочок у центральній ямці очі (Девід Хьюбел «Око, мозок, зір»)

Спектральний склад світла — це опис його інтенсивності на різних частотах. Освітлення якої-небудь області сітківки викликає відповідь розташованих в цій області паличок і колбочок. Характер відповіді колбочок залежить від спектральних характеристик падаючого світла і типу самих колбочок. Сигнали колбочок носять градуальный характер. Спільна обробка сигналів декількох колбочок з різними колірними уподобаннями служить основою для формування відповідної реакції їм ганглиозной клітини.


Три типи чутливості колбочок

Самі колбочки поділяються всього на три фіксованих типу за своєю спектральної чутливості (малюнок вище). Але за рахунок додавання сигналів колбочок у різних пропорціях, можна отримати різні характеристики спектральної чутливості гангліозних клітин.

Якщо джерело світла монохромний, то чутливість ганглиозной клітини до кольору може бути описана діапазоном частот світла, які викликають відповідь клітини. Якщо спектр світла має складну форму, то, мабуть, можна говорити про певний інтегрування сигналу в діапазоні чутливості ганглиозной клітини. Як результат можна припустити, що гангліозні клітини є детекторами, срабатывающими в певному, своє для кожної клітини, діапазоні частот і амплітуд умовного монохроматичного сигналу. Тоді візерунком активності групи компактно розташованих чутливих до кольору гангліозних клітин можна досить точно закодувати колір в тому місці сітківки, де розташовані ці клітини. Такий код буде мати властивості кодів Грея, тобто близький за умовної частоті колір буде закодований близьким за своїм малюнком візерунком активності. Таке кодування особливо цікаво тим, що дозволяє не просто передавати інформацію про кольорі, але і формує уявлення про колірної послідовності. Виникає «спадкоємність» колірних кодів, ми отримуємо не просто набір кольорів, а веселку в якій кольори йдуть в знайомому нам порядку.

Таким чином, одні і ті ж гангліозних клітини можуть кодувати відразу кілька видів описів: різкі межі, тонкі лінії і їх кінці, градієнти яскравості, кольору заливки, колірні градієнти. Для кордонів, ліній і градієнтів код враховує не тільки їх місце на сітківці, але і кут.

Можна припустити деяку оптимізацію в передачі таких кодів по зоровому нерву. Наприклад, щоб не втратити інформацію при накладанні декількох досить щільних кодів один на одного, можна передавати їх з невеликим часовим зміщенням. Тоді в межах одного кадру» одна ганглиозная клітка, потенційно, може спрацювати кілька разів, що створить відчуття частотного кодування.

Описаний механізм дозволяє закодувати і передати всі деталі зображення, але чудес не буває. Через вбудовану в код здатність порівнювати доводиться розплачуватися деякими збільшенням розрядності двійкового вектора. З урахуванням цього один мільйон нервових волокон, що йдуть з одного очі — це досить мало для передачі «хорошою» реалістичної картинки. Це обходиться за рахунок того, що око не передає однаково чітко всю картинку. Для гангліозних клітин, що лежать на периферії, розмір рецептивних полів в десяток разів перевищує розміри полів в центральній ямці. За рахунок цього ми чітко бачимо в досить вузькому полі зору. Але за рахунок того, що око постійно здійснює швидкі стрибкоподібні рухи – саккады, у нас створюється враження чіткості всій видимій картинки.

Поставте перед собою долоню і сфокусуйте зір на великому пальці (малюнок нижче). Ви виявите, що не можете сказати, скільки ще пальців на тій же руці. Аналогічно якщо ви подивитеся на будь-яке слово на моніторі і зафіксуєте погляд на його першій букві, то вже четверта від неї буква буде зовсім незначна.


Підрахунок кількості пальців

Звукове кодування
Аналогічно зорової інформації може кодуватися та аудіальна інформація. Схема вуха показана на малюнку нижче. Звукова хвиля викликає коливання барабанної перетинки, які через систему кісточок середнього вуха надходять у внутрішнє вухо, зокрема, улитку.


Схема вуха

Равлик має три спіральних каналу, заповнених рідиною (малюнок нижче). У середньому каналі розташований кортиев орган.


Схема равлик

Його добре видно на поперечному зрізі (малюнок нижче).



Сенсорами кортиева органу виступають волоскові клітини. Їх волоски вистилають поверхню кортиевого органу. Коливання рідини викликають коливання волосків. Інтенсивність цих коливань створює початкові сигнали, які потім перетворюються на нервові імпульси, які передаються далі спочатку через слуховий нерв, а потім через слухову частину переддверно-завиткового нерва.

Для слуху сенсорні клітини кортиева органу виступають аналогом колбочок і паличок зорової сітківки.

Звукова хвиля викликає біжучу хвилю в кортиевого органі, яка починається з невеликої амплітуди біля овального вікна, досягає максимуму у визначеному, що залежить від частоти звуку місці (малюнок нижче), і зникає у геликотермы (Bekesy G. Experiments in hearing. New York etc.: Mc. Grow-Hill Book Co., 1960).


Залежність положення в кортиевого органі місця з максимальною амплітудою від частоти (Eberhard Zwicker, Das Ohr als Nachrichtenempfanger, 1967)

При довжині кортиева органу в 28 мм приблизна ширина максимуму становить 4 мм (Eberhard Zwicker, Das Ohr als Nachrichtenempfanger, 1967). Тобто волоски-механорецептори спрацьовують в досить широкому діапазоні частот.

По інтенсивності спрацьовування волосків в певному місці спіралі равлики можна судити про амплітуду сигналу на цій частоті.

Важко сказати точно, але можливо, що форма каналів і взаємне розташування волосків дозволяють судити не тільки про амплітуду, але і про фазу сигналу на кожній з частот.

Активність волосків кортиевого органу містить всю інформацію, яка необхідна для подання вихідного звукового сигналу у вигляді його частотно-спектрального розкладання.

Щоб сигнали волосків давали не миттєве значення свого вигину, а відображали більш загальні характеристики сигналу необхідно певне тимчасове інтегрування. В результаті виходить досить точна аналогія з віконним перетворенням Фур'є.

На невеликому часовому інтервалі, що відповідає тимчасовому вікна, звукову інформацію можна записати як набір триплетів (частота, амплітуда, фаза). Цей набір є коефіцієнтами Фур'є розкладання і дозволяє відновити вихідний сигнал.

Тепер, якщо ввести достатній набір «широких» детекторів, що спрацьовують у певних діапазонах частот, амплітуд та фаз, то активністю таких детекторів можна досить точно передати інформацію про вихідний спектрі сигналу.

Така процедура дозволяє представити результат одиничного вимірювання спектру сигналу у вигляді бінарного вектора, який володіє вказаними вище властивостями кодів Грея. Тобто звукові зрізи «схожі» за своїм спектральним портрета «схожі» і за своїм бінарним кодом. Причому аналогічно із зором у цей код спочатку буде закладено уявлення про амплітудної, фазовою і частотною послідовності звуків.

Від «миттєвого» опису спектру нескладно перейти до бінарним опису часового інтервалу будь-якої довжини. Для цього треба збільшити кількість «широких» детекторів і ввести ще один параметр – час.

Для відліку часу буде потрібно кільцевої ідентифікатор, який буде повертатися до вихідного стану через певний часовий інтервал. Цей інтервал і буде визначати максимальну «тривалість запису».

У новому векторі кожен біт, відповідний своєму «широкому» детектора, буде спрацьовувати в деякій околиці точки, що задається зазначенням поєднання (частота, амплітуда, фаза, час). Загальний принцип залишиться колишнім. Окремий біт буде говорити про деякому діапазоні значень, але сукупність бітів буде давати код, досить точно описує саме значення.

Таке кодування не сильно відрізняється від кодування зображень. Часова розгортка спектру створює картинку, де амплітуда відповідає яскравості. Правда, ще додається «невидима» на картинці фаза.

Якщо зобразити спектральну картину звуку, виконати описане кодування, а потім з нього відновити звучання і подивитися його картину, то ці картини очікувано будуть схожими (малюнок нижче).


Картина вихідного звуку (зверху), картина відновленого після бінарного кодування звуку (знизу) (Дмитро Кашицин)

Нижче звучання двох звукових фрагментів. Один – це початковий звук, інший – його відновлення після описаного кодування.
Вихідний звук.
Відновлений звук.

Кодування звуку «в лоб» через детектори (частота, амплітуда, фаза, час) наведено для прикладу. Еволюція неминуче провела оптимізацію і знайшла оптимальне для звуку подання. Зорова інформація кодується оком не описом яскравості окремих областей, а кодами кордонів з їх спрямуванням, градієнтів з напрямком і ступенем самого градієнта, кодами тонких ліній з їх напрямком і тому подібним. Тобто, тими елементами, які найбільш показові для реальних картинок і створюють оптимальний базис для опису. Напевно, щось подібне притаманне і вуха. Хитра форма каналів равлики і кортиева органу дозволяє припустити, що волоски-детектори, які реагують не тільки на частоти, амплітуди і фази, але і на більш складні складові звукового сигналу. Наприклад, на спектральну складову певної частотної ширини йде у висхідному або низхідному напрямку по частоті, яка лунає з підвищенням або пониженням гучності.

Найцікавіше, що кодування таких складних речей виявляється не особливо складно. Досить створити детектори, що спрацьовують кожен в певному діапазоні параметрів, все інше виникне сама. Причому отриманий код буде мати властивості кодів Грея у «всіх напрямів зміни сигналу. Буде спадкоємність коду в напрямку частоти, амплітуди, фази, часу.

Особливості кодування
Описаний механізм отримання бінарних кодів з зображення і звуку дозволяє створювати бінарне опис вихідної інформації, точність якого визначається шириною зазору» між «широкими» детекторами. Саме вона задає похибка отриманого опису.

Таке кодування виявляється дуже зручно для порівняння між собою різних описів. В самому описі виявляється зашифрована вся необхідна інформація про близькість схожих об'єктів.

Раніше ми вже говорили про складність, з якою стикаються згорткові мережі, коли намагаються зіставити два дуже чітких зображень. Найменший зсув приводить до того, що збіг виявляється нульовим (рисунок нижче зліва). Щоб побороти це використовується розмивання обох зображень, тоді невелике зміщення вже не виявляється настільки критичним (малюнок нижче (праворуч)).

Розмивання, по суті, задає для кожної точки параметри розрахунку її близькості до інших точок. Перетинаються розмивання – є близькість, не перетинаються – ні. Радіусом розмивання можна регулювати відстань, на яку поширюється уявлення про близькості.


Одиничне зміщення призводить до повної відсутності збігу (ліворуч). Аналогічна ситуація після розмиття дає істотне збігу (праворуч) (Fukushima K., 2013)

Просте розмивання зображення розмиває відразу все: і положення, і на кути, і градієнти, і кольори – все стає менш різким. Описане бінарне кодування дозволяє «розмивати» кожен з параметрів окремо від інших, тим самим значно підвищуючи осмисленість порівняння.

Зв'язок з узагальненням
На прикладі сітківки і кортиевого органу хотілося показати, що існують механізми, які дозволяють перевести будь-зоровий або звуковий образ в простір бінарних кодів таке, що при цьому не тільки зберігається інформація про початковому образі, але і сам код закладається уявлення про структуру близькості елементів вихідного опису. У таких бінарних кодів є все, що потрібно для порівняння образів, що враховує ступінь близькості елементів опису.

Вийшло кодування виявляється багатовимірним і враховує ступінь близькості елементів опису по різним вимірам.

Якщо для вихідного опису ввести окремі поняття, то нескладно отримати двійкові коди цих понять. При цьому виявиться, що семантичний граф, який враховує та близькість цих понять, і ієрархію їх взаємного входження, повністю визначається отриманої системою бінарних кодів. Тобто при маніпуляції такими поняттями не потрібно окремо зберігати або передавати систему семантичних відносин – все що необхідно вже є в самих кодах.

Коли йшла розмова про узагальненнях, ми говорили, що хотілося б мати систему узагальнених понять не просто як набір самостійних елементів, а як систему, що враховує всі взаємовідносини цих узагальнень. Далі буде показано, що ідеї описаного в цій частині кодування можна використовувати і в механізмі універсального узагальнення.

Про розробників

Моделювання сітківки виконано Дмитром Шабановим, як частина проекту з моделювання системи зорового сприйняття. Моделювання звукового кодування виконано Дмитром Кашициным.

Олексій Редозубов

Логіка свідомості. Частина 1. Хвилі в клітинному автоматі
Логіка свідомості. Частина 2. Дендритні хвилі
Логіка свідомості. Частина 3. Голографічна пам'ять на клітинному автоматі
Логіка свідомості. Частина 4. Секрет пам'яті мозку
Логіка свідомості. Частина 5. Смисловий підхід до аналізу інформації
Логіка свідомості. Частина 6. Кора мозку як простір обчислення смислів
Логіка свідомості. Частина 7. Самоорганізація простору контекстів
Логіка свідомості. Пояснення «на пальцях»
Логіка свідомості. Частина 8. Просторові карти кори мозку
Логіка свідомості. Частина 9. Штучні нейронні мережі і мініколонкі реальної кори
Логіка свідомості. Частина 10. Завдання узагальнення
Логіка свідомості. Частина 11. Природне кодування зорової і звукової інформації
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.