Логіка свідомості. Частина 7. Самоорганізація простору контекстів


Раніше ми говорили про те, що будь-яка інформація має як зовнішню форму так і внутрішній зміст. Зовнішня форма — це те, що саме ми, наприклад, побачили або почули. Сенс — це те, яку інтерпретацію цього ми дали. І зовнішня форма, і зміст можуть бути описами, складеними з певних понять.

Було показано, що якщо опису задовольняють ряду умов, то давати їм інтерпретацію можна, просто замінюючи поняття вихідного опису на інші поняття, застосовуючи певні правила.

Правила трактування залежать від тих супутніх обставин в яких ми намагаємося дати інтерпретацію інформації. Ці обставини прийнято називати контекстом, в якому трактується інформація.

Кора мозку складається з нейронних миниколонок. Ми припустили, що кожна миниколонка кори — це обчислювальний модуль, який працює зі своїм інформаційним контекстом. Тобто кожна зона кори містить мільйони незалежних обчислювачів сенсу в яких одна і та ж інформація отримує свою власну трактування.

Був показаний механізм кодування і зберігання інформації, який дозволяє кожній миниколонке кори мати свою повну копію пам'яті про всіх попередніх подіях. Наявність власної повній пам'яті дозволяє кожній миниколонке перевірити наскільки її інтерпретація поточної інформації узгоджується з усім попереднім досвідом. Ті контексти, в яких трактування виявляється «схожа» на щось раніше знайоме складають набір смислів, що містяться в інформації.

За один такт своєї роботи кожна зона кора перевіряє мільйони можливих гіпотез щодо того, як можна трактувати інформацію, що надходить, і вибирає найбільш осмислені з них.

Щоб кора могла так працювати необхідно заздалегідь сформувати на ній простір контекстів. Тобто, виділити всі ті набори обставин», які впливають на правила трактування.

Наш мозок виник в результаті еволюції. Його загальна архітектура, принципи роботи, система проекцій, структура зон кори — все це створено природним відбором і закладено в геном. Але далеко не все можна і має сенс передавати через геном. Деякі знання повинні здобуватися живими організмами самостійно вже після їх народження. Ідеальна адаптація до навколишнього середовища не в тому, щоб спадково зберігати правила на всі випадки життя, а у вмінні навчатися і самим знаходити оптимальні рішення в будь-яких нових обставин.

Контексти — це як раз ті самі знання, що повинні формуватися під впливом зовнішнього світу і його законів. У цій частині ми опишемо як можуть створюватися контексти і то, як вже всередині простору контекстів може відбуватися подальша самоорганізація.

Для кожного типу інформації працюють свої «трюки», які дозволяють сформувати простір контекстів. Опишемо два найбільш очевидних прийому.

Створення контекстів при наявності прикладів
Припустимо, що є вчитель, який дав нам якісь описи і показав, як їх треба тлумачити. При цьому він не просто дав правильну інтерпретацію, але й пояснив, як вона отримана, тобто які поняття у що перейшли при трактуванні. Таким чином, для кожного прикладу нам стали відомі правила трактування. Щоб з цих правил створити контексти їх треба об'єднати в групи так, щоб, з одного боку, цих груп було якомога менше, а з іншого боку, щоб правила межах однієї групи не суперечили один одному.

Наприклад, у вас є пропозиції та їх переклади на іншу мову. При цьому є зіставлення того, які слова як переводяться. Для різних пропозицій може виявитися, що одні і ті ж слова будуть перекладатися по-різному. Завдання — знайти такі смислові області, вони ж контексти, в яких правила переказу будуть стійкі і однозначні.

Запишемо це формально. Припустимо, що у нас є пам'ять M, що складається з прикладів виду «опис – пояснення – правила перетворення».




Опис і його трактування пов'язані між собою правилами перетворень r. Правила говорять про те, як з вихідного опису була отримана його трактування. У найпростішому випадку правила перетворення можуть бути просто набором правил заміни одних понять на інші




Тобто правила перетворення – це набір трансформацій «вихідне поняття – поняття " інтерпретація». У більш загальному випадку одне поняття може перейти в кілька або кілька понять можуть перетворитися в одне, або один опис з декількох понять може перейти в інше складне опис.


Введемо наступні функції узгодженості для двох правил перетворень. Кількість співпадаючих трансформацій


Кількість протиріч


Кількість протиріч показує скільки присутній трансформацій, в яких одна й та сама вихідна інформація перетворюється правилами по-різному.

Тепер, вирішимо задачу кластеризації. Розіб'ємо всі спогади на мінімальну кількість класів з тією умовою, що всі спогади одного класу не повинні суперечити один одному своїми правилами перетворень. Отримані класи будуть простором контекстів {Contі|i=1⋯NCont}.

Для кожного класу-контексту будемо вважати правила перетворень R, як сукупність всіх правил для елементів, що входять в цей клас


Для необхідної кластеризації можна використовувати ідею EM (expectation-maximization) алгоритму з додаванням. EM алгоритм передбачає, що спочатку ми розбиваємо об'єкти на класи будь-яким розумним способом, найчастіше випадковим віднесенням. Вважаємо для кожного класу його портрет, який може бути використаний для розрахунку функції правдоподібності віднесення до цього класу. Потім заново перерозподіляємо всі елементи за класами, виходячи з того, який клас правдоподібніше відповідає кожному з елементів.

Якщо який-небудь елемент не виходить правдоподібно віднести ні до одного з класів, то створюємо новий клас. Після віднесення до класів повертаємося до попереднього кроку, тобто знову перераховуємо портрети класів, відповідно з тим, хто потрапив у цей клас. Повторюємо процедуру до збіжності.

У реальних випадках, наприклад в нашому житті, інформація не з'являється одномоментно відразу вся. Вона накопичується поступово по мірі набуття досвіду. При цьому, нові знання відразу включаються в інформаційний обіг разом зі старими. Можна припустити, що наш мозок використовує двоетапну обробку нової інформації. На першому етапі новий досвід запам'ятовується і може відразу бути використаний. На другому етапі відбувається співвіднесення нового досвіду зі старим і більш складна обробка цього обробка.

Можна припустити, що перший етап відбувається під час бадьорості і не заважає іншим інформаційним процесам. Другий же етап, схоже вимагає «зупинки» основний активності і переходу мозку спеціальний режим. Схоже, що таким спеціальним режимом і є сон.

Виходячи з цього, змінимо трохи класичний EM алгоритм, наблизивши його до можливої двотактною схемою роботи мозку. Будемо починати з порожнього набору класів. Будемо використовувати фазу «неспання» для отримання нового досвіду. Будемо міняти портрет кожного з класів відразу після віднесення до нього нового елемента. Будемо використовувати фазу «сну» для переосмислення накопиченого досвіду.

Функцію правдоподібності віднесення елемента пам'яті з правилами перетворень r до класу контексту з номером j виберемо


Алгоритм прийме вигляд:

  1. Створимо порожній набір класів
  2. У фазі «неспання» будемо послідовно подавати нову частину досвіду.
  3. Будемо порівнювати r складову елементів і портрети класів R. Для кожного елемента будемо вибирати класи з δ(r,Rj)=0 і серед них клас з максимальним φ(r,Rj), що відповідає


  4. Якщо класів без протиріч не виявиться, то створимо для такого елемента новий клас і помістимо його туди.
  5. При додаванні елемента до класу будемо перераховувати портрет класу R.
  6. По завершенні фази «неспання» перейдемо до фази «сну». Будемо реконсолидировать накопичений досвід. Для досвіду, отриманого під час «неспання», і для частини старого досвіду (в ідеалі для всього старого досвіду) зробимо переотнесение до класів контексту із створенням, якщо це необхідно, нових класів. При зміні віднесення будь-якого досвіду будемо міняти портрети обох класів, того звідки елемент вибув і того куди тепер віднесений.
  7. Будемо повторювати фази «неспання» і «сну», подаючи новий досвід і реконсолидируя старий.
Пошук правил перетворення для фіксованих контекстів
Описаний вище механізм створення контекстів підходить для навчання, коли вчитель пояснює зміст фраз і при цьому вказує трактування для кожного з понять. Інший варіант створення контекстів пов'язаний з ситуацією, коли для навчальних прикладів відомо контекстне перетворення і є два інформаційних опису, відповідні вихідної інформації і її трактуванню. Але при цьому невідомо, який саме з понять у що перейшло.

Саме така ситуація виникає, наприклад, під час навчання первинної зорової кори. Швидкі, стрибкоподібні рухи очей називаються саккадами і микросаккадами. До і після стрибка око бачить одну й ту саму картинку, але в різному контексті зсуву. Якщо скачок певної амплітуди і напрямки зіставити з певним контекстом, то питання буде в тому за якими правилами змінюється будь зорове опис в цьому контексті? Очевидно, що маючи достатній набір пар «вихідна картинка — картинка після зсуву», що належать до однакових зміщень, можна побудувати універсальний набір правил трансформації.

Інший приклад. Припустимо ви хочете дізнатися переклад на іншу мову якого-небудь слова в певному контексті. У вас є набір речень, в деяких з яких є це слово. І є переклади всіх цих пропозицій. Пари «пропозицію — переклад» заздалегідь розбиті на контексти. Це означає, що для всіх переказів, що відносяться до одного контексту, це слово перекладається однаково. Але ви не знаєте яке саме слово в перекладах відповідає тому, що ви шукайте.

Завдання з перекладом вирішується дуже просто. Вам треба в тому контексті в якому шукається переклад відібрати ті пари «пропозицію — переклад» у яких є шукане слово і подивитися, що спільне є у всіх перекладах. Це загальне і буде шуканим перекладом слова.

Формально це можна записати так. У нас є пам'ять M, що складається зі спогадів виду «опис – пояснення – контекст».




Опис і його трактування пов'язані між собою правилами перетворень Rj, які нам невідомі. Зате нам відомий номер контексту Contі в якому здійснені ці перетворення.

Тепер, припустимо, що в поточному описі нам зустрівся інформаційний фрагмент Iorig і у нас є номер контексту j в якому ми хочемо отримати трактування цього опису Itrans.

Виберемо з пам'яті M підмножина елементів M' таких, що їх контекстне перетворення збігається з j і у вихідному описі міститься фрагмент Iorig, перетворення для якого ми хочемо знайти


У всіх перетвореннях Iintі буде міститися фрагмент шуканого нами перетворення (якщо контекст не припускає таке перетворення). Наша задача зводиться до визначення такого максимального по довжині опису, який присутній у всіх трактуваннях елементів множини M'.

Цікаво, що ідеологія знаходження такого опису збігається з ідеологією алгоритмів для квантових обчислень, заснованої на посилення необхідної амплітуди. В описах Iintі безлічі M' всі інші елементи, крім шуканих, зустрічаються випадковим чином. Це означає, що можна організувати інтерференцію описів так, щоб потрібна інформація посилювалася, а непотрібна интерферировала випадково і гасила один одного.

Щоб виконати «фокус» з підскоком амплітуди вимагає, щоб дані були представлені відповідним чином. Нагадаю, що ми використовуємо для кодування кожного поняття розряджений бінарний код. Опису з декількох понять відповідає бінарний масив, який отримується при логічному складання двійкових кодів входять в опис понять.

Виявляється, що якщо взяти бінарні масиви, відповідні трактувань і виконати з ними «інтерференції», пов'язану з посиленням потрібного нам коду, то в результаті вийде бінарний код необхідного нам перетворення.

Припустимо, що M' містить N елементів. Зіставимо кожному опису Iint бітовий масив b m біт, отриманий з логічного додавання кодів входять в опис понять. Сформуємо масив амплітуд A розмірності m


При збільшенні кількості прикладів N корисні елементи коду залишаться рівними 1 (або близько 1 якщо дані містять похибка), непотрібні елементи зменшаться до величини, рівної ймовірності випадкового появи одиниці в коді опису. Зробивши відсікання по порогу, гарантовано долає випадковий рівень (наприклад, 0.5), ми отримаємо шуканий код.

Корельовані контексти
Зазвичай, при визначенні змісту інформації виявляється, що в просторі контекстів, виникає досить багато високих значень функції відповідності. Це обумовлено двома причинами. Перша причина – наявність в інформації кількох смислів. Друга причина – впізнавання в контекстах, близьких до основного.

Припустимо, що в пам'яті зберігаються еталонні зображення цифр. Для простоти припустимо, що образи у пам'яті відцентровані і приведені до одного масштабу. Знову ж таки, для простоти припустимо, що подаються на зображеннях цифри співпадають з еталонними, але можуть перебувати в довільних місцях. У такій ситуації впізнавання цифр на картинці зводиться до розгляду описів у різних контекстах зміщень по горизонталі і вертикалі. Простір контекстів можна зобразити так, як показано на малюнку нижче. Кожному контексту, який позначений кружечком, відповідає певне зміщення, застосовуване до розглянутої картинці.


Простір контекстів горизонтального і вертикального зміщення (зміщення наведено в умовних одиницях)

Подамо зображення з двома буквами A та B (малюнок нижче).

Зображення з двома літерами

Кожна з букв буде пізнана в тому контексті, який приводить її до відповідного еталона, який зберігається в пам'яті. На малюнку нижче найбільш прийнятний для букв контекст виділений червоним.


Простір контекстів. Кольором виділені контексти з високим значенням функції відповідності

Але алгоритм визначення відповідності може бути побудований так, що відповідність, в тій чи іншій мірі, буде визначатися не тільки при точному збігу, але і при сильній схожості описів (такі заходи будуть показані пізніше). Тоді певний рівень функції відповідності буде не тільки в найбільш відповідних контекстах, але і в контекстах, близьких до них за правилами перетворень. При цьому близькість увазі не кількість збіглися правил, а якусь близькість одержуваних описів. У тому сенсі, що два правила, які переводять одне і те ж поняття, у різні, але близькі поняття – це два різних правила, але, при цьому, два близьких перетворення. Близькі контексти показано на малюнку вище рожевим кольором.

Після виділення сенсу у вихідному зображенні, ми очікуємо отримати опис виду: літера A в контексті зсуву (2,1) і літера B в контексті зсуву (-2,-1). Але для цього треба залишити всього два головних контексту, тобто позбавлення від зайвих контекстів. Зайвими в даному випадку є контексти близькі за змістом до локальних максимумів, ті, що на малюнку вище позначено рожевим.

Ми не можемо при визначенні сенсу взяти глобальний максимум функцій відповідності і на цьому зупинитися. У цьому випадку ми визначимо тільки одну букву з двох. Не можемо ми орієнтуватися тільки на якийсь поріг. Може так виявитися, що рівень відповідності у другому локальному максимумі буде нижче, ніж рівень контекстів, оточуючих перший локальний максимум.

У багатьох реальних задачах контексти допускають введення певних обґрунтованих мір близькості. Тобто для будь-якого контексту можна вказати контексти схожі на нього. У таких ситуаціях повне визначення сенсу стає неможливо без урахування цієї взаємної подібності.

У наведеному прикладі ми не зобразили контексти як окремі незалежні сутності, а розташували їх на площині таким чином, що близькість точок, що відтворюють контекст, стала відповідати близькості контекстних перетворень. І тоді ми змогли описати шукані контексти, як локальні максимуми на площині точки, що зображують контексти. А зайві контексти стали найближчим оточенням цих локальних максимумів.

У загальному випадку можна скористатися тим же принципом, тобто розташувати на площині або в багатомірному просторі точки, відповідні контекстів, так, щоб їх близькість найкращим чином відповідала близькості контекстів. Після цього виділення набору смислів, що містяться в інформації, зводиться до пошуку локальних максимумів в просторі, що містить точки контекстів.

Для ряду задач близькість контекстів можна визначити аналітично. Наприклад, для завдання зорового сприйняття основними контекстами є геометричні трансформації, для яких можна розрахувати ступінь їх схожості. У штучних моделях для деяких завдань такий підхід добре працює, але для біологічних систем необхідний більш універсальний підхід, що ґрунтується на самоорганізації.

Припустимо, що яким-небудь методом нам вдалося сформувати контексти. Близькими можна вважати такі контексти, функції відповідності яких реагують подібним чином на одну і ту ж інформацію. Відповідно, коефіцієнт кореляції Пірсона між функціями відповідності контекстів можна використовувати як міру схожості контекстів:


Для всієї сукупності контекстів можна обчислити кореляційну матрицю R, елементами якої будуть парні кореляції функцій відповідності.

Тоді можна описати наступний алгоритм виділення смислів в описі:

  1. В кожному з контекстів початкове опис отримує трактування та, відповідно, оцінку відповідності трактування і пам'яті.
  2. Визначається глобальний максимум функції відповідності ρmax і відповідний максимуму контекст-переможець.
  3. Якщо ρmax перевершує поріг відсікання L0, то формується один із смислових значень, як трактування в контексті-переможця.
  4. Активність (значення функцій відповідності) всіх контекстів кореляція з якими, виходячи з матриці R, перевищує деякий поріг L1 пригнічується.
  5. Процедура повторюється з кроку 2 до тих пір, поки ρmax не опуститься нижче порогу відсікання L0.
В результаті ми отримуємо всі незалежні смислові трактування і позбавляємося від менш точних, але близьких до них за змістом інтерпретацій.

У згорткових нейронних мережах згортка по різних координатах аналогічна розгляду зображення в різних контекстах зміщення. Використання набору ядер для згортки аналогічно наявності різних спогадів. Коли згортка з якогось ядра в певному місці показує високе значення, в сусідніх простих клітинах, відповідальних за згортку з того ж ядра в сусідніх координатах, теж виникає підвищене значення, що утворює «тінь» навколо максимального значення. Причина цієї «тіні» аналогічна причини, що викликає підвищення функції відповідності в околиці контексту з максимальним значенням.

Щоб позбутися дублюючих значень і знизити розмір мережі використовується процедура max-pooling. Після шару згортки простір зображення розбивається на непересічні області. У кожній області вибирається максимальне значення згортки. Після чого виходить шар меншого розміру, де за рахунок просторового огрублення ефект «тіньових» значень значно слабшає.

Просторова організація
Матриця кореляцій R, визначає схожість контекстів. У наших припущення кора мозку – це розміщені на площині мініколонкі, кожна з яких є процесором певного контексту. Бачиться цілком доречним розмістити мініколонкі не випадковим чином, а так, щоб схожі контексти розташовувалися максимально близько один до одного.

Для такого розміщення є кілька причин. По-перше, це зручно для пошуку локальних максимумів в просторі контекстів. Власне, саме поняття локальний максимум застосовно тільки до набору контекстів у яких є певна просторова організація.

По-друге, це дозволяє «запозичувати» трактування. Може виявитися, що пам'ять певного контексту не містить трактування для якого-небудь поняття. У такому випадку можна спробувати скористатися трактуванням якоїсь близької за змістом контексту, у якого ця трактування є. Є й інші дуже важливі причини, але про них ми поговоримо пізніше.

Завдання розміщення на площині, виходячи з подібності, близька до задачі укладання зваженого неорієнтованого графа. У зваженому графі ребра не тільки задають зв'язку між вершинами, але і визначають ваги цих зв'язків, які можна трактувати, наприклад, як міру близькості цих вершин. Укладання графа – це побудова такої його зображення, яке найкращим чином передати міру близькості, задану вагами ребер, через відстань між вершинами зображеного графа.

Для вирішення цієї задачі використовується пружинний аналогія (Eades P., A heuristic for graph drawing, Congressus Nutnerantiunt – 42, pp. 149-160. – 1984.). Зв'язку між вершинами представляються пружинами. Сила натягу пружин залежить від ваги відповідного ребра і відстані між сполучуваними вершинами. Щоб вершини не впали в одну точку додається сила відштовхування, що діє між усіма вершинами.

Для отриманої пружинної системи можна записати рівняння потенційної енергії. Мінімізація енергії відповідає знаходженню необхідної укладання графа. На практиці ця задача вирішується або моделюванням руху вершин під дією виникаючих сил, або рішенням системи рівнянь, що виникають при запису умов мінімізації енергії (Kamada, T., Kawai, S., An algorithm for drawing general undirected graphs, Information Processing Letters, Vol. 31. – pp. 7-15. – 1989).


Візуалізація графа пов'язаності сторінок вікіпедії, побудована під дією спрямованих сил

Певним аналогом укладання графа для випадку клітинних автоматів є модель сегрегації Шеллінга (The Journal of Mathematical Sociology Volume 1, Issue 2, 1971. Dynamic models of segregation Thomas C. Schelling pages 143-186). У цій моделі клітини автомата можуть приймати значення різних типів (квітів) або бути порожніми. Для заповнених клітин розраховується функція задоволеності, яка залежить від того наскільки оточення клітини схоже на саму клітину. Якщо задоволеність виявляється занадто низькою, то значення цієї клітини переміщається в будь-яку вільну клітину. Цикл повторюється поки стан автомата не стабілізується. В результаті, якщо параметри системи це дозволяють початковий випадковий безлад змінюється островами, що складаються із значень одного типу (малюнок нижче). Моделі сегрегації використовуються, наприклад, для моделювання розселення людей з різними доходами, вірою, расс і тому подібним.




Початкове і кінцеве стан сегрегації при чотирьох кольорах

Ідею мінімізації енергії графа і принцип сегрегації клітинного автомата можна з деякими змінами застосувати для просторової організації контекстів. Можливий наступний алгоритм:

  1. Визначаємо контексти, характерні для інформації, що надходить.
  2. Визначаємо матрицю взаємних кореляцій контекстів.
  3. Випадковим чином розподіляємо контексти по клітинам клітинного автомата, розмір якого дозволяє вмістити всі контексти.
  4. Вибираємо випадкову клітину, що містить контекст.
  5. Перебираємо сусідні клітини, наприклад, вісім найближчих сусідів, як потенційне місце для переміщення контексту, якщо клітина порожня або для обміну контекстами якщо не пустий.
  6. Обчислюємо зміна енергії автомата в разі кожного з потенційно можливих переміщень (обмінів).
  7. Здійснюємо переміщення (обмін), яке краще всього мінімізує енергію. Якщо такого немає, то залишаємося на місці.
  8. Повторюємо з кроку 4 поки стан автомата не стабілізується.
В результаті, контексти виходять розставлені так, що схожі контексти, по можливості, виявляються поблизу один від одного. Подивитися, як відбувається така самоорганізація можна на відео нижче.



Кожна кольорова крапка на відео відповідає своєму контексту. Кожен контекст має кілька параметрів, які його визначають. Кореляція контекстів розраховується, виходячи з близькості цих параметрів. У наведеному прикладі немає створення контекстів з вихідної інформації, це, просто, ілюстрація просторової організації для випадку, коли кореляції між контекстами вже розраховані заздалегідь. Програма, що ілюструє самоорганізацію методом перестановок, доступна посилання.

У наведеному прикладі контексти відповідають всіляких комбінацій чотирьох параметрів. Перший параметр є кільцевим, два параметра лінійні, четвертий приймає два значення. Це відповідає контекстів, які можна використовувати для аналізу зображень. Перший параметр описує поворот, другий і третій зміщення по горизонталі і вертикалі, відповідно, четвертий параметр говорить про те до якого ока відноситься інформація.

Кожному параметру зіставлений колірний спектр. По близькості кольорів в спектрі можна судити про близькість значень параметра. У прикладі кожен контекст має чотири значення. Тобто, своє значення для кожного з параметрів і, відповідно, свій колір в кожному з них. В квадратах показано кольору контекстів в кожному з параметрів. Всі кольорові картинки показують одні й ті контексти, але в кольорах різних параметрів (малюнок нижче).


Результат самоорганізації для контекстів з чотирма незалежними параметрами

Суть просторового впорядкування в тому, що контекстів у процесі переміщення доводиться знайти компроміс між усіма параметрами. У прикладі на відео цей компроміс досягається за рахунок того, що лінійні параметри вибудовують лінійне поле. Тобто контексти встають так, що формують якесь відповідність координатної сітки. До речі, саме так були розставлені контексти на прикладі вище, коли ми говорили про впізнавання букв.

Для кільцевого параметра повороту по всій поверхні сформувалися групи, що містять по повному набору кольорів. У зоровій корі такі конструкції називають «вертушками» або «дзиґами». Як виглядають «вертушки» у первинній зоровій корі показано на головній картинці. Детальніше про це та четвертому квадраті з колонками глазодоминантности буде розказано в наступній частині.

В залежності від того на скільки інтервалів розбитий кожен з параметрів виходить різна кількість контекстів, які прагнуть неодмінно опинитися поруч. При більшому дробленні кільцевого параметра в порівнянні з лінійними може вийти картина, коли контексти вишикуються в одну велику «вертушку» (малюнок нижче). При цьому лінійні параметри сформують локальні лінійні поля, розподілені по всьому простору.


Просторова організація контекстів для випадку з трьома незалежними параметрами. Кільцевий параметр домінує і утворює глобальну «вертушку», два лінійних параметра утворюють локальні лінійні поля. Правий нижній квадрат показує елементи близькі до того, який виділений червоною крапкою

Незалежно від того до чого зійдеться процес перестановок схожі контексти виявляються переважно поруч один з одним. На малюнках нижче показані приклади такої близькості. На кожному малюнку один із контекстів виділений червоним, яскравість інших контекстів відповідає ступеня їх близькості до виділеного контексту.


Розподіл близькості контекстів по відношенню обраному

При застосуванні описаного алгоритму потрібно враховувати всі взаємні кореляції контекстів. Самі кореляції можна зобразити як зв'язку клітин автомата. Кожна клітина виявляється пов'язана з усіма іншими клітинами. Кожна зв'язок відповідає за парну кореляцію тих клітин, між якими вона проходить. Можна значно зменшити кількість зв'язків якщо скористатися методом Barnes-Hut (Barnes J., Hut P., A hierarchical O(N log N) force-calculation algorithm. Nature, 324(4), December 1986). Його суть полягає в заміні впливу видалених елементів на вплив квадрантів, що включають ці елементи. Тобто, видалені елементи можна об'єднувати в групи і розглядати їх як один елемент з усередненими для групи відстанню і усередненої силою зв'язку. Такий метод особливо добре працює для розрахунку взаємного тяжіння зірок у зоряних скупченнях.


Просторові квадранти, замінюють окремі зірки

Маючи організовану подібним чином карту контекстів, можна дещо спростити рішення задачі пошуку локальних максимумів. Тепер кожен контекст потрібно зв'язати з іншими схожими контекстами, розташованими поблизу від нього і з острівцями схожих контекстів, віднесених на деяку відстань. Довжина таких зв'язків після просторової організації буде менше, ніж до організації, так як саме такий критерій лежав в основі розрахунку енергії системи.

Вигода просторової організації
Повернемося до прикладу з перекладом. Контести — це смислові області в яких діють загальні правила переказу. Розставивши контексти просторово, ми отримуємо суміжні в просторі групи контекстів, відносяться приблизно до однієї тематики. Всередині групи кожен з окремих контекстів висловлює тонкощі перекладу в певному уточненому сенсі.

Скільки всього треба контекстів? Здавалося б, чим більше тим краще. Чим більше доступно контекстів, тим більше деталей і відтінків сенсу можна врахувати при виборі перекладу. Але зворотна сторона деталізації — це дроблення досвіду трактувань. Щоб знати правила перекладу для будь-яких слів у конкретному контексті треба мати досвід їх перекладу саме в цьому контексті. Кожен приклад перекладу дає нам набір правил перекладу. Якщо віднести ці правила до якогось одного контексту, який виявився найбільш вдалим, то вони виявляться недоступними для інших контекстів.

Просторова організація та кореляційні зв'язки дозволяють для будь-якого обраного контексту зрозуміти які контексти близькі йому за змістом. Це означає, що якщо в обраному контексті відсутній власний досвід перекладу, то можна скористатися досвідом перекладу сусідніх близьких за змістом контекстів, якщо такий досвід є там.

Звернення до досвіду сусідів дозволяє шукати компроміс між деталізацією контекстів і дробленням досвіду. Для переведення це може виглядати так, що група контекстів, що належать до спільної тематики і розташованих поблизу один від одного, спільно зберігає правила перекладу для цієї предметної області. При цьому кожен окремий контекст містить певні власні уточнення, що відображають нюанси сенсу.

Крім того, обмеженість числа доступних контекстних модулів в реальних задачах вимагатиме пошуку найкращого наближеного рішення. У цьому може сильно допомогти той факт, що сама просторова карта контекстів багато в чому враховує специфіку оброблюваної інформації.

Ще одна вигода просторової організації полягає у можливості робити кілька справ одночасно». Розмова не йде про те, що ми можемо, наприклад, одночасно вести машину і розмовляти по телефону. Якщо для цього задіяні різні зони кори, то нічого дивного в цьому немає. Але все стає цікавіше, коли нам доводиться розмовляти з ким-то і думати про щось своє або розмовляти відразу на дві різні теми з різними співрозмовниками, або, як Цезар, писати і одночасно говорити на іншу тему. Виходить, що одні і ті ж зони кори змушені працювати відразу з декількома інформаційними потоками.

Мабуть, кожен помічав на собі, що поєднувати справи або думки вдається тільки тоді, коли вони досить сильно різняться за змістом. Як тільки сенс починає перетинатися починається або плутанина, або одна думка повністю витісняє іншу.

В нашій моделі поєднання інформаційних потоків можна пояснити їх рознесенням на просторі контекстів. Поки кожен із сенсів обробляється в своєму місці нічого страшного не відбувається. Зближення ж смислів і, відповідно, контекстів робить неможливим поєднання.

На практиці при зближенні смислів може статися так звана «перевантаження мозку», коли людина впадає в трансовое стан, втрачає власну думку і перестає себе контролювати. На такому ефекті засноване так званий «циганський гіпноз».

Якщо кілька людей почнуть одночасно говорити щось своє, швидше за все, на вас це не зробить особливого враження. Найімовірніше, ви сконцентруєтеся на комусь одному і будете стежити за його думкою. Спроба почути одночасно всіх, навряд чи щось дасть. Ви почуєте обривки фраз і швидше за все кинете це заняття.

Але коли вас оточує натовп циган, ситуація змінюється. Ви настораживаетесь і намагаєтеся контролювати ситуацію. Ви намагаєтеся зрозуміти все, що вам говорять. Як правило, всі цигани «б'ють» в одну тему. «Центрова» циганка починає говорити про ваше майбутнє, пророкувати, попереджати або погрожувати. Інші вторять їй і кажуть, щось співзвучне. У цей момент у більшості людей настає транс. Прокинувшись поза оточення циган людина виявляє пропажу гаманця, годин і впевненості у власній нормальності.

Адаптивний розрахунок кореляцій. Роль синаптичної пластичності
В процесі просторової організації і при самому визначенні сенсу необхідно знання взаємної подібності контекстів, яке може бути визначено через кореляцію активності функцій відповідності. Кореляційний аналіз побудований на припущенні про те, що випадковий стаціонарний процес з часу, тобто усереднення по безлічі реалізацій еквівалентно усереднення за часом. Так як здобуття нового досвіду змінює самі контексти, а значить і їх функції відповідності, то виходить краще не використовувати для розрахунку кореляцій весь набір спостережень, а виходити тільки з відносно недавньої їх частини. Такий підхід, зокрема, використовується в економіці для короткострокового адаптивного прогнозування часових рядів, коли закономірності можуть мати локальний тимчасовий характер.

Для розрахунку кореляції, який враховує в основному останні N активних спостережень, можна використовувати адаптивну схему. Введемо поріг відсікання L0 і порогову функцію:


Будемо при появі нового досвіду міняти кореляцію між двома контекстами тільки якщо хоча б у одного з них функція відповідності подолала поріг L0. Якщо обидві функції подолали поріг, то будемо збільшувати кореляцію, якщо тільки одна, то зменшувати.

Для зручності запису введемо малу величину:


Кореляція Пірсона розраховується за формулою:


Кожен з елементів, задіяних в розрахунку, може бути адаптивно перерахований при появі нового досвіду. Для функцій відповідності контекстів з номерами i та j можна записати



Якщо хоча б одне із значень, x або y відмінно від нуля, то виконуємо перерахунок


Така кореляція буде прагнути до одиниці, якщо контексти завжди активуються спільно і до нуля, коли цей процес випадковий. У відповідності з таким адаптивним розрахунком можуть формуватися ваги зв'язків, що з'єднують контексти.

Синаптична пластичність
Посилення сили зв'язку між контекстами в момент їх спільного спрацьовування дуже нагадує правило Хеба (Hebb D. O. — The Organization of Behavior. John Wiley & Sons, New York, 1949). У відповідності з ним нейрони, що спрацьовують разом, посилюють силу зв'язку між собою.

Якщо формальний нейрон працює як лінійний суматор, то його вихід є зваженою сумою його входів


Правило Хеба для такого нейрона має вигляд


Де n – дискретний крок по часу, а η – параметр швидкості навчання.

При такому навчанні збільшуються ваги тих входів, на які подається сигнал xi(n), але це робиться тим сильніше, чим активніше реакція самого учня нейрона y(n).

При прямому застосуванні правила Хеба ваги нейронів необмежено зростають. Цього легко уникнути, якщо зажадати, щоб сума ваг кожного нейрона залишалася постійною. Тоді замість зростання ваги буде відбуватися їх перерозподіл. Одні ваги будуть збільшуватися за рахунок зменшення інших.

З урахуванням загальної нормування ваг, правило навчання Хеба приймає вигляд правила навчання Ойа (Oja, 1982)


У цій формулі xіt – стан входів нейрона, wіt – це синаптичні ваги нейрона, а yt – активність його виходу, одержувана зваженої сумація входів.

Описане вище кореляційне навчання і навчання формальних нейронів, зовні, відповідають принципу посилення зв'язків нейронів, що спрацьовують разом, але при цьому вони реалізують зовсім різні механізми. У класичному Хеббовсом навчання за рахунок зваженої сумації сигналів входів і подальшої спільної нормування ваг виникає перерозподіл ваг нейрона таким чином, що він налаштовується на певний характерний для нього стимул. В нашій моделі нічого подібного не відбувається. Суть кореляційних ваг – опис картини близькості контекстів в їх просторовому оточенні. Ваги навчаються незалежно один від одного і це ніяк не пов'язане з яким-небудь характерним стимулом. Немає при цьому і вимоги до нормування: обмеження зростання ваг виходить природним наслідком обмеженості коефіцієнтів кореляції.

Для реального мозку відоме явище синаптичної пластичності. Його суть в тому, що ефективність синаптичної передачі не постійна і може змінюватися в залежності від патерну поточної активності. Причому тривалість цих змін може сильно варіюватися і обумовлюватись різними механізмами.


Динаміка зміни синаптичної чутливості. (A) – фасилітація, (B) – посилення і депресія, (З) – посттетаническая потенція, (D) – довготривала потенція і довготривала депресія (Ніколлс Дж., Мартін Р., Валлас Б., Фукс П., 2003)

Короткий залп спайків може викликати полегшення (фасилітацію різноманітних процесів) виділення медіатора з відповідної пресинаптической терминали. Фасилітація з'являється миттєво, зберігається під час залпу і істотно помітна ще близько 100 мілісекунд після закінчення стимуляції. То ж коротке вплив може привести до придушення (депресії) виділення медіатора, що триває кілька секунд. Фасилітація може перейти у другу фазу (посилення), тривалістю, аналогічної тривалості депресії.

Тривала високочастотна серія імпульсів зазвичай називається тетанусом. Назва пов'язана з тим, що подібна серія передує тетаническому м'язового скорочення. Вступ тетануса на синапс, може викликати посттетаническую потенцію виділення медіатора, спостерігається протягом декількох хвилин.

Повторювана активність може стати причиною довготривалих змін у синапсах. Одна з причин цих змін – збільшення концентрації кальцію в постсинаптической клітці. Сильне збільшення концентрації запускає каскади вторинних посередників, що веде до утворення додаткових рецепторів в постсинаптической мембрані і загальному збільшенню чутливості рецепторів. Більш слабке збільшення концентрації дає зворотний ефект – зменшується кількість рецепторів, падає їх чутливість. Перше стан називається довготривалої потенцією, друге – довготривалої депресією. Тривалість таких змін – від кількох годин до кількох днів (Ніколлс Дж., Мартін Р., Валлас Б., Фукс П., 2003).

Коли Дональд Хебб формулював своє правило, про пластичності синапсів було відомо зовсім небагато. Коли створювалися перші штучні нейронні мережі вони використовували ідею про можливість синапсів змінювати свої ваги як ключову. Саме плавна настройка ваг дозволяла нейронних мереж адаптуватися до інформації, що надходить і виділяти в ній які-небудь загальні властивості. Постійно згадуваний мною «нейрон бабусі» — це прямий наслідок ідеї налаштування синаптичних ваг під характерний стимул.

Пізніше, коли пластичність реальних синапсів стала вивчена краще, виявилося, що в ній мало спільного з правилами навчання нейронних мереж. По-перше, у більшості випадків зміни ефективності синаптичної передачі безслідно проходять через нетривалий час. По-друге, немає жодної помітної спільності в навчанні різних синапсів, тобто нічого щоб нагадувало спільну нормування. По-третє, ефективність передачі змінюється під дією надходять ззовні сигналів і не дуже зрозуміло, як вона залежить від реакції самого постсинаптичного, тобто приймає сигнал нейрона. Додамо до цього, що, крім усього того, реальні нейрони не працює як лінійні або порогові суматори.

Вийшла цікава ситуація. Нейронні мережі працюють і показують непогані результати. Багато, хто добре розбирається у нейронних мережах, але далекі від біології вважають, що штучні нейронні мережі багато в чому подібні мозку. Це уявлення про подібність ґрунтується на історії виникнення штучних нейронних мереж і, відповідно, на тих уявленнях про нейронах, які існували колись давно. Ті дослідники, хто краще представляє біологію мозку воліють обережно говорити, що багато ідей штучних нейронних мереж навіяні механізмами роботи реального мозку. Однак, варто віддавати собі звіт про мірою цього «навеивания».

Моє постійне повернення до «нейронам бабусі» багато в чому пов'язане з намаганнями показати відмінність у розумінні ролі синаптичної пластичності у класичному підході і в запропонованій моделі. У класичній моделі зміна ваг синапсів – механізм налаштування нейронів на характерний стимул. Я вважаю, що роль пластичності синапсів зовсім інша. Можливо, що синаптична пластичність в нейронах реального мозку частково пов'язана з механізмами налаштування контекстного кореляцій.

Відміну тематичних карт від карт Кохонена
Просторова організація в нейронних мережах зазвичай асоціюється з самоорганизующимися картами Кохонена (T. Kohonen, Self-Organizing Maps).



Нехай у нас є вхідна інформація задана вектором x. Є двовимірна решітка з нейронів. Кожен нейрон пов'язаний з вхідним вектором x, цей зв'язок визначається набором ваг wj. Спочатку ініціюємо мережа випадковими малими вагами. Подаючи вхідний сигнал, для кожного нейрона можна визначити його рівень активності як лінійного суматора. Візьмемо нейрон, який покаже найбільшу активність, і назвемо його нейроном-переможцем. Далі зрушимо його ваги в бік образу, на який він виявився схожий. Більш того, виконати аналогічну процедуру для всіх його сусідів. Будемо послаблювати цей зсув по мірі віддалення від нейрона-переможця.


Тут η(n) – швидкість навчання, яка падає з часом, h – амплітуда топологічної околиці (залежність від n передбачає, що вона теж з часом зменшується).

Амплітуда околиці може бути обрана, наприклад, Гауссових функцією:


Де d – відстань між корректируемым нейроном j і нейроном-переможцем i.


Функція Гаусса

По мірі навчання на такий самоорганізується карті будуть виділятися зони, відповідні того, як розподілені навчальні образи. Тобто мережа сама визначить, коли у вхідному потоці зустрінуться схожі один на одного картини, і створить для них близькі представництва на карті. При цьому, чим сильніше будуть відрізнятися образи, тим більш відокремлено один від одного будуть розташовані та їх представництва. У підсумку, якщо відповідним чином розфарбувати результат навчання, то він буде виглядати приблизно так, як показано на малюнку нижче.


Результат навчання карти Кохонена

Результат навчання карти Кохонена після розмальовки може виявитися зовні схожий на розстановку контекстів, отриману їх перестановкою. Ця схожість не повинна вводити в оману. Мова йде про різні речі. Карти Кохонена засновані на адаптації ваг нейронів до подаваних признаковым описами. Це, по суті, всі ті ж «нейрони бабусі». Подається інформація «ліпить» з нейронів детектори якихось усереднених «бабусь». У центрах забарвлених областей виходять більш-менш схожі на щось «бабусі», ближче до кордонів областей формуються «бабусі-мутанти». Там виявляються гібриди сусідніх «бабусь», «дідусів», «кішечок» і «собачок».

При спробі приміряти карти Кохонена до реального мозку виникає суттєва проблема. Це відома дилема «стабільності пластичності». Новий досвід змінює портрети «бабусь», змушуючи всіх сусідів «бабусі-переможниці» змінюватися в її бік. В результаті, мережа може змінювати свою організацію, затираючи раніше отримані знання. Щоб стабілізувати мережа, швидкість навчання доводиться зменшувати з часом. Але це призводить до «плісняві» мережі і неможливість продовжувати навчання. У нашій самоорганізації перестановка контекстів не порушує їх цілісності. Контексти переміщуються на нове місце, але при цьому зберігають незайманою всю збережену в них інформацію.

У наступній частині я розповім про просторову самоорганізацію в реальному корі і постараюся показати, що багато чого з того, що спостерігається експериментально, може знайти пояснення саме в нашій моделі.

Олексій Редозубов

Логіка свідомості. Вступ
Логіка свідомості. Частина 1. Хвилі в клітинному автоматі
Логіка свідомості. Частина 2. Дендритні хвилі
Логіка свідомості. Частина 3. Голографічна пам'ять на клітинному автоматі
Логіка свідомості. Частина 4. Секрет пам'яті мозку
Логіка свідомості. Частина 5. Смисловий підхід до аналізу інформації
Логіка свідомості. Частина 6. Кора мозку як простір обчислення смислів
Логіка свідомості. Частина 7. Самоорганізація простору контекстів
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.