Мовна проблема штучного інтелекту

imageДоводилося вам стикатися з системами штучного інтелекту? Вважаємо, відповідь більшості хабравчан буде позитивним. Адже А. вже перестав бути «щось за гранню фантастики». Системи розпізнавання мови Siri, IBM Watson, ViaVoice, віртуальні гравці Deep Blue, AlphaGo і навіть такі ранні системи, як MYCIN, розроблена в 1970-х роках у Стенфордському університеті і призначена для діагностування бактерій, що викликають важкі інфекції, а також для рекомендації необхідної кількості антибіотиків — все це варіації на тему штучного інтелекту. Але, незважаючи на те, що технології стрімко набирають хід, сучасні системи все ще досить «несамовиті», і головна проблема, з якою стикаються дослідники, — це мовне навчання. Змусити систему говорити не складно, але пояснити їй «фізику» навколишнього світу — те, що людина розуміє на інтуїтивному рівні — поки не вдавалося нікому.

Тема мовної проблеми штучного інтелекту широко розкривається в статті Уілла Найта, головного редактора AI MIT Technology Review, яку фахівці PayOnline, системи автоматизації прийому онлайн-платежів, старанно перевели для користувачів Хабрахабра. Нижче представляємо сам переклад.

Приблизно в середині вкрай напруженої гри Го, що проходила в південнокорейському Сеулі, учасниками якої були один з найкращих гравців усіх часів Чи Седоль і створений Google штучний інтелект під назвою AlphaGo, програма зробила загадковий крок, який продемонстрував лякає перевагу над своїм людським опонентом.

На 37 кроці AlphaGo вирішила поставити чорний камінь у безглузде, на перший погляд, положення. Здавалося, що цей хід, більше схожий на характерну помилку новачка, напевно призведе до здачі істотної частини ігрового поля, тоді як суть гри, навпаки, полягає в контролі ігрового простору. Телевізійні коментатори ворожили в чому ж справа: чи це вони не зрозуміли ходу машини, то у неї стався якийсь збій. Насправді, всупереч загальним уявленням, хід номер 37 дозволив AlphaGo створити сильну позицію в центрі дошки. Програма Google здобула переконливу перемогу, зробивши хід, який, на її місці не зробив би жоден чоловік.

image

Про візуальному супроводі статтіОдна з причин, по яких розуміння мови так важко дається комп'ютерів і програм штучного інтелекту полягає в тому, що значення слів часто залежать від контексту і навіть зовнішнього вигляду окремих букв і слів. Ця стаття супроводжується серією зображень, автори яких продемонстрували приклади використання різних візуальних образів, загальний зміст яких виходить далеко за рамки значення використаних у них букв.
Перемога AlphaGo виглядає особливо вражаюче, оскільки багато хто вважають стародавню гру в Го хорошою перевіркою на розвиненість інтуїтивного інтелекту. Її правила дуже прості: два гравці по черзі розставляють чорні та білі камені на перетинах вертикальних і горизонтальних ліній дошки, намагаючись оточити камені опонента і тим самим виключити їх з гри. Незважаючи на цю простоту, хороша гра в Го вимагає великих розумових зусиль.

Якщо у шахах гравці здатні «бачити» на кілька кроків вперед, то в цей процес виходить на новий рівень: прорахунок оптимальних варіантів у кожній окремій партії дуже швидко стає практично нереальним завданням. При цьому, на відміну від шахів, в Го практично немає класичних маневрів або шаблонів. Немає в ній і якогось очевидного способу оцінити перевагу, оскільки навіть досвідченому гравцеві буває складно дати однозначне пояснення тому, чому він зробив той або інший хід. Всі ці особливості роблять неможливим написання простого набору правил, слідуючи яким комп'ютерна програма могла б грати на одному рівні з професіоналами.

Ніхто не навчав AlphaGo гри в Го. Замість цього програма проаналізувала тисячі ігор і зіграла мільйони партій проти самої себе. У числі інших ШІ-технік програма використовувала один з найбільш популярних в даний час методів під назвою «глибинне навчання». Його суть зводиться до математичних обчислень, що імітує відбуваються в головному мозку процеси, зв'язані шари нейронів активізуються під час впізнання і запам'ятовування нової інформації. Програма вивчила себе сама з допомогою багатогодинний практики, поступово удосконалюючи здатність інтуїтивно відчувати стратегію. Той факт, що в результаті цього вона змогла перемогти одного з найсильніших гравців в Го, являє собою по-справжньому знакова подія у розвитку машинного навчання і штучного інтелекту.

image
Лоуренс Вайнер — A Rubber Ball Thrown on the Sea, 1970 / 2014

Через кілька годин після ходу номер 37 AlphaGo завершила партію перемогою, довівши свою перевагу в серії з трьох перемог до двох очок. Після цього Седоль стояв перед натовпом журналістів і фотографів, ввічливо приносячи вибачення за те, що підвів людство. «У мене просто немає слів», — сказав він, мружачись під шквалом фотоспалахів.

Несподіваний успіх AlphaGo свідчить про значний прогрес в області штучного інтелекту, якого вченим вдалося досягти за останні кілька років, через десятиліття ступору і відкатів назад, часто званих «ШІ-взимку». Глибинне навчання відкриває дорогу машинам до інтенсивного самонавчання, що дозволяє вирішувати комплексні завдання, всього якихось два роки тому вважалися доступними лише для людей з винятковим рівнем інтелекту. Самокеровані автомобілі вже сьогодні стали даністю недалекого майбутнього. Крім того, вже зовсім скоро ІІ-системи, засновані на застосуванні методів глибинного навчання, будуть допомагати людям діагностувати хвороби і рекомендувати лікування.

Але незважаючи на цей вражаючий прогрес, існує одна фундаментальна галузь знань, доля якої в контексті ІЇ залишається неясною: мовне знання. Системи на зразок Siri або IBM Watson можуть слідувати простим відтвореним вголос або на листі командам і відповідати на елементарні питання, однак вони не здатні підтримувати бесіду і не розуміють реального сенсу слів, які використовують. Якщо ми хочемо по-справжньому відчути на собі весь перетворювальний потенціал ІІ, ситуація повинна змінитися.

Незважаючи на те, що AlphaGo не вміє розмовляти, він містить у собі технологію, яка може вивести машинне розуміння мови на більш високий рівень. У стінах таких компаній, як Google, Facebook і Amazon, а також провідних академічних лабораторіях по вивченню ІІ, дослідники роблять спроби повноцінного вирішення задачі, яка здається нерозв'язною. Серед застосовуваних ними розробок є глибинне навчання та деякі інші ІІ-інструменти, що забезпечили успіх AlphaGo і загальне відродження інтересу до ШІ. Успішність їх роботи дозволить усвідомити масштаб і характер явища, що визначається як революція штучного інтелекту. Від результатів їх діяльності також буде залежати і те, наскільки будуть комунікабельними машини майбутнього і чи зможуть вони стати близькими друзями людей у їх повсякденному житті, або так і залишаться загадковими чорними ящиками, які прагнуть до ще більшої автономності.

«Створити людяну ІІ-систему, в основі роботи якої не було б мови, просто неможливо, — каже Джош Таненбаум, професор когнітивістики та обчислювальної техніки MIT. — Це одна з найбільш очевидних характерних особливостей людського інтелекту».
Можливо, ті ж методи, які дозволили AlphaGo завоювати першість у Го якось дозволять комп'ютерів оволодіти мовою, а може бути, для цього потрібно щось більше. У будь-якому випадку, якщо програми штучного інтелекту не навчаться розуміти мову, вплив, яке ІІ вплине на суспільство, буде іншим. Звичайно, у нас в розпорядженні як і раніше будуть неймовірно потужні і розумні програми, такі як AlphaGo. Однак наші відносини з ІІ, ймовірно, будуть характеризуватися набагато меншим ступенем співробітництва та дружності.

«З самого початку досліджень вченим не давав спокою одне питання: „Що якщо у нас були б сутності, розумні з точки зору ефективності, але відрізняються від нас, в тому сенсі, що вони не здатні зрозуміти нашу людське природу і усвідомити її?“, — говорить Террі Виноград, почесний професор Стенфордського Університету. — Уявіть собі машини, існування яких ґрунтується не на людському інтелекті, а на „великих даних“, і які при цьому управляють світом».
Заклинателі машин
Через кілька місяців після тріумфу AlphaGo я відправився в Кремнієву долину — саме серце останнього буму в сфері штучного інтелекту. Мені хотілося нанести візит дослідникам, які досягли помітного прогресу в області практичного застосування ШІ і прямо зараз намагаються вивести машини на більш високий рівень розуміння мови.

Я почав з Винограду, який живе в околицях Пало-Альто, прямо у південній частині стенфордського кампусу, неподалік від штаб-квартири Google, Facebook і Apple. Кучеряве біляве волосся й густі вуса роблять його ще більше схожим на авторитетного академіка, випромінюючого до того ж заразливий ентузіазм.

В далекий 1968 рік Виноград зробив одну з перших спроб навчити машину розумній розмові. Будучи обдарованим математиком і зачарованим языкознаниями вченим, він опинився в новій лабораторії MIT з вивчення штучного інтелекту з метою написання докторської роботи і вирішив розробити програму, здатну вести текстові бесіди з людьми мовою повсякденного спілкування. У той час це завдання не здавалася надто амбітною. Область ІІ розвивалася семимильними кроками, а інші співробітники MIT працювали над створенням складних систем машинного зору і футуристичними роботизованими маніпуляторами.

«Ми тоді відчували себе так, ніби вивчали незвідане і абсолютно не були обмежені в можливостях», — згадує він.
image
Джозеф Кошут — Four Colors Four Words, 1966

І все ж далеко не всі були переконані в тому, що освоєння мови — проста задача. Деякі критики, включаючи впливового лінгвіста і професора MIT Ноама Чомски, вважали, що в своїх спробах навчити машини розуміти людську мову дослідники ІІ неминуче зіткнуться з проблемами, просто тому, що механіка людської мови тоді була вивчена слабо. Виноград згадує, як одного разу на вечірці один із студентів Чомски припинив з ним спілкування, почувши, що той працює в лабораторії штучного інтелекту.

Але були і причини для оптимізму. Кількома роками раніше Джозеф Вайзенбаум, німецький професор з MIT, створив першу в історії чат-бота. Віртуальний співрозмовник, названий ELIZA, був запрограмований вести себе, як карикатурний психотерапевт, повторює ключові фрази тверджень або задає розвиваючі розмову питання. Якби ви, наприклад, сказали їй, що зліться на свою матір, то у відповідь вона запитала: «Що ще спадає вам на думку, коли ви думаєте про свою матір?». Цей дешевий, на перший погляд, трюк спрацював на диво добре. Вайзенбаум був шокований, коли деякі з учасників випробувань почали розповідати машині про свої темні секрети.

Виноград хотів створити щось таке, що буде здатне розуміти мову. Почав він з загального спрощення завдання. Він створив примітивну віртуальну середу, «блочний світ», що складається з жменьки уявних об'єктів, розташованих на такому ж, уявному, столі. Далі він створив програму під назвою SHRDLU, здатну обробляти всі іменники та дієслова, застосовуючи прості правила граматики, необхідні для звернення до голого віртуального світу. SHRDLU (набір букв, без всякого сенсу повторює послідовність другого стовпця клавіатури линотипа) могла описувати об'єкти, відповідати на питання про їх взаємозв'язок і виконувати набрані команди, вносячи відповідні зміни в блоковий світ. Вона навіть мала деяким подобою пам'яті. Тобто, якщо ви говорили їй перемістити червоний конус і після цього згадували «конус», то вона автоматично передбачала фігуру червоного кольору, а не якогось іншого.

SHRDLU всюди демонстрували як один із символів фундаментального прогресу в області ШІ. Але це була тільки ілюзія. Коли Виноград спробував розширити блоковий світ програми, то правила, необхідні для обліку використовуваних слів і граматичних зв'язків, стали занадто громіздкими і некерованими. Кількома роками пізніше він припинив роботу над програмою і, в кінцевому рахунку, і кинув роботу з ІІ для того, щоб зосередитися на інших областях досліджень.

«Обмеження виявилися набагато суворіше, ніж ми думали на самому початку», — зізнається вчений.
Виноград прийшов до висновку, що надати машин здатність до справжнього розуміння мови з допомогою доступних у той час інструментів було просто неможливо. Проблема полягала в тому, що, як писав професор філософії Каліфорнійського університету в Берклі Х'юберт Дрейфус у своїй книзі 1972 року «Чого не можуть обчислювальні машини», багато речі, які роблять люди, які вимагають свого роду інстинктивного мислення, відтворити яке з допомогою жорстких правил не можна. Саме тому до матчу між Седолем і AlphaGo багато експертів висловлювали сумніви з приводу того, що машини зможуть оволодіти грою в Го.

image
Джон Балдессарі — Pure Beauty, 1966-68

Але навіть у той час, поки Дрейфус розвивав свою теорію, група дослідників працювала над підходом, який, в кінцевому рахунку, повинен був наділити машини якраз таким типом мислення. Почерпнувши трохи натхнення з відкриттів нейронауки, вони експериментували зі штучними нейронними мережами — шарами математично симулированных нейронів, які можна було привчити до активації у відповідь на певні вхідні дані. Перші подібні системи були страшенно повільними, і від підходу відмовилися чинності непрактичності його логічного апарату. Вкрай важливо, однак, відзначити, що нейронні мережі могли навчатися такої поведінки, запрограмувати яке заздалегідь було неможливо, і пізніше цей навик виявився дуже корисний для рішення простих задач, таких як розпізнавання рукописних символів. Робота в цьому напрямку набула комерційний характер в 90-х, коли почала використовуватися для читання цифр на чеках. Прихильники підходу були переконані, що нейронні мережі, в кінцевому рахунку, дозволять машин показувати набагато більш значущі результати, ніж те, що вони могли в ті роки. В один прекрасний день, заявляли вони, технології зможуть навіть розуміти мову.

Протягом останніх декількох років нейронні мережі стали у багато разів складніше і ефективніше. Підхід був посилений завдяки успіхам в області математики і, що важливо, появи більш швидкого комп'ютерного обладнання та доступності величезної кількості даних. До 2009 року дослідники з Університету Торонто показали, що багатошарова мережа глибинного навчання здатна розпізнавати мову з рекордною точністю. А в 2012 році ця ж група вчених виграла конкурс з машинного зору, представивши неймовірно точний алгоритм глибинного навчання.

Для розпізнання окремих об'єктів зображення нейронна мережа глибинного навчання використовує простий трюк. Шар симулируемых нейронів отримує вхідні дані у формі зображення, і деякі з цих нейронів активуються у відповідь на інтенсивність окремих пікселів. Одержуваний після цього сигнал проходить через багато інші шари зв'язаних нейронів перед тим, як досягти вихідного шару, який сигналізує про те, що об'єкт був упізнаний. Для регулювання чутливості нейронів і подальшого відтворення їх коректної реакції використовується математична техніка під назвою «зворотне поширення помилки». Саме цей крок дозволяє системі вчитися. Кожен шар мережі реагує на різні елементи зображення, наприклад, на краю, кольору або структуру. Такі системи сьогодні здатні розпізнавати об'єкти, тварин або особи з точністю, порівнянної з можливостями будь-якого сучасної людини.

Спроби застосувати глибинне навчання до мов стикаються з очевидною проблемою, суть якої полягає в тому, що слова — це умовні символи і в цьому відношенні вони принципово відрізняються від художніх образів. Два слова, наприклад, можуть бути схожі за значенням і складатися з абсолютно різних букв, а одне і те ж слово в різних контекстах може означати зовсім різні речі.

У 80-х роках дослідники запропонували цікавий спосіб перетворення процесу вивчення мови в такий тип завдання, з яким нейронна мережа зможе впоратися. Вони показали, що слова можуть бути представлені у вигляді математичних векторів, що дозволяє розрахувати подібності між спорідненими словами. Приміром, «човен» і «вода» близькі один одному у векторному просторі, незважаючи на те, що виглядають ці два слова абсолютно по-різному. Дослідники з Монреальського університету під керівництвом Йошуа Бенгио і інша група з Google використали цей підхід для створення мереж, де кожне слово в реченні може бути використана для побудови більш складної моделі представлення, яку Джефрі Хінтон, професор з Університету Торонто і видатний дослідник методики глибинного навчання, називає «вектором думки».

Сумісне застосування двох таких мереж робить можливим високоякісний переклад між двома мовами, а об'єднання цього типу мережі з іншим, здатним розпізнавати об'єкти зображень, дозволяє складати на подив правдоподібні супровідні підписи до них.

Сенс життя
Сидячи в конференц-залі, розташованому в самому серці гуде як вулик штаб-квартири Google в каліфорнійському Маунтін-В'ю, Квок Чи, один з дослідників компанії, який брав участь у розробці її новітніх ІІ-рішень, розмірковує над ідеєю машини, здатної підтримувати справжню розмову. Амбіції направлені на отримання корисних результатів, які можна будете використовувати в розробці розмовляють машин.

«Я шукаю спосіб симулювати розумовий процес всередині комп'ютерної машини, — каже він. — А якщо ви хочете симулювати думки, ви повинні вміти запитати машину, про що вона думає».
image
Тауба Ауербах — The Answer/wasn't Here II, 2008

Google вже зараз навчає свої комп'ютери основам мови. У травні компанія анонсувала систему, що одержала назву Parsey McParseface, здатну аналізувати синтаксис пропозиції, розпізнаючи іменники, дієслова та інші елементи тексту. Нескладно зрозуміти, наскільки цінним могло б виявитися машинне розуміння мови для компанії. Раніше пошуковий алгоритм Google займався простим відображенням ключових слів і посилань між веб-сторінками. Зараз, завдяки системі під назвою RankBrain, він читає тексти на сторінках в спробі виділити всі найбільш значущі смислові частини, щоб на основі цього знання надати користувачеві покращений пошуковий результат. Чи хоче значно поглибитися в цьому напрямку. Адаптувавши систему, довела свою корисність у перекладі і підборі підписів до зображень, він і його колеги створили SmartReply, читає вміст повідомлень Gmail і пропонує можливі варіанти відповіді на них. Крім того, він також створив програму, проанализировавшую листування техпідтримки Google з користувачами і научившуюся відповідати їм на прості технічні питання.

Зовсім недавно Лі розробив програму, здатну давати непогані відповіді на відкриті питання. Її навчання включало в себе обробку діалогів з 18900 фільмів. Деякі з її відповідей виявляються лякаюче точними. Наприклад, на питання про те, в чому полягає сенс життя програма відповіла: «Служити вищому благу».

«Це був дуже хороший відповідь, — згадує він з великою усмішкою на обличчі. — Я й сам, напевно, не відповів би краще».
Є тільки одна проблема, яка швидко стає очевидною у міру спостереження за іншими відповідями системи. Коли запитав: «Скільки ніг у кішки?», система відповіла: «Чотири, я вважаю». Після цього він зробив другу спробу: «Скільки ніг у стоноги?». Відповідь послідувала цікавий: «Вісім». По суті, програма не має поняття про що вона говорить. Вона розуміє, що певні комбінації символів можуть зустрічатися разом, але не має ні найменшого поняття про існування реального світу. Вона не знає, як насправді виглядає сороконіжка, або як вона пересувається. Тобто перед нами все ще тільки ілюзія інтелекту, позбавлена того самого здорового глузду, який ми, люди, сприймаємо як щось само собою зрозуміле. Подібна нестабільність результатів цілком буденна для систем глибинного навчання. Програма Google, сочиняющая підписи до зображень, робить дивні помилки. Дивлячись на дорожній знак, наприклад, вона може назвати його набитим їжею холодильником.

За цікавим збігом обставин, найближчий сусід Террі Винограду в Пало-Альто виявився людиною, який також може допомогти комп'ютерів отримати більш глибоке розуміння справжнього значення слів. У момент мого візиту Фей-фей, директор стэндфордской лабораторії штучного інтелекту, була в декретній відпустці, проте вона запросила мене до себе додому і з гордістю представила своєю чарівною тримісячній дівчинці на ім'я Фенікс.

«Бачите, вона дивиться на вас частіше, ніж на мене, — сказала, помітивши, як дівчинка пильно дивиться на мене. — Це тому, що вас вона бачить вперше, і її система раннього розпізнання осіб зараз працює на повну».
Чи провела більшу частину своєї кар'єри, вивчаючи машинне навчання і комп'ютерне зір. Кілька років тому вона очолила робочу групу по створенню бази даних по мільйонам зображень об'єктів, кожен з яких був позначений відповідним ключовим словом. Тим не менш вважає, що машини потребують більш досконалому розумінні подій навколишнього світу, і в цьому році її команда випустила іншу базу зображень, забезпечених набагато більшим кількість коментарів. Кожне зображення було описано людиною за допомогою десятків характеристик: «Собака їде на скейтборді», «У собаки пухнаста і хвиляста шерсть», «Дорога потріскалася» і так далі. Дослідники сподіваються, що системи машинного навчання навчаться краще зрозуміти фізичний світ.

«Мовна частина мозку отримує багато інформації, в тому числі і з відділів, відповідальних за обробку візуальної інформації, — говорить Лі. — Важливою частиною створення повноцінного АЙ інтеграція цих систем».
Цей підхід близький до того, як пізнають навколишній світ діти, постійно ассоциирующие слова з об'єктами, відносинами і діями. Однак на цьому аналогія з людським навчанням закінчується. Маленьким дітям не потрібно бачити собаку верхи на скейтборді, щоб представити її в розумі або описати за допомогою слів. Фей-фей вважає, що сучасного машинного навчання та ІІ-інструментів недостатньо, щоб втілити в життя мрію про справжній ІІ. На думку вченого, дослідникам ІІ також доведеться подумати над урахуванням таких аспектів, як емоційний інтелект та навички соціального спілкування.

«Штучний інтелект — це не тільки інтенсивна обробка даних з допомогою глибинного навчання, — говорить Лі. — Ми [люди] дуже погано справляємося з масштабними обчисленнями, але відмінно проявляємо себе, коли справа доходить до абстракції і творчості».
Ніхто не знає, як дати машинам ці людські навички, якщо, звичайно, це взагалі можливо. Бути може, в цих якостях є щось, властиве тільки людям, що робить їх недосяжними для ІІ?

Сучасні вчені-когнитивисты, такі як Таненбаум з MIT, у своїх теоріях висловлюють ідею про те, що всім сучасним нейронних мереж, наскільки великими і складними вони не були, не вистачає багатьох інших важливих компонентів розуму. Люди мають здатність навчатися дуже швидко на основі відносно невеликої кількості даних і мають вбудовану здатність ефективно створювати в розумі тривимірну модель світу.

«Мова будується на інших здібностях, можливо, більш простих. Так чи інакше, немовлята володіють ними ще до того, як в їх житті з'являється розмовну мову: вони візуально сприймають світ, роблять що-небудь за допомогою опорно-рухової системи і розуміють фізику навколишнього світу або цілі інших його мешканців», — говорить Таненбаум.
Якщо він правий, то створити мовне розуміння в машинах і ІІ без спроби відтворити людське навчання, способи сприйняття навколишнього світу і психології буде неможливо.

Поясни, що ти маєш на увазі
Офіс Ноя Гудмана на стэндфордской кафедрі психології практично порожній, не рахуючи пари абстрактних картин, прислоненных до однієї зі стін і декількох зарослих рослин. Коли я приїхав, Гудман захоплено друкував що, сидячи за своїм ноутбуком і поклавши голі ноги на стіл. Ми прогулялися через залитий сонцем кампус.

«Особливість мови полягає в тому, що він залежний від великої кількості знань про нього, але він також визначається і величезною кількістю загальновідомої інформації про навколишній світ, і обидва ці знання дуже тонко переплітаються один з одним», — пояснив він.
Гудман і його студенти розробили мову програмування під назвою Webppl, який можна використовувати для того, щоб дати комп'ютерів якусь подобу здорового глузду, заснованого на теорії ймовірності, що, як показала практика, може виявитися вельми корисним під час бесіди з комп'ютером. Одна з експериментальних версій webppl може розуміти гру слів, інша — добре справляється з перебільшеннями. Якщо вона почує, що якимось людям довелося «цілу вічність» чекати столик в ресторані, вона автоматично вирішить, що вживання буквального значення слова у даному випадку малоймовірно, насправді цим хлопцям просто довелося довго чекати, що викликало їх обурення. Ця система далека від того, щоб зрівнятися з цим інтелектом, проте вона показує, як нові підходи могли б допомогти створити ІІ-програми, здатні розмовляти більш натурально.

У той же час приклад Гудмана допомагає нам оцінити складність навчання машини мови. Розуміння контекстуального значення «цілої вічності» — одна з типових завдань, яку систем ШІ доведеться навчитися вирішувати — здається досить складним досягненням для сучасних програм, при цьому подібна задача елементарна для людського інтелекту.

І все ж, незважаючи на складність та багатовимірність цього завдання, початковий успіх дослідників у використанні технік глибинного навчання для розпізнання зображень і навчанні машин ігор, таких як Го, принаймні дає надію на те, що можливо, ми стоїмо на порозі прориву і в області мов. Якщо це так, ці успіхи довелися як не можна до речі.

Якщо ШІ і судилося стати всюдисущим інструментом, який люди будуть використовувати для перетворення власного інтелекту, і якому вони будуть довіряти вирішення завдань в рамках тісної співпраці, мова має стати ключем для цих взаємин. Особливу актуальність ця потреба набуває в світлі того, що глибинне навчання і інші техніки, по суті, дозволяють програмами штучного інтелекту програмувати самих себе.

«загалом, результати роботи системи глибинного навчання справляють сильне враження, — говорить Джон Леонард, професор MIT, досліджує автоматизоване водіння, Проте, з іншого боку, їх поведінка буває дуже важко зрозуміти».
Toyota, вивчає широкий спектр технологій автоматизованого водіння, ініціювала дослідницький проект в MIT під керівництвом Джеральда Сассмана, експерта по штучному інтелекту і мовного програмування. Мета проекту — розробка автоматизованої системи водіння, здатної пояснити, чому вона вчинила те чи інше дію. Цілком очевидний спосіб пояснення в даному контексті — розмова робота з водієм.

«Розробка систем, які розуміють те, що їм відомо — по-справжньому важке завдання, — каже Леонард, керівний іншим проектом Toyota в MIT. — Але, так чи інакше, системі дійсно доведеться дати не просто відповідь, а надати повноцінне пояснення».
Через кілька тижнів після мого повернення в Каліфорнії я слухав, як Девід Сільвер, дослідник з проекту Google DeepMind, який брав участь у розробці AlphaGo, розповідав про матч з Седолем на академічній конференції в Нью-Йорку. Сільвер пояснив, що забійний хід програми в другій грі, здивував його команду не менше за всіх інших. У той момент вони могли спостерігати за тим, як AlphaGo в реальному часі оцінювала свої шанси на перемогу в результаті того чи іншого ходу. Однак після 37-го ходу розрахунок показував зовсім невелика зміна. І тільки через декілька днів після ретельного аналізу, команда Google зробила відкриття: «перетравивши» попередні ігри, програма розрахувала ймовірність того, що людина на її місці зробив би той самий хід лише в 1 випадку з 10 тисяч. Крім того, практика ігор AlphaGo показувала, що, зігравши таким чином, вона отримає напрочуд сильне позиційна перевага.

Тому машина в деякому роді знала, що Седоль буде абсолютно приголомшений таким ходом.

За словами Сільвера, Google розглядає деякі варіанти комерційного застосування технології, включаючи розробку інтелектуального помічника та інструменту для сфери охорони здоров'я. Після конференції я запитав його про важливість спілкування з ІІ, що лежить в основі цих систем.

«Цікаве питання, — сказав він після невеликої паузи. — Для деяких додатків це може бути важливо. Наприклад, в охороні здоров'я спілкування з ІІ моджет бути корисно для розуміння причини того чи іншого рішення».
Насправді, у міру того, як системи штучного інтелекту стають все більш витонченими і різнобічними, нам все складніше уявити собі, як ми зможемо спілкуватися з ними без використання мови, без можливості запитати їх: «Чому?». Більше того, здатність спілкуватися з комп'ютерами легко і невимушено зробить їх на порядок корисніше, а виглядати все це буде як якесь чаклунство. Зрештою, мова — наш самий могутній спосіб розібратися в тому, як влаштований навколишній світ, і як ми можемо взаємодіяти з ним. Загалом, настав час нашим машинам надолужити згаяне.

Продовжуйте стежити за оновленнями блогу міжнародної процесингової компанії PayOnline читайте першими найцікавіші матеріали по темі технологій і платежів.
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.