Історія машинного перекладу: довгий шлях від мейнфреймів до мобільних пристроїв

    Сьогодні в App Store вийшло оновлене додаток Яндекс.Переклад для iOS. Тепер в ньому є можливість повнотекстового перекладу в офлайн-режимі. Машинний переклад пройшов шлях від мейнфреймів, які займали цілі кімнати та поверхи, до мобільних пристроїв, що поміститься в кишеню. Сьогодні повнотекстовий статистичний машинний переклад, який вимагав раніше величезних ресурсів, став доступний будь-якому користувачеві мобільного пристрою — навіть без підключення до мережі. Люди давно мріють про «вавилонської рибку» — універсальному компактному перекладача, який завжди можна взяти з собою. І, здається, мрія ця поступово починає збуватися. Ми вирішили, скориставшись слушною нагодою, підготувати невеликий екскурс в історію машинного перекладу і розповісти про те, як розвивалася ця цікава область на стику лінгвістики, математики та інформатики.
 
«Це все робить машина», «Електронний мозок перекладає з російської на англійську», «Робот-білінгва» — такі газетні заголовки побачили читачі радісної преси 8 січня 1954. А днем ​​раніше, 7 січня, науковий комп'ютер IBM 701 взяв участь у знаменитому Джорджтаунському експерименті , перевівши близько шістдесяти російських фраз на англійську. «Сімсот-перший» використовував словник з 250 слів і шість синтаксичних правил. І, звичайно ж, дуже ретельно підібраний набір пропозицій, на яких проводилося тестування. Вийшло настільки переконливо, що захоплені журналісти з посиланнями на вчених заявляли про те, що через кілька років машинний переклад майже повністю замінить класичний «ручний».
 
 
 
Джорджтаунський експеримент був одним з перших кроків у розвитку машинного перекладу (і одним з перших застосувань ЕОМ для роботи з природною мовою). Тоді багато проблем з тих, з якими належало зіткнутися в майбутньому, були ще не так очевидні. Проте головною проблемою, за іронією, стало те, що як раз таки було очевидно з самого початку — комп'ютера найважче давалася робота з багатозначними словами. На більш-менш природних пропозиціях система практично повністю переставала справлятися із завданням. Складна багатокомпонентна структура таких систем також створювала проблеми: наприклад, синтаксичний аналіз не завжди спрацьовував вірно, і складене слово guitar pick (медіатор) могло бути переведено як «вибір гітари». Також погано переводилися багатозначні слова, зміст яких залежав від контексту. Наприклад, текст «Little John was looking for his toy box. Finally he found it. The box was in the pen »викликав (і продовжує викликати) дуже багато складнощів — як словосполучення« toy box », перекладається як« іграшкова коробка », а не« коробка для іграшок », так і« in the pen », яке переводилося як «в ручці», а не «в дитячому манежі». Складнощі були величезними, і в результаті за 12 років зрушити з мертвої точки майже не вийшло. У 1966 році розгромний доповідь ALPAC (Automatic Language Processing Advisory Committee) поклав кінець дослідженням у галузі машинного перекладу на наступні десять років.
 
 Поки ж настрої після Джорджтаунського експерименту були ще досить райдужними і машинному перекладу передрікали велике майбутнє, американці почали всерйоз замислюватися про використання нової технології в стратегічних цілях. Що повною мірою усвідомлювали і в СРСР. На початку 1955 Академією Наук СРСР було створено дві дослідні групи — в Математичному Інституті імені В. А. Стеклова (керівником групи став видатний математик і кібернетик Олексій Ляпунов) і в Інституті точної механіки та обчислювальної техніки AН СРСР (її очолив математик Д. Ю. Панов). Обидві групи почали з детального вивчення Джорджтаунського експерименту, а вже в 1956 році Панов опублікував брошуру, в якій викладав результати перших експериментів з машинного перекладу, проведених на комп'ютері БЕСМ. У тому ж 1956 послідувала публікація про аналогічні вишукуваннях в інституті ім. Стеклова за авторством Ольги Кулагиной та Ігоря Мельчук, яка вийшла у вересневому номері журналу «Питання мовознавства». Ця публікація супроводжувалася різними ввідними статтями, і ось тут-то було виявлено дещо цікаве: виявилося, що в 1933 році в АН СРСР звернувся якийсь Петро Петрович Троянський, есперантист і один із співавторів Вікіпедія, з проектом машинного перекладача і проханням обговорити це питання з лінгвістами Академії. Вчені поставилися до ідеї скептично: дискусії навколо проекту тривали одинадцять років, після чого зв'язок з троянським була раптово втрачена, а сам він імовірно виїхав з Москви.
 
Ця історична знахідка здивувала дослідників; почалися вишукування. Вдалося знайти авторське свідоцтво Троянського на «механізований словник», що дозволяє швидко перекладати тексти одночасно на кілька мов. Після чергового пленарного засідання, на якому Ляпунов прочитав доповідь про цей винахід, Академією Наук було створено спеціальний комітет з вивчення вкладу Троянського. Минуло кілька років і, нарешті, в 1959 році була опублікована стаття «Перeводная машина П. П. Троянського: збірник матеріалів про машину для перекладу з однієї мови на інші, запропонованої П. П. троянським в 1933 р.» за авторством І. До. Бельської і Д. Ю. Панова. Незабаром було опубліковано і авторське свідоцтво, з якого було видно досить оригінальне технологічне рішення пристрою.
 
 
 
У проекті машина Троянського представляла собою стіл з похилою поверхнею, перед яким була закріплена фотокамера, поєднана з друкарською машинкою. Клавіатура друкарської машинки складалася зі звичайних клавіш, які дозволяли кодувати морфологічну і граматичну інформацію. Стрічка друкарської машинки і плівка камери повинні були бути з'єднані разом і подаватися синхронно. На самій же поверхні столу повинно було бути розташоване так зване «глосарне поле» — вільно рухома пластина з надрукованими на ній словами. Кожне з слів супроводжувалося перекладами на трьох, чотирьох і більше мовами. Всі слова повинні були бути дані в початковій формі і розташовані на дошці таким чином, щоб найбільш часто використовувані слова були ближче до центру — як букви на клавіатурі. Оператор машини повинен був зрушити глосарне поле і зробити фотознімок слова і його перекладів, одночасно набравши на друкарській машинці що відноситься до слова граматичну і морфологічну інформацію. У підсумку виходило дві стрічки: одна зі словами відразу на декількох мовах, а друга — з граматичними поясненнями до них. Коли весь вихідний текст був набраний таким чином, матеріал йшов носіям мови — ревізорам, які повинні були звірити дві стрічки і скласти по них тексти на своїх мовах. Далі матеріали повинні були бути передані редакторам, знаючим обидві мови. Їх завданням було довести текст до літературного виду.
 
 
 
Головна ідея винаходу — поділ процесу перекладу на три основних етапи (до речі, перший і останній в сучасній термінології називалися б «pre-editing» і «post-editing»). Що цікаво, самі витратні за часом процеси (кодування вихідного тексту і синтез з цієї інформації текстів на інших мовах) вимагають від операторів всього лише знання рідної мови.
 
Таким чином, переклад здійснювався спочатку між природною мовою та його логічною формою, потім між логічними формами двох мов, а після цього текст в логічній формі цільової мови вивіряють і приводився до природної форми. Троянський, як історик науки, безсумнівно знав про теоріях Лейбніца і Декарта про створення універсальної мови та переказ через інтерлінгва. У запропонованій ним технології простежується вплив цих теорій. Більш того, Троянський був есперантистом, і побудував систему кодування граматичної інформації на основі граматики Есперанто (від чого пізніше з політичних міркувань був змушений відмовитися).
 
Що особливо цікаво, вже в сорокові роки Троянський розглядав перспективи створення «потужного переказного пристрої на базі сучасних технологій зв'язку». Однак за життя ідеї винахідника були зустрінуті академічним товариством з величезним скепсисом і згодом віддані забуттю. Троянський помер в 1950, не доживши зовсім небагато до початку роботи над машинним перекладом в Радянському Союзі. Англійський дослідник машинного перекладу Джон Хатчинс вважає, що якщо вклад Троянського не був би забутий, принципи його перекладної машини лягли б в основу перших експериментів на БЕСМ, і це б поставило винахідника до лав «батьків» машинного перекладу поряд з Уорреном Уівер. Але, на жаль, історія не має умовного способу.
 
Перенесемося на сорок років вперед, у вісімдесяті. Після ALPAC'а ні у кого, крім самих відчайдушних ентузіастів, не було серйозного бажання займатися машинним перекладом. Однак, як це часто буває, двигуном прогресу став бізнес. Наприкінці шістдесятих курс на глобалізацію світу був уже очевидний. Перед міжнародними компаніями постала гостра необхідність підтримувати тісні торговельні контакти в декількох країнах одночасно. У 1980-ті роки запит бізнесу на технологію швидкого перекладу документів і новин зріс: і тут «розчохлив» машинний переклад. Чи не відставало і Європейське економічне співтовариство — майбутній Євросоюз — в 1976 в цій організації став активно використовуватися SYSTRAN — перший в історії комерційний машинний перекладач. Надалі ця система стала майже обов'язковим придбанням будь-якої поважаючої себе міжнародної компанії: General Motors, Dornier і Aerospatiale. Не залишалася осторонь і Японія: все збільшуються обсяги роботи із Заходом змушували великі японські корпорації вести свої розробки в цій галузі. Правда, в більшості випадків вони (як і «Сістран») так чи інакше були варіаціями Правілова (rule-based) систем, з їх відомими «родовими» травмами — невмінням коректно працювати з багатозначними словами, омонімами і ідіоматичними виразами. Такі системи також відрізнялися великою дорожнечею, оскільки для створення словників був потрібний праця великого штату професійних лінгвістів, а також не гибкістю — досить витратною справою була адаптація для потрібної предметної області, не кажучи вже про нову мову. Дослідники і раніше воліли концентруватися на системах, які використовували правила, а також семантичний, синтаксичний і морфологічний аналіз.
 
 По-справжньому нова ера машинного перекладу почалася в 1990-х роках. Дослідники зрозуміли, що природна мова дуже складно описати формально, і ще складніше застосувати формальні описи до живого тексту. Це було занадто важкою і ресурсномістким завданням. Потрібно було шукати інші шляхи.
 
Як звичайно, коли проблема здається практично нерозв'язною, корисно змінити перспективу. На сцені знову з'явилася компанія IBM, одна з дослідницьких груп якій розробила систему статистичного машинного перекладу, названу Candide. Фахівці підійшли до завдання машинного перекладу з точки зору теорії інформації. Ключовою ідеєю стала концепція так званого каналу з помилками (noisy channel). Модель каналу з помилками розглядає текст мовою A як зашифрований текст на будь-якому іншому мовою B. І завдання перекладача — дешифрувати цей текст.
 
Вдамося до забавної ілюстрації. Уявіть собі англійця, який вивчає французьку мову і з метою попрактикуватися в ньому приїхав до Франції. Поїзд прибув до Парижа, і нашому герою потрібно знайти камеру схову на вокзалі Гар-дю-Нор. Після безуспішних пошуків він нарешті звертається до випадкового перехожого і, заздалегідь обміркувавши фразу англійською, запитує його по-французьки, чи не знає той, де можна знайти камеру зберігання. Задумана англійська фраза як би "спотворюється" і перетворюється у фразу французькою мовою. На біду, перехожий виявляється англійцем, і знає французьку досить погано. Сенс фрази він відновлює, намагаючись відновити за допомогою своїх пізнань у французькій і зразкового подання того, що найімовірніше мав на увазі його співрозмовник — тобто, кажучи простіше, намагається вгадати, яку англійську фразу той задумав.
 
IBM'овци працювали саме з французькою і англійською: в руках дослідницької групи була величезна кількість паралельних документів з обігу канадського уряду. Дослідники побудували свої перекладні моделі таким чином: зібрали ймовірності всім сполучень слів певної довжини на двох мовах і ймовірності для відповідності кожного з таких поєднань поєднанню на іншій мові.
 
Далі найвірогідніший переклад e , припустимо, на англійська, для, наприклад, французької фрази f може бути визначений так:
 
 
 
де E — це всі англійські фрази в моделі. Як англієць намагався вгадати думки свого співвітчизника, алгоритм намагається знайти саму частотну фразу англійською, яка мала б хоч якесь відношення до того, що потенційно могло бути задумано, коли виголошувалася французька фраза.
 
Такий простий підхід виявився найбільш дієвим. IBM'овци не застосовували ніяких лінгвістичних правил, і, насправді, в групі практично ніхто не знав французької мови. Незважаючи на це, Candide працював, і більше того — працював досить добре! Результати дослідження і загальний успіх системи стали справжнім проривом в області машинного перекладу. І найголовніше, досвід Candide довів, що не обов'язково мати дорогий штат першокласних лінгвістів для складання правил перекладу. Розвиток ж інтернету дало доступ до величезної кількості даних, необхідних для створення великих моделей перекладу та мови. Дослідники сконцентрували зусилля на розробці алгоритмів перекладу, зборі корпусів паралельних текстів і вирівнюванні пропозицій і слів на різних мовах.
 
А поки статистичний машинний переклад перебував у стадії промислової розробки і повільно добирався до користувачів мережі Інтернет, на ринку онлайн-перекладу панували rule-based системи. Тут треба зауважити, що — rule-based переклад з'явився задовго до інтернету і почав просування в широкі маси з програм для десктопних комп'ютерів, і, трохи пізніше, переносних (palm-size і handheld) пристроїв. Версії для онлайн-користувачів з'явилися тільки в середині 90-х років і найбільшого поширення набув вже знайомий нам «Сістран». У 1996 році він став доступний користувачам інтернету — система дозволяла переводити невеликі тексти онлайн. Незабаром після цього розробки «Сістрана» став використовувати пошуковик AltaVista, запустивши сервіс BabelFish, благополучно дожив у складі Yahoo до 2012 року. З'явився в вигляді веб-додатки в 1998 році і швидко став популярним в рунеті PROMT-онлайн використовував власні технології, але працював також в парадигмі rule-based machine translation.
 
Першопроходець статистичного онлайн Google запустив першу версію сервісу Translate тільки в 2007 році, але дуже швидко завоював загальну популярність. Зараз сервіс пропонує не тільки переклад для більш ніж 70 мов, а й багато корисних інструментів начебто виправлення помилок, озвучування і т.п… По його сліду йде не такий популярний, але досить потужний і активно розвивається онлайновий перекладач компанії Майкрософт, що пропонує переклад для більш ніж 50 мов. У 2011 році з'явився Яндекс.Переклад, який зараз підтримує більше 40 мов і пропонує різноманітні засоби спрощення набору тексту і поліпшення якості перекладу.
 
 Історія появи Яндекс.Переклад почалася влітку 2009 року, коли Яндекс зайнявся дослідженнями в області статистичного машинного перекладу. Все почалося з експериментів з відкритими системами статистичного перекладу, з розробки технологій пошуку паралельних документів і створення систем тестування та оцінки якості перекладу. У 2010 році приступили до роботи над високоефективними алгоритмами перекладу та програмами для побудови перекладних моделей. 16 березня 2011 була запущена публічна бета-версія сервісу Яндекс.Переклад з двома мовними парами: англо-російської та україно-російської. У грудні 2012 року з'явилося мобільний додаток для iPhone, через півроку версія для Android, а ще через півроку версія для Windows Phone.
 
Тут ми повертаємося до вихідної точки розповіді — появі офлайнового перекладу. Нагадаємо, що статистичний машинний переклад спочатку розроблявся для роботи на потужних серверних платформах з необмеженими ресурсами оперативної пам'яті. Але не так давно почався рух у зворотному напрямку — переробка потужних серверних додатків в компактні програми для смартфонів. Рік тому компанія Гугл запустила повнотекстовий офлайн-переклад на платформі Андроїд. Яндекс теж працював у цьому напрямку і ось в мобільному додатку Яндекс.Переклад для iOS з'явилася можливість користуватися в офлайн-режимі спочатку словником, а тепер уже й повнотекстових перекладом. Те, для чого раніше був потрібний поверх з мейнфрейм-системою, а потім потужний сервер з десятками гігабайт ОЗУ, тепер поміщається в кишені або дамській сумочці і працює автономно — без звернень до віддаленого сервера. Такий перекладач працюватиме там, де ще немає інтернету — високо над хмарами, в десяти тисячах льє під водою і навіть у космосі.

Підводячи підсумки, можна сказати, що в області машинного перекладу за останні десятиліття був досягнутий величезний прогрес. І, хоча до миттєвого і непомітного для користувача перекладу з будь-якої мови галактики поки ще дуже далеко, але той факт, що за останні кілька десятиліть у цій області здійснений величезний стрибок, не викликає жодних сумнівів, хочеться сподіватися, що нові покоління систем машинного перекладу будуть неухильно до нього прагнути.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.