Порівняння технологічних підходів до вирішення завдань з вилучення даних

Метою статті є спроба порівняльного аналізу основних підходів у вирішенні завдань семантичного аналізу текстів, їх відмінності та ефективності на рівні концепцій, без врахування нюансів, комбінацій варіантів і можливих трюків, які сприяють поліпшенню очікуваного результату.
На сьогоднішній день існує величезна кількість матеріалів описує ті чи інші техніки вирішення завдань семантичного аналізу текстів. Це і латентно-семантичний аналіз, SVM-аналіз, «перенос-згортка» і багато іншого. Писати чергову статтю про огляд і порівняння конкретних алгоритмів – це значить даремно витрать час.
Мені б хотілося в рамках декількох статей обговорити базові ідеї і проблеми, що лежать в основі семантичного аналізу з точки зору їх практичного застосування, якщо можна так висловитися, з базовою філософсько-онтологічної точки зору. Якою мірою можливо використовувати породжувальні граматики для аналізу тексту? Накопичувати варіанти написання та різного роду "корпуси" або розробляти алгоритми аналізу на підставі правил?
В рамках нашого міркування я свідомо постараюся піти від будь-яких термінів та усталених виразів, бо як говорив У. Куайн – терміни це всього лише імена в рамках онтологій не мають ніякого практичного значення для вирішення завдань логіки і розуміння чого-небудь зокрема.[1] Тому, з його дозволу, будемо спиратися на одиничні дескрипции Рассела, а простіше кажучи, давати повні описи в збиток існуючим усталеним термінам.

Якщо не брати до уваги специфічні завдання, такі як аналіз емоційної забарвленості, фонетичний аналіз і т. д., то з точки зору завдань аналізу тексту, можна виділити наступні основні види-етапи аналізу:
1. Синтаксичний
Аналіз лінійної послідовності слів з метою побудови дерева залежностей. Мета – аналіз структури пропозиції та відносини його компонентів. Основою аналізу є різного роду граматики (залежностей для слов'янських мов та німецької мови, безпосередньо-складових для романських, що породжують і т. д.).
2. Семантичний
Аналіз залежності слова або фрази від загального контексту. Дозвіл проблем полісемії, синонімії і т. д. Основою є різного роду корпусу.
3. Семіотичний
Аналіз змісту тексту з урахуванням, иносказательностей, «помилок перекладу» пов'язаних з різними культурологічними асоціаціями, прийнятих стійких виразів в контексті середовища оповідача, понять. З основами поки складно. Можливо, створення карт асоціативних полів або карт, що нагадують політичні, з тимчасовими і територіальними кордонами культур.
Якщо розглядати можливі базові ідеї – технологічні підходи в загальному вигляді, то мені бачаться два діаметрально протилежних підходи:
1. Технології накопичення досвіду на підставі відомого досвіду (машинне навчання) і спроба його застосування для аналізу нових ситуацій. Їх ще називають алгоритмами, заснованими на статистиці. 90% публікацій відносяться саме до технології. Іншими словами – статистичні методи.
2. Технології розвитку аналітичних можливостей машини за рахунок розвитку алгоритмів побудови логічних зв'язків без попереднього «навчання» на прикладах. Або алгоритми, засновані на правилах або граматиках.
До першого типу слід віднести, безумовно, у спрощеному вигляді, технології «навчання» системи шляхом створення варіантів написання і суперпозиций аналізованих сутностей. Варіаціями на цю ж тему є різні частотні алгоритми такі як латентно-семантичний аналіз і т. д.
До другого типу відносяться такі технології як SVM-аналіз, «перенос-згортка», побудова граматик.
загалом, і тут ідеї Платона і Аристотеля стикаються у всій своїй красі. Відповідаючи на питання про переваги технологій слід задатися питаннями про те що ми хочемо отримати на виході і яким способом ми хочемо цього досягти? Чи ми будемо з'ясовувати міститься в аналізованому тексті інформація, відповідна нашого попереднього досвіду або припускаємо наявність інформації за межами цього досвіду? І в цьому випадку будемо ми будувати гіпотези і спростовувати гіпотези?
Крім того, слід відокремити вирішувані завдання. Чи ми хочемо зрозуміти «сенс» написаного в цілому або достатньо знайти щось, що нам відомо і розмітити текст у відповідності з наявним досвідом, а саме – отримати інформацію?
як пояснення і приклад може служити аналіз фрази: «Московський водопровідний канал знаходиться за адресою Москва вул. Земляний Вал».
Певно, для вирішення завдань перекладу тексту значення семантичного аналізу величезна, але недостатньо, так як крім цього необхідно вирішити питання відмінності в асоціативних рядах, стійкі вирази, емоційні відтінки і т. д. Наприклад, більшість фундаментальних досліджень, присвячених семантичного аналізу не враховують можливу «безграмотність» писав. Це цілком нормально, так як більшість цих фундаментальних досліджень створювались не пізніше 60-х років 20-го століття. А значить, носили більш умоглядний характер, пов'язаний більше з мисленням як таким, але не з задачами розпізнавання тексту. Якщо не брати «серйозні» наукові праці, то варто почитати Умберто Еко «Сказати майже те ж саме. Досліди про переведення», де в популярній формі досліджується питання впливу семіотичних підходів у питаннях перекладу.
Досить семантичних підходів до вирішення завдання добування інформації або проблема ширша? По суті повинні ми більше спиратися тільки на семантичний аналіз чи потрібно абстрагуватися і вийти на більш загальний рівень – семіотичний?
Аналіз сучасних тенденцій утруднений тим, що дійсно проривні технології найчастіше являють собою комерційну таємницю, а також величезною кількістю матеріалів по суті є передруками один одного. Благо, інтернет все стерпить. Аналіз дисертаційної бази теж не блищить різноманітністю. Скоріше в ній йдеться про підтвердження здобувачем наукового ступеня, ніж є розробкою дійсно чогось нового. Хоча безумовно, зустрічаються і досить цікаві публікації. Наприклад, досить цікава як огляду, хоча і з суперечливими висновками, робота І. в. Смирнова і А. О. Шелманова «Семантико-синтаксичний аналіз природних мов» [2].
Перейдемо до суті статті і, для початку, визначимося з базовим шаром цілей і проблем.
Цілі аналізу:
  1. Переклад тексту
  2. Пошук по тексту
  3. Підказки для користувача
  4. Витяг даних.
Проблеми:
  1. Міграційні потоки.
    Велике змішання смислових і семіотичних полів при великій кількості помилок, тобто порушення синтаксису (граматик) і семантики текстів
  2. Відмінність у фонемных лавах різних мов.
    Неможливість передбачати помилки, а значить неможливо створити повну базу варіантів написань
  3. Гаджетизация
    На сьогоднішній день сматфони та планшети є у всіх. В результаті розвиненої системи підказок і виправлень текстів виникає новий клас помилок. Випадають слова із контексту.
  4. Полисемия понять.
    В рамках Росії це озвучена, наприклад, порталом «Державних послуг» проблема, коли відомства дають найменування по суті одних і тих же послуг по різному. При цьому вони подаються в сильно «забюрократизированном», формальному вигляді або дуже довгі назви. Зрозуміти нормальній людині це неможливо.
З точки зору світу в цілому – переважаюче вплив англійської мови і виникнення її спрощеного варіанта «middle atlentic».
Це далеко не повний перелік, але для цілей даної статті — достатній.
Перш ніж давати коротке порівняння технологічних підходів, хотілося б зробити кілька принципових зауважень.
По-перше, порівняння носить суто прикладний характер, і має дуже вузьку спрямованість, не пов'язану з завданнями перекладу. Аналіз проводиться для завдань вилучення та пошуку даних. Досить часто можна почути гіпотезу, що технології розпізнавання зорових образів-зображень і текстів можна з легкістю об'єднати і вони по суті повинні прийти до реалізації загального механізму. Можливо і так, але мені здається, що ця ідея більше нагадує пошуки єдиної теорії поля в фізиці. Можливо вона і буде знайдена, але поки що в рамках даного дослідження, обмежимося завданнями роботи з текстовими даними.
По-друге, рамки обмеженості розмірів статті не передбачають глибокий аналіз. Тому, матеріал носить тезовий характер, без докладного розбору ситуацій.
по-третє, порівняння конкретних технологічних підходів, а саме: порівняння переваг та недоліків нейронних мереж, генетичних алгоритмів, ДСМ-методів і т. д. не відноситься до суті питання. Це не більш ніж засоби досягнення результату, в які можна завантажити будь-яку логіку. Тому, хотілося б порівняти сам принцип і можливості тих або інших технологічних підходів.
В-четверте, всі без винятку алгоритми засновані на нашому попередньому досвіді і є результатом нашого попереднього досвіду. Знань даних понад, на жаль, немає у світі, включаючи вроджені інстинкти, так як вони є досвід попередніх поколінь. Тому, говорити про те, що одні алгоритми спираються на попередній досвід, а інші ні – це перебільшення. Питання в тому як ми будемо використовувати цей досвід, які конструкції його будемо обертати.
Таким чином, метою статті є спроба в першому наближенні проаналізувати можливості та обмеження самих базових логік.
Отже, основних технологій дві: статистичні і засновані на правилах. Комбінований варіант розглядати не будемо через надмірності.
Статистичні методи
Основна маса алгоритмів являє собою попередньо розмічені корпусу, збагачені варіантами написань такими як скорочення, типові помилки і т. д. На даний момент, я тільки почав збирати статистику, тому репрезентативність не велика. Тим не менш, дозволю собі виділити наступні характерні «родові риси»:
1. Основна маса рішень використовує всередині full-text search.
2. Для прискорення широко використовується хешування даних.
3. Норма варіантів написання однієї й тієї ж сутності становить від 1 до 100. Як приклад, можна навести рішення в області очищення адресних даних, де один з найбільш часто використовувані сервісів вказує, що його «навчальна вибірка» складається з 50 мільйонів варіантів, при розмірі еталонної бази 1,2 мільйона варіантів.
4. Аналіз проводиться шляхом прямого порівняння підрядків на повну відповідність з еталоном.
5. Потрібна окрема процедура верифікації результатів для прийняття остаточного рішення.
Перевагами методу є:
  1. Відносна простота реалізації.
  2. Висока швидкість перебору варіантів.
До недоліків можна віднести:
  1. Лавиноподібне зростання розміру бази з-за необхідності зберігання варіантів написань окремих сутностей.
  2. Складність контролю несуперечності, що призводить до зростання вірогідності появи полісемії варіантів
  3. Неможливість або сильна обмеженість аналізу часткових збігів та обліку морфології.
  4. Висока вартість первісного створення алгоритмів так як необхідно накопичувати базу варіантів написань. Це позначається, наприклад, у складності підключення нових країн при розборі адрес. Так як для кожної країни необхідно створювати свою базу варіантів написань.
  5. Неможливість застосування евристичних підходів для аналізу ситуацій за рамками відомих варіантів.
Алгоритми, засновані на правилах
Основна маса алгоритмів спирається на поняття фрейму, синтаксемы і з допомогою штучних предикативних мов, різних семантично розмічених корпусів.
Родовими рисами можна вважати:
  1. Наявність тим чи іншим способом розмічених корпусів або еталонних опорних довідників. Наприклад, «Лексикограф»[3] ВНИИТИ, національний корпус російської мови[4], КЛАДР/ФІАС і т. д.
  2. Наявність правил, об'єднаних в граматики. Граматики можуть бути реалізовані у формі пов'язаних шаблонів, штучних предикативних мов т. д.
  3. Аналіз проводиться шляхом послідовного порівняння слів. Допускаються перестановки і часткові збіги слів, якщо таке передбачено граматикою.
  4. Не потрібна окрема процедура верифікації для прийняття остаточного результату.
Перевагами є:
  1. Більш висока точність
  2. Добра переносимість при роботі з різними корпусами і областями знань.
  3. Можливість використання евристичних підходів для аналізу ситуацій за рамками знань упакованих у корпусу.
  4. Можливість аналізу та прийняття рішення у ситуаціях сильного «забруднення» даних, пов'язаних з різного роду помилками і надмірним вмістом.
До недоліків можна віднести:
  1. Складність реалізації граматик з-за відсутності готових інструментів.
  2. Більш низька швидкість роботи.
  3. Складність контролю несуперечності правил
  4. Складність побудови попередньо розмічених і логічно ув'язаних корпусів баз знань.
Висновки
Незважаючи на гадану очевидність переваги технологічного підходу заснованого на правилах, обидва підходи мають право на існування. Питання полягає в областях та економічної доцільності їх застосування.
Так, представляється очевидним, що підхід, заснований на статистичних методах може себе добре зарекомендувати в завданнях, де є невеликий масив аналізованих сутностей і немає великої забруднення даних. Прикладом можуть служити такі завдання, як організація[5] пошуку по товарних позиціях невеликого магазину, пошук та аналіз хеш-тегів в соціальних мережах, оцінка емоційного забарвлення текстів. Експрес-аналіз документів з метою визначення їх типу і подальшої каталогізації.
У той же час, у вирішенні завдань, пов'язаних з великими масивами еталонних даних, при роботі зі слов'янськими мовами, перевагою володіє технологічний підхід заснований на правилах. Прикладом може служити рішення завдання розбору адрес. Результати тестів та аналіз існуючих рішень показує, що рішення засновані на статистиці дають стійкий результат точності пошуку в межах 60-70% відсотків на контексті з забрудненням у межах 10-15% і зростання точності до 80-85% при зниженні забрудненості нижче 10%.
У наведених цифрах легко переконається зібравши стенд, який буде представляти собою який-небудь full-text індекс, наприклад elastic[6], з залитим в нього КЛАДР/ФІАС.
Дана стаття є по суті вступній. Надалі, я постараюся більш детально зупинитися на кожному з питань.
Примітки[1] У. Куайн «Філософія логіки»
[2] Робота виконана за підтримки ДФФД україни (проект № 12-07-33068) і Міносвіти Росії за державним контрактом № 07.514.11.4134 від 08.06.2012 р
[3] Проект «Лексикограф» був спочатку пов'язаний з виниклою у С. А. Крилова в 1990 р. ідеєю створити бібліографічну базу даних за лексичної семантики: був висунутий проект словника російської мови, в якому кожному слову або значенням слова була б сполучати стосується його бібліографія. Ця ідея зацікавила групу лінгвістів і поступово перетворилася в ідею створення бази даних по лексичної семантики, яка могла б бути робочим інструментом лексикографа.
На початковому етапі у створенні «Лексикографа» брали участь Р. В. Кустова, Е. В. Падучева, Е. В. Рахилина, Н. В. Розіна, С. Ю. Семенова, М. В. Філіпенко, Н.М.Якубова, Тобто Янко.
[4] У проекті беруть участь фахівці Інституту російської мови ім. В. о. Виноградова РАН [ІРЯ РАН], Інституту мовознавства РАН [Іяз РАН], Інституту проблем передачі інформації РАН [ІППІ РАН], Всеросійського інституту наукової і технічної інформації РАН [ВІНІТІ РАН] і Інституту лінгвістичних досліджень РАН [АБО РАН] у Санкт-Петербурзі (спільно з Санкт-Петербурзьким державним університетом [Спбду]), Казанського (Приволзького) федерального університету, Воронезького державного університету, Саратовського державного університету. Сайт:www. http://ruscorpora.ru
[5]під забрудненням розуміється наявність зайвих з точки зору слів, а також помилок
[6] https://www.elastic.co
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.