Як зібрати биграммы для корпусу будь-якого розміру на домашньому комп'ютері

У сучасної комп'ютерної лінгвістики биграммы, або в загальному випадку n-грами, є важливим статистичним інструментом. У статті ми розповімо з якими труднощами можна зіткнутися при розрахунку биграмм на великому корпусі текстів і наведемо алгоритм, який можна використовувати на будь-якому домашньому комп'ютері.

Читати далі →

Майбутнє браузерів і штучний інтелект. Дзен в Яндекс.Браузері

В майбутньому, як нам здається, всі популярні браузери вийдуть за рамки програм для відкриття веб-сторінок і навчаться краще розуміти людей, які ними користуються. Сьогодні я розповім вам, яким ми бачимо це майбутнє на прикладі персональної стрічки Дзен в Яндекс.Браузері, яка тепер доступна користувачам Windows, Android і iOS.



Незважаючи на уявну простоту, в основі Дзена лежать досить складні технології. Я розповім трохи про те, як це реалізовано у нас, де і чому ми використовували традиційне машинне навчання, а де — нейронні мережі та штучний інтелект, і буду вдячний за вашу думку про цьому підході.


Читати далі →

Як ми робили систему виділення інформації з тексту на природній мові для банку АТ «Банк ЦентрКредит» (Казахстан)

Деякий час тому до нас звернувся представник банку АТ «Банк ЦентрКредит» (Казахстан) з цікавим завданням. Необхідно було інтегрувати в конвеєр обробки даних, що представляють з себе текст природною мовою, додатковий інструмент обробки. Всіх деталей проекту ми розкривати не можемо, так як він знаходиться у сфері безпеки банку і розробляється його службою безпеки. У висвітленні технологічних аспектів завдання та способів їх реалізації замовник не був проти, що власне ми і хочемо зробити в рамках даної статті.

В цілому завдання, полягала у вилученні деяких сутностей з великого масиву текстів. Не сильно відрізняється від проблема класичної задачі витягу іменованих сутностей, з одного боку. Але визначення сутностей відрізнялися від звичайних і тексти були досить специфічними, а терміном на рішення проблеми було два тижні.

Читати далі →

Text Analytics as Commodity: огляд програм текстової аналітики

text analytics landscapeЯкщо б мені дали мільярд доларів на наукові дослідження, я б створив велику програму в масштабі NASA по обробці природної мови (NLP).[Reddit AMA Майкла Джордана, 2015]. З цієї публікації ви дізнаєтесь, чи є ринок для додатків текстової аналітики. І чи не занадто оптимістичний заслужений професор М. Джордан з приводу потенціалу NLP, а краще витратити мільярд доларів на щось інше.

Введення

Спочатку визначимося з термінами. Інтелектуальний аналіз тексту (англ., text mining) — це технології отримання структурованої інформації з колекцій текстових документів. Зазвичай це поняття включають такі великі завдання, як
  • категоризація тексту
  • витяг інформації
  • інформаційний пошук.
Часто, коли говорять про застосування інтелектуального аналізу тексту в бізнесі — текстової аналітики (англ., text analytics) — мають на увазі не просто структуровану інформацію, а т. зв. поглиблене розуміння предмета аналізу (розуміння), яке допомагає у прийнятті бізнес-рішень. Відомий експерт Сет Граймс визначає текстову аналітику технологічні і бізнес процеси застосування алгоритмічних підходів до обробки і отримання інформації з тексту та отримання глибокого розуміння.

Прийнято вважати, що формується новий ринок когнітивно-обчислювальнихcognitive computing) продуктів. оцінками MarketsandMarkets глобальний ринок продуктів на основі обробки природної мови повинен скласти $13.4 млрд. до 2020 року при зростанні в 18.4% CAGR. Таким чином, зараз цей ринок оцінюється приблизно в $5.8 млрд. В останні роки цей зростаючий ринок ознаменувався цілим низкою гучних угод, начебто покупки Alchemy API компанією IBM. іншими оцінками, аналогічний ринок в Європі вже зараз перевершує пів-мільярда доларів подвоїться і до 2019 року. Ринок Північної Америки становить майже 40% глобального ринку текстової аналітики і має оптимістичні оцінки зростання.

Читати далі →

Автоматична генерація осмислених унікальних текстів

Кожен веб-оптимізатор знає, що для того щоб сайт любили пошуковики, він повинен містити унікальні тексти. Причому не аби які набори слів, а осмислені пропозиції, бажано по темі сайту. Особливо це проблема для агрегаторів, які беруть інформацію з інших сайтів, інтернет-магазинів, де параметри і дані про товари в цілому однакові. Тому стандартна практика в цій ситуації — замовляти унікальні тексти копірайтерам. Вартість такого задоволення від 50 до 300 руб. за 1000 знаків. Якщо на вашому сайті 10000 сторінок, унікальні тексти швидко стають значною статтею витрат.

У цій статті поговоримо методи алгоритмічної генерації текстів і розповімо про наш досвід роботи з ними.

Читати далі →

Створення своєї моделі для вилучення інформації з тексту за допомогою web-API від Meanotek

Зараз є багато сервісів, які дозволяють отримувати деяку інформацію з текстів, наприклад іменовані суті, такі як імена людей, назви організацій, назви місць, дати, що дозволяє вирішувати деякі цікаві завдання. Але набагато більше цікавих завдань залишається за дужками.

Якщо потрібні назви товарів, причому не всіх, а якихось певних? Чи ми хочемо інтерпретувати команди для мобільного додатка? Розділити на адресу назва вулиці, будинки, міста? Як щодо виділити важливі факти звернення клієнта в службу підтримки: «Я обурений якістю обслуговування у вашій компанії. Не так давно, я замовляв ноутбук, а менеджер розмовляв некоректно і сказав, що товар закінчився». Сьогодні я розповім про новий сервіс дозволяє вирішувати широке коло завдань вилучення інформації з тексту. Цей сервіс ми тільки що відкрили для публічного доступу.

Читати далі →

Як ми придумували систему аналізу текстів

Доброго часу доби всім. Це наш перший пост в блозі стартапу «Meanotek», і напевно він буде більше ознайомчого характеру. Щоб не було зовсім нудно читати, ми спробуємо розповісти історію, про те як одна практична задача привела нас до створення повноцінної системи «розуміння» тексту комп'ютером, і що з цього вийшло.

Думка навчити комп'ютер спілкуватися на людській мові у мене з'явилася ще в школі, коли у мене вдома був один з перших радянських аналогів IBM PC, з мовою програмування GW BASIC. Зрозуміло, що далеко ця задумка в той час не пішла, потім її заступили інші більш важливі справи, але зовсім несподівано вона спливла знову через багато років, вже у зв'язку з конкретною потребою.

Власне ідея прийшла в голову під час роботи над іншим проектом — сайтом пошуку відгуків reviewdot.ru. Ідея reviewdot.ru була в наступному — користувач вводить запит, наприклад «дзеркальний фотоапарат для початківців» — і отримує список посилань на відгуки в інтернеті, які стосуються саме цього питання. Або наприклад, за запитом «що ламається в пральній машині Indesit?» з'являлися посилання на відгук користувачів марки Indesit, у яких щось зламалося. Питання цінності даного ресурсу для людей поки залишимо за дужками, і поговоримо трохи про технічну сторону реалізації.

Читати далі →

Deep Learning, NLP, and Representations

Пропоную читачам «Хабрахабра» переклад поста «Deep Learning, NLP, and Representations» крутого Крістофера Олаха. Ілюстрації звідти ж.

В останні роки методи, що використовують глибоке навчання нейромереж (deep neural networks), зайняли провідне становище в розпізнаванні образів. Завдяки їм планка для якості методів комп'ютерного зору значно піднялася. В ту ж сторону рухається і розпізнавання мови.

Результати результатами, але чому вони так круто вирішують завдання?

У пості освітлено кілька вражаючих результатів застосування глибоких нейронних мереж в обробці природної мови (Natural Language Processing; NLP). Таким чином, я сподіваюся дохідливо викласти один з відповідей на питання, чому глибокі нейромережі працюють.

Читати далі →

Text Analytics HackDay 2014: Хакатон додатків по обробці і аналізу текстів

Наша команда проекту textocat.com, хмарного API для аналізу текстів російською мовою, любить допомагати розвитку нових креативних ідей. В минулому році ми провели в Казані музичний хакатон RuSSIR Music Hackathon і писали про це тут на Хабре (див. замітки про заході і принципах організації). Згадуючи ту подію, ми підготували трейлер нашого нового заходи Text Analytics HackDay 2014:


Читати далі →

Сучасні аспекти уявлення текстів при аналізі природної мови: класичні та альтернативні підходи

Введення

У computer science з року в рік все більш популярною стає тема обробки природної мови. Через величезну кількість завдань, де потрібно подібний аналіз, складно переоцінити необхідність автоматичної обробки текстових документів.
 
У цій статті ми максимально просто постараємося описати найбільш популярні сучасні підходи до подання текстових документів для комп'ютерної обробки. А на одному з них, який в даний час ще не отримав широкого розповсюдження, проте має на це всі шанси, зупинимося більш детально, оскільки цей метод ми використовуємо в SlickJump при розробці алгоритмів, наприклад, контекстного таргетингу реклами .
 
Відзначимо, що наведені підходи застосовні не тільки до текстів, а взагалі до будь-яких об'єктів, які можна представити у вигляді символьних послідовностей, наприклад, які-небудь макромолекули (ДНК, РНК, протеїни) з генетики. Усього ми розглянемо 4 методу:
 
 
     
  1. прізнаковая опис.
  2.  
  3. Попарне накладення (вирівнювання) текстів.
  4.  
  5. Формування профілю і прихованої марковской моделі.
  6.  
  7. Подання фрагментами.
  8.  
Отже, приступимо.
 
Читати далі →