Speech AI з Python & Google API
image
Добрий день!
Зовсім недавно прийшла в голову ідея зробити "говорилка" російською мовою. В голові була простенька схема кшталт:
1) Розпізнати мова з мікрофона
2) Придумати більш — менш розумну відповідь.
В цьому пункті можна зробити багато цікавого.
Наприклад реалізувати управління чим — небудь фізичним і не дуже.
3) Перетворити цей самий відповідь мова і відтворити.
найцікавіше, що для всіх цих пунктів знайшлися бібліотеки під Python, чим я і скористався.
В результаті вийшла зв'язка, практично не залежить від обраного в якості розмовної мови.
Читати далі →

Speech.framework в iOS 10


Огляд
Чергова конференція — чергові нововведення. Судячи з настроїв на нас чекає скасування клавіатур і пристроїв введення. Apple в iOS 10 представила розробникам можливість працювати з промовою. Мій колега Геор Касапиди вже описав можливості Siri у своїй статті, а я розповім про Speech.framework. Розглянутий у статті матеріал реалізований в демо-додатку what_i_say. На момент написання статті офіційній документації немає, так що будемо ґрунтуватися на тому, що розповів Henry Mason.
Читати далі →

Робимо Cloud IVR з інтелектуальної переадресацією і розпізнаванням за кілька хвилин

Стандартний сценарій, який потрібно реалізовувати багатьох бізнесів — IVR-меню при вхідному дзвінку, яке дозволяє або отримати якусь інформацію або зв'язатися з конкретним співробітником або оператором компанії. Абонент може керувати меню або натисканням кнопки на телефоні (DTMF), або навіть голосом (ASR). Так як платформа VoxImplant дозволяє швидко писати і налагоджувати сценарії обробки викликів на Javascript, то ми вирішили розповісти як можна за кілька хвилин поліпшити сприйняття вашого бізнесу клієнтами, зробивши зручне і технологічне IVR-меню. До того ж, ви зможете грамотно розподіляти навантаження на вашу телефонну систему і співробітників. За деталями, як завжди, ласкаво просимо під кат.
Читати далі →

пониження шумів CMU Sphinx

    Можна сміливо заявити, що на сьогодні CMU Sphinx став лідером серед вільного софта для розпізнавання мови. Pocketsphinx поставляється разом з Ubuntu , багатообіцяючий проект Simon побудований з широким його використанням, а структура корпусу Voxforge як би натякає, що створений він для sphinxtrain.
 
Незважаючи на бурхливий розвиток самого Sphinx'а і методів розпізнавання мови взагалі, кожен, хто намагався використовувати його на практиці, знає, наскільки складно отримати осудний результат навіть для простих завдань. А все тому, що не можна просто підключити дефолтні моделі і чекати, що система вас зрозуміє. Требуется адаптувати акустику, побудувати релевантну мовну модель, знайти оптимальні параметри і конфігурацію движка — вобщем, витратити тижні часу, копітко знижуючи помилку відсоток за відсотком. Як людина, який витратив ці самі тижня, можу запевнити, що і в цьому випадку вам нічого не гарантовано. Особливо, якщо ви хочете розпізнавати мову, записати не гарнітурою, а вбудованим мікрофоном ноутбука, як це часто буває.
 
Читати далі →

Распознование мови для чайників

    
У цій статті я хочу розглянути основи такої цікавої галузі розробки ПЗ як Розпізнавання Речі. Експертом у цій темі я, природно, не є, тому моя розповідь буде рясніти неточностями, помилками і розчаруваннями. Проте, головною метою мого «праці», як можна зрозуміти з назви, є не професійний розбір проблеми, а опис базових понять, проблем та їх рішень. Загалом, прошу всіх зацікавилися просимо під кат!
 
 
Читати далі →