Розпізнавання мови в ROS з Google Speech API

Я вже розповідав про використання pocketsphinx для розпізнавання ROS. У цій статті я хочу розповісти про використання gspeech для розпізнавання мови. gspeech — це пакет ROS, який використовує Google Speech API: wiki.ros.org/gspeech.


Отримання ключа Google API

Отже, почнемо. Для початку вам буде потрібно ключ Google API. Для його отримання вам, по-перше, потрібно мати обліковий запис Google. По-друге, вам потрібно підписатися на chromium-dev@chromium.org (підписатися потрібно тут).
Тепер ви можете отримати свій Google API ключ. Для цього зайдіть в Google developer console: cloud.google.com/console. Тут вам потрібно створити проект. Після створення проекту потрібно активувати Speech API в секції APIs під пунктом APIs & auth в лівому меню. Будьте обережні: цей пункт може бути відсутній у списку, як це сталося зі мною. Якщо ви не бачите Speech API, то перевірте, що ви підписались на chromium-dev і що ви зараз авторизовані під тією обліковим записом Google, поштову адресу якої ви вказували при підписці на chromium-dev.
Ключ Google API можна отримати в розділі Credentials під тим же пунктом APIs & auth. Тут потрібно створити ключ натисненням на кнопку Create new Key секції Public API access.

Установка gspeech

Тепер залишилася справа за малим — встановити пакет gspeech. Для цього клонуйте gspeech зі сторінки Github: github.com/kusha/gspeech. Для роботи gspeech вимагає установки sox:

sudo apt-get install sox

Також вам необхідно вставити ваш ключ Google API в скрипт gspeech.py у рядку:

api_key = "" # PASTE HERE YOUR GOOGLE API KEY

Запуск gspeech

Все готово і можна запустити сайт ROS gspeech:

rosrun gspeech gspeech.py

Розпізнавання в gspeech

У процесі розпізнавання gspeech публікує розпізнані фрази в тему /speech у форматі String і ступінь «впевненості» розпізнавання в тему /confidence у форматі Int8.
Процес розпізнавання фрази може зайняти деякий час, оскільки gspeech виконує запити до серверів Google. Тим не менш gspeech має досить високу точність розпізнавання, gspeech розпізнає фрази значно краще ніж пакет pocketsphinx. При тестуванні gspeech разпознавал фрази з «певністю» 70-80. У деяких випадках розпізнає з «певністю» до 94.

Бажаю вам удачі в розпізнаванні мови з Google Speech API.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.