Як працює RealSpeaker

    Здрастуйте, дорогі користувачі Хабрахабр!
 
Нарешті настав той день, коли я вирішив написати перший пост для Вас.
Мова піде про те, як виникла ідея створення проекту, на якій стадії розвитку ми знаходимося сьогодні і які плани стоять перед нами в саме найближче майбутнє. Дивись відео:
 
  
Ідея проекту виникла ще в далекому 2009 році, коли я був ще студентом марійського державного університету. Свого часу я мріяв вступити в головний альма матер країни: московський державний університет імені Михайла Васильовича Ломоносова. Хто знає, напевно пам'ятає, що перший час там не брався єдиний державний іспит і необхідно було здавати всі іспити особисто, використовуючи свої знання і навички. Для цих цілей активно готувався більше року. Я розробив програму на рік, де розділив методичку абітурієнта на тимчасові періоди протягом року з дисциплін. І по них активно готувався кожен день. Весь мій день був розписаний по хвилинах. Вставав я в 6 годині 30 хвилин, лягав в 23 00. Завдяки чіткій організованості, мені вдалося значно підвищити свій внутрішній світ.
 
 
Однак цього виявилося недостатньо для вступу. Під час підготовки я звернув увагу на підручники з фонетики, де велика увага приділяється вивченню іноземної мови на основі правильної артикуляції. Артикуляція — це розділ лінгвістики, який відповідає за вимови. Я задумався по цій темі і згадав про глухих людей, які розвивають в собі навички читання по губах. Ідея мені здалося оригінальною — я вирішив займатися створенням аудіо візуальної системи розпізнавання мови, яка на першому етапі буде дозволяти людині перетворювати мовні даних в текст, а потім відтворювати їх для спілкування з іноземцями.
 
Якщо простежити про це сьогодні, то можна почути про Skype. Microsoft оголосила про те, що створює спеціальний сервіс, який дозволить в реальному часі спілкуватися з іноземцями за рахунок синхронізації інформація на різних мовах. Ось така була в мене ідея для 2009 року.
Потім я займався цим неформально, проводив дослідження з даної тематики, писав наукові статті, виступав на конференціях: спочатку на регіональних, потім на столичних. Їздив по різному роду зльоту молоді, був навіть два рази на Селігері.
 
Таким чином мені вдалося вперше отримати грошову суму 400 тисяч рублів від фонду Бортника. Це сума розписувалася на 2 роки, і я отримував грошові кошти в розмірі 15 тисяч рублів на місяць, що для студентів було дуже і дуже добре.
 
Так само в цей час я зміг познайомитися з людьми, з цієї області, які мислили і розуміли краще, ніж я. Поступово стали опрацьовувати цю тему і створювати свої власні рішення. Але це було більше наукова робота — без жодного натяку на бізнес.
 
У 2011 році закінчивши з червоним дипломом університет, я вирішила не йти в аспірантуру, а спробувати займатися цим напрямком. Мені хотілося створити компанію. Більше того я мріяв про це.
Наприкінці року переїхав до Казані разом з двома хлопцями з міста Йошкар-Ола. Ми стали займатися подібною тематикою більш професійно. Звичайно ж, наших навичок і знань було недостатньо. Але дуже сильно компанії допомагав казанський айті парк, потім ми стали резидентами Сколково, оскільки у проекту були деякі наукові основи.
 
Однак перша версія технології з'явилася тільки в тринадцятому році. Як це не дивно, 1 рішення було абсолютно вдалим. Остільки оскільки в своїй роботі основні акценти ми робили на відео обробку, в той час як аудіо приділялася увага лише наприкінці.
Таким чином в першому рішенні людина дуже сильно залежав від зовнішніх умов: відстань від камери до людини, якість картинки, наскільки активно людина рухається в кадрі. Ми забули про найголовніше принципі систем розпізнавання мови — програма повинна давати ефект волі.
 
Потім ми переглянули нашу концепцію і приблизно в кінці жовтня запустили нову версію продукту. Поступово саме з цього часу почалося зростання, який багато в чому органічний. Рішення поступово поширюється, у нас з'являються нові користувачі, база даних продукту росте, росте звичайно і прибуток, але поки що жодних серйозних значень отримати не вдалося, а як би хотілося.
 
Таким чином підводячи підсумок: я в цій темі вже досить давно, майже п'ять років. Компанія існує два роки. За час роботи ми пережили безліч етапів. Були періоди, коли нас до речі було більше десяти чоловік; було, коли фактично проектом займалося дві людини. Зараз, основні цілі і завдання, просунути наші рішення на європейські та американські ринки. Оскільки РеалСпікер легко можна адаптувати під будь-яку мову — потрібно лише, зробити локалізацію сайту і локалізацію програми.
 
Передбачається так само доопрацювати технологію, яка знаходиться в сирому вигляді. Основна ідея — це зробити так, щоб система ідентифікації могла верифікувати людини із загального шуму. Щоб програма могла пригнічувати сторонні шуми. До вирішення цього завдання ми прагнемо. І вона буде рано чи пізно вирішена.
 
Спасибі величезне за вашу увагу, відмінною тижні!
Якщо будуть питання, пишіть. Буду радий розповісти більш докладно.
Всього самого чудового!
З повагою,
Віктор
 
«Цей текст був набраний за допомогою програми RealSpeaker — www.realspeaker.net »

    
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.