Перпетуум мобиле

Программа распознавания русской речи

Программа "Перпетуум М" имеет встроенный язык программирования, благодаря которому она способна удивительным образом перевоплощаться. Этот язык позволяет создавать сценарии игр, тестов, обучающих и развивающих приложений, систем управления различными объектами. Во всех этих случаях возможно использование речевого ввода и вывода информации. Количество подключаемых к программе сценариев не ограничено. Каждый из сценариев сам по себе тоже является объектом авторского права, поэтому независимые разработчики вправе устанавливать цены на свои сценарии. Но на этой странице размещаются сценарии, которыми вы можете пользоваться бесплатно (при условии соблюдения требований Лицензионного соглашения на программу "Перпетуум М"). Выходит, что оплатив один раз регистрацию основной программы, вы получаете в подарок дополнительные программы. И в дальнейшем, по мере выхода новых бесплатных сценариев, вы сможете их скачивать с сайта и свободно ими пользоваться. Более того, вы можете сами создавать свои сценарии или изменять готовые. Сценарий для "Перпетуум М" - это тоже программа, которую можно просматривать и изменять в обычном текстовом редакторе. Описание языка сценариев находится в архиве с основной программой.

В июне 2010 г. вышла версия 3.01 программы "Перпетуум М". В третьей версии программы появилась возможность изменять состав словаря. При этом, как и раньше, программа не нуждается в предварительной надиктовке (обучении) словаря! Усовершенствованы алгоритмы распознавания произвольной речи, благодаря чему теперь роль словаря сводится только к обработке текстовой информации, получаемой в результате распознавания произвольной речи. Это позволяет использовать в словаре любые слова и словосочетания, меняя при необходимости состав словаря в режиме реального времени с учётом текущих потребностей. Появилась также возможность передавать информацию в любые другие приложения путем имитации нажатий клавиш на клавиатуре (вводить текст, управлять другим приложением). Создателям любительских систем "умный дом" в данной версии программы предлагается очень простой способ соединения компьютера с исполнительными устройствами, не требующий разработки USB-контроллеров и драйверов.

С самого начала было решено, что программа "Перпетуум мобиле" должна уметь работать с произвольным текстом. Естественно, возник вопрос, откуда будет появляться текст? И возможно ли это вообще - синтезировать текст, не имея словаря? Сразу вспомнилось, что изучая иностранный язык, мы нередко пишем иностранные слова русскими буквами. Причем таких слов, которые мы при этом пишем нет ни в одном словаре. Мы просто догадываемся, основываясь на звучании, что эти слова нужно писать именно такими буквами. Значит это возможно. От словаря пришлось отказаться, что положительно отразилось на размерах программы и быстродействии. По этой же причине невозможно привести полный список слов, с которыми программа может работать. Вместо словаря программа имеет набор правил, по которым она создает текст, опираясь на извлекаемую из звука информацию. Благодаря такому строению программа не имеет принципиальных ограничений по объему словарного запаса. Конечно, первая версия еще не охватывает весь объем русского языка и имеет еще немало "белых пятен", но важно уже то, что охватить весь объем языка ей вполне под силу. В последующих версиях обнаруживаемые "белые пятна" будут устраняться. Но сколько же слов "знает" программа, хотя бы примерно? По скромной мерке это количество для первой версии можно оценить в несколько тысяч.

Обычно такого рода программы имеют функцию обучения. Пользователь должен наговаривать образцы слов, пополнять словарь, подстраивая таким образом программу под свои потребности и свой голос. "Перпетуум мобиле" такой функции не имеет. От этой функции решено было отказаться, чтобы предельно упростить использование программы. На первый взгляд это лишает вас возможности влиять на ее свойства. Однако, если программа уже способна выполнять то, что от нее требуется, то функция обучения превращается в лишний груз. Именно на это и ориентировано развитие программы - на способность выполнять то, что от нее требуется не прибегая к дополнительному обучению. Обучение происходит в лаборатории, что избавляет вас от лишних хлопот. Конечно, это тянет за собой новые проблемы. Всем известно, что голоса у людей разные и это усложняет задачу. Чтобы подавить влияние индивидуальных особенностей голоса диктора, программа анализирует прежде всего информацию, свидетельствующую о происхождении звуков. По сути, программа следит за движениями языка, губ и других, участвующих в этом процессе, органов. Однако, и этого, оказывается, мало. Ведь кроме различия, в голосах, люди еще и по-разному произносят одни и те же звуки даже не имея дефектов речи. Казалось бы, тупик. Но нет, не тупик. Раз уж люди понимают друг друга несмотря на все это многообразие, значит существует некий стандарт, обязательно присутствующий в каждом нормально произнесенном слове. В последующих версиях программа будет продолжать настойчиво изучать эти стандарты.

По словам автора программы ввод произвольного текста через микрофон вполне возможен. Проблем, конечно, еще хватает и далеко не все смогут получить от первой версии программы приемлемые для себя результаты. Но эти проблемы имеют решение. В запасе еще много идей по дальнейшему развитию и совершенствованию программы.

Евгений Котов.
http://projectveka.ru

Голосование: 
0
Голосов пока нет