Распознавание речи сегодня и завтра

Специалистам Центра речевых технологий (ЦРТ) не раз приходилось слышать от своих клиентов слова сожаления по поводу того, что невозможно обеспечить автоматическое распознавание разговорной речи. Действительно, насколько бы повысилась эффективность работы журналиста, врача, секретаря, стенографиста или даже следователя, если исключить из нее рутинный процесс ввода текста вручную. Некоторые из клиентов выражали и недоумение, так как были уверены, что эта задача давно и успешно решена. Они правы, но лишь отчасти.

Действительно, проблема распознавания человеческой речи давно привлекала специалистов. Неоднократно отечественные и зарубежные фирмы, научные центры декларировали свои успехи в этой области. Еще тридцать лет назад появились первые машины, а чуть позднее и компьютерные программы для распо-знавания отдельных слов. На выставке достижений информационных технологий CeBIT 2004 в Ганновере сразу несколько компаний, в частности Dictaphone и Scansoft, демонстрировали свои системы распознавания слитной речи. Их программы вполне уверенно распознавали речь практически на всех наиболее распространенных в мире языках, включая диалекты китайского. На всех языках – кроме русского. Это объясняется не только коммерческими соображениями, но и определенными принципиальными отличиями славянских языков от основных европейских (в частности, высокой степенью флективности и фузийности, тенденцией к фонетической редукции и свободным порядком слов), что делает славянские языки (кроме, отчасти, болгарского) чрезвычайно «неудобным» материалом для построения статистических языковых моделей, на которых сегодня базируются все работоспособные системы распознавания связной речи. В отношении автоматического распознавания речи это означает, что словоформ, которые так или иначе должны быть учтены при составлении словаря, почти на порядок больше, чем для языков с низкой флективностью.
Однако, несомненно, задача распознавания слитной русской речи будет решена, если не сегодня, то завтра, так как серьезных научных проблем на этом пути нет.
Но кое-что мы можем использовать и сейчас, не ожидая появления полнофункциональной системы распознавания речи. Ведь для управления «интеллектуальным домом» или компьютером, получения справочной информации по телефону требуется не так уж много слов, а древовидная организация меню управления вообще позволяет обойтись несколькими десятками голосовых команд. В таких системах определяющее значение имеет не объем словаря, а надежность распознавания в реальных условиях. Итоги тестирования подобных программ, неоднократно проводимых журналом CHIP, показывают, что наименьший процент ошибок обеспечивает технология голосового управления VoiceCom, разработанная в ЦРТ.
Программа управления компьютером Voice Navigator, основанная на данной технологии, демонстрирует надежность распознавания 98% (CHIP, декабрь 2004). Неслучайно в 2002 г. уже электронное устройстя сотовым телефоном DiVo, также разработка ЦРТ, вошло в список лучших инноваций выставки CeBIT. Многих тогда поразило, как уверенно DiVo узнает команды хозяина в салоне автомобиля, несмотря на шум вокруг.
Наиболее перспективным направлением внедрения современных речевых технологий представляется комплексное использование наряду с технологией распознавания речи, синтеза речи по тексту, аутентификации личности по голосу. Это может оказаться самым эффективным способом повышения скорости обслуживания клиентов контакт-центров без увеличения количества обслуживающего персонала и занимаемых площадей. Уже сейчас программный модуль Voice Key позволяет с надежностью 99% идентифицировать личность по парольной фразе длительностью 3–5 секунд, а синтезатор речи «Оратор» – воспроизвести текст любой сложности. Программа самостоятельно, без дополнительной разметки, расставляет ударения и паузы, использует богатый набор интонационных моделей, обеспечивая естественное произношение.

Г.Н. Зубов, Н.С. Смирнова

Голосовать: 
0
Голосов пока нет