Речевые технологии

Обзор компьютерных программных решений распознавания и синтеза речи

Все современные продукты обработки речи базируются на двух независимых технологиях: технологии распознавания и технологии синтеза речи. Первая обеспечивает ввод речевой информации в компьютер, вторая - его вывод. Если при воспроизведении речи на сегодня удалось достичь высокого качества программных решений при их низкой ресурсоёмкости, то качество программных решений распознавания речи (при их большой ресурсоёмкости) остаётся всё ещё очень невысоким.

SPEECH-ENGINE - ДВИЖОК СИНТЕЗА РЕЧИ

Движок - это набор программных средств выполняющих строго определенную задачу и предоставляющий интерфейс для использования его возможностей.
В настоящее время существует целый ряд движков синтеза и распознавания речи, которые разработаны для использования совместно с MS Speech API. На этой странице представлены некоторые их них.

Системы понимания естественного языка

Процесс общения с машиной долгое время оставался уделом специалистов и был недоступен для понимания простым смертным. Тем самым "простым смертным", которые, собственно говоря, и являлись потребителями компьютерных услуг.Технологи зачастую самой ЭВМ и в глаза-то не видели, а общались с машиной через посредника-программиста".

Услышь меня, машина

Что такое распознавание речи? На первый взгляд, все очень просто: вы произносите фразу, на которую техническая система реагирует адекватно - либо автомат выполняет команду, содержащуюся во фразе, либо набирает диктуемый текст, либо распоряжается извлеченной из фразы информацией иным образом. Как именно, зависит от конкретной реализации.

Видеть

Некоторые материалы темы ( #335 от 22 февраля 2000 года), посвященной компьютерным технологиям для инвалидов, стимулировали весьма позитивные процессы. Так, автор одной из статей темы, слепоглухонемой доктор психологических наук Александр Суворов теперь имеет выход в Интернет благодаря поддержке, которую ему оказал () и отчасти РООИ (rooisszi@online.ru). Мы получили также ряд интересных писем.

Можно ли разговаривать с компьютером?

Технологии машинного распознавания человеческой речи развиваются уже на протяжении нескольких десятилетий (см. "Компьютер учится говорить (и слушать тоже!)", CW. 1998. ь 20). За это время аналитики не раз предсказывали голосовым технологиям блестящее будущее, но широкое внедрение каждый раз откладывалось. Сегодня, с появлением недорогих продуктов для распознавания слитной речи, созданных в IBM (ViaVoice) и Dragon Systems (Dragon NaturallySpeaking), снова зазвучали оптимистические прогнозы. И на этот раз для них есть достаточно серьезные основания.

ОЧЕНЬ ДРУЖЕСТВЕННЫЙ ИНТЕРФЕЙС

Каждый человек, впервые садясь за компьютер, оказывается в абсолютно новых условиях.Постепенно пообвыкшись, он перестает замечать разницу в освоении компьютера и освоении, скажем, пылесоса. Хотя с пылесосом попроще будет: нажал, и оно заработало. Кнопка-то одна! А у компьютера? Стандартная клавиатура - 101 клавиша, плюс две на корпусе, плюс на мониторе еще какие-то есть. Модем с принтером в расчет не берем. Про виртуальные кнопки я вообще молчу. У здорового человека после первого общения с компьютером эти кнопочки с пиктограммками еще долго перед глазами мелькают.

Увидеть звук

Это кажется каким-то шаманством: человеку, ничего не понимающему ни в акустике, ни в фонетике, предлагают при обучении иностранному языку следить за своим произношением по, казалось бы, совершенно бессмысленному для него графику, сравнивая его с таким же графиком для речи диктора. И он, сам не понимая как, начинает говорить все правильнее и правильнее.

Речевой интерфейс

После появления аппаратных средств по обработке звука при помощи компьютера стали возможными попытки создания интерфейса, основанного на речевых технологиях. Такие интерфейсы также называют SILK (Speech, Image, Language, Knowledge - речь, образ, язык, знание). Задача создания такого интерфейса содержит в себе несколько разделов, которые сами по себе достаточно сложны. Прежде всего, это проблема синтеза речи и проблема распознавания речи.

Системы понимания естественного языка

Процесс общения с машиной долгое время оставался уделом специалистов и был недоступен для понимания простым смертным. Тем самым "простым смертным", которые, собственно говоря, и являлись потребителями компьютерных услуг. Технологи зачастую самой ЭВМ и в глаза-то не видели, а общались с машиной через посредника-программиста". Компьютерный интерфейс на первых этапах развития вычислительной техники в качестве обязательного элемента непременно включал человека-специалиста (что касается нашей страны, то кое-где такое положение сохранялось вплоть до начала девяностых; именно поэтому у нас во многих конторах до сих пор имеют привычку называть программистом любого человека, способного различить пару клавиш на клавиатуре. Что, конечно, по большому счету потребителей не очень-то устраивало. Вот если бы можно было пообщаться с компьютером напрямую, не забивая голову всяческими техническими сведениями...

Страницы