Немного истории о распознавании речи

Распознавание речи само по себе не представляет ничего нового. Системы диктования для отдельных профессий таких, как радиология, известны уже давно. Но они сами по себе очень дороги и требуют дорогих компьютеров. Менее дорогие программы более широкого применения предполагают специфическую манеру речи с паузами после каждого слова.

Год назад компания Dragon Systems, выпустив NaturallySpeaking, заложила краеугольный камень в истории развития систем распознавания речи - это была первая программа, позволяющая диктовать текст естественным образом. Вскоре IBM предложил ViaVoice, аналогичную программу, стоившую на сотни долларов меньше конкурента.

Главным фактором, ускорившим развитие програм распознавания речи, было совершенствование компьютеров.
Эти программы требуют большой вычислительной мощности и значительных объемов памяти. Чтобы использовать программы распознавания речи с полной отдачей мы рекомендуем РС с процессором Pentium MMX/166 или аналогичным и жесткм диском не менее 2 Гбайт.

Сегодня такой компьютер можно купить менее, чем за $1,000. Перед его покупкой следует убедиться, что используемая программа распознавания речи поддерживает имеющуюся в РС звуковую карту. Обе рассматриваемые программы работают со звуковыми картами, совместимыми с 16-bit Sound Blaster, однако мы обнаружили их большую чувствительность к конфигурации компьютера вообще.

Программы распознавания речи требуют всю эту мощь, поскольку они выполняют сложную работу. Сначала произносимые вами слова захватываются микрофоном и обрабатываются звуковой картой.

Затем программа анализирует звук, чтобы отличить низкочастотные гласные от высокочастотных согласных. После этого результаты сравниваются с фонемами (частями слов), группами фонем и словами, чтобы подобрать наиболее точный эквивалент.

Этот алгоритм должен быть не только аккуратным и быстрым, но пластичным, чтобы учитывать особености произношения, модуляции голоса, скорость речи. После подбора наиболее точного слова программа анализирует контекст, что предугадать следующее слово. Это позволяет различить слова-омонимы, например, коса (вид прически), коса (береговая отмель), коса (сельско-хозяйственный инструмент).

NaturallySpeaking и ViaVoice могут работать сразу после того, как вы прочтете несколько предложений. Чтобы добиться лучших результатов следует, однако, произвести 30-минутную тренировку. Чтобы еще лучше подготовить программу следует прочитать текст или импортировать документы, содержащие наиболее часто употребляемые вами слова.

Хотя наши результаты несколько противоречивы, понятно, что пользователи могут добиться большего, посвятив большее время тренировке программ. Это может занять от часа до месяца постоянной работы прежде, чем вы получите реальные результаты. Профессионалам, нуждающимся в диктовке, энтузиазм новой технологии наверняка позволит добиться больших результатов.

Автор:Alfred Poor, ZDNet