ИНФОРМАЦИЯ О РЕЧЕВЫХ ТЕХНОЛОГИЯХ

Ваш компьютер может разговаривать с Вами, может общаться, читать Вм книги, проговаривать Ваши действия, сообщать новости и события. Для того, чтобы ваш компьютер мог синтезировать речь и понимать ваши команды необходимо установить дополнительные компоненты.

1 MS Agent (400 KB) -- агент для работы с движками распознавания и синтеза речи.
2. Russian Support (130 KB) -- поддержка русского языка для агента (надписи на кнопках, меню и т.д.).
3. MS Speech API (830 KB) -- библиотеки необходимые для работы программ распознавания и синтеза речи.
4. MS SR Engine (6 MB) -- движок распознавания речи для агента.
5. Lernout TTS Engine (3 MB) -- движок синтеза русской речи для агента.
6, merlin.exe - персонаж для агента (1,8MB)

Устанавливать компоненты желательно в том порядке, в котором они расположены на этой страничке.

Если у Вас Win 2000 или позднее (XP, Vista) то устанавливать MS Speech API нет необходимости, так как по умолчанию эти компоненты входят в официальный дистрибутив MS Windows, начиная с Windows XP.

Для синтеза речи если Вы хотите только воспроизводить (слушать) речь, то достаточно установить только:
1. Программу синтеза речи.
2. MS Speech API (Speech API) (830 KB) -- библиотеки необходимые для работы программ распознавания и синтеза речи (входит в официальный дистрибутив MS Windows, начиная с Windows XP).
3. Движки синтеза русской речи (бывают разные, мы предлагаем скачать голосовые движки фирмы L&H или Digalo).

После установки Microsoft SAPI (Speech API) в панели управления появляется специальная иконка- агент активизирован.
Далее можно установить какой либо движок для распознавания и синтеза речи. Для каждого языка свой.
Движки могут быть:
- для синтеза речи (Text-To-Speech (TTS) Engine)
- для распознавания команд (Speech Recognition (SR) Engine for PC command & control applications)
- для диктовки текста (Speesh Recognition (SR) Engine for Dictation).

Изготовители движков синтеза и распознавания речи:

Digalo - есть русский язык, синтезатор.
Elan - есть русский язык, синтезатор.
IBM ViaVoice - нет русского языка, синтезатор.
Lernout&Hauspie - есть русский язык, синтезатор.
Eloquent Technology inc
Другие

Microsoft всем раздает Speech SDK и уже появляются много программ по обработке речи, в которых просто можно выбрать в соответствии со спецификой программы и языком нужный движок. К сожалению этот пакет ориентирован на англоязычного пользователя.

Чем можно заняться используя SAPI

Использовать Speech Control в своих программах - ваши программы будут говорить, управляться голосом и т.д. Вы можете написать программу для диктовки текста со своим интерфейсом и т.п. Все это делается до безобразия просто (в SDK есть примеры, библиотеки) . Можно заняться написанием движков (DLL). Этим сейчас занимается элита. Английские движки по синтезу речи пишет 12 фирм, по распознаванию речи - 8 фирм. Есть и первые русские движки для SAPI. К сожалению они пока не отличаются хорошим качеством не только распознавания, но синтеза речи.

Компания Intel c 1995 выпускает специальные библиотеки для программистов: Библиотека примитивов распознавания (распознавание речи и образов), Библиотека обработки сигналов (обработка звука), Библиотека работы с изображениями (обработка рисунков), Математическая библиотека. Полную информацию об этих библиотеках можно найти на сайте для разработчиков фирмы Intel (Библиотеки для программистов).

Компания Microsoft выпустила в свободное пользования специальный интерфейс для движков распознавания и синтеза речи (SDK). На данный момент компания Microsoft выложила на свой сайт 11 версию Speech SDK.

Примеры программирования с использованием библиотек Speech SDK. Дополнительная информация для программистов и разработчиков в области речевых технологий.