Программирование

Речевые технологии - программирование, разработки, ссылки

Информация для программистов и разработчиков в области речевых технологий

Данный раздел создан для того, чтобы помочь Вам найти необходимую информацию при проектировании или создании программ, использующих речевые технологии. Здесь представлены ссылки на источники документации, исходники, сайты занимающиеся разработками в этой области.
Для того, чтобы Вы могли обсудить вопросы, возникающие в Вашей работе, поделиться опытом или рассказать о своих достижениях созданы тематические форумы.
 

Использование SDK в приложении Delphi для преобразования текста в синтезированную речь

11-го августа 2001 Microsoft объявила о выпуске SAPI 5.1 SDK. Данный продукт можно использовать в любом языке, который поддерживает OLE автоматизацию.

В данной статье я постараюсь рассказать, как установить SAPI 5.1 SDK. Затем мы посмотрим, как использовать SDK в приложении Delphi для преобразования текста в синтезированную речь. Синтезированная речь будет проигрываться через спикер. Всё это тестировалось в Delphi 5 и 6.

Создания программы, распознающей голос с использованием ActiveX компонента MS Speech Recognition Engine.

Пишем первую программу, распознающую голос
Как можно сделать собственную программу, выполняющую голосовые команды .
Microsoft работала над разработкой программ "понимающих" голос человека несколько лет. Чтобы начать разработку программ, распознающих голос у Вас на компьютере должен быть установлен Microsoft Speech Recognition Engine.

Как пользоваться Microsoft Agent

Многим из вас, наверное, уже приглянулся один из персонажей Microsoft Agent. Agent, на мой взгляд - это достаточно любопытное нововведение фирмы Microsoft, а стандартная поставка ядра Agent с Windows 2000, Me и XP делает использование этой технологии в ваших программах перспективным. На сайте Microsoft доступен бесплатный редактор для создания новых персонажей Agent, а в интернете появляются сайты, на которых представлены большие коллекции персонажей. Что же мешает программистам более активно использовать Agent в своих разработках? Скорее всего, незнание этого замечательного компонента. В этой статье я попытаюсь рассказать о работе с ним.
Обзор возможностей Agent

Инструментарий разработчика "Говорящая Мышь"

Инструментарий "Говорящая Мышь" (ГМ\И) позволяет встраивать синтез речи на русском языке в приложения, разрабатываемые для работы в среде Windows 95/98, NT. ГМ\И работает со звуковой картой, используя стандартные драйверы для Windows, и представляет собой набор динамических библиотек и примеров их использования. По желанию клиента По желанию клиента ему может быть предоставлено право доступа к исходным текстам на языке С (без права передачи исходных текстов третьим сторонам или лицам). Стандартный метод применения ГМ\И состоит в том, что приложение пересылает инструментарию слово либо предложение, подлежащее произнесению, и ГМ\И организует произнесение слова или фразы с помощью звуковой карты или создавая звуковой файл в предписанной области памяти или на диске.

Инструменты для разработчика

В дополнение к программам диктования Dragon Systems и IBM предлагают инструменты для разработчиков, желающих усилить мощность своих программ. Dragon предлагает DragonDictate, дискретный механизм распознавания языка, а IBM набор инструментов ViaVoice Developer Tools.

ОПЫТ РАЗРАБОТКИ РЕЧЕВОЙ ЭЛЕКТРОННОЙ ПОЧТЫ С ИСПОЛЬЗОВАНИЕМ MICROSOFT SPEECH SD

Для людей, страдающих дефицитом общения, компьютер все чаще становится единственной отдушиной, единственной калиткой в мир. Особенно это важно для людей, самой природой ограниченных в общении. Системы распознавания английской речи и произношения текстов, получившие в последнее время большую популярность в Америке и Европе, - важное дополнительное средство общения и источник информации об окружающем мире. С их помощью пользователь может общаться с людьми в любой точке мира, его голос будет воспроизведен с высоким качеством. Причем тариф на этот вид связи существенно ниже, чем стоимость международных телефонных переговоров.

Sakrament Text-To-Speech SDK MS Windows Edition

Вы хотели бы не только разрабатывать телекоммуникационные приложения для вашей компании на основе технологии озвучивания русскоязычного текста (синтеза речи), но и встраивать речевые технологии в создаваемые вами программные продукты? Ваш выбор - это Sakrament Text-To-Speech SDK MS Windows Edition v. 3.0 (Russian Version), предназначенный для крупных компаний с серьезными запросами в области телекоммуникаций, а также для разработчиков TTS-продуктов.

Sakrament Software Development Kits

Компания в своих разработках ориентируется на новые наукоемкие технологии, которые делают общение человека с компьютером более дружественным и удобным. Все речевые технологии компании доступны разработчикам в виде специализированных пакетов - Software Development Kits (SDKs). Спектр SDK покрывает большинство существующих мобильных и настольных платформ, среди которых MS Windows, Linux, OS Symbian, MS PocketPC, MS Smartphone. Пакет разработчика включает файлы установки, программный интерфейс, документацию, примеры использования, а также дополнительные утилиты.

Sakrament Speech Database

Sakrament SDB - база данных, созданная специально для задач распознавания и синтеза русской речи. В настоящее время база содержит более 40,000 реализаций русских слов, записанных разными дикторами. Слова были подобраны таким образом, чтобы фонетически полно представить модель русского языка. Кроме аудио данных, в базе содержится информация о фонетической сегментации слов для разных фонетических моделей.

Страницы