Информация для программистов и разработчиков в области речевых технологий

Данный раздел создан для того, чтобы помочь Вам найти необходимую информацию при проектировании или создании программ, использующих речевые технологии. Здесь представлены ссылки на источники документации, исходники, сайты занимающиеся разработками в этой области.

Для того, чтобы Вы могли обсудить вопросы, возникающие в Вашей работе, поделиться опытом или рассказать о своих достижениях созданы тематические форумы.
ФОРУМЫ http://speech-soft.ru/forum/
Форум "Синтез речи" - http://speech-soft.ru/forum/speech/
Форум "Распознавание голоса" - http://speech-soft.ru/forum/recognition
Форум OpenSource - http://speech-soft.ru/forum/open-source/

Проект OpenSource

В настоящее время разработки в области Речевых технологий в направлениях синтеза речи и распознавания голоса ведутся в России отдельными фирмами. На сегодняшний день достойных законченных разработок по распознаванию русской речи нет.

Предлагается создать открытую разработку синтеза и распознавания русской речи. Только так можно добиться действительно качественного продукта в этой области. Действительно качественные продукты получаются только когда начинают заниматься ими крупные компании, со своими research лабораториями, вкладывая большие деньги в продукт, либо открытым сообществом что мы можем видеть по Linux Apache MySql.
Если у Вас есть какие-то предложения на этот счет или Вы готовы поделиться своими разработками в этой области с заинтересованными разработчиками, пишите, будем работать в этом направлении.

ССЫЛКИ НА ИНФОРМАЦИЮ И ИНСТРУМЕНТЫ ДЛЯ РАЗРАБОТЧИКОВ

Microsoft Speech Platform (версия 11.0) – набор инструментов, позволяющих разработчикам строить решения с распознаванием голоса и перевода голоса в текст.

Для работы синтезатора речи необходимо загрузить и установить следующие компоненты:

  1. Microsoft Speech Platform - Runtime – серверная часть платформы, предоставляющая API для программ (файл x86_SpeechPlatformRuntimeSpeechPlatformRuntime.msi).
  2. Microsoft Speech Platform - Runtime Languages – набор языков для серверной части. На данный момент предлагаются голоса для 26 языков, в том числе русский голос Elena (файлы, чьи имена начинаются с "MSSpeech_TTS_").

Алофонные ( речевые ) базы данных - основа для создания систем синтеза речи и распознавания голоса.
http://speech-soft.ru/info/alofonnaya-baza-tts-sinteza-mgu

Использование SDK в приложении Delphi для преобразования текста в синтезированную речь
http://speech-soft.ru/info/ispolzovanie-sdk-v-prilozhenii-delphi-dlya-pr...

Создания программы, распознающей голос с использованием ActiveX компонента MS Speech Recognition Engine.
http://speech-soft.ru/info/sozdaniya-programmy-raspoznayushchey-golos-s-...

Как пользоваться Microsoft Agent
http://speech-soft.ru/info/ms-agent-i-speech-api-v-delphi

http://tts.by.ru/delphi.html - примеры программирования под Speech API, исходники ранней версии ReaderTTS, и просто примеры работы с Windows API...

http://iclub.kemsu.ru/ts/builder.main.htm - наработки, документация, исходники на C++Builder

Инструментарий разработчика "Говорящая Мышь"
http://speech-soft.ru/info/instrumentariy-razrabotchika-govoryashchaya-mysh

Книга по программированию на VisualBasic :( с использованием SAPI на русском.
или http://oes.mans.eun.eg/Books/0-672-30928-9/index.htm

Большая техническая библиотека http://freebooks.boom.ru/Some.html

http://library.tu.edu.te.ua/libftp/TechDoc/Programming/MAPI-SAPI-TAPI-De...

Библиотеки для программистов на русском языке
http://developer.intel.com/software/products/perflib/
- компания IntelR c 1995 выпускает специальные библиотеки для программистов: Библиотека примитивов распознавания (распознавание речи и образов), Библиотека обработки сигналов (обработка звука), Библиотека работы с изображениями (обработка рисунков), Математическая библиотека. Полную информацию об этих библиотеках можно найти на сайте для разработчиков фирмы IntelR

Dragon
http://www.naturalspeech.com/
предлагает ряд опций для разработчиков, желающих использовать DragonDictate. Во-первых, вы можете добавить к DragonDictate специальный словарь, используя любое приложение, включая Microsoft Excel или Word. Семейство программ, именуемое DragonPro, содержит DragonBusiness, DragonExtra (журналистика), DragonLaw (юриспруденция), DragonMed (медицина) и DragonTech. Если вам нужно что-то еще более специфическое вы можете использовать Dragon SpeechTool 1.1 ($295), чтобы разработать специальный словарь и эталоны призношения.

Вы можете использовать таблицу фонем и средства редактирования для создания, добавления, изменения слов и их произношения, а также их удаления.
DragonXTools 2.0 ($295) поддерживает режимы 16-bit VBX и 32-bit OCX для добавления голосовых параметров к существующим приложениям. DragonXTools также поддерживает режим текст-речь DgnTTS, что позволит придать голос вашим программам. Руководство DragonXTools начинается с простого примера на языке VB и показывает как создавать программы на C, C++, Delphi, Visual Basic и Visual J++. Руководство содержит большой объем документации по событиям, свойствам и процедурам, необходимых вам, чтобы разговаривать с DragonDictate.

Вместе с DragonXTools вы получаете, также, документацию по DragonDictate Macro Language Guide & Reference, языку, основанному на BASIC, который разработчики могут использовать, чтобы добавлять команды к DragonDictate, DDE и DLL для контроля за работой мыши, звуковых эффектов и т.п.

IBM's ViaVoice Developer Tools (распространяется бесплатно)
http://www.software.ibm.com/
не дает возможности изменять систему каманд, однако позволяет программистам на C и C++, понять работу ViaVoice. Инструментарий содержит документацию по примерам, утилитам к IBM's Speech Manager API (SMAPI), Dictation Macro APIs (DMAPI), и Grammar Compiler APIs. Чтобы ускорить процесс изучения, IBM предлагает документацию Starter Set API по командам диктования, управления и контроля.

Для работы на C, C++, Lotus Notes, VB, или продуктам, поддерживающим ActiveX, программистам следует обратьтся к Virtual Voices Control. Speech API (SAPI)-compliant VV Control производства Microsoft совмещает механизмы анимации и преобразования текст-речь, что позволит создавать образы существ разговаривающих с пользователем.

IBM ViaVoice SDK v.1.5
http://www.ibm.com/viavoice/
пакет библиотек, документации и примеров для программистов, занимающихся технологиями распознавания и обработки речи.

По адресу http://domino.watson.ibm.com/speech/voicetypedev.nsf работает ViaVoice Форум для разработчиков по обмену информации и идеями с другими ViaVoice разработчиками. Этот форум предназначен для связи между разработчиками и IBM хотя ответы на вопросы не гарантируется:-). Разработчикам, покупающим SDK будут обеспечена прямая связь с ViaVoice инженерами через Электронную почту с гарантируемым ответом в течении одних суток! Подпишитесь на ViaVoice SDK чтобы всегда быть в курсе всех событий, модернизаций и новых выпусков в
http://www.ibm.com/viavoice/dev_home.html.

L&H RealSpeak SDK v.1.21 SDK
http://www.lhs.com/
для использования технологий L&H при написании собственных программ.

Состоит из:
- RealSpeak engine control module (client and server)
- Dictionary engine module
- Text Interpreter
- Language recognizer
- XML and HTML parser
- SAPI interface kit and dialogs
- ActiveX interface kit

Включает:
- User Dictionary Editor (UDE): executable
- Text Interpreter Editor (TIE): executable
- RealSpeak Demonstrator: executable
- C sample program: executable and C sources
- Sample program demonstrating the new features of the RealSpeak SDK: executable and C sources
- MFC sample program: executable and C++ sources
- Visual Basic sample program using the ActiveX: executable and Visal Basic sources
- Sample program using HTML and the ActiveX Help files for the API and the SAPI dialogs

Компания Microsoft выпустила в свободное пользования специальный интерфейс для движков распознавания и синтеза речи. На этом сайте вся информация посвящена SAPI версии 4.0. На данный момент компания Microsoft выложила на свой сайт пятую версию SAPI. http://www.microsoft.com/speech/speechsdk/sdkinfo.asp%20

Microsoft Speech SDK v.5.0 пакет библиотек, документации и примеров для программистов, занимающихся технологиями распознавания и обработки речи.
http://msdn.microsoft.com/downloads/sdks/platform/platform.asp

Microsoft Speech SDK включает: speech-specific headers, libraries, sources, examples, tools, and documentation used to develop speech engines.
Служба технической помощи: sapibeta@microsoft.com.
Литература, книги по программированию

1. MS Agent и Speech API в Delphi (+ CD)
Буторин Д.Н. BHV-Санкт-Петербург, 448 стр.

2. Схемы синтезаторов речи
Заставьте ваши устройства говорить!. Серия: В помощь радиолюбителю" Тавернье К.

3. Речь: коммуникация, информация, кибернетика Издание 3
Потапова Р.К. Едиториал УРСС, 568 стр.

4. Речевое управление роботом: лингвистика и современные автоматизированные системы Издание 2
Потапова Р.К. Едиториал УРСС, 328 стр.

5. Nortel Speech Server

6.

7. Speech Recognition with Microsoft Office XP

8. Dragon NaturallySpeaking 11 Home Edition (PC)

9. Nuance Speech Recognition Medical Student Kit

10. Microsoft Voice Command 1.5 Win CE English Intl CD

11. Automatic Speech Recognition: A Deep Learning Approach (Signals and Communication Technology)

12. Speech Recognition : Theory and C++ Implementation

13. Speech_Recognition_Applications:_The_Basics_and_Beyond_Nifty Fifty Series: Dragon Dictate for Mac

14. Fundamentals of Speech Recognition (Prentice Hall Signal Processing Series)

15. Speech Recognition Applications: The Basics and Beyond

16. Speech Recognition Algorithms based on Weighted Finite-State Transducers (Synthesis Lectures on Speech and Audio Processing)

17. Speech Recognition and Processing: Algorithms and Applied Principles

18. Speech Recognition for the Computer using Dragon NaturallySpeaking

19. Speech Recognition Using the Mellin Transform

20. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition (International Edition)

21. Robustness in Language and Speech Technology (Text, Speech and Language Technology)

22. Inductive Dependency Parsing (Text, Speech and Language Technology)

23. Speech Recognition Over Digital Channels: Robustness and Standards

24. New Developments in Parsing Technology (Text, Speech and Language Technology)

25. Statistical Methods for Speech Recognition (Language, Speech & Communication) (Language, Speech and Communication)

26. Translator with Speech

27. Windows Speech Recognition Programming: With Visual Basic and ActiveX Voice Controls (Speech Software Technical Professionals)

28. Incremental Speech Translation (Lecture Notes in Computer Science / Lecture Notes in Artificial Intelligence)

29. The Art and Business of Speech Recognition: Creating the Noble Voice

30. The Voice in the Machine: Building Computers That Understand Speech

31. Computer Speech Technology (Computing)

 

Голосовать: 
5
Голосов: 5 (1 vote)