Речевые технологии разработка и программирование

Информация, разработка в области речевых технологий, программирование, библиотеки для разработчиков в области речевых технологий

Синтез речи в Android-приложении

Text-to-Speech (TTS) можно использовать двумя способами. Во-первых, можно завязываться на конкретный движок, покупать библиотеку и работать через неё. Про этот вариант ничего не могу сказать, знаю только теоретически. Второй, общеизвестный вариант — использовать стандартное API. Голоса в этом случае являются просто приложениями, установленными в системе.

Вообще-то заставить приложение говорить не так сложно, и мануалов по этому поводу полно. Но для полноты картины приведу начальные сведения.

Начиная с версии 1.6 в SDK есть стандартный класс TextToSpeech.

Компонент Microsoft Speech Control Panel

MS SAPI 4 входит в состав Windows 2000, однако в других версиях этой операционной системы данный компонент изначально отсутствует, поэтому может потребоваться его отдельная установка.

Однако чтобы получить общую информацию об установленных в системе синтезаторах под SAPI4 прямо из интерфейса операционной системы, а не через меню какой-либо TTS-программы, потребуется установка ещё одного системного компонента. Для операционной системы Microsoft Windows XP дополнительно можно установить панель управления для MS SAPI 4.

Синтез речи в Chrome

Google внедрил в браузер интерфейсы Text-to-Speech API, так что теперь любое приложение или расширение Chrome способно читать текст вслух. Подключенному к Chrome движку синтеза речи разрешено использовать для воспроизведения звука любую веб-технологию, в том числе HTML5 Audio, Web Audio API или Native Client. Допускается и даже поощряется установка в браузер разных движков (голосов).

Speech API

Microsoft Speech Application Programming Interface (Speech API, SAPI) — библиотека программ для Windows, позволяющая распознавать и синтезировать голос в приложениях для этой операционной системы.

Speech API активно используется в программах по преобразованию текста в голос (читалках), а также для голосового управления операционной системой и отдельными программами.

Использование MS Speech API 4.0 в программах на FreeBASIC

Эта статья предназначена для тех, кто уже знаком с FreeBASIC и хотел бы использовать в своих программах технологии синтеза речи, доступные посредством MS SAPI 4. Для понимания материала необходимо знать язык программирования Бейсик, назначение директив компилятора FreeBASIC, а также владеть базовыми знаниями о том, как создавать приложения в MS Windows.

Установка Microsoft Speech Platform

Microsoft Speech Platform (Речевая платформа Microsoft) — это набор программных модулей и средств разработки, позволяющих разработчикам создавать приложения и сервисы с поддержкой речевых технологий (распознавание речи и синтез речи по тексту), а пользователям взаимодействовать с такими приложениями.

IBM ViaVoice Recognition Software: Quicktorial

BM ViaVoice QuickTorial provides all the information necessary to master voice recognition in 12+ hours. This fully tested product trains the computer as much as it trains the user. Users will become experts at dictation with ViaVoice. Also included in the book is a special appendix on Conversa Web, software that allows the user to dictate commands to an Internet browser instead of using the keyboard and mouse.

Designing Effective Speech Interfaces

Susan Weinschenk, Dean T. Barker Designing Effective Speech Interfaces
Master the critical knowledge you need to design speech-enabled applications

It's not just a far-fetched gizmo straight out of a sci-fi movie anymore. Speech interface technology, which allows a user to communicate with computers via voice instead of a keyboard or a mouse, is quickly becoming a main feature in new software. This straightforward guide provides traditional graphical user-interface designers, developers, usability engineers, and product managers with all the information they need to make a rapid transition in order to stay abreast of this monumental shift in technology.

Речевые единицы устной русской речи

В монографии рассматриваются речевые единицы устной русской речи: их системность, зоны употребления, прагматическая направленность. Представлен многоаспектный анализ конструктивно-синтаксических единиц как основных единиц коммуникации: выявлены их интегральные и дифференциальные признаки, структурно-семантические и функционально-коммуникативные особенности, на основе чего дана новая классификация этих единиц. Определены закономерности функционирования речевых единиц в трех типах дискурса: разговорно-бытовом, массово-информационном и научном.

Речевое управление роботом

Книга посвящена проблемам управления техническими устройствами с помощью устной речи, что имеет непосредственное отношение к развитию робототехнических систем, управляемых голосом. Отражены различные аспекты лингвистической компоненты в подобного рода системах. Подчеркивается особое значение исследований в области фундаментального и прикладного речеведения, результаты которых напрямую связаны с вербальной составляющей ("слухом" и "речью") робототехнических систем, включающих автоматическое распознавание, понимание и синтез речевого сообщения.

Страницы