Синтез речи

Информация о синтезе речи

Информация о технологии синтеза речи

Для того, чтобы ваш компьютер мог синтезировать речь и понимать ваши команды необходимо установить дополнительные компоненты: программу для синтеза речи и библиотеку синтеза речи. Если у Вас Win 2000, XP или позже, то устанавливать MS Speech API нет необходимости, так как в 2000-ом этот компонент уже есть.
 

Алофонная база TTS-синтеза МГУ

Инструментарий разработчика "Говорящая Мышь" - предназначен для использования в программах синтеза речи на компьютере. В инструментарии используется базовая технология синтеза речи, разработанная на филологическом факультете МГУ группой О.Ф.Кривновой. ГМ\И может быть поставлена в нескольких вариантах (см. таблицу). Минимальный вариант предназначен для использования в ситуациях, где качество синтезируемой речи не обязательно должно быть высоким, но критичным является объём размер программы.

ЦЕНТР РЕЧЕВЫХ ТЕХНОЛОГИЙ

VoiceCom - библиотека распознавания голосовых команд
Возможные области применения:
* контроль оборудования с помощью голоса;
* речевой запрос для баз данных, возможно, по телефону;
* поиск по ключевым словам в WAV файлах;
* встраивание голосовых функций в автономные устройства - программирование DSP.

Cинтез речи, или история говорящих машин

Когда мне впервые (около 30 лет тому назад) предложили синтезировать речь и сказали, что метод, которым мне предстояло заняться, называется "синтез речи по правилам", мне стало как-то не по себе: я живо представил себе речь человека, который никогда не существовал. Еще я вспомнил античных жрецов, наводивших божественный ужас на свою паству вовсе не "по правилам", а с помощью "говорящих" статуй. Обман вершился чисто архитектурным методом: внутри статуи делался канал для звука, через который вещал скрытый в прилегающем помещении или в самой статуе жрец.

Синтез речи

Очень редко, к сожалению, удается поговорить о синтезе речи. Ситуация в этой области довольно плачевная. Движки для синтеза речи существуют, но их немного, конкуренция слабая, поэтому развиваются они довольно медленно, да и вообще, всё что есть - в основном для английского языка. Современные движки являются гибридом чистого синтеза и готовых речевых фрагментов. Поэтому многие из современных движков (от AT&T, например) - просто огромного размера.

MPEG продолжается

группой экспертов MPEG был анонсирован стандарт MPEG-4, являющий собой логическое развитие уже успевших завоевать немалую популярность в области кодирования и сжатия звука MPEG-1 и MPEG-2. Что же интересного предложат специалисты в новом стандарте?

Программные синтезаторы

Что такое современный синтезатор, звуковой модуль или семплер? По сути это специализированный компьютер, имеющий операционную систему, оперативную память, центральный процессор, дисплей, дисковод, иногда жесткий диск, CD-ROM и SCSI интерфейс. Если у вас два подобных устройства, то всего этого у вас тоже по два экземпляра. А рядом находится компьютер, содержащий все те же аппаратные компоненты, являющийся универсальным устройством и способный выполнять все необходимые задачи.

Паузирование при автоматическом синтезе речи

Необходимость правильного интонационного членения текста, в том числе его паузирования, в автоматическом синтезе речи обусловлена по крайней мере двумя причинами. С одной стороны, вместе с другими просодическими средствами паузы принимают участие в передаче определенных синтаксических и смысловых отношений, часто выступая как средство смыслоразличения. Достаточно вспомнить широко известный пример:"Казнить нельзя / помиловать" или "Казнить / нельзя помиловать". С другой стороны, при восприятии звучащего текста слушающему необходимо текущим образом производить лингвистическую обработку текста, запоминать ее результаты и строить смысловую структуру. Временные интервалы, которые создаются паузами, облегчают для него процесс такой обработки, и это надо учитывать при озвучивании текста синтезатором.

Поговори со мной компьютер

Время не стоит на месте, и ПО этого класса в наши дни вплотную по-дошло по качеству к тому же FineReader'y, то есть работает почти без ошибок. Не верите - тогда загрузите голосовой движок для русского языка Digalo (www.digalo.com), великолепный и почемуто совершенно несправедливо лишенный внимания отечественной компьютерной прессы продукт французской фирмы Elan Informatique. Поверьте: его звучание нефальшиво и мало отличается от языка иного современного тележурналиста. Меня, как филолога, особенно поразило то, что Digalo различает наши буквы "Е" и "Ё" и виртуозно владеет русской ненормативной лексикой.

Страницы