РЕЧЕВЫЕ БАЗЫ ДАННЫХ

Речевые (акустические) базы данных являются основой при разработке систем синтеза речи и распознавания голоса. В основе лежит принцип деления речи на дискретные единицы. Существуют единицы разной размерности - аллофоны, дифоны, трифоны, слоги, полуслоги и т.д. В зависимости от выбранных единиц, создаются различные по типу речевые базы.

Речевые базы используются при разработке:

  • системах распознавания речи.
  • системах синтеза речи
  • голосовых порталлов;
  • голосовом управлении в телефонии (справочные службы, телефонный доступ к электронной почте, голосовой набор номера);

В настоящее время исследовательскими коллективами и отдельными фирмами, занимающимися речевыми технологиями, созданы речевые базы для разных языков, в том числе и русского языка. Кстати, для русского языка наиболее проблематично создать речевую базу из-за сложности грамматики и фонетики.

В настоящее время активно разрабатывается большое количество сервисных систем, использующих управление голосом, голосовые подсказки, голосовые ключи и т.д. Создание надежных многоязыковых речевых систем невозможно без речевых баз данных.

Речевые базы данных – основа практически всех систем, основанных на речевых технологиях. Именно от полноты и представительности базы зависит успех реализации той или иной технологии. На основе речевой базы исследователи и разработчики создают «фундамент» технологии. Так, для технологии слитного распознавания речи необходимо охватить все возможные акустические и фонетические варианты звуков, проще говоря, всё то, что может встретиться в речи. При помощи специального лингвистического и акустического анализа создаётся модель языка, которая используется алгоритмами распознавания. Для технологии распознавания дикторов (идентификации или верификации) необходимо сконструировать модель диктора (дикторов), с которой впоследствии будет идти сравнение кандидатов. В технологии автоматического синтеза речи речевая база используется для выделения минимальных речевых фрагментов и дальнейшей их компиляции. Различные речевые базы данных могут потребоваться для осуществления автоматического распознавания по голосу эмоционального и физического состояния человека, антропометрических характеристик говорящего (рост, вес, возраст и пр.), а так же многих других задач.

На основе речевых баз происходит тестирование и оценка эффективности алгоритмов речевых систем. В общем, речевая база данных является очень важным и необходимым элементом в разработке речевых технологий.

Создание речевой базы – это всегда долгосрочный и довольно трудозатратный проект. При формировании базы необходимо соблюдать ряд правил и требований, в частности:
 

  • текст должен быть фонетически сбалансирован;
  • должны присутствовать различные стили произношения;
  • запись должна производиться в различных акустических обстановках;
  • должна быть обеспечена различная вариация дикторов (по полу, возрасту, месту жительства и т.п.);
  • должны различаться технические характеристики записей.

Речевая база создаётся для каждого языка отдельно. Например, английская речевая база не может быть применена для исследования русского языка, и наоборот. Как правило, сбором и формированием базы занимаются опытные специалисты в области фонетических и акустических наук.

Не менее важным этапом создания речевой базы, после её сборки, является сегментация и разметка. Это означает, что записанный речевой материал необходимо разбить на лингвистические, акустические элементы, выделить информационные признаки. Выполняется это при помощи аудиторного анализа (прослушивания) и при помощи автоматизированных систем.

Для русского языка существует ограниченное количество речевых баз, пригодных для разработки программных продуктов. В основном такие речевые базы доступны на коммерческой основе. Одна из самых серьёзных речевых баз для русского языка была разработана в компании «Центр речевых технологий». Подробные характеристики её можно найти в техническом описании. Данная база, как и большинство других крупных баз данных, распространяется (http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006S34) крупнейшей организацией хранения и распространения речевых баз – Консорциумом языковых данных (www.ldc.upenn.edu).

Голосовать: 
0
Голосов пока нет