Речевой корпус русского языка RuSpeech

Разработчик: компания Cognitive Technologies по заказу Intel

Является результатом инвестиционного проекта по созданию систем распознавания русской речи. В результате реализации проекта впервые в России создан обширный инструментарий для разработки систем распознавания речи, который включает крупный речевой корпус русского языка RuSpeech, достаточный для распознавания естественной речи говорящего в реальном времени.

RuSpeech - это речевая база данных, которая содержит фрагменты непрерывной русской речи с соответствующим текстом, фонетической транскрипцией и дополнительной информацией о дикторах.

Cognitive Technologies ставила перед собой цель создать дикторонезависимую систему распознавания непрерывной речи. В настоящее время в состав RuSpeech входит более 50 тыс. предложений с фонетической разметкой каждого произнесенного предложения. Для создания корпуса были приглашены 220 дикторов, каждый из которых наговорил в среднем по 250 предложений. RuSpeech содержит около 50 часов непрерывной речи объемом 15 Гб, которые размещаются более чем на 30 компакт-дисках, что превышает объемы аналогичных речевых баз английского языка WSJ Speech и TIMIT. Речевой интерфейс состоит из системы сценария диалога, синтеза речи по тексту и системы распознавания речевых команд.

Права на речевой корпус RuSpeech принадлежат компании Intel. По словам менеджера по академической программе Intel Камиля Исаева, ценность данного проекта заключается в создании методологии распознавания речи, технологии порождения речевых корпусов.

http://www.cognitive.ru

Голосовать: 
0
Голосов пока нет