Динамическая модель речевого сигнала

Одной из ключевых проблем ресурсосберегающего развития телефонных сетей является сокращение избыточности речевого сигнала (РС),которое достигается путем кодирования передаваемого сигнала. Применительно к кодированию формы сигнала (КФС) внимание специалистов концентрируется на интервале информационных скоростей 6.5..32кбит/с. Это объясняется сложностью предлагаемых и применяемых здесь алгоритмов обработки РС, неоднозначностью критериев оценки качества, недостаточной разработкой метрологических и программно-аппаратных средств исследования. Создание ЦСП для абонентских линий ГТС и СТС ,а также новых систем радиорелейной и спутниковой связи с особой остротой поставило вопрос о разработке среднескоростных алгоритмов КФС с целью реализации речевого кодека , рассчитанного на скорость 32кбит/с и отвечающего современным требованиям по качественным ,стоимостным и эксплутационно-техническим показателям .

Известно множество алгоритмов кодирования формы речевого (телефонного) сигнала, позволяющих понизить информационную скорость передачи. Однако отсутствие адекватных критериев качества передачи и удоволетворительных моделей РС не позволяет объективно сопоставить эти алгоритмы. Приемлемые результаты можно получить при проведении субъективно-статистической экспертизы макетов кодеков и каналов связи на реальном речевом сигнале. Однако при этом громоздком методе требуется большое количество речевого материала ,обработанного кодеками и трактом передачи ,и привлечение множества экспертов.

Более удобна методика субъективно-статистических испытаний речевых кодеков ,основанная на моделировании речевого сигнала тремя типами случайных процессов, каждый из которых отвечает за отдельные группы звуков .

Цель данной работы - проанализировать адекватность трехкомпонентной динамической модели речевого сообщения (РС) реальному при различных длительностях анализируемых сегментов.

Рассматриваемая трехкомпонентная динамическая модель речевого сигнала [1] представляет собой чередование дискретных случайных процессов: П0- белый шум с гауссовским законом распределения ; П1, П2 - гауссовские-марковские процессы первого и второго порядков с характеристической частотой f0=400 Гц с вероятностями Р0, Р1, Р2 и дисперсиями D0, D1, D2.Для формирования модели речевого сигнала ,в ряде источников ,предлагается использовать 2 датчика случайных чисел: с гауссовским (NORMAL) и равномерным (RANDOM) законами распределения вероятностей. Первый источник имеет нулевое среднее значение и единичную дисперсию и отвечает за формирование звука , второй характеризуется равномерным законом распределения в интервале чисел от 0 до 1 и отвечает за выбор параметров формирующих фильтров .Для модели РС необходимы соответствующие формирующие фильтры ФФ0, ФФ1, ФФ2, параметры которых определяются из соотношений :

a01=a02=0 a11=exp(-2p f0/fД) a12=0

a21=2exp(-p f0/fДQ)cos(2p f0/fД(1-1/4Q2)0.5)

a22=- exp(-2p f0/fДQ)

,где f0=400 Гц - характеристическая частота;

fД=8 кГц - частота дискретизации;

Q - добротность контура.

Отсчеты модели РС представляются в виде произведения y(k)= u(k)g(k),

где u(k)=x (k)+ai1u(k-1)+ ai2u(k-2) - отсчёты процесса на выходе управляемого формирующего фильтра , g(k)=Ei(k)+0.976g(k-1) - отсчеты огибающей РС. Коэффициенты Ei, используемые при формировании огибащей РС, выбраны таким образом чтобы оценки дисперсии соответствующих процессов П0, П1 и П2 в модели были равны оценкам дисперсии, измеренным на реальном речевом сигнале. Особое внимание необходимо уделить уточнению закона распределения уровней РС на всех сегментах, входящих в речевой текст.

Трехкомпонентная динамическая модель РС была проанализирована при 3 длительностях сегментов речи: 4, 32 и 128 мс.

Сигнал на выходе датчика с нормальным распределением имеет вид (случай 32 мс):

Сигнал на выходе модели:

Результаты статистической обработки отсчётов реального РС представлены в таблице 2:

Анализируя полученные результаты можно увидеть , что только при длительности сегмента 32 мс функция плотности вероятности исследуемого РС достаточно хорошо апроксимируется гауссовским законом распределения, обладающим нулевым мат.ожиданием и эксцессом равным 3 , что позволяет сделать вывод об ограниченности применения данной модели РС. Идентифицировать же остальные функции распределения вероятностей можно с помощью в семействе кривых распределений Пирсона , согласно которой длительностям сегмента меньшим 32 мс соответствует бета-распределение плотности вероятностей, а большим 32 мс - t-распределение (распределение Стьюдента). Проверить данные предположения можно заменив датчик с нормальным распределением для длительности сегмента 4мс датчиком с бета-распределением , а для длительности сегмента 128мс распределением Стьюдента .

Осуществив статистическую обработку сгенерированных отсчетов на выходе динамической модели РС, были получены результаты ,отраженные в таблице 3:

ВЫВОД: Для того чтобы данная модель работала на длинах сегментов отличных от 32 мс необходимо либо доработать ее, либо использовать не один датчик случайных чисел с гауссовским (NORMAL) законом распределения вероятностей, а и нескольких других: с бета-распределением и распределением Стьюдента, которые будут подключаться в зависимости от изменения длинны сегмента. Так как в последнее время намечается тенденция к уменьшению длинны сегмента (например, в системе GSM применяются сегменты длительностью 20 мс, а в некоторых системах и порядка 10 мс ), то вместо датчика с нормальным законом распределения вероятностей логичнее было бы использовать датчик случайных чисел с бета-распределением. Открытым остаётся вопрос о наличии формантных составляющих в спектре выходного сигнала модели РС. Таким образом предложенная трехкомпонентная динамическая модель РС имеет ограниченные возможности и нуждается в доработке.

Литература :

1. Цифровая сельская связь/ И.В.Ситняковский, В.И.Мейкшан, Б.Н. Маглицкий.-М: Радио и связь, 1994.-248с.

Чикирев В.А., гр.272
Сургутский Государственный Университет

Голосовать: 
0
Голосов пока нет