научная статья по теме ДВЕ ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ ГОЛОСОВОГО ИСТОЧНИКА И ИХ АСИМПТОТИЧЕСКИЙ АНАЛИЗ Физика

Текст научной статьи на тему «ДВЕ ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ ГОЛОСОВОГО ИСТОЧНИКА И ИХ АСИМПТОТИЧЕСКИЙ АНАЛИЗ»

^^^^^^^^ ОБРАБОТКА АКУСТИЧЕСКИХ СИГНАЛОВ.

КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ

612.85

ДВЕ ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ ГОЛОСОВОГО ИСТОЧНИКА И ИХ АСИМПТОТИЧЕСКИЙ АНАЛИЗ

© 2014 г. А. С. Леонов*, В. Н. Сорокин**

*Национальный исследовательский ядерный университет "МИФИ" 115409 Москва, Каширское ш., 31 E-mail: ilposed@sumail.ru **Институт проблем передачи информации РАН 127994 Москва, Б. Каретный пер., 19 E-mail: vns@iitp.ru Поступила в редакцию 13.09.2012 г.

Исследуется асимптотическое поведение функции площади голосовой щели вблизи моментов ее открытия и закрытия для двух математических моделей голосового источника. Показано, что в первой модели асимптотики функции площади подчиняются степенному закону с показателем не меньшим 1. Детальный анализ позволяет уточнить эти пределы в зависимости от относительных величин интервалов открытой и закрытой голосовой щели. В данной работе исследуется и другая параметрическая модель площади голосовой щели, которая основана на упрощенном физико-геометрическом представлении процессов колебаний голосовых складок. Она является специальным вариантом известной двухмассовой модели и содержит пять параметров: период основного тона, эквивалентные массы нижней и верхней кромки голосовых складок, коэффициент упругого сопротивления нижней складки и время задержки между раскрытиями верхней и нижней складок. Установлено, что асимптотики получаемой функции площади голосовой щели подчиняются степенному закону с показателем 1 как при ее открытии, так и при закрытии.

Ключевые слова: речеобразование, голосовой источник, математические модели. DOI: 10.7868/S0320791914030125

АКУСТИЧЕСКИЙ ЖУРНАЛ, 2014, том 60, № 3, с. 300-311

УДК

1. ВВЕДЕНИЕ

В задачах автоматического синтеза речи по тексту, идентификации диктора и диагностики патологий гортани необходимо использовать функциональную форму импульсов голосового источника. Физически голосовой источник возбуждения акустических колебаний в речевом тракте ¥(1) пропорционален производной по времени 1 от объемной скорости воздушного потока №(), вытекающего из легких в ротовую полость. В свою очередь, объемная скорость есть произведение линейной скорости потока У(1) на переменную во времени площадь голосовой щели 8(1). Различным аспектам механизма работы голосового источника посвящено много работ (см., например, [1—3] и библиографию в этих источниках). В этой статье рассматриваются параметрические модели источника и их свойства.

В теории речеобразования известны параметрические функциональные модели голосового источника, основанные на аппроксимации как объемной скорости №(1), так и площади 8(1). Основное их достоинство состоит в возможности идентификации параметров модели по заданным сегментам речи и в последующем определении

формы импульса голосового источника. В дальнейшем будем коротко называть эту задачу идентификации обратной задачей для голосового источника. Модели для объемной скорости и для площади различаются по возможностям верификации. Имеется весьма ограниченное количество методов объективных измерений формы импульса объемной скорости (с помощью безотражательной трубы [4] или маски Розенберга [5]), на основании которых можно было бы обоснованно построить модели объемной скорости или ее производной и определить диапазон их параметров. Измерения площади голосовой щели доступнее, что допускает более удобную проверку математических моделей ее динамики.

Известны параметрические функциональные модели источника возбуждения, в которых объемная скорость потока через голосовую щель или ее первая производная аппроксимируются алгебраическими полиномами [6, 7], тригонометрическими полиномами [8, 9], либо решениями некоторой автономной системы обыкновенных дифференциальных уравнений [10]. Существенный недостаток таких моделей заключается в невоз-

можности физической и физиологической интерпретации многих их параметров.

В речевых исследованиях весьма популярна так называемая ¿/-модель [11], в которой содержится шесть независимых параметров:

F(t) ~ Ж (?) =

^ а? • ,

Лхе 81П Ш, А2[е ^-Т)

- е

1 - е

-в(72-71)

о < ? < т, 7 < ? < 72.

Здесь А1 и А2 — амплитуды положительного и отрицательного пиков производной объемной скорости, а и в — некоторые константы, Т1 — положение отрицательного пика во времени, Т2 — момент обращения источника возбуждения в ноль, ю = я/Т2. Однако применение этой модели к решению обратной задачи для голосового источника показало, что ошибки аппроксимации и дисперсия оценок параметров такой модели оказываются слишком большими для некоторых дикторов и некоторых типов голосов [12—14]. Выяснилось также, что эта модель больше подходит для описания мужских, чем женских голосов.

Другая популярная модель для производной объемной скорости потока предложена в [15]. Она включает в себя пять параметров (четыре временных и амплитуду источника). Эта модель использовалась в работах [16, 17] в одном из подходов к решению обратной задачи для голосового источника. Недостаток этой модели, как и для других феноменологических моделей голосового источника, состоит в отсутствии физических обоснований для выбора ограничений на параметры.

Вместо прямого параметрического задания производной от объемной скорости можно использовать ее вычисление с помощью параметрически определенного закона изменения площади голосовой щели. Этот подход использует математическую модель воздушного потока через голосовую щель, основанную на уравнении Навье-Сток-са. При некоторых упрощениях она сводится к описанию одномерного потока с помощью обыкновенного дифференциального уравнения типа Риккати, коэффициенты которого содержат площадь голосовой щели [18]. Определяя функцию в параметрической форме и решая упомянутое уравнение Риккати, можно вычислить форму импульсов голосового источника возбуждения. Однако на этом пути возникает проблема адекватной параметризации зависимости Эта зависимость порождается сложными трехмерными упругими деформациями голосовых складок [19, 20]. Существует ряд упрощенных моделей их колебаний (физические модели). Так, в работах [21, 22] представлены так называемые од-номассовые модели голосовых складок. Наиболее популярны двухмассовые модели, основанные на явлении сдвига фаз колебаний нижней и верхней

кромок голосовых складок. Модель такого рода была впервые предложена в [23] и впоследствии исследована во многих работах, в частности, в [24, 25].

Модели колебаний голосовых складок, в которых описывается взаимодействие воздушного потока с упругими структурами голосовых складок (например, двухмассовые модели), могут использоваться для качественного синтеза речи. Однако при распознавании диктора по голосу и при диагностике патологий гортани, когда требуется идентификация параметров голосовых складок путем решения обратной задачи для голосового источника, они оказываются плохо обусловленными из-за относительно большого числа используемых параметров [26]. Поэтому для таких задач следует использовать модель с малым числом параметров. К их числу относятся феноменологические параметрические модели для Б((). Например, в работе [27] модель функции Б(() содержит два параметра: время Т1, за которое площадь голосовой щели изменяется от нуля до своего максимального значения £тах, и время Т2, за которое Б(() уменьшается от максимального значения до нуля. В статьях [4, 5] описывается трехпараметрическая модель, которая содержит текущий период основного тона Т0, параметр ^ — отношение момента открытия голосовой щели к Т0, и параметр ?2 — отношение длительности интервала открытой голосовой щели к периоду Т0. В работе [19] представлена феноменологическая модель более глубокого уровня, в которой форма голосовой щели в нейтральном состоянии описывается двумя функциями, одна из которых линейно зависит от координаты вдоль голосовой щели, а другая описывает поперечную форму складок как параболу. Эта модель содержит семь параметров, что слишком много для решения обратной задачи.

Подводя итоги обзора, отметим, что для задач распознавания диктора или диагностики патологий гортани физические или феноменологические модели для Б($) с числом параметров более пяти оказываются неустойчиво идентифицируемыми, а феноменологические модели менее чем с четырьмя параметрами — малоинформативными.

Ниже исследуются две математические модели голосового источника, которые, как нам кажется, наиболее перспективны для приложений. Цель исследования — нахождение асимптотик поведения источника вблизи моментов начала и конца его работы, а также определение допустимых областей изменения параметров источников в этих моделей. Ответы на эти вопросы важны при решении задач распознавания речи и диктора по сегментам речи.

0 200 150 100 50

0

р = 2.0, д = 1.0 р = 0.5, д = 4.0

0.001 0.002 0.003 0.004 0.005 0.006 0.007 0.008 0.009 0.010

0.001 0.002 0.003 0.004 0.005 0.006 0.007 0.008 0.009 0.010

0.001 0.002 0.003 0.004 0.005 0.006 0.007 0.008 0.009 0.010

1, с

Рис. 1. Площадь голосовой щели 8 ((), см2 (верхний рисунок), объемная скорость Ж (г*), см3/с (средний рисунок) и пер-

вая производная от объемной скорости (функция источника) Ж'((), см3/с2 (нижний рисунок).

0

2. ИССЛЕДОВАНИЕ КОМПРОМИССНОЙ МОДЕЛИ

В работах [13, 14] была предложена компромиссная феноменологическая модель с пятью параметрами для площади голосовой щели:

8 „

8(() = , о < ( < г у,

С08? п(( - (у), < г < г2; 0, (2 < ( < т0

(1)

2((2 - (у)

Здесь параметрами модели являются: (у, (2 — моменты максимального открытия и закрытия голосовой щели и период основного тона Т0, а также числар, д > 0, определяющие скорость процессов раскрытия и закрытия голосовой щели, соответственно. Величина 8тах есть максимальная площадь голосовой щели, которая может быть оценена из физиологических соображений и поэтому считается известной. Модель (1) обеспечивает достаточное разнообразие геометрических форм функции 8(1). На рис. 1 показаны типичные виды зависимости (1) для разных значений величин р, д, а также вычисленные по методике из книги [18] соответствующие функции объемной скорости и

формы голосового источника на одном периоде основного тона.

Модель

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком