научная статья по теме ЧАСТОТНЫЕ МОДУЛЯЦИИ В РЕЧЕВОМ СИГНАЛЕ Физика

Текст научной статьи на тему «ЧАСТОТНЫЕ МОДУЛЯЦИИ В РЕЧЕВОМ СИГНАЛЕ»

АКУСТИКА ЖИВЫХ СИСТЕМ. ^^^^^^^^^^ БИОЛОГИЧЕСКАЯ АКУСТИКА

УДК 612.85

ЧАСТОТНЫЕ МОДУЛЯЦИИ В РЕЧЕВОМ СИГНАЛЕ © 2009 г. А. С. Леонов, И. С. Макаров*, В. Н. Сорокин*

Московский инженерно-физический институт

115409 Москва, Каширское ш. 31 * Институт проблем передачи информации РАН 127994 Москва, Б. Каретный пер. 19 E-mail: vns@iitp.ru Поступила в редакцию 30.09.08 г.

Исследуются физические механизмы частотных модуляций в акустике речевого тракта и методы оценки этих модуляций в речевом сигнале. Установлено, что колебания стенок тракта оказывают пренебрежимо малое влияние на модуляции его резонансных частот. Модель процесса речеобразо-вания, учитывающая подсвязочную область, показывает, что изменение граничных условий при открытой голосовой щели создает заметные вариации резонансных частот. Наряду с модуляциями такого рода, в речевом сигнале возникают и модуляции, обусловленные влиянием формы источника возбуждения. Они существенно зависят от соотношения частоты основного тона и резонансной частоты, а также от параметров методов оценки модуляций и метода анализа речевого сигнала. В целом, это иногда может привести к нестабильным и непредсказуемым модуляциям вычисленных формантных частот в речевом сигнале.

PACS: 43.72.Pf, 43.72.Fx

1. ВВЕДЕНИЕ

Для решения многих речевых обратных задач нужна точная и надежная оценка резонансных частот (формант) речевого тракта в зависимости от времени. Эти зависимости обычно носят сложный характер, связанный с наложением быстрых колебаний (модуляций) на сравнительно медленные изменения формант. Медленные изменения резонансных частот определяются движениями органов речевого тракта. Быстрые модуляции оказываются синхронными с колебаниями голосовой щели. При решении обратной задачи о нахождении формы речевого тракта по трекам формант для звуков с голосовым возбуждением необходимо вычислять резонансные частоты на таких временных интервалах, где влияние голосового возбуждения наименьшее, и основную роль играет именно форма тракта. В связи с этим важно выяснить механизм появления модуляций формант с тем, чтобы отделить эти модуляции от формант-ных треков.

Явление частотной модуляции в речевом сигнале — это экспериментально установленное свойство. Его, например, можно наблюдать, регистрируя изменение формы спектра речевого сигнала и степень выраженности в нем формант-ных частот при сдвиге окна анализа относительно импульса голосового возбуждения.

В литературе описаны различные методы оценки модуляций формантных частот. В работе [1] формантные колебания выделяются фильтра-

ми Габора, после чего мгновенная частота по отклику каждого фильтра определяется с помощью оператора разделения энергии Тигера — Кайзера. В [2] результаты этого алгоритма сопоставляются с оценкой мгновенной частоты с помощью преобразования Гильберта, и делается вывод о близости этих методов. Дальнейшие обобщения алгоритма разделения энергии содержатся в [3]. В работах [4, 5] мгновенная частота оценивается с помощью ковариационного метода линейного предсказания второго порядка. Алгоритм, основанный на использовании адаптивных нуль-полюсных фильтров и линейного предсказания в частотной области, построен в [6, 7]. В работах [8, 9] частотные модуляции определяются с помощью анализа нулей откликов полосовых фильтров. В [10, 11] для оценки мгновенной частоты используются нули некоторых функций, описывающих амплитуду и фазу формантных колебаний. В [12] амплитудные и частотные модуляции определяются с помощью итеративного алгоритма, основанного на преобразовании Гильберта.

Несмотря на разнообразие методов, вопрос о физической адекватности получаемых с их помощью оценок мгновенной частоты остается открытым. В [13] построен пример ошибочного определения частотной модуляции с помощью алгоритма разделения энергии. При этом разница между истинной мгновенной частотой и частотой, оцененной этим алгоритмом, оказалась чрезвычайно большой. В [7] указывалось на возможность полу-

Таблица 1. Вариации первой резонансной частоты по [17]

Гласная Закрытая голосовая щель, ^1, Гц Площадь голосовой щели 0.08 см2 Гц Девиация % Площадь голосовой щели 0.12 см2 Гц Девиация %

А 677 806 +19 858 +26.7

Е 459 475 +3.5 482 +5.0

О 538 582 +8.2 582 +8.2

и 291 308 +5.8 323 + 11.0

I 285 297 +4.2 305 +7.0

чения отрицательных значений мгновенной частоты с помощью алгоритмов из [1, 2].

Другим мало исследованным вопросом является проблема устойчивости оценок мгновенной частоты относительно внешних шумов и различных типов микрофона. В [1] к тестовым сигналам примешивался белый шум с различным отношением "сигнал/помеха". Выяснилось, что при отношении 30 дБ среднеквадратическая погрешность оценки мгновенной частоты составила около 10%. При уменьшении отношения "сигнал/помеха" до 20 дБ среднеквадратическая погрешность увеличилась до 32%. Неустойчивость алгоритма разделения энергии относительно внешних шумов отмечалась и в [3].

По всей видимости, эти факторы являются причиной того, что данные о частотных модуляциях, полученные разными авторами с помощью разных методов, зачастую плохо согласуются друг с другом. Например, согласно [8], частотные модуляции для первых двух формантных частот находятся в диапазоне 0.3—19% (первая форманта) и 4—28.5% (вторая форманта). В [14] приводятся иные диапазоны — 13—24% для первой форманты, 14—40% для второй форманты, 9—40% для третьей форманты. В той же работе, а также в работе [15], сообщается, что частотные модуляции зависят от диктора и типа гласного. Напротив, в [3] эти зависимости не были обнаружены.

Во всех известных работах по анализу частотных модуляций, кроме [8, 9], вид этих модуляций нестабилен от импульса к импульсу голосового источника.

Причины частотных модуляций при фиксированной форме речевого тракта, скорее всего, многообразны и не связаны с каким-либо единственным механизмом. Можно предположить существование следующих взаимосвязанных механизмов.

1. Параметрическое изменение резонансных частот речевого тракта вследствие изменения граничных условий при открытой голосовой щели.

2. Колебания стенок речевого тракта.

3. Взаимодействие импульсов возбуждения голосового источника с трактом, приводящее к сдвигу мгновенных частот в речевом сигнале.

4. Появление при открытой голосовой щели акустических колебаний, частота которых определяется свойствами подсвязочной области — трахеи, бронхов и легких.

Влияние граничных условий со стороны голосовой щели на резонансные частоты тракта обсуждалось в ряде работ. Различные модели взаимодействия речевого тракта и подсвязочной области подтверждают возможность возникновения частотных модуляций, хотя и в разных диапазонах. Так, в работе [16] были получены относительно малые изменения первой резонансной частоты (0.2—1%) при площади голосовой щели равной 0.027 см2. Измеренная в прямых экспериментах площадь голосовой щели может доходить до 0.2 см2 . В диапазоне этих величин в [17] были обнаружены существенно большие смещения частоты первого резонанса (табл. 1).

В работе [18] было показано, что при некотором соотношении импедансов речевого тракта и подсвязочной области, и с учетом переменной скорости звука в голосовой щели частота первого резонанса однородной акустической трубы увеличивается на 9.2% при открытой голосовой щели площадью 0.2 см2. Там же было установлено, что знак частотной модуляции может смениться на обратный при определенных условиях. Это означает, что при открытой голосовой щели резонансная частота может уменьшиться вместо возрастания.

Результаты взаимодействия речевого тракта и подсвязочной области не ограничиваются наблюдаемыми амплитудно-частотными модуляциями формант. В [18] было найдено, что при раскрытии голосовой щели создаются условия для развития дополнительных резонансов и антирезонансов. В результате этого на интервале открытой голосовой щели в речевом сигнале появляются спектральные компоненты, которые отсутствуют при закрытой голосовой щели. Согласно [19, 20], взаимодействие резонансов речевого тракта и под-связочной области может привести к скачкооб-

разным изменениям формантных треков, иногда наблюдаемым на сонограммах речевых сигналов. При этом амплитуда этих скачков может достигать 300 Гц. Поскольку на периоде основного тона форма речевого тракта меняется мало, то использование различных значений резонансных частот тракта при открытой и закрытой голосовой щели могло бы способствовать более устойчивому решению обратной задачи относительно формы речевого тракта.

Упомянутые работы по исследованию влияния граничных условий и подсвязочной области были выполнены в основном в середине 80-х годов XX века на сравнительно простых математических моделях акустических процессов речеобра-зования, и требуют более детального рассмотрения. Вместе с тем, нам неизвестны работы по теоретическому анализу других механизмов возникновения и экспериментальной оценке количественных значений частотных модуляций.

Поскольку ожидаемые изменения формант-ных частот могут быть относительно невелики, то предъявляются довольно жесткие требования к точности определения самих формантных частот. В ряде работ используются квазианалитические методы их оценки, где принимается представление речевого сигнала ДО в форме суперпозиции откликов резонансов речевого тракта на возбуждение:

N

Таблица 2. Диапазоны формантных частот гласных русского языка для мужских голосов

/ (о = X ^ хо,

1=1

где N - число резонансов в заданном частотном диапазоне. Вид функций у;(0 выбирается в зависимости от конкретного метода. В методах линейного предсказания предполагается, что функции представляют собой затухающие гармонические колебания с постоянной частотой на каждом периоде основного тона. В работе [1] эти функции описываются в более общем виде:

у (г) = а(г )ео8

2 п[П ^ + ]^<тМт] + 0,-

где О, - медленно меняющаяся частота /-го резонанса, 0, - начальная фаза сигнала, а - частотная модуляция. Такое представление лежит в основе метода разделении энергии.

В принципе, желателен такой метод оценки формантных частот, который не опирался бы на какую-либо математическую модель сигнала. Просте

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком