научная статья по теме О ТОЧНОСТИ ОПРЕДЕЛЕНИЯ ПАРАМЕТРОВ ГОЛОСОВОГО ИСТОЧНИКА Физика

Текст научной статьи на тему «О ТОЧНОСТИ ОПРЕДЕЛЕНИЯ ПАРАМЕТРОВ ГОЛОСОВОГО ИСТОЧНИКА»

АКУСТИЧЕСКИЙ ЖУРНАЛ, 2014, том 60, № 6, с. 656-662

ОБРАБОТКА АКУСТИЧЕСКИХ СИГНАЛОВ. КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ

УДК 612.85

О ТОЧНОСТИ ОПРЕДЕЛЕНИЯ ПАРАМЕТРОВ ГОЛОСОВОГО ИСТОЧНИКА

© 2014 г. А. С. Леонов, В. Н. Сорокин

Национальный исследовательский ядерный университет "МИФИ" 115409 Москва, Каширское ш. 31 E-mail: ilposed@sumail.ru Институт проблем передачи информации РАН 127994 Москва, Б. Каретный пер. 19 E-mail: vns@iitp.ru Поступила в редакцию 04.03.2014 г.

Изучается вопрос о точности приближенного решения обратной задачи определения формы голосового источника по речевому сигналу при известном отношении сигнал/шум (SNR). Показано, что в общем случае при нахождении источника как функции времени с помощью метода регуляризации А.Н. Тихонова точность получаемого приближения будет по порядку хуже, чем точность регистрации речевого сигнала. Напротив, при адекватной параметризации источника, оказывается, можно получить точность приближенного решения, сравнимую с точностью данных задачи. Соответствующий алгоритм предлагается в статье. На основе полученных линейных (по погрешностям данных) оценок точности приближенных параметрических решений можно выбирать лучшие по точности параметрические модели. Такое сравнение проведено для известных моделей голосового источника: модели [17] и LF-модели [18]. Показано преимущество последней. Так, для SNR = 40 дБ относительная точность получаемого с помощью предлагаемого алгоритма приближенного решения составляет около 1% для LF-модели и около 2% для модели [17] по сравнению с 7—8% в методе регуляризации. Обсуждается роль полученных оценок точности в задачах распознавания диктора.

Ключевые слова: точность решения обратной задачи, голосовой источник, распознавание диктора. DOI: 10.7868/S0320791914050074

ВВЕДЕНИЕ

Ключевым моментом в задачах автоматического распознавания диктора является определение параметров речевого сигнала и речевого тракта, уникальных для каждого человека. Индивидуальные особенности этих параметров и лежат в основе распознавания. Поэтому весьма важен вопрос о точности определения указанных величин при решении обратной задачи "по сегменту речи найти параметры". Как правило, такие обратные задачи из-за недостатка входных данных и неточности задания последних оказываются математически некорректно поставленными, а именно: они могут не иметь единственного устойчивого к возмущениям данных решения на рассматриваемом классе искомых параметров. Характерным примером является задача, в которой по сегменту речи находится функция площади поперечного сечения речевого тракта как коэффициента в уравнении Вебстера, описывающего соответствующие акустические процессы [1, 2]. Другими примерами могут служить задача определения резонансных частот речевого тракта и задача опре-

деления формы голосового источника по речевому сигналу [3, 4].

Известно, что получение априорной оценки точности решения некорректно поставленной задачи в общем случае невозможно без использования детальной априорной информации об искомом точном решении [5—7]. Такой информацией в линейных обратных задачах, как правило, является истокопредставимость точного решения с помощью оператора задачи (см. [6—9]). При этом получаемая априорная оценка оказывается по порядку величины зачастую значительно хуже, чем погрешность данных задачи, и зависит от используемого метода решения.

Вместе с тем, наша способность понимать речь другого человека свидетельствует о том, что слуховой системе удается "решать", по крайней мере, некоторые речевые обратные задачи с точностью, достаточной для понимания речи и узнавания диктора. Психофизические эксперименты позволили установить, что дифференциальный порог восприятия частоты основного тона /0, т.е. минимально различимая на слух разница в этой частоте, составляет 0.3—0.5% от /0, а порог вос-

приятия формантных частот близок к 3—5% от них [10, 11]. Отметим, что эти оценки получены в идеальных условиях при отсутствии внешних шумов, так что погрешности определяются только свойствами восприятия. Для сравнения заметим, что погрешность автоматического определения формантных частот в технических системах значительно превышает порог восприятия, составляя, по некоторым оценкам, около 10%, и к тому же зависит от частоты основного тона [12, 13].

При автоматическом распознавании диктора по речевому источнику обратная задача определения параметров источника решается многократно для различных заданных сегментов речи. Погрешность данных увеличивает разброс найденных параметров голосового источника в дополнение к естественной изменчивости для каждого конкретного диктора и, соответственно, ухудшает вероятность правильного распознавания. Даже в идеальном случае полностью различающихся параметров двух дикторов соответствующие им множества параметров речевого источника могут пересекаться вследствие такой погрешности. Поэтому при построении решающих правил распознавания необходимо знать погрешность вычисления параметров голосового источника по речевому сигналу.

В предлагаемой работе изучается вопрос, при каких условиях возможна оценка точности определения параметров голосового источника, сопоставимая по порядку с точностью данных задачи, а также вопрос о том, как такие параметры получить.

ИНТЕГРАЛЬНОЕ УРАВНЕНИЕ ДЛЯ ГОЛОСОВОГО ИСТОЧНИКА

В работе [4] выведено интегральное уравнение для нахождения голосового источника д(0 по генерируемому им речевому сигналу /0(г) и заданным формантным частотам речевого тракта. Это уравнение (при нормировке длины речевого тракта и скорости звука на единицу) может быть представлено в виде

\К( - т)д(т)е»Vт = М)е",

К (0 = X

(1)

Здесь неизвестная функция голосового источника удовлетворяет условиям д(0 е С[0, да), д(0) = 0, д'(0) = 0, а известная функция речевого сигнала /0(г) е С[0, да) определяется звуковым давлением на выходе из тракта. Остальные величины в (1)

имеют следующий смысл: {^П/2тс} — известные резонансные частоты тракта, ц > 0 — коэффици-

ГС,

ент вязких потерь в тракте, Д(Х) = (X0 - X) х

^п 2 Уравнение (1) с указанными п

ограничениями на функции д(г) и /0(г) представляет собой некорректную (неустойчивую) задачу: хотя оно и имеет единственное решение (см. [4]), но это решение является неустойчивым по отношению к возмущениям данных К (г), /0(г) задачи. Неустойчивость была подтверждена численными экспериментами по решению уравнения (1) с приближенными данными Кн(0, /д(0 по методу наименьших квадратов для типичных модельных решений. Приближенные данные задавались так,

что Кн (0 - К (0| < н|К(0|, |/А(0 - /0(0| < < Д|/,(г)| при г > 0. Здесь числа Н, А > 0 имеют смысл поточечных относительных ошибок данных.

Приведем уравнение (1) к эквивалентному виду:

| А(г - т)г(т)^т = и(0, А(г)

= \е, г> 0; 0,г < 0!, (2) 1 п) I ()

1® = [д(!)е^ > 0; 0,г < 0}, и(г) = {/0®е^,* > 0; 0,г < 0}.

Предполагая, что функции д(г), /0(г) ограничены при г > 0, получим А(г), 1(г), и(0 е Ь2(-да, +да). Тогда приближенным данным Кн(0, /д(0 задачи (1) соответствуют приближенные данные задачи (2):

А,(г) = Кн (Ое-2", и5(0 = М)е

-ц к

14,(0 - А(0|| ^ < н|И(0|| ^ - К ||и8(0 - и(0|| ^ <Д||и(0||^ -8,

где п = (К, 5) — абсолютные ошибки данных. Форма (2) уравнения для неизвестного голосового источника более предпочтительна, т.к. в ней используется удобное для решения гильбертово пространство Ь2(-да, +да). В этом пространстве можно применять известные методы решения некорректных задач и при необходимости использовать преобразование Фурье АК (ю), и5(ю) величин А,(0, и5(0. Например, можно решать уравнение (2) с помощью метода регуляризации А.Н. Тихонова [5] и получать приближенные решения в форме

_ а(5) <■ 5

О = 2П 1

А* (ю)и5(ю) ехр(/ю р^ю

2п а4.

(3)

к (ю)А,(ю) + а(5)(1 + ю )

где а(8) — параметр регуляризации, выбранный по одному из известных способов. Затем можно оценить априорную или апостериорную точность по-

0

ДА)

Зависимости относительных погрешностей приближенных решений задачи (2) от относительной погрешности данных: 1 — метод регуляризации А.Н. Тихонова для источника [17], 2 — решение на параметрическом классе для источника [17], 3 — решение на параметрическом классе для ЬБ-источника [18].

лучаемых приближений по методикам из работ [5-9, 14].

Нами были проведены специальные численные эксперименты по приближенному нахождению периодического источника д(?) (с периодом Т) из уравнения (2) при помощи метода (3) с численной оценкой точности решения. Эксперименты проводились для различных уровней относительной погрешности А правой части уравнения (1). Остановимся подробнее на схеме численного эксперимента.

Для генерации синтетического речевого сигнала были заданы четыре резонансные частоты речевого тракта /¡_4: 383,1082,2095,2989 Гц и период основного тона Т = 6 мс. Далее вычислялись другие резонансные частоты Еп (п = 5, ...,60) путем экстраполяции первых частот /1-4 с помощью известного закона Ип = Ь1п + Ь2/п [15]. Параметры Ьъ Ь2 находились по частотам /¡_4 по методу наименьших квадратов. Модельное ядро К (?) вычислялось по формуле из (1) с помощью величин

= 2пЕп, причем считалось, что ц = 4/Т. Предполагалось, что ядро К (?) задано точно (Н = 0). Затем по ядру и заданному точному решению задачи

#(?) = 3ехай(0 вычислялась точная правая часть /0(?) уравнения (1) — синтетический речевой сигнал, который возмущался нормально распределенной случайной помехой с нулевым средним так, чтобы для приближенной правой части /д(?) выполнялось условие |/д(0 - /о(0| ^ А|/0(О|. Далее рассматривалась задача (2) с соответствующими приближенными данными А, щ, которая решалась

методом (3) с выбором параметра регуляризации а = а(8) по принципу невязки [16]. В заключение

по полученному приближенному решению гО^О задачи (2) находились приближенное решение задачи (1) ^Оррг(0 = г5(5)(0е^ и оценка его точности

Е(Д) = ||#ехай(0 - ?аАррг(?)|^/||4ехай(?)||.

При нескольких типовых значениях относительной погрешности данных А вычисление величины Е (А) повторялось для N различных реализаций ошибки данных, и полученные результаты усреднялись по реализациям.

В этих экспериментах использовался

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком