АКУСТИЧЕСКИЙ ЖУРНАЛ, 2014, том 60, № 4, с. 407-412
ОБРАБОТКА АКУСТИЧЕСКИХ СИГНАЛОВ. КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ
УДК 534.781
РАСЧЕТ ИЗБИРАТЕЛЬНЫХ ФИЛЬТРОВ УСТРОЙСТВА ПЕРВИЧНОГО АНАЛИЗА РЕЧЕВЫХ СИГНАЛОВ © 2014 г. Л. С. Чудновский, В. М. Агеев
Открытое акционерное общество "Научно-производственная корпорация "Системы прецизионного приборостроения" E-mail: lsc2004@mail.ru; vma58@yandex.ru Поступила в редакцию 13.11.2013 г.
На основе линейной теории речеобразования и данных психоакустических измерений рассчитываются амплитудно-частотные характеристики фильтров первичного анализа речевых сигналов, которые имеют небольшую добротность и высокую крутизну спадания в области высоких частот. Разрешение по частоте синусоидального сигнала системы фильтров составляет 40—200 Гц. Разрешение по частотам модуляций амплитудно-модулированного и частотно-модулированного сигналов составляет 3—6 Гц. Указанные особенности расчетных фильтров близки к амплитудно-частотным характеристикам биологических слуховых систем на уровне 8-го нерва.
Ключевые слова: амплитудно-частотные характеристики фильтров, речевой сигнал, частота свободных колебаний, источник возбуждения, полоса пропускания, амплитудно-модулированный сигнал, частотно-модулированный сигнал.
DOI: 10.7868/S0320791914040030
ВВЕДЕНИЕ
В устройствах распознавания речевых сигналов широко используются спектральные и кеп-стральные преобразования, методы линейного предсказания, восстановления формы речевого тракта [1], анализ клиппированных последовательностей [2] и другие методы. С помощью спектральных методов успешно распознаются шипящие звуки речи, а с тональными возникают проблемы, так как резонансные частоты речевого тракта соотносятся с локальными максимумами спектра (формантами), а положения этих максимумов зависят от громкости речевого высказывания, изменяются при смене диктора речевого сообщения, типа микрофона, зависят от особенностей канала передачи. В то же время распознавание фонем речи увязывают со значениями резонансных частот речевого тракта [3]. Метод линейного предсказания позволяет корректно оценить значения резонансных частот фонемы при условии априорно известных параметров тонального источника возбуждения. Поэтому этот метод широко используется в системах сжатия информации при передаче речевых сигналов, когда функция тонального источника задается дельта-функцией или выбранной функциональной зависимостью [1], что позволяет сохранить информацию как об источнике возбуждения, так и о параметрах речевого тракта. Метод восстановления конфигурации речевого тракта, например, по модели [4], требует высоких отношений сигнал/шум для корректного реше-
ния обратной задачи и для распознавания речевых сигналов сложен. Если речевой сигнал пропустить через избирательные фильтры с различными резонансными частотами, а затем результаты фильтрации предельно ограничить (отклиппировать) и пропустить через счетный детектор, то можно на периоде основного тона выделить участки свободных колебаний, когда влияние тонального источника мало, и участки вынужденных колебаний, когда вклад источника на формирование колебаний существенен [5]. На интервале свободных колебаний показания счетного детектора стабилизируются и равны частоте свободных колебаний выделяемой моды речевого сигнала. На временном интервале вынужденных колебаний показания счетного детектора понижаются, что можно показать на примере анализа мгновенной частоты аналитического сигнала [6], а также следует из физических соображений, поскольку при воздействии однополярного импульса возбуждения длительность первого полупериода увеличится согласно свойству свертки. Аналогичные результаты получены в работе [7], где анализируются изменения собственной частоты речевого тракта под воздействием изменения площади голосовой щели. Первые измерения частотных параметров речевого сигнала на участках свободных колебаний показали устойчивость их значений для одной и той же фонемы при смене диктора, типа микрофона и громкости речевого высказывания [5]. Однако следует отметить, что разделение речевого сигна-
ла на временные интервалы вынужденных и свободных колебаний невозможно, например, для шипящих звуков.
Свойства изменения мгновенной аналитической частоты или ее приближений подсказывают, что амплитудно-частотные характеристики спектральных фильтров первичного анализа должны иметь более высокую крутизну спада в области высоких частот для снижения влияния высокочастотных помех, однако оценка этой крутизны спада до сих пор теоретически не обоснована. В то же время свойство асимметричности амплитудно-частотной характеристики (АЧХ) фильтров базилярной мембраны или на выходе 8-го нерва присущи биологическим аудиосистемам с крутизной спада в высокочастотной области до 80—120 дБ на октаву [8, 9].
Перейдем к описанию метода определения собственных частот и полос их пропускания без использования разделения на временные интервалы вынужденных и свободных колебаний, а также оценим АЧХ входных фильтров анализа.
ПОСТАНОВКА ЗАДАЧИ
Согласно линейной теории речеобразования [10], речевой тракт можно рассматривать как акустический квазистационарный волновод в приближении нулевой моды. Импульсная характеристика n-й моды находится из решения дифференциального уравнения
fn ( t) + 2 qfn ( t) + ( t) = Un( t), (1)
где Un(t) — феноменологическое объемное ускорение источника возбуждения моды речевого сигнала fn(t); wn — частота свободных колебаний моды; qn — эффективная полоса частот моды. Воздействуя на излучение я-й моды fn(t) линейным оператором
L n = — + 2 qnd + 7 «2 + qi:, (2)
dt2 dt
можно восстановить источник возбуждения Un(t).
Рассмотрим иной метод решения обратной задачи — нахождение частоты свободных колебаний wn и ее полосы пропускания qn, учитывая вид импульсной характеристики дифференциального уравнения (1)
G(t) = (®n)-1[exp(-qnt)][sin(«nt)]n(t), где n(t) — функция Хевисайда.
ОДНОМОДОВЫЙ РЕЖИМ
Следует отметить, что воздействие оператора Ln на аддитивную смесь fn(t) и шума приводит к усилению высокочастотных компонентов аддитивного шума. С целью снижения их вклада пре-
образуем оператор (2). Для этой цели дополним сигнал fn(t) сигналом f*(t) = Un(t)o{(®n)-1[exp(-qnt)] х х [cos(wnt)]n(t)}, здесь o — операция свертки. Для
реализации f *(t) необходимо уточнить вид оператора
С {(®n)-1[exp(-qnt)][sin(®nt)]n(t)} = = (®n)-1[exp(-qnt)][cos(®nt)]n(t).
Вопросы реализации оператора С {...} уточним ниже. Создадим две функциональные зависимости:
Ai( t) = fn ( t) - «f ( t) = -qf(. t) + («n - «x )f ( t),
A: ( t) = f ( t)] ' + «fn ( t) = (3)
= - qnf* (t) + («x - «n )fn (t) + Un( t)/«n ,
где ю x — подбираемый параметр. Далее с помощью квадратичного детектора организуем преоб-
I 2 2
разование Б(ц юх) = A1 (t) + A2 (t) как функцию параметра юх. Отфильтруем B(t\wx) низкочастотным фильтром K(w) c верхней частотой пропускания w > wn/2 и получим следующий результат:
-ик ( t г2
Бк( t\«x) = [ qn + («x - «n ) ] Onk( t) +
«n
(4)
где ОпкЦ) = ¡1к(р> + [/„1(0 ]2 - огибающая сигнала. Выражение (4) положительно определено, его интеграл достигает минимума при юх = юп. При
достижении этого условия, вычитая из (4) qn Опк(() и находя ш1пБк(?|юх = юп; #х) интеграла при условии Бк(1\юх = юп; #х) > 0, можно оценить
Таким образом, располагая зависимостями^) и
/*($) и сформировав величины А^), А2(0, а затем отфильтровав зависимость Б(?|юх) низкочастотным фильтром К(ю) с верхней частотой пропускания ю > юп/2, с последующим интегрированием можно найти частоту собственных колебаний юх и эффективную полосу частот дп. После определения этих величин по величине Бк(1\юх = юп; #х) можно найти источник возбуждения моды
[^(ОМ]2.
МНОГОМОДОВЫЙ РЕЖИМ
Для оценки параметров моды юп и дп в многомо-довом режиме колебания одной моды /п(1) можно выделить с помощью избирательной фильтрации. Для этой цели используем набор фильтров ^т(ю) с разными резонансными частотами ют. Рассмотрим задачу оценки АЧХ каждого фильтра ^т(ю). Эту оценку проведем исходя из погрешности определений юп и дп по зависимости (4) для случая совпадений частот ют ~ юп с учетом того, что полоса прозрачности %т фильтра ^т(ю) для обеспечения
минимальных искажений Опк^(?) и ипкС(?) выбрана из условия Хт >
Рассмотрим искажения, вносимые ^т(ю). Пусть АЧХ фильтра ^т(ю) задана в классе фильтров Бат-терворта и имеет следующий вид:
ию) = (''ют/ + (тттУ + к}—1 (5)
с резонансной частотой фильтра ют = (//к)1/(/ + к) х х (тт)—1. Импульсную характеристику ^т(?) входного фильтра, в зависимости от области рассматриваемых частот, асимптотически можно представить следующим образом:
^т (?) « 5 (?) + 5 "(0 в области резонансной частоты ют = юп
(6)
ио :
/ Л'
ю
ю„
8®(?)
в низкочастотной области ю < ют, а в высокочастотной области ю > ю„
К ?к-1
$- | /п(?к№№к.....|Ш X
— ОТ -ОТ
{
х ц(12)й121/п(1М(к¥К
Рассмотрим влияние фильтра ^т(ю) в окрестности ют на погрешность определения параметров моды юп и qn. Для определения погрешностей в области резонансной частоты необходимо источник возбуждения ип(?) заменить его аддитивной суммой ип(?) — х ¡,2иП,'(?). При этом выражение (4) примет вид
Бк^Юх) = кп2 + (Юх - Юп)2] х
х Опк^(?) + [Ц,к(0/Юп]2
+
+ [ ипк (?)(Юп Хт2)-1]2. Здесь ОпкС(?) — огибающая /(?)]2 + [/*(?)]2, отфильтрованная низкочастотным фильтром К(ю) с учетом прохождения/(?) и/*(?) через избирательный фильтр ^т(ю). Из (9) следует, что величины юп и qn находятся по минимуму Бк^(?\юх) без дополнительных искажений, а источник ипк(?) восстанавливается с дополнительной аддитивной ошибкой
[иПк(0(® пХ Ъ-1]2.
Рассмотрим прием двух мод одновременно. Пусть принимаются мода/п(?) с собственной частотой юп и мода/(п + 1)(?) с собственной частотой Ю(п +1). Амплитуды мод равны единице, а для (п + 1)-й моды выбрано ослабление Кт1 При условии, что полоса пропускания фильтра К(ю) эффективно ослабляет комбинационные частоты выше \Ю(п + 1) — юп\, и задавая погрешность разрешения частоты свободных колебаний 8ю при наличии колебаний аддитивной моды, получаем условие на ослабление
соседней моды К^ = {\8ю(ю(п +1) — юп)—1\}1/2. Поскольку
Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.