научная статья по теме МОДЕЛЬ ДЕКОМПОЗИЦИИ СМЕСИ ДВУХ РЕЧЕВЫХ СИГНАЛОВ Кибернетика

Текст научной статьи на тему «МОДЕЛЬ ДЕКОМПОЗИЦИИ СМЕСИ ДВУХ РЕЧЕВЫХ СИГНАЛОВ»

МОДЕЛЬ ДЕКОМПОЗИЦИИ СМЕСИ ДВУХ РЕЧЕВЫХ СИГНАЛОВ

© Д.А. Леднов

ГНУ НИИ «Спецвузавтоматика», г. Ростов-на-Дону

Статья посвящена проблеме декомпозиции смеси двух речевых сигналов при условии отсутствия априорной информации о свойствах голосов дикторов, участвующих в смеси. На основе представления голосового тракта в виде сочлененных и открытых динамических рупоров выводится зависимость АЧХ тракта от времени. На основе этой зависимости делается вывод о возможности синхронных составляющих в модуляциях амплитуд спектральных компонент. Разработаны алгоритмы, позволяющие со средней 35% погрешностью восстанавливать смешанные сигналы.

DECOMPOSITION MODEL OF TWO VOISES SIGNAL MIXTURE

D.A.Lednov

Введение

Зачастую в задачах обработки речи возникают события, когда два и более дикторов говорят одновременно в одном передающем тракте или параллельно с беседой дикторов звучит музыкальное произведение. Здесь термин «передающий тракт» можно понимать в широком смысле, т.е. это может быть акустическая среда, телефонный канал, микрофон или любое другое пригодное для передачи речи устройство. В связи с этим возникает проблема декомпозиции (расслоения) одновременных сигналов, порожденных двумя или более источниками звука и полученными в одном передающем тракте.

Рассматриваемый класс задач возник недавно и назван Computational Auditory Scene Analysis (CASA) [1]. В рамках этого класса задач возникли два подхода к их решению. Один из них назван bottom-up и предполагает проведение сепарации источников акустического сигнала на основе только акустических данных, а другой подход названный top-down, предполагает сепарацию источников на основе предварительного обучения и признаков информационного характера [2,3].

Принцип, на основе которого решается сепарация двух речевых сигналов, основан на том, что есть достаточное количество информации о свойствах голосов дикторов, участвующих в формировании смеси [4]. Есть основания полагать, что задачу декомпозиции сигналов можно решить на основе только акустических данных, т.е. взять за основу первый подход и не использовать априорные данные о голосах дикторов. Такое заявление позволяет сделать тот факт, что на протяжении музыкальной или речевой фразы каждый музыкальный инструмент или диктор (в дальнейшем будем использовать термин источник звука) имеют специфическую, присущую только ему огибающую. Если же рассматривать беседу дикторов, то кроме специфической огибающей фразы каждый из них обладает специфичной частотой основного тона и его поведением, а также синхронным поведением спектральных компонент на протяжении фразы.

Цель настоящей работы состоит в том, чтобы рассмотреть механизм возникновения смеси сигналов, обладающих специфическими модуляциями, и на его основе разработать алгоритм, позволяющий провести ее декомпозицию.

1. Механизм возникновения модуляций спектральных компонент

В монографии [б] были исследованы вопросы распределения давления в речевом тракте при статических геометрических формах тракта и различных граничных условиях (абсолютно твердых и податливых стенках тракта) и получены характерные спектры для большого класса вокализованных и невокализованных звуков. Здесь же нас будут интересовать вопросы изменения спектральных параметров звуков при изменении формы тракта, в соответствии с предположением, что именно эта динамика специфичным образом отражается в спектральной картине и позволяет сепарировать спектр, порожденный одним источником, от спектра другого источника.

Известно, что длина излучаемой акустической волны много больше сечения речевого тракта, т.е. задачу о распределении давления в тракте можно рассматривать в приближении очень узких труб [7], для которых справедливы два положения:

1) давление в плоскости сечения тракта можно считать постоянной величиной;

2) изгибы тракта не влияют на давление, а важна лишь величина сечения в плоскости перпендикулярной направляющей речевого тракта.

На основе этих положений речевой тракт можно представить как акустический волновод с осевой симметрией и сечением S(x,t), которое зависит от времени и координаты (ось х направлена вдоль волновода). Эти предположения позволяют воспользоваться для моделирования поведения давления р уравнением Вебстера

где с - скорость звука в воздухе.

Представить себе аналитическую функцию, способную описать изменения сечения волновода, трудоемкая задача и обычно для моделирования используется каскад сочлененных цилиндров [8]. Здесь же для упрощения представления динамики волновода рассмотрим две задачи:

1) динамику двух сочлененных рупоров, в основании одного из которых лежит мембрана, а другой край открыт;

2) динамику рупора при тех же краевых условиях, что и в первом случае.

Рассмотрим систему из пары сочлененных рупоров, продольное сечение которых показано на рис.1.

О)

У

Рис.1. Поперечное сечение двух сочлененных рупоров

Поставим себе целью рассчитать амплитудно-частотную характеристику (АЧХ) системы, которую в соответствии с [9] можно получить, используя формулу

Л(к, I):

(2)

где 5ои<,,„0 - сечение на выходе и входе системы соответственно; иои1!п(х0Ш1П,1) - объемная скорость воздуха на выходе и входе системы соответственно.

Пусть радиус поперечного сечения в месте сочленения рупоров (точка А на рис.1) уменьшается со скоростью и от начального значения Л|, причем радиусы рупоров в точках 0 и х2 являются фиксированными и равны, Л0 и Л2 соответственно.

Л — Лп"

Заметим, что нас интересует решение только на интервале времени 0, 1

В точку 0 помещена мембрана, которая задает изменение скорости в виде

и = и0 ехр{-ш>/}, и справедливо граничное условие [9]

ди

]_др р дх

(3)

х=0

В точке сочленения рупоров должны выполняться соотношения равенства давлений и

скоростей

Р\{х{) = рг(х{),

К, (•*,,/)= К2 С*|,/).

(4)

(5)

В точке х2 система открыта и поэтому справедливо граничное условие вида

Р2{х2) = 0. (6)

Зададим изменение сечения рупора со временем на интервале [х0ух[] формулой

= 1 + х

Л, -Лр -9/

а на интервале [х[ух^] формулой

(7)

Б2(Х,1) = Щ

(х2 -х, )Я2

Подставляя выражение для сечения (7) в уравнение Вебстера (1), получим уравнение для динамического рупора

Ъ}\д Р\ \ 2х дР\ где введены обозначения

д р] | 2т ф.

дх 1 + Т|Л дх

СХ1К0

Проведем в уравнении (8) подстановку вида

1 + Т,Х

которая обращает (8) в одномерное волновое уравнение относительно новой функции ^(хд):

а2а _ а2а

Эт? дх2 '

Таким образом, решение уравнения (8) можно записать в виде

í-(A,-«0) ikx _¡jcc :(ü¡ ea (a ¡e + b¡e )e

здесь к=со/с - волновой вектор.

Аналогичный ход рассуждений можно повторить для второй секции сочлененных рупоров и получить решение вида

^ =-2-дД-э,-'

1 + (х2-хМ

(10)

(*2 ~X0R2

Используя граничные условия (3)-(6) при условиях малой скорости сжатия системы рупоров и малости отношений /^/х, и Л2/(х2-х,) получим систему алгебраических уравнений относительно неизвестных постоянных a[,a2,bx,b2, входящих в решения

a, (¡fcc, -1) - ft, (¡fcc, +1) = -2¡9, y0(a¡e+ b]e~"°* ) = y2(a2eM +b2e~íkh\

^ (a,eifctl (ifcc, -1) - ('Ц + O) = — (-a2eikh (ikh -1) + b2e~'kh (ikh +1)), x, h

a2+b2= 0, где введены следующие обозначения:

Уо=е Ro, y2=e R2> 9 = -р«0юе 3 , Л = x2 -X|. Решение (10) приводит к следующим значениям неизвестных параметров:

а2 = 9elbri kxth—-'-—-,

у2 X) (kh cos kh + sin kh)(kx[ cos far, + sin kxt) - h{k x, +1) sin Ax, sin kh

b2 = -a2.

Поскольку для вычисления значения объемной скорости в точке х2 нам достаточно знать коэффициенты а2 и Ь2, то выражения для коэффициентов a¡ и ¿>, не выписаны.

Используя уравнение Эйлера (3) и опуская громоздкие выкладки, получим значение квадрата модуля объемной скорости в точке х2 и как следствие АЧХ (2) системы рупоров

-íSÍ-

4(х,£(ВД£(Ах,)-Л(£2х,2 +l)sinAx, sin kh)2 '

где обозначено Цх) = дгсозх + бшх.

На основе полученного результата можно сделать вывод, что поперечное растяжение или сжатие системы сочлененных рупоров в приближении узких труб не приводит к зависимости АЧХ от времени.

Рассмотрим вторую задачу, которую можно представить, если на рис.2 удалить вторую секцию рупора. В этом случае мы получим уравнение (8), для которого справедливо решение (9) с граничными условиями (2) и (6).

Граничные условия приводят к следующей системе уравнений относительно неизвестных коэффициентов и Ь\

а, (¿Ах, -1) - й, (/Ах, +1) = -2/0,

Их, . ! -¡кх, л 0 ^ )

ахе ' + о,е - 0.

Вычислим а/ и Ьи затем используя уравнение Эйлера (3), вычислим объемную скорость в точке х, и найдем значение АЧХ (2)

Т1.2 2

А(к, 0 = . ' 1 - 2 Ь1 (кх1) + Цкх, Щ2кх,) + со5(2 кх1)

¿чцэа+АХг

Значения интеграла, входящего в выражение (12), были рассчитаны численно при условиях Л, = 0.005м, Э = 0.01м/с, х, = 0.17м, с = 330м/с и показаны на рис.2.

Рис.2. Изменение значения интеграла, входящего в АЧХ, со временем.

Из графика видно, что временная зависимость АЧХ выражена в общем изменении коэффициента усиления для всех частот одновременно. Этот результат позволяет сделать вывод, что изменение краевого сечения рта модулирует все спектральные компоненты синхронно.

Безусловно, для более точного описания динамики речевого тракта необходимо описать не только изменение радиуса сочленения рупоров, но и динамику самой точки сочленения, т.е. считая длину волновода постоянной предположить, что X/ зависит от времени (см. задачу 1). Такая задача приведет к модели процессов, возникающих при переходе от одного вокализованного звука к другому. Здесь мы не будем затрагивать эти процессы, а рассмотрим возможность сепарировать два звука, порожденных источниками с различной модуляцией, в форме полученной в (12), и со специфичными для источника изменениями частоты основного тона [5] при наиболее часто используемом способе измерении свойств звуковой волны.

Г е а

1-Х, !с

(12)

4 Математическое моделирование, №9

Этот практически используемый способ измерения связан с тем, что рассматривается оцифрованный сигнал и длительность окна дискретного преобразования Фурье (ДПФ) не является кратной длительности частоты основного тона источника вокализованного звука.

2. Модель смеси вокализов

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком