научная статья по теме АНАЛИЗ ИМПУЛЬСОВ ГОЛОСОВОГО ИСТОЧНИКА Физика

Текст научной статьи на тему «АНАЛИЗ ИМПУЛЬСОВ ГОЛОСОВОГО ИСТОЧНИКА»

АКУСТИЧЕСКИЙ ЖУРНАЛ, 2007, том 53, № 1, с. 119-133

ОБРАБОТКА АКУСТИЧЕСКИХ СИГНАЛОВ И КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ

УДК 612.85

АНАЛИЗ ИМПУЛЬСОВ ГОЛОСОВОГО ИСТОЧНИКА

© 2007 г. А. И. Цыплихин

Институт проблем передачи информации РАН 125475 Москва, Б. Каретный пер. 19 Тел.: (495) 299-5096; Факс: (495) 209-0579 E-mail: altha@mail.ru Поступила в редакцию 15.11.05 г.

Приводится описание алгоритма, определяющего среднюю частоту, длительность и положение импульсов голосового источника в реальном речевом сигнале. Тестирование показало, что по точности алгоритм в среднем в два раза опережает лучший из конкурирующих алгоритмов. Алгоритм более устойчив к искажению спектра в телефонном канале, к различным видам шума, к нестабильно-стям длительности и амплитуды импульсов голосового источника. Точность определения положений импульсов достаточна для выполнения синхронного анализа речевого сигнала, а скорость обработки сигнала позволяет использовать алгоритм в задачах реального времени.

PACS: 43.72.Ne

1. ВВЕДЕНИЕ

Задача определения частоты основного тона ^о периодического сигнала многие годы привлекала внимание исследователей и изучается до сих пор. Частота основного тона обратна периоду, который может быть определен как величина минимального ненулевого временного сдвига, оставляющего сигнал неизменным. В таком виде это определение подходит только для идеально периодичного сигнала. Реальные сигналы, представляющие практический интерес, не являются идеально периодичными.

В случае речевого сигнала под периодом основного тона подразумевается период импульсов голосового источника, возникающих в результате колебаний голосовых складок. Периодичность этих колебаний может нарушаться из-за изменения амплитуды, частоты или формы этих колебаний (например, изменения соотношения длительности интервалов открытой и закрытой голосовой щели). Возможно возникновение хрипов, а также явления дифонии, при котором одновременно образуются два тона разной высоты при произнесении одного звука. А степень периодичности самого речевого сигнала может быть еще ниже вследствие непостоянства формы голосового тракта и наличия шума. Поэтому в случае реальных сигналов уместнее говорить не о периоде импульсов, а об их длительностях, а под частотой основного тона понимать среднюю оценку этой частоты на неком интервале.

Эти свойства речевого сигнала значительно затрудняют задачу определения на ее решение и по сей день направлено большое количество

усилий. При этом аналитические подходы, которые основываются на строго сформулированных известных или предполагаемых свойствах речевого сигнала, часто требуют введения в алгоритмы некого эвристического блока, который должен компенсировать различие между учтенными и неучтенными свойствами сигнала.

Обзоры различных подходов к определению F0 приводятся в работах [1-3], а описания некоторых подходов в [4-12]. Можно выделить два типа подходов: спектральные и временные. Спектральные обычно основаны на извлечении спектральных пиков. Временные используют, как правило, автокорреляционный подход. В последнее время было предложено несколько методов, которые по характеристикам превосходят традиционные. Некоторые методы обладают большей точностью, некоторые - большей устойчивостью к шумам. Например, метод YIN [6], основанный на автокорреляции, является одним из наиболее точных методов оценки для сигнала с хорошим отношением сигнал-шум. Shimamura предложил временной метод [7], устойчивый к белому гаус-совому шуму, а Liu и Lin - спектральный [8]. Спектральный метод TEMPO позволяет надежно оценивать F0 для использования в высококачественном вокодере STRAIGHT [9]. Также недавно были предложены методы оценки F0 для речи, переданной по телефонному каналу [10, 11]. Спектральные методы DASH и REPS [12] обеспечивают высокую точность оценки F0 при искажении спектра сигнала и в присутствии шума.

Устойчивый метод оценки F0 дал бы ключ к решению широкого круга общих речевых задач.

120

ЦЫПЛИХИН

В системах синтеза речи по тексту информация о поведении F0 служит для построения интонационного контура. С помощью F0 передается значительное количество семантической информации, лежащей выше фонетического и лексического уровней. В тональных языках относительное изменение F0 определяет лексическое значение слова, и в этом случае системы распознавания речи должны использовать ее для избежания неоднозначности. Информация о частоте основного тона должна использоваться в задаче идентификации диктора.

Во многих речевых задачах требуется помимо F0 знать длительности и положения импульсов голосового источника. Например, для решения т.н. обратной задачи (определение формы речевого тракта по сигналу) необходимо использовать резонансные частоты, вычисленные на участках голосовых импульсов, где голосовые связки сомкнуты, т.к. частоты, вычисленные на интервале открытой щели, испытывают влияние подсвязоч-ной области и могут отличаться от резонансных частот тракта на 20% [13]. Задача вычисления длительностей и положений импульсов голосового источника принадлежит к классу принципиально более сложных задач по сравнению с определением F0. До сих пор не было предложено удовлетворительного метода ее решения. В этой задаче недостаточно получить оценку F0 в привычном смысле (т.е. среднюю на интервале), необходимо учитывать особенности последовательности импульсов, связанные с нарушениями периодичности. Очевидно, что качество ее решения напрямую зависит от точности и устойчивости оценки F0. При этом не требуется высокая точность определения F0, так как небольшая ошибка может быть компенсирована за счет использования энергетических характеристик сигнала. Однако грубые ошибки (например, 20% и более) приведут к серьезным сбоям при синхронном анализе. Такое же требование к точности возникает в задаче сжатия речи с последующим ресинтезом: при ресинтезе грубые ошибки в определении частоты основного тона не компенсируются человеческим слухом, а, напротив, подчеркиваются, и могут привести к значительному ухудшению разборчивости. Поэтому имеет смысл при тестировании точности вычисления F0 акцентировать внимание именно на грубых ошибках.

В данной работе описан созданный нами алгоритм TWIN, позволяющий точно, надежно и быстро определять как среднюю оценку частоты F0, так и длительности и положения импульсов голосового источника в реальном речевом сигнале, имеющем существенные нарушения периодичности. Точность и устойчивость оценки F0 достигается за счет использования свойств слухового аппарата:

известна способность человека приписывать звуку, состоящему из отдельных периодических импульсов, некоторую высоту, которая и является основным тоном. Свойства такого звука существенно отличаются от свойств звука, содержащего только одну доминирующую частоту, поэтому для его анализа следует использовать особые методы. В частности, для вычисления периода импульсов на таком звуке представляется целесообразным использовать не сам сигнал, как это делается обычно, а его огибающую, то есть функцию, модулирующую по амплитуде высокочастотный сигнал, порождаемый резонансами речевого тракта. В речевом сигнале такая ситуация возникает, когда частота ударов голосовых складок значительно ниже частоты первого резонанса речевого тракта. Огибающая функция скрывает внутреннюю структуру импульсов и подчеркивает сами импульсы. Таким образом, ключевая особенность алгоритма TWIN, давшая ему название, состоит в параллельном выполнении анализа как самого сигнала, так и его огибающей с последующим выбором одного из получаемых значений F0 по специальному правилу. Анализ сигнала и огибающей выполняется с использованием автокорреляционного принципа.

2. АВТОКОРРЕЛЯЦИОННЫЙ АНАЛИЗ

В литературе, посвященной обработке речевых сигналов [14], чаще всего используется следующее определение дискретной автокорреляционной функции (АКФ):

t + W

rt (т) = X xj'xj + т, (1)

1 = t +1

где rt(T) - автокорреляционная функция сигнала xt, вычисленная в момент времени t при смещении т в окне длительностью W отсчетов (рис. 1a, б). Наряду с этим, распространено другое определение:

t + W - т

r'(T) = X XjXj+т- (2)

i = t +i

Эти функции одинаковы, если сигнал равен нулю вне интервала [t + 1, t + W], и различны в ином случае. В формуле (2) длительность окна суммирования уменьшается с увеличением смещения т, и, соответственно, уменьшается значение огибающей (рис. 1в).

Автокорреляционная функция имеет пики на смещениях, кратных периоду сигнала. Стандартный автокорреляционный анализ предполагает поиск пика с максимальной амплитудой при ненулевом смещении. При этом, если диапазон поиска широк, алгоритм может ошибочно выбирать пики, соответствующие субгармоникам частоты основ-

Рис. 1. (а) Пример осциллограммы речевого сигнала.

(б) Автокорреляционная функция, вычисленная для этого сигнала по формуле (1).

(в) Автокорреляционная функция, вычисленная по формуле (2).

В этом смысле он имеет отношение к методу средней разности амплитуд, предложенному в [16, 17], где сравнение производится с помощью разности, а не произведения. Автокорреляционная функция является Фурье-преобразованием энергетического спектра, и положения ее пиков соответствуют расстояниям между равномерно расположенными гармониками спектра. В кепстральном анализе [18] вместо энергетического спектра используется логарифм амплитудного спектра. Таким образом, уменьшается влияние высокоамплитудных участков спектра. Это особенно важно для области частот первой форманты, которая часто отрицательно влияет на качество работы автокорреляционного анализа. Похожие эффекты "спектрального отбеливания" могут быть получены с помощью обратной фильтрации с предсказанием или центрального клиппирования [14], либо с помощью разделения сигнала на несколько частотных полос, и вычислением АКФ в каждой полосе с последующей нормировкой и суммированием [19]. Использование моделей слуха, основанных на автокорреляции, сейчас является од-

ного тона (слишком большой период). Это явление характерно для функции вида (1) и часто является следствием возрастания амплитуды сигнала на интервале вычисления

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком