научная статья по теме ОПРЕДЕЛЕНИЕ ПОЛА ДИКТОРА ПО ГОЛОСУ Физика

Текст научной статьи на тему «ОПРЕДЕЛЕНИЕ ПОЛА ДИКТОРА ПО ГОЛОСУ»

АКУСТИЧЕСКИЙ ЖУРНАЛ, 2008, том 54, № 4, с. 659-668

ОБРАБОТКА АКУСТИЧЕСКИХ СИГНАЛОВ, КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ

УДК 612.85

ОПРЕДЕЛЕНИЕ ПОЛА ДИКТОРА ПО ГОЛОСУ

© 2008 г. В. Н. Сорокин, И. С. Макаров

Институт проблем передачи информации РАН 101447 Москва, Б. Каретный пер. 19 E-mail: vns@iitp.ru Поступила в редакцию 14.02.07 г.

Исследуется эффективность автоматического различения мужских и женских голосов на основе решения обратной задачи относительно динамики площади голосовой щели и формы импульса объемной скорости потока через голосовую щель. Обратная задача регуляризуется путем использования аналитических моделей импульса голосового возбуждения и динамики площади голосовой щели, а также модели одномерного потока через голосовую щель. Рассматриваются параметры этих моделей, а также спектральные параметры импульса объемной скорости. Наиболее перспективными оказались следующие параметры: момент максимального значения площади голосовой щели, максимальная величина производной от площади, наклон спектра импульса объемной скорости потока, отношение амплитуд гармоник этого спектра и частота основного тона. На плоскости первых двух главных компонент пространства этих параметров достигнуто, по сравнению с различительной способностью частоты основного тона, уменьшение ошибок классификации почти вдвое. При этом вероятность распознавания мужского голоса составила 94.7%, а вероятность распознавания женского голоса - 95.9%.

PACS: 43.72.Pf, 43.72.Fx

ВВЕДЕНИЕ

Разнообразие акустических характеристик голоса диктора является одной из основных причин неустойчивости показателей систем автоматического распознавания речи. В то же время известно, что разброс акустических параметров для одного и того же диктора сравнительно невелик и системы с настройкой на диктора демонстрируют более высокий процент распознавания по сравнению с системами, работающими независимо от диктора. Поэтому определение типа голоса диктора в процессе распознавания может повысить надежность распознавания без ограничений, связанных с настройкой на диктора. Наиболее ярко выражены различия между мужскими и женскими голосами. Эти различия необходимо учитывать не только в системах распознавания, но и в системах, решающих обратную задачу, т.е. задачу определения формы речевого тракта по акустическим параметрам. Указание на пол диктора позволяет существенно сократить перебор анатомических параметров для начальных приближений в процессе решения обратной задачи.

Различие акустических характеристик мужских и женских голосов определяется неодинаковостью физиологических параметров голосового источника, размеров речевого тракта и параметров его стенок. Размеры гортани, голосовых складок и мышц, управляющих их колебаниями, различны у мужчин и женщин. Это дает основа-

ния для поиска различительных признаков в параметрах импульсов голосового возбуждения и формы колебаний голосовых складок. Длительность фазы сомкнутых голосовых складок определяется подсвязочным давлением и характеристиками упругого удара [1], а длительность фазы закрытия голосовой щели определяется скоростью движения голосовых складок.

Различие в частоте основного тона определяется разной длиной голосовых складок у мужчин и женщин [2, 3]. Имеются также и различия в параметрах голосового источника. Женские голоса характеризуются меньшей скоростью схлопыва-ния голосовых складок, меньшей скоростью воздушного потока и более короткой фазой закрытой голосовой щели [4, 5]. Это приводит к более крутому спаду спектра звонких звуков. В голосовом источнике женщин более выражена компонента турбулентных шумов [6]. Речевой тракт женщин, в среднем, короче тракта мужчин, причем наибольшая разница в длине наблюдается в области глотки [7]. Это приводит к нелинейному растяжению спектра женских голосов по сравнению со спектрами мужских голосов.

Различие в анатомических размерах мужского и женского речевого тракта проявляется и на глухих фрикативных [8, 9], но наиболее ярко оно видно на характеристиках гласных звуков - частотах, затуханиях и амплитудах формант [10, 11]. В экспериментах по восприятию хорошо известных аудиторам голосов было найдено, что часто-

659

10*

ты третьей и четвертой формант более информативны, чем частоты первой и второй формант [12]. Более крутой спад спектра гласных звуков у женщин по сравнению с мужчинами должен был бы проявляться в относительных амплитудах формант. Тем не менее, в [13] сообщают о несущественном улучшении классификации голосов по признаку пола при использовании отношений формантных амплитуд гласного /э/ по сравнению с частотой основного тона и формантными частотами.

Опираясь на доказанное различие в длине речевого тракта, в [13] была предпринята попытка определения пола диктора на основе вычисления эквивалентной длины однородной акустической трубы, закрытой с одного конца и открытой - с другого. Как известно, отношение между частотой к-го резонанса Ек и длиной такой трубы Ь очень простое: Ьк = с0(2к - 1)/4Рк, где с0 - скорость звука. Длина тракта оценивалась как среднее для трех измеренных частот формант гласного Ь = = (Ь1 + Ь2 + Ь3)/3. Очевидно, что найденная таким образом величина является не длиной речевого тракта, а лишь длиной некоторой эквивалентной однородной трубы для конкретного гласного.

В [13] утверждается, что, наряду с частотой основного тона, вычисленная таким образом длина эквивалентной трубы превосходит по разделяющей способности формантные частоты. Аналогичный подход к определению длины речевого тракта в применении к распознаванию речи использовался в [14]. В экспериментах по обучению многослойной нейронной сети на параметры модели речевого тракта его длина определялась с погрешностью около 3% [15]. В [16] длина речевого тракта от голосовой щели до сужения и от сужения до губ в двухтрубной модели тракта вычислялась путем определения параметров скрытой марковской модели. Сообщается, что кластеризация дикторов в таком пространстве обеспечивает лучшую надежность распознавания, чем кластеризация в пространстве акустических признаков.

Объективные характеристики голоса меняются с возрастом. Детские голоса мальчиков и девочек до определенного возраста практически неотличимы. В старческом возрасте воспринимаемая разница между мужскими и женскими голосами также уменьшается [17, 18]. Поэтому при принятии решения о том, является ли голос диктора мужским или женским, нужно было бы сначала оценить и возраст этого диктора. Субъективные оценки возраста обладают точностью около десяти лет [19]. В [20] исследовалось восприятие возраста по телефонному каналу. Было установлено, что, в среднем, надежность определения возраста составляет около 71%, если все возрасты разбиты на три группы: молодые,

взрослые и пожилые. Более подробная классификация гораздо менее надежна. С другой стороны, автоматическая классификация возраста для 500 дикторов, выполненная в [21], показала возможность довольно точной оценки. В этом исследовании коэффициент корреляции между действительным возрастом и его оценкой составил 0.9.

Не все информативные параметры, найденные в лабораторных экспериментах по восприятию или автоматическому распознаванию, могут использоваться в неконтролируемых условиях при автоматическом распознавании речи. До сих пор не создано абсолютно надежного алгоритма вычисления параметров формант в произвольных условиях. Это особенно относится к формантам женских голосов, причем затухания формант и частота четвертой форманты редко определяются с необходимой точностью. Поэтому, казалось бы, сравнительно простая задача автоматического определения пола диктора по формант-ным частотам все еще не имеет достаточно надежного решения.

Более того, различие формантных частот информативно лишь в том случае, если известен фонетический тип гласного. Для этого необходимо сначала распознать гласный, а затем оценивать его принадлежность к мужскому или женскому голосу. Но распознавание типа гласного само по себе опирается на формантные частоты, выбор которых из множества кандидатов требует знания пола диктора. Поэтому в постановке задачи классификации пола диктора возникает замкнутый круг.

Цель настоящего исследования состоит в определении возможности автоматического разделения мужских и женских голосов по акустическим параметрам независимо от контекста при достаточно разнообразных условиях приема речевого сигнала. Исследуются частота основного тона и параметры модели голосового источника, найденные путем решения обратной задачи.

БАЗА ДАННЫХ

Исходная база данных содержала однозначные числительные русского языка общей длительностью более 125 часов речи. В создании этой базы участвовало 429 дикторов в возрасте от 20 до 75 лет, в том числе 243 мужчин и 186 женщин. Были предприняты специальные усилия для того, чтобы эта база отражала, по возможности, разнообразные условия и была бы неоднородной по отношению к типам микрофонов, расстоянию до них и размерам помещения. Всего использовалось 8 типов приемников звука: 2 типа телефонных трубок с электретными микрофонами, два типа направленных микрофонов (Logitech Dialog-320 и MC1000), два типа близко рас-

положенных (на головной гарнитуре) микрофонов с шумоподавлением (Shure VR230B и Andrea NC-61), кардиоидный микрофон (типа Boeder), а также всенаправленный микрофон типа Genius. Запись речевых сигналов выполнялась в различных помещениях и через различные преобразователи аналог/цифра.

Направленный микрофон типа Logitech располагался на расстоянии примерно в 50-60 см от диктора, а направленный микрофон типа MC1000 располагался на груди диктора на расстоянии примерно в 25 см ото рта. Кардиоидный микрофон располагался либо на расстоянии 80-100 см от диктора, либо на его груди, на расстоянии около 25 см от его рта. На таком же расстоянии на груди диктора располагался и всенаправленный микрофон типа Genius. Микрофоны на головной гарнитуре находились примерно в 5-10 см ото рта диктора. Часть дикторов записывалась одновременно по двум микрофонам разного типа, расположенных на разном расстоянии, тогда как другая часть дикторов последовательно говорила в микрофо

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком