научная статья по теме МЕТОД ОЦЕНКИ ОСНОВНОГО ТОНА РЕЧИ, НАБЛЮДАЕМОЙ В ШУМАХ, С ПОВЫШЕННОЙ ПОМЕХОУСТОЙЧИВОСТЬЮ Общие и комплексные проблемы естественных и точных наук

Текст научной статьи на тему «МЕТОД ОЦЕНКИ ОСНОВНОГО ТОНА РЕЧИ, НАБЛЮДАЕМОЙ В ШУМАХ, С ПОВЫШЕННОЙ ПОМЕХОУСТОЙЧИВОСТЬЮ»

Радиотехника и связь

Системы, сети и устройства телекоммуникаций

Санников В.Г., кандидат технических наук, профессор Корольков А.А., аспирант (Московский технический университет связи и информатики)

МЕТОД ОЦЕНКИ ОСНОВНОГО ТОНА РЕЧИ, НАБЛЮДАЕМОЙ В ШУМАХ, С ПОВЫШЕННОЙ ПОМЕХОУСТОЙЧИВОСТЬЮ

Рассмотрен новый метод оценки основного тона речи, наблюдаемой в шумах, на основе её полиномиальной обработки. Экспериментально показано, что предложенный метод, по сравнению с известным корреляционным методом оценки основного тона, обладает значительно лучшей помехоустойчивостью.

Ключевые слова: речевой сигнал, основной тон, оценка, метод, помехоустойчивость.

METHOD OF AN ASSESSMENT OF A FUNDAMENTAL TONE OF THE SPEECH WATCHED IN NOISES, WITH THE BOOSTED NOISE STABILITY

The new method of an estimation of the fundamental tone of the speech watched in noises, on the basis of its polynomial machining is observed. It is experimentally shown that the offered method, in comparison with a known correlation method of an estimation of the fundamental tone, possesses considerably the best noise stability.

Keywords: a voice call, the fundamental tone, an estimation, a method, a noise stability.

Введение

Речь формируется благодаря координированному взаимодействию мыслительной деятельности человека с движением различных его анатомических структур (артикуляторных органов) [1-3]. С помощью указанных структур акустический процесс речеобразования условно можно разбить на три этапа. На первом этапе за счет мускульных усилий и сил, возникающих при упругом сокращении легких, создается область с повышенным давлением воздуха перед гортанью, которая является источником энергии генерации звука. Легкие, трахея, бронхи и голосовые связки, через которые проходит струя воздуха, в совокупности образуют голосовой источник, вырабатывающий сигнал возбуждения голосового тракта. Собственно, осмысленные звуки речи формируются на втором этапе в полостях голосового и носового трактов, где осуществляется фильтрация и модуляция проходящего потока воздуха. На третьем этапе осуществляется излучение речевой волны через губы и ноздри.

Голосовой источник формирует входное воздействие голосового тракта. Это происходит в результате проталкивания воздуха из легких через трахею, бронхи и голосовые связки в гортань. Воздух, проходящий через гортань из области с повышенным давлением, может заставить (или не заставить) их вибрировать. В зависимости от этого формируются те или иные звуки речи, отличающиеся видом сигнала возбуждения. Вибрирующие голосовые связки создают периодические колебания с частотой основного тона (ОТ) и порождают в голосовом тракте так называемые звонкие (вокализованные) звуки (гласные А, О, У, Э, И, Ы, сонорные согласные Н, М, Л, Р, и др.). Спектры таких звуков в частотной области характеризуются набором дискретных амплитуд. Для мужских голосов частота ОТ лежит в пределах 70-200 Гц, для женских 100-450 Гц [1].

В случае, когда воздух проходит через гортань свободно (голосовые связки не вибрируют), моделью голосового источника может служить шумовой источник, вырабатывающий стохастические колебания. Эти колебания, воздействуя на голосовой тракт, порождают турбулентные звуки, к которым относятся фрикативные Ш, С, Ф, Х, образующиеся проталкиванием воздуха через сужения в определенных областях голосового тракта, и взрывные П, Т, К, Б, Д, Г, образующиеся в результате создания избыточного давления в области полного смыкания голосового тракта (участок смычки) и последующего быстрого размыкания тракта (взрыв). Существуют также звуки смешанного вида, когда в их образовании участвуют вибрирующие голосовые связки и стохастический шум. К ним относятся звуки 3, Ж и звонкие фрикативные и взрывные.

Окончательно звуки речи формируются в голосовом тракте, который при постоянных управляющих воздействиях представляет собой некоторую акустическую резонансную систему. При артикуляции речи управляющие воздействия считаются постоянными на локальных интервалах длительностью 10-20 мс. С частотной точки зрения голосовой тракт осуществляет фильтрацию сигналов голосового источника.

В реальной ситуации нельзя отделять работу голосового тракта от работы голосового источника, так как это единый механизм речеобразования. С радиотехнической точки зрения голосовой источник, голосовой тракт и мозг в совокупности образуют речевое передающее устройство, в котором осуществляется многомодальная модуляция сложносоставного переносчика. Так, при передаче информации о фонемном составе речи под действием мозговых управлений осуществляется дискретно-непрерывный процесс перестройки голосового тракта, приводящий к изменению формы текущих спектров фонем (модуляция формы спектров) и их средней интенсивности (амплитудная модуляция). Кроме того, процесс передачи речевой информации связан с эффектом переключения переносчиков от квазипериодического к шумовому и наоборот (манипуляция переносчика). При изменении частоты и длительности импульсов ОТ имеют место частотно-импульсная и широтно-импульсная модуляции.

Голосовой тракт, рассматриваемый для средних уровней речи в виде линейной системы, достаточно хорошо изучен и часто описывается в дискретном времени разностным уравнением вида [4]:

Р

sk = Z aisk-i + Guk; (1)

i=1

это временной ряд, определяющий значение отклика sk голосового тракта модели речеоб-разования в момент tk = kAt, где At = 1/ fd - интервал дискретизации, а fd - частота дискретизации, на основе его значений в моменты, предшествующие tk, т.е.

Sk-1, Sk-2,..., Sk - p. Данное соотношение характеризует авторегрессионную модель голосового тракта. Здесь Sk - синтезированное значение речевого сигнала; Uk - отклик источника голосового возбуждения; p - порядок синтезирующего фильтра; { ai }- параметры модели, в голосовых кодеках их называют коэффициентами линейного предсказания (КЛП); G -коэффициент усиления, регулирующий интенсивность сигнала возбуждения для получения

речевого сигнала заданной громкости. В реальном случае параметры { ai } и G изменяются во времени, так как речь относится к классу нестационарных сигналов [1-4].

В отличие от голосового тракта источник голосового возбуждения не имеет адекватного математического описания. Сложность заключается в том, что данный источник относится к классу нелинейных устройств, а сигнал на его выходе нестационарен и непосредственно не наблюдаем.

Основной параметр источника голосового возбуждения - частота или период ОТ. Мелодия ОТ используется при решении проблем распознавания, низкоскоростного кодирования и оценки натуральности звучания речи, при идентификации и верификации дикторов, а также во многих других приложениях речевой информатики и связи.

Более того, из частной задачи общей проблемы анализа и синтеза речи, выделение ОТ из звучащей речи стало самостоятельной проблемой [1, 5]. В основном тоне представлена разнообразная информация, включающая сведения об интонационной структуре произнесения, об индивидуальности голоса диктора и его эмоциональном состоянии, о возрастных и патологических изменениях голосового аппарата; в мгновенных значениях частоты ОТ, в моментах включения и отключения голосового источника содержится информация о фонемном составе и скорости произнесения; характерным признаком естественной речи, улучшающим её восприятие, служат микровариации ОТ; диапазон ОТ влияет на качество воспринимаемого голоса и оценку эмоционального состояния диктора [6].

Основная сложность в решении задачи оценки ОТ по реализации речевого сигнала состоит в том, что в реальных условиях речевой связи наблюдаемый сигнал зашумлен. Поэтому в настоящее время актуальной задачей является разработка и исследование методов и алгоритмов оценки ОТ речи с повышенной помехозащищенностью от различного рода шумов и помех. Этой задаче и посвящена работа авторов.

Методы оценки основного тона речи в условиях помех

Разработке помехозащищенных методов оценки ОТ посвящено достаточно много работ [7-18]. Сегодня наиболее популярными алгоритмами оценки ОТ являются RAPT [11], YIN [12] и SWIPE' [13]. Их популярность обусловлена хорошей функциональностью, низким процентом грубых ошибок при оценке частоты ОТ [18]. Вопросам оценки мгновенной частоты ОТ в шумах посвящены так же работы [14-17], которые имеют хорошее теоретическое обоснование. В качестве генератора кандидатов при оценке периода ОТ здесь используются либо корреляционные функции, либо нормированные кросскорреляционные функцией. Улучшенный вариант оценки частоты ОТ речи в шумах, построенного на основе алгоритма RAPT, предложен в работе [18]. Основной задачей при разработке алгоритма являлось достижение максимальной точности оценки и устойчивости к ошибкам. В работах [14-17] анализируются робастные методы оценки мгновенной частоты ОТ. Здесь к обычным характеристикам, важным для всех оценщиков ОТ (например устойчивость к грубым ошибкам, устойчивость к шуму, вычислительная сложность и т.д.), добавляются такие характеристики как частотно/временное разрешение и устойчивость к модуляциям основного тона. Эти требования повышают сложность задачи, однако позволяют получить новую, более детальную информацию о речевом сигнале, наблюдаемом в шумах.

Результаты экспериментов, приведенных в отмеченных работах, показывают, что все алгоритмы обеспечивают достаточно высокое качество оценок ОТ при отношениях сигнал/шум (ОСШ) в диапазоне 5 - 25 дБ. В работе [7] рассмотрен метод оценки ОТ, работающий при ОСШ от 0 до 10 дБ. В [19] рассматривается подход к робастной оценке частоты ОТ, выполняющий обработку зашумленной речи как в частотной, так и во временной области и обеспечивающий хорошее качество работы при ОСШ 5 дБ.

Следует отметить, что в практике речевой связи, например, в системах мобильной телефонии, в системах авиационной связи и во многих других случаях, часто требуется оценивать ОТ в более сложных условиях с ОСШ < 0 дБ. Выделители ОТ, работающие в условиях сильной зашумленности, авторам неизвестны.

Вначале проанализируем метод оценки ОТ, основу которого составляет хорошо известная и широко применяемая в голосовых ко

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком