научная статья по теме АКУСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ ГЛАСНЫХ ЗВУКОВ С НЕГАРМОНИЧЕСКОЙ СТРУКТУРОЙ Биология

Текст научной статьи на тему «АКУСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ ГЛАСНЫХ ЗВУКОВ С НЕГАРМОНИЧЕСКОЙ СТРУКТУРОЙ»

СЕНСОРНЫЕ СИСТЕМЫ, 2013, том 27, № 1, с. 47-54

_ слуховая _

система

УДК 591.582.2

акустические характеристики гласных звуков с негармонической структурой

© 2013 г. к. о. Уплисова, т. С. Соколова

Санкт-Петербургский государственный университет 199034 Санкт-Петербург, Университетская наб., 7/9 E-mail:sehmet@fromru. сот

Поступила в редакцию 18.10.2012 г.

В работе сравниваются акустические характеристики гласных звуков русского языка с негармонической структурой: произносимых шепотом и имитируемых попугаем. Были проанализированы спектры гласных звуков шепотной речи категорий "а", "о", "и", "у", "э" в диапазоне частот 100-5500 Гц. Факторный анализ показал различия в спектрах звуков при попарном сравнении. Для оценки распределения максимумов спектра шепотных гласных были построены распределения зависимости мощности спектральных компонентов от их частоты в частотных диапазонах, соответствующих критическим полосам слуха человека. Выявлено, что для гласных звуков, произносимых шепотом, характерно наличие максимумов в частотных полосах: 630-770 Гц для "у", 770-915 Гц для "о", 915-1260 Гц для "а", 770-915 Гц и 1990-3125 Гц для "э", 3125-3675 Гц для "и". В спектрах гласных, имитируемых серым попугаем, максимально выраженные спектральные составляющие находятся в областях: 510-630 Гц для "у", 915-1080 Гц для "о", 1260-1480 Гц для "а", 770-915 Гц и 1480-1720 Гц для "э", 2310-2690 Гц для "и". Таким образом, направление изменения частоты наиболее выраженных спектральных компонентов в ряду гласных у-о-а-э-и, произносимых шепотом и имитируемых птицей, совпадает.

Ключевые слова: шепотные гласные, имитационные гласные, спектральный анализ гласных

ВВЕДЕНИЕ

Шепотная речь, т.е. речь, произносимая без колебания голосовых складок, обладает значительно меньшей амплитудой, чем громкая, лишена гармонической структуры и содержит значительное количество шума.

Первое исследование шепотных гласных звуков было проведено еще Г. Гельмгольцем в XIX веке (von Helmholtz, 1954). С середины прошлого века был начат ряд исследований шепотной речи для различных языков. Уделялось внимание таким вопросам, как возможность определения пола говорящего (Schwartz, Rine, 1968; Lass et al., 1976), характеристики "формант" шепотных гласных (Thomas, 1969; Jovicic, 1998; Ito et al., 2005; Grepl et al., 2007; Sharifzadeh et al., 2012), особенности восприятия шепотных согласных (Dunnenbring, 1980; Jovicic, Saric, 2008), определение высоты голоса (Meyer-Eppler, 1957; Tartter, 1989; Thomas, 1969; Higashikawa, Minifie, 1999), диагностика

состояния эмоциональной напряженности (стресса) по шепотной речи (Vilkman et al., 1987; Heeren, 2001). К данному моменту получены значения ча-стот"формант"дляразличныхкагегорийшепотных гласных английского (Thomas, 1969; Sharifzadeh et al., 2012), сербского (Jovicic, 1998), японского (Ito et al., 2005) и чешского (Grepl et al., 2007) языков. Во всех работах показано, что значения "формант" шепотных гласных не совпадают со значениями формант гласных звуковой речи, и смещены в высокочастотную область. Есть также данные о том, что для восприятия шепотных гласных достаточно одной "форманты". По данным Г. Гельмгольца (von Helmholtz, 1954), наибольшее значение имеет первая "форманта" для гласных заднего ряда и вторая - для гласных переднего ряда. По данным И. Томаса (Thomas, 1969), слушателями воспринимается в первую очередь вторая "форманта" для всех категорий гласных. Значения первых двух "формант" для шепотных гласных одинаковых категорий в различных языках могут отли-

чаться (даже при сходном количестве фонетических категорий), что может быть обусловлено не только языковыми особенностями, но и методами определения значений частот формант. Действительно в спектрах шепотных гласных выраженные по амплитуде спектральные компоненты могут занимать широкие (до нескольких сотен герц) полосы. В связи с этим проблему выделения формант в шепотных гласных каждый исследователь решает индивидуально. Таким образом, несмотря на проведенные исследования, нельзя сказать, что акустические особенности шепотных гласных изучены достаточно.

Помимо шепота существует еще один способ зву-когенерации, при котором гласные звуки обладают негармоническим спектром. Это гласные звуки, имитируемые некоторыми говорящими птицами. Гласные, произносимые птицами, имеют низкую амплитуду и широкополосный тип спектра. Анализ подобных звуков представляет особый интерес, так как птица должна услышать различия между фонетическими категориями звуков, произносимых человеком, хотя частоты некоторых из них находятся в диапазоне, плохо ею воспринимаемом. После этого пересмешник имитирует услышанный звук, используя звукогенерирующий тракт, принципиально отличный от человеческой верхней гортани. Исходя из этого, можно предположить, что в гласных звуках, имитируемых птицами, сохраняются лишь критические для распознавания фонемы признаки. Это делает их уникальным материалом для выявления перцептивнозначимых признаков различных категорий фонем.

Цель данной работы - сравнение характеристик спектра фонем шепотных и имитационных гласных звуков.

МАТЕРИАЛЫ И МЕТОДЫ

Была проведена регистрация шепотной речи людей и имитации речи серым попугаем. Для получения аудиозаписи шепотных гласных предварительно были отобраны 153 слова, в которых гласный звук после изоляции сохранял четкое фонемное звучание. Перед восемью дикторами-женщинами (возраст 25-30 лет) поставили задачу произнести эти слова шепотом и максимально четко. Аудиозапись осуществляли на компьютере при помощи звуковой карты Aardvark DirectMix USB с частотой дискретизации 44 100 Гц и микрофона Sennheiser E855. Выделяли гласные, находившиеся в ударном положении, однородные по звучанию на слух и со стабильными значениями

частоты выраженных спектральных максимумов. Их длительность должна была быть не меньше 90 мс. Изолированные гласные идентифицировали в перцептивном эксперименте при помощи функции программы Praat ExperimentMFC (множественный принудительный выбор). Звуки были прослушаны пятью аудиторами, которые должны были отнести каждый фрагмент к одной из шести категорий (а, о, у, и, э, ы) и оценить качество гласного по шкале от 1 (плохое) до 3 (хорошее). В результате эксперимента были отобраны звуки, которые все аудиторы относили к одной категории и давали максимальную оценку.

Для статистической обработки и сравнения спектров шепотных звуков различных категорий определяли значения амплитуды спектральных составляющих с шагом 43 Гц в диапазоне от 100 до 5500 Гц. Для попарного сравнения спектров гласных был использован метод главных компонент (Principal Components & Classification Analysis), как частный случай факторного анализа для понижения степени размерности признакового пространства. Вычисляли факторную нагрузку для всех частот (факторная матрица). По данным этой матрицы оценивали, какие именно частоты достоверно отличаются у звуков одной категории при сравнении с другими. Частота считалась значимой, если абсолютное значение факторной нагрузки превышало 0.7, т.е. фактор объяснял 70% дисперсии по данной частоте.

Вторым способом анализа спектров шепотных гласных разных категорий было сравнение мощности спектральных компонентов в частотных полосах, соответствующих критическим полосам слуха человека (Цвикер, Фельдкеллер, 1965). Оценивали мощность, так как этот показатель подчеркивает различия в большей степени, чем амплитуда. Каждый гласный звук фильтровали в программе Praat (фильтр pass Hann band), в результате чего был создан набор звуков со спектральными компонентами, сохраненными в частотных полосах: 100-200, 200-300, 300-400, 400-510, 510-630, 630-770, 770-915, 915-1080, 1080-1260, 1260-1480, 1480-1720, 1720-1990, 1990-2310, 2310-2690, 2690-3125, 3125-3675, 3675-4350, 4350-5250 Гц. Определяли мощность (Па2) каждого из фильтрованных звуков (при помощи функции программы Praat Get Power), в результате чего каждый оригинальный гласный был описан значениями мощности спектральных компонентов в восемнадцати частотных полосах от 100 до 5250 Гц. Для звуков, принадлежащих к одной категории, определяли медиану мощности в каждой из критических полос, и строили зави-

симость мощности спектральных компонентов от их частоты.

Для сравнения акустических характеристик шепотных гласных с имитируемыми птицей, была проведена запись "говорения" краснохвос-того серого попугая Кузи. Запись его вокализаций была сделана при помощи магнитофона SONY TC-D5 Pro II (неравномерность частотной характеристики ±3 дБ в диапазоне 40-17000 Гц) и микрофона AKG D310 в домашних условиях. Микрофон был закреплен на расстоянии 1.5 м от клетки на уровне жердочки, на которой сидела птица. Запись проводили три часа. Птица находилась в комнате одна. Оцифровку полученных аудиозаписей осуществляли с использованием 16-разрядных звуковых карт Creative Labs AVE 64 и Aardvark DirectMix USB с частотой дискретизации 44 100 Гц.

Из всего вокального репертуара птицы выделяли имитации слов человеческой речи. Выделение гласных звуков осуществляли на слух (на основании однородности звучания выделенного фрагмента), по однородности динамической спектрограммы и амплитудно-динамической формы сигнала. Длительность выделяемого участка составляла не менее 50 мс. Выделенные из состава слова фрагменты подвергали перцептивному анализу. Перед тридцатью аудиторами ставили зада-

таблица 1. Количество выделенных и идентифицированных шепотных гласных различных категорий

Шепотные гласные а о у и ы э

Выделено Идентифицировано 168 144 172 108 206 138 165 127 103 0 177 109

чу соотнести слышимый звук с любым гласным русского языка или обозначить, что звук не имеет признаков гласного. Достоверность определяли по биномиальному критерию.

Анализ мощности спектральных компонентов имитационных гласных проводили способом, описанным выше для гласных звуков шепотной речи.

РЕЗУЛЬТАТЫ

У каждого из восьми дикторов было выделено порядка 10-20 звуков "ы", и 20-30 звуков других категорий. Количество выделенных и идентифицированных звуков представлено в табл.1. Ни один из выделенных гласных "ы" не был ид

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком