научная статья по теме ПЕРЦЕПТИВНО-ЗНАЧИМЫЕ ПРИЗНАКИ ГЛАСНЫХ ПРИ РАЗНЫХ ФОРМАХ ИХ ГЕНЕРАЦИИ Биология

Текст научной статьи на тему «ПЕРЦЕПТИВНО-ЗНАЧИМЫЕ ПРИЗНАКИ ГЛАСНЫХ ПРИ РАЗНЫХ ФОРМАХ ИХ ГЕНЕРАЦИИ»

СЕНСОРНЫЕ СИСТЕМЫ, 2009, том 23, № 3, с. 229-237

-- ЗВУКОПРОДУКЦИЯ И ВОСПРИЯТИЕ РЕЧИ

УДК 612.85:534.78

ПЕРЦЕПТИВНО-ЗНАЧИМЫЕ ПРИЗНАКИ ГЛАСНЫХ ПРИ РАЗНЫХ ФОРМАХ ИХ ГЕНЕРАЦИИ

© 2009 г. Г. А. Куликов, Н. Г. Андреева

Санкт-Петербургский государственный университет 199034 Санкт-Петербург, Университетская наб., 7/9 E-mail: kulikovga@mail.ru Поступила в редакцию 20.02.2009 г.

Несмотря на длительную историю исследований вопрос о признаках, обусловливающих идентификацию гласных, остается до сих пор актуальным. Для выявления роли частотных и амплитудных признаков в идентификации гласных проведены фонетический и инструментальный анализы отличающихся по подъему гласных звуков [а], [о], [у], произнесенных с разным значением частоты основного тона (F0). Анализ относительной амплитуды первых четырех гармонических составляющих показал, что эти характеристики меняются в зависимости от значений F0 по-разному у разных гласных. Использование этих показателей и их сочетаний позволяет аналитически разделить гласные [а], [о], [у] при совпадении частотных значений их спектральных максимумов. Роль "амплитудного признака" в идентификации гласных [а], [о], [у] подтверждается и в серии исследований по оценке аудиторами модельных сигналов, полученных в результате смещения определенного гласного звука по частотной оси без изменения формы огибающей его спектра. Показано, что фонетическая интерпретация гласного при этом закономерно меняется и частотные границы перехода фонетической категории воспринимаемого гласного (в ряду/у-о-а/), вне зависимости от формы его генерации, определяются соотношением амплитуды гармонических составляющих исходного сигнала.

Ключевые слова: гласные, форманты, частота основного тона, относительная амплитуда.

Проблема выявления акустических коррелятов фонетической принадлежности гласных до сих пор остается актуальной, несмотря на длительную историю исследований этого вопроса. Согласно классическим представлениям (Peterson, Barney, 1952), основным признаком, характеризующим гласные разговорной речи, служат частотные значения их формант. Однако так же давно известны и трудности, с которыми сталкивается формантный подход. К их числу относят наличие иных признаков, влияющих на идентификацию гласных (частота основного тона, относительная амплитуда формант и пр.), возможность идентификации звука при неопределенности формантной картины, сходство формант у фонетически разных гласных и, напротив, различные форманты у фонетически идентичных гласных. Таким образом, хотя формантный подход является общепризнанным (Hillenbrand et al, 1993; Sakayori et al., 2002), он не может расцениваться как универсальный, и частотные признаки в распознавании гласных не могут быть распространены на все формы генерации звуков. Альтернативная точка зрения о приоритете общей картины спектра (Bladon, Lindblom, 1981; Zahori-

an, Jagharghi, 1993) также опирается на значительный экспериментальный материал. По мнению авторов, особенности формы спектра дают возможность полного описания звука и могут служить более точным акустическим коррелятом гласного. В целом, несмотря на дискуссию, вопрос о признаках, обусловливающих идентификацию гласных, остается открытым.

Основные трудности возникают при анализе вокальной речи и речи маленьких детей, поскольку в них диапазоны F0 варьируют в широких пределах, и выделение формант представляет самостоятельную проблему (Куликов и др., 1999; Андреева, Куликов, 2003; Sundberg, 1977; Joliveau et al., 2004). Неопределенность формантной картины выявлена и для гласных устной речи при значениях F0, превышающих 250 Гц (Maurer, Landis, 1995; Maurer et al., 2000). Таким образом, хотя формантные частоты рассматриваются в качестве первого признака, значимого для распознавания гласных, они не могут быть распространены на все формы генерации звуков.

На основании проведенных нами ранее исследований показано, что при значениях F0, превышающих обычный разговорный диапазон, роль

формантного признака в распознавании гласных снижается и существенные значения приобретают частотно-зависимые амплитудные отношения спектральных компонентов (Куликов и др., 1999; Андреева и др., 2002; Андреева, Куликов, 2004; Куликов и др., 2004).

Задача данной работы - изучение роли относительной амплитуды спектральных компонентов в идентификации гласных [а], [о], [у] разной высотности. Работа осуществлялась в два этапа. На первом этапе исследовались признаки, позволяющие разделить естественные гласные женской разговорной речи по их спектральным характеристикам, на втором - перцептивная роль выявленного признака проверялась в условиях психофизиологического эксперимента.

МЕТОДИКА

В работе исследовались спектральные характеристики отличающихся по подъему изолированных гласных звуков [a], [у], [о] разговорной речи. В качестве дикторов выступали 158 женщин (возраст 18-20 лет). Каждой из них было предложено произнести один и тот же гласный звук несколько раз - в удобном (привычном) диапазоне, а также, меняя высотность звучания, от минимальной до максимально возможной для индивидуального диапазона.

Регистрацию осуществляли в условиях лаборатории. Для записи использовали микрофон Sen-heiser E855 и выносную 24-разрядную звуковую карту M-Audio Fast Track USB. Анализировали записи, в которых соотношение сигнал/шум составляло не менее 30 дБ, а в спектре фонового шума отсутствовали выраженные неоднородности в исследуемом диапазоне частот.

Анализ сигналов осуществляли при помощи персональных компьютеров на базе процессоров Pentium IV 256 Мб оперативной памяти и объемом памяти на жестких дисках 30 Гб. Оцифровку сигналов проводили вначале с частотой дискретизации 44100 Гц и с возможным последующим преобразованием с частотой 32075 или 22050 Гц. Для изучения временных и спектральных характеристик звуков использовали специализированную зарегистрированную программу Cool Edit Pro 2.00. Спектральный анализ осуществляли на основе быстрого преобразования Фурье, данные взвешивали при помощи окна Хемминга (1024 или 2048 отсчетов).

Анализ гласных осуществлялся в отрезках, характеризующихся стационарностью спектральных составляющих и длительностью не менее 100 мс. Оценивали частоту основного тона, частоты двух первых формант и/или спектральных

максимумов, а также амплитуду первой (соответствующей частоте основного тона) и трех-четырех последующих гармонических составляющих. Статистическую обработку результатов осуществляли при помощи пакета программ Statgraphics 7 и Statis-tica 6. В данной работе приводятся результаты анализа звуков, однозначно отнесенных независимыми аудиторами к одной и той же фонетической категории. При аудиторском анализе звук подавался бинаурально через откалиброванные головные телефоны AKG K-141. Калибровку осуществляли при помощи аппаратуры фирмы "Брюль и Къер" ("искусственное ухо" 4152, микрофон 4144, предусилитель 2666, измерительный усилитель 2609).

С целью проверки роли амплитудных отношений спектральных составляющих в восприятии гласных во второй части работы проведено исследование перцептивной оценки аудиторами модельных сигналов, полученных в результате смещения определенного гласного звука по частотной оси. В качестве исходных звуков были взяты 39 гласных [а], [о], [у] взрослых и детей из базы данных, имеющейся в лаборатории. Они относились к разным формам речи - разговорной (диктор - женщина, 30 лет, ребенок 2.5 года) и певческой (тенор, контртенор, сопрано в возрасте 3033 лет и мальчик 7 лет) и отличались по выраженности формантной картины. Частоты основного тона этих звуков составили - 172-990 Гц, длительность 150-450 мс.

На основе каждой из 39 гласных используя программу Cool Edit Pro 2.00 (функция Constant Stretch) создавали серию модельных звуков путем повышения и понижения исходного звука с шагом в один полутон. Отметим, что у вокальных гласных, предварительно при помощи фильтра преобразования Фурье (FFT фильтр, программа Cool Edit Pro 2.00) проводилось подавление амплитуды спектральных составляющих в области, соответствующей певческой форманте, на 25-35 дБ. В итоге получено 39 серий модельных сигналов, у которых частота первой гармоники (основного тона) изменялась от 110-120 Гц до 900 Гц, при этом значения относительной амплитуды спектральных компонентов сохранялись неизменными.

В результате предварительного прослушивания, проведенного пятью аудиторами, имеющими опыт работы со звуковыми сигналами, оказалось, что в каждой из серий модельные сигналы по мере изменения высотности последовательно воспринимаются как гласные [а], [о], [у]. Выяснилось, что звучание некоторых из них было искажено: в одних случаях это отмечалось в высокочастотном диапазоне, в других - обнаруживалось при минимальных значениях основного

тона. Такие сигналы из дальнейшей работы были исключены.

В основной серии экспериментов в качестве аудиторов выступали нетренированные слушатели - студенты, не имеющие отклонений в слуховом восприятии (о чем судили по предварительно снятой аудиограмме). В прослушивании звуков из каждой модельной серии принимало участие не менее десяти человек (как правило, 16-25 аудиторов). Каждый тестовый набор сигналов состоял из модельных звуков разной высотности, составленных в случайном порядке, и содержал от 25 до 30 звуков, последовательные номера которых обозначал голос диктора. Каждый отдельный звук предъявлялся трижды с интервалом в одну секунду, временной интервал между разными звуками составлял три секунды. С учетом данных предварительного прослушивания, использовалась схема вынужденного выбора - аудитору предлагалось оценить звук как соответствующий гласной [а], [о] или [у]. Для оценки того, насколько уровень идентификации превышает теоретическую частоту, соответствующую вероятности случайного угадывания, использовался биномиальный критерий т. Определяли также максимальные и минимальные значения частот основного тона (ymax, «min) у сигналов, достоверно - тэмп ^ ткр (p < 0.01) идентифицированных как [у] и [а] соответственно.

РЕЗУЛЬТАТЫ

Проведен инструментальный анализ 2485 гласных звуков [а], [о], [у] разной высотности ^0

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком