ВОСПРИЯТИЕ СИНТЕЗИРОВАННЫХ МОДЕЛЕЙ ОДНОФОРМАНТНЫХ ГЛАСНЫХ С РАЗНОЙ ЧАСТОТОЙ ОСНОВНОГО ТОНА

АНДРЕЕВА Н.Г.; СМИРНОВА Т.А.

СЕНСОРНЫЕ СИСТЕМЫ, 2014, том 28, № 4, с. 13-21

СЛУХОВАЯ СИСТЕМА

УДК 612.85:534.78

ВОСПРИЯТИЕ СИНТЕЗИРОВАННЫХ МОДЕЛЕЙ ОДНОФОРМАНТНЫХ ГЛАСНЫХ С РАЗНОЙ ЧАСТОТОЙ ОСНОВНОГО ТОНА

Н.Г. Андреева , Т.А. Смирнова

Санкт-Петербургский государственный университет 199034, Санкт-Петербург, Университетская наб., д. 7/9 E-mail:tatiankasmirnova@gmail.com

Поступила в редакцию 16.06.2014 г.

Вопрос об акустических коррелятах фонетической принадлежности гласных с высокими значениями частоты основного тона ^0), характерными для детской и вокальной речи, остается открытым. В предыдущих работах была выявлена роль относительной амплитуды гармонических составляющих в восприятии одноформантных гласных речи детей и взрослых, что позволило предположить наличие перцептивных границ гласных не только в частотных, но и в амплитудных координатах сигнала (Андреева, Куликов, 2004; 2009; 2012). С целью определения областей перцептивного постоянства гласных проведено исследование идентификации синтезированных стимулов, отличающихся значениями амплитуды первой и второй гармоник. Результаты показали, что отнесение звука к определенной фонетической категории закономерно изменяется в ряду задних гласных [у]^[о]^[а] в зависимости от относительной амплитуды гармонических составляющих сигнала. Области высоко достоверного определения категории звука смещаются при изменении F0. Зависимость значений относительной амплитуды, при которых происходила смена фонетической оценки синтезированного стимула, от F0 соответствует закономерностям, полученным при анализе естественных гласных.

Ключевые слова: восприятие речи, гласные, форманты, частота основного тона, относительная амплитуда гармонических компонентов, синтезированные звуки речи.

ВВЕДЕНИЕ

Выявление акустических коррелятов фонетической принадлежности гласных до сих пор остается актуальным, несмотря на длительную историю исследований (Miller, 1989). Хотя фор-мантный признак (Chiba, Kajiyama, 1941/1958; Peterson, Barney, 1952) по-прежнему рассматривается как основной, невозможность свести распознавание гласных лишь к частотным значениям их первых формант становится все более очевидной. В первую очередь это касается звуков детей и вокальной речи, характеризующихся широким диапазоном изменений частоты основного тона (F0) (Sundberg, 1977; Kent, Forner, 1979; Joliveau et al., 2004; Vorperian, Kent, 2007). Выделение формант в этих случаях представляет самостоятельную проблему, поскольку значения F0 могут превосходить типичные для некоторых гласных значения первой форманты. Неопределенность

формантной картины выявлена и для гласных обычной речи при значениях F0, превышающих частоту 250 Гц (Maurer et al., 2000). Таким образом, формантный (частотный) признак не может быть распространен на все формы генерации звуков, а "формантная картина" гласных служит наиболее существенной характеристикой звуков обычного речевого диапазона, не превышающих по частоте 240-280 Гц.

Проведенные нами ранее исследования показали, что при высоких значениях F0 решающим признаком для восприятия одноформантных гласных (в русском языке это [а], [о], [у]), становится частотно-зависимое соотношение амплитуды их спектральных компонентов (Куликов и др., 1999, 2002; Куликов, Андреева, 2004, 2009). Эти результаты были получены при анализе спектральных характеристик звуков речи детей и взрослых и вокальных гласных и подтверждены в эксперимен-

тах по восприятию модифицированных звуков. Выявленное сходство в характере зависимости относительной амплитуды спектральных компонентов от F0 для звуков речи детей и взрослых позволило поставить вопрос о существовании перцептивных границ этих гласных не только в частотных, но и в амплитудных координатах сигнала (Андреева, Куликов, 2012). Для сигналов с высокой частотой основного тона F0 в диапазоне 320-450 Гц роль формантного признака минимизирована, сигналы отличаются значениями амплитуды первой и второй гармонических составляющих.

В продолжение исследований перцептивных границ одноформантных гласных с целью уточнения областей перцептивного постоянства гласных нами проведено изучение восприятия синтезированных гласноподобных сигналов с высокой частотой основного тона F0 в диапазоне 320-450 Гц.

МЕТОДИКА

В исследовании приняли участие русскоязычные аудиторы в возрасте от 17 до 28 лет, не имеющие нарушений слуха. В первой серии прослушиваний стимулов, предъявленных в случайном порядке, приняли участие 19 человек (из них 12 женщин). Во второй серии прослушиваний и в исследовании при помощи метода установления границ участвовали 29 человек (из них 21 женщина).

Диапазон изменения параметров синтезированных стимулов соответствовал диапазону, выявленному для естественных гласных при высоких значениях F0 (Андреева, Куликов, 2009, 2012). Для первой серии опытов при помощи программы Cool Edit Pro генерировали звук, состоящий из четырех компонентов: к основной частоте (F0) добавляли три обертона с коэффициентами 2, 3, 4, таким образом, чтобы стимул включал четыре гармонических составляющих с частотами 382 Гц (F0) и 764 Гц, 1146 Гц, 1528 Гц, т.е. вторая-четвертая гармоники соответственно (рис. 1, б). Тестовая серия состояла из 22 стимулов с последовательным изменением относительной амплитуды первой - второй гармоник от 20 дБ до -20 дБ, второй - третьей - от 9 дБ до 29 дБ в ряду от стимула № 1 к стимулу № 22 (рис. 1, а). Шаги изменений в ряду стимулов составляли 2 и 4 дБ для первой - второй и второй - третьей соответственно. Во всех случаях спектральными максимумами оставались первая и вторая гармо-

ники. Для ранее проанализированного частотного диапазона естественных гласных 350-420 Гц средняя частота основного тона составила 382 Гц (Андреева, Куликов, 2009). Параметры синтезированных стимулов №№ 13-15 были наиболее близки к медианным значениям относительной амплитуды первой-третьей и второй-четвертой гармоник для естественных гласных [о] в этой полосе частот.

Для второй серии опытов было выполнено частотное транспонирование синтезированных сигналов, т.е. смещение каждого из сигналов вдоль частотной оси. Таким образом, были созданы четыре новые последовательности по двадцать два стимула с идентичным отношением амплитуд спектральных компонентов, различавшиеся по F0 - 321, 362, 405 и 454 Гц. Длительность каждого стимула для обеих серий опытов составила 500 мс, время нарастания и спада - 40 мс. Уровень звукового давления стимулов был выровнен по пиковой амплитуде. Характеристики относительной амплитуды спектральных компонентов всех синтезированных стимулов приведены на рис. 1, а.

Прослушивание проводили в тихой комнате, звуки комфортного уровня громкости предъявлялись через наушники ЗеппИ^гег HD 265 бинаурально. Предварительное прослушивание четырьмя аудиторами, имеющие опыт работы со звуковыми стимулами, синтезированных звуков в условиях свободной идентификации показало, что все сигналы были определены только как [а]-, [о]-, или [у]- подобные. Поэтому в дальнейшем основной группе аудиторов предлагалось соотносить стимулы именно с этими категориями гласных.

Проведено две серии исследований. В первой серии оценивалось восприятие синтезированных стимулов ^0 = 382 Гц) при использовании методик трехальтернативного вынужденного выбора и установления границ. Во второй исследовалась зависимость фонетической оценки стимулов от частоты основного тона при помощи метода установления границ.

В первую серию были включены 19 стимулов из 22, так как при предварительных прослушиваниях было выяснено, что три первых стимула оказывают слишком большое влияние на идентификацию звука, следующего за ними. При помощи компьютерной программы Ргаа1 стимулы для трехальтернативного выбора предъявлялись испытуемым в псевдослучайном порядке. Каждый из 19 стимулов встречался в тестовой серии три-

-10

■ 1

к 2 • 3

-10 л Д 1 1 1 17

-30 -

-50 и ий-

-70 1 1 1 " г

0

0.5 1.0 1.5

2.0

Рис. 1. Характеристика синтезированных стимулов.

а - относительная амплитуда гармонических составляющих синтезированных стимулов; б - спектры синтезированных стимулов.

На а: по оси абсцисс - порядковый номер синтезированных стимулов, по оси ординат - относительная амплитуда гармоник

(дБ).

1 - относительная амплитуда первой - второй; 2 - второй - третьей; 3 - третьей - четвертой гармонических составляющих На б: по оси абсцисс - частота основного тона (Гц), по оси ординат - амплитуда (дБ). Приведены примеры синтезированных стимулов №№ 7, 15, 22.

жды. Испытуемый мог повторять предъявленный звук несколько раз по своему усмотрению, пока не принимал решение о том, к какой из трех фонетических категорий - [у], [о] или [а] он должен быть отнесен.

Перед прослушиванием основной тестовой последовательности по методу установления границ испытуемому предъявляли стимулы, выбранные из начала, середины и конца ряда (№№ 5, 12, 20) для их идентификации в условиях свободного выбора. При реализации метода установления границ применяли ряд стимулов с последовательным изменением относительной амплитуды первой-второй гармоник. Межсти-мульный интервал был постоянным и составлял

500 мс. Предъявление было разделено на два блока, которые различались порядком следования стимулов и, следовательно, направлением изменения относительной амплитуды первой-второй гармоник. Прямая последовательность соответствовала порядку предъявления от стимула № 1 к стимулу № 22, а обратная - от стимула № 22 к стимулу № 1. В каждом блоке испытуемый прослушивал ряд дважды. Первый раз ему предлагалось сообщить, какие гласные звуки присутствуют в континууме. При втором прослушивании он должен был остановить последовательность после того, как услышит звук, относящийся к другой фонетической категории. Таким образом, в каждом блоке испытуемый останав-

ливал последовательность 2 раза - при переходе от звука [у] к [о] и от [о] к [а], и в обратном порядке.

Во второй серии опытов исследовалась зависимость фонетической оценки стимулов от частоты основного тона с помощью метода установления границ. Применяли четыре последовательности стимулов с идентичным отношением амплитуд спектральных

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

научная статья по теме ВОСПРИЯТИЕ СИНТЕЗИРОВАННЫХ МОДЕЛЕЙ ОДНОФОРМАНТНЫХ ГЛАСНЫХ С РАЗНОЙ ЧАСТОТОЙ ОСНОВНОГО ТОНА Биология

Текст научной статьи на тему «ВОСПРИЯТИЕ СИНТЕЗИРОВАННЫХ МОДЕЛЕЙ ОДНОФОРМАНТНЫХ ГЛАСНЫХ С РАЗНОЙ ЧАСТОТОЙ ОСНОВНОГО ТОНА»