научная статья по теме ЗАВИСИМОСТЬ ВОСПРИЯТИЯ ЭМОЦИОНАЛЬНОЙ ИНФОРМАЦИИ РЕЧИ ОТ АКУСТИЧЕСКИХ ПАРАМЕТРОВ СТИМУЛА У ДЕТЕЙ РАЗНОГО ВОЗРАСТА Биология

Текст научной статьи на тему «ЗАВИСИМОСТЬ ВОСПРИЯТИЯ ЭМОЦИОНАЛЬНОЙ ИНФОРМАЦИИ РЕЧИ ОТ АКУСТИЧЕСКИХ ПАРАМЕТРОВ СТИМУЛА У ДЕТЕЙ РАЗНОГО ВОЗРАСТА»

ФИЗИОЛОГИЯ ЧЕЛОВЕКА, 2008, том 34, № 4, с. 149-153

КРАТКИЕ ^^^^^^^^^^^^^^^^ СООБЩЕНИЯ

УДК 612.821

ЗАВИСИМОСТЬ ВОСПРИЯТИЯ ЭМОЦИОНАЛЬНОЙ ИНФОРМАЦИИ РЕЧИ ОТ АКУСТИЧЕСКИХ ПАРАМЕТРОВ СТИМУЛА У ДЕТЕЙ

РАЗНОГО ВОЗРАСТА

© 2008 г. Е. С. Дмитриева, В. Я. Гельман, К. А. Зайцева, А. М. Орлов

Институт эволюционной физиологии и биохимии им. И.М. Сеченова РАН,

Санкт-Петербург Поступила в редакцию 04.04.2007 г.

Исследовали влияние на восприятие эмоциональной просодики речевого сигнала акустических параметров стимула у детей разного возраста (7-10, 11—13 и 14-17 лет). Показаны существенные отличия распознавания положительной и отрицательной валентности речевого сигнала на фоне шумовой помехи и при ее отсутствии. Определены онтогенетические особенности зависимости распознавания эмоциональной валентности от акустических параметров речевого сигнала. Выявлены наиболее значимые акустические признаки (частота основного тона F0, частота первой форманты F1), которые обеспечивают восприятие эмоциональной просодики речевого сигнала на фоне шума на разных возрастных этапах.

Известно, что распознавание эмоциональной составляющей речевого сигнала влияет на адаптацию человека к окружающей среде. Данные о роли акустических характеристик сигнала для распознавания эмоциональной просодики речи в существующей литературе неоднозначны [1-5]. В предыдущей нашей работе было рассмотрено влияние временной структуры речевого сигнала (длительности речевых отрезков) на онтогенетические особенности распознавания его эмоциональной составляющей [6]. Можно ожидать, что спектральные характеристики такого сигнала также будут влиять на возрастные изменения его распознавания, причем их роль наиболее очевидно проявится на фоне маскирующего шума. Известно сравнительно мало работ, в которых изучались онтогенетические особенности распознавания эмоциональной интонации речевого сигнала на фоне шума [7, 8], и практически нет работ по исследованию роли спектральных характеристик речевого сигнала в оценке слушателями разных возрастных групп эмоционального состояния говорящего в условиях помех.

Целью настоящей работы являлось определение наиболее существенных акустических параметров сигнала, обеспечивающих восприятие эмоциональной просодики речевого сигнала на фоне шума на разных возрастных этапах.

Для решения поставленной задачи в ходе исследования оценивалась эффективность восприятия эмоциональной информации речи и проводился анализ акустических параметров речевого сигнала.

Исследования проводились на выборке, состоящей из 42 детей - учащихся общеобразовательных школ Санкт-Петербурга. Было выделено 3 воз-

растных группы: 7-10 лет (14 человек), 11-13 лет (15 человек) и 14-17 лет (13 человек).

При создании тестового акустического материала применялся метод актерского моделирования эмоциональных интонаций одного и того же речевого стимула, который позволяет выделить акустические корреляты эмоциональной выразительности этого сигнала и все структурные акустические изменения отнести только за счет изменения эмоциональной интонации речевого высказывания [6-7, 9]. Фразы нейтрального содержания, состоящие из 5 слов, произносились профессиональным драматическим актером с тремя различными эмоциональными интонациями (радость, гнев, безэмоционально). Для дальнейшего исследования были выбраны те фразы ("Прости, я сам все расскажу"), в которых по результатам аудиторских оценок эмоциональные оттенки имели высокую вероятность опознания (95-100%). Средняя длительность тестовых стимулов составляла 2.57 ± 0.24 с, их сонограммы приведены на рис. 1. В отобранных фразах были выявлены (с помощью пакета '^ауеЗийег 1.8.5") акустические параметры, характерные для различных эмоциональных валентностей. Учитывая, что в литературе существуют противоречивые данные о наиболее важных акустических признаках, характеризующих валентность эмоциональной просодики речевого сигнала [1-5, 9, 10], нами были выбраны основные спектральные характеристики, упоминаемые в этих работах: средняя энергия Р0, средняя частота основного тона ¥0, средние величины формант-ных частот ¥1, ¥2, а также средний артикуляционный темп (количество слогов в секунду).

A

Б

В

Рис. 1. Сонограммы тестовой фразы, произнесенной с интонацией гнева (А), безэмоционально (Б) и интонацией радости (В).

Для успешности исследования распознавания эмоциональной компоненты анализируемых речевых сигналов был использован метод монаурально-го предъявления испытуемым звуковых стимулов с одновременной подачей на контралатеральное ухо белого шума той же интенсивности, что и полезный сигнал. При этом, ипсилатерально предъявляемый белый шум обеспечивал 4 различных отношения сигнал/шум (+24 дБ, -6, -12, -15 дБ) [11]. В эксперименте регистрировались результаты распознавания типа эмоциональной интонации и время реакции распознавания стимулов.

Затем полученные результаты распознавания различных эмоциональных валентностей речевых сигналов детьми разных возрастных групп были сопоставлены с найденными ранее акустическими характеристиками этих сигналов.

Статистический анализ данных проводился с помощью пакета обработки данных "SPSS for Windows V. 11". Определялись статистические характеристики внутри групп и достоверность различий между группами с помощью двухвыбороч-ного критерия Стьюдента для выборок с различными дисперсиями (¿-тест), а также проводился линейный регрессионный анализ (LRA).

В результате акустического анализа отобранных фраз были определены их основные характе-

ристики (табл. 1). Набор полученных акустических параметров как для положительной, так и для отрицательной эмоциональной интонации отличается от такового для нейтральной эмоциональной интонации, что согласуется с данными ряда авторов [4, 9, 12]. Например, в работе [12] были получены аналогичные нашим данные для значений частоты основного тона, интенсивности и скорости артикуляции, и количественных соотношений между ними для различных эмоций. Однако полученное нами уменьшение частоты основного тона ¥0 (р < 0.001) и вариабельности ¥0 (р < 0.01) для эмоции гнева по сравнению с нейтральной интонацией отличается от данных работы [11] (возрастание ¥0, вариабельности ¥0, средней энергии Р и скорости артикуляции). Для первой ¥1 и второй ¥2 формант наблюдалось совпадение только примерных значений средних величин [4,12]. Отличия в количественных соотношениях можно, по-видимому, объяснить большой вариабельностью акустических признаков произношения различных дикторов.

Можно предполагать, что обнаруженные отличия акустических признаков, которые содержит фраза, будут находиться в положительной корреляции с эффективностью и временем распознавания (ЭР и ВР) этой фразы слушателями.

Таблица 1. Основные акустические характеристики тестовых стимулов

Эмоциональная интонация Частота основного тона Частота первой форманты Частота второй форманты Спектральная мощность Скорость артикуляции

f0 sd* f1 sd f2 sd Р sd ar sd

Гнев 88.31 16.95 515.28 212.58 1677.12 346.53 43.45 10.57 3.63 0.23

Нейтральная 102.27 19.01 409.55 127.8 1431.14 398.94 43.64 7.18 3.82 0.25

Радость 130.29 25.4 428.55 118.01 1525.18 281.58 46.22 7.29 5.74 0.36

*sd — стандартное отклонение.

Таблица 2. Основные факторы, влияющие на время реакции (ВР) и эффективность распознавания (ЭР) эмоциональной просодики речи*

Возраст, лет ЭР ВР

фактор фактор

I II III IV V I II III

7—17 F0 c/ш F2 Возраст — F0 Возраст с/ш

0.221 —0.196 —0.130 0.072 —0.325 —0.193 0.075

7—10 F0 c/ш P0 Пол — F0 Пол Сторона предъявления

0.632 —0.170 —0.356 —0.08 —0.323 —0.198 0.078

11—13 F0 c/ш Пол Сторона предъявления P0 F0 Пол с/ш

0.560 —0.194 —0.106 0.089 —0.328 —0.360 0.234 0.129

14—17 F1 c/ш Пол F2 — F0 — —

—0.922 —0.226 0.141 0.611 —0.319

* В таблице приводится наименование (обозначение) показателя и под ним значение стандартизованного коэффициента р. с/ш -отношение сигнал/шум.

Как видно из рис. 2 и 3, восприятие эмоциональной компоненты речи на фоне шума и без него имеет определенные отличия. При отсутствии помехи в младших возрастных группах лучше распознается эмоция "радость" (рис. 3, А). В то же время в группе 14-17 лет самая высокая ЭР зафиксирована у эмоции "гнев" (рис. 3, Б), что согласуется с данными о лучшем распознавании отрицательных эмоций взрослыми людьми [10, 13]. Можно предполагать, что это связано с важностью правильного определения соответствующей эмоции на каждом возрастном этапе. При восприятии сигнала на фоне шума ситуация существенным образом изменяется. Во всех возрастных группах достоверно лучше распознается эмоция "радость" и достоверно хуже - эмоция "гнев" (рис. 2, А, рис. 3). Наблюдаемые изменения, возможно, связаны с тем, что при распознавании эмоциональной интонации на фоне шума большую роль начинают играть отличия в акустических характеристиках рассматриваемых речевых сигналов. Аналогичные изменения происходят и

для ВР (рис. 2, Б), когда на фоне шума "радость" распознается быстрее, а "гнев" — медленнее.

Далее методом пошагового (forward) линейного регрессионного анализа были выявлены наиболее значимые факторы, влияющие на ЭР и ВР. Наряду с акустическими параметрами сигналов, в качестве исследуемых факторов рассматривались также пол, возраст испытуемых и сторона предъявления. Анализ проводился для всей выборки испытуемых (7—17 лет) и по каждой возрастной группе отдельно. Были выявлены определенные отличия в наборах значимых факторов для разных возрастных групп (табл. 2). Было получено, что ведущим фактором, влияющим на распознавание эмоциональной просодики речи (для ЭР и ВР) на фоне шума для всех слушателей (за исключением группы 14—17 лет для ЭР), является частота основного тона F0. Если учесть, что разница в F0 между интонацией гнева и нейтральной (13.96 Гц) примерно вдвое меньше разницы между интонацией радости и нейтральной (28.02 Гц), то это, в значительной мере, может объяснить более

%

100

90

80

70

60

50 40

А

?

\

\

1

т

24 -6 -12 -15 Отношение сигнал/шум, дБ

%

3.1 2.9 2.7 2.5 2.3 2.1 1.9 1.7 0

24 -6 -12 -15 Отношение сигнал/шум, дБ

Рис. 2. Зависимости эффек

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком