научная статья по теме ВИРТУАЛЬНАЯ АКУСТИЧЕСКАЯ РЕАЛЬНОСТЬ: ПСИХОАКУСТИЧЕСКИЕ ИССЛЕДОВАНИЯ Биология

Текст научной статьи на тему «ВИРТУАЛЬНАЯ АКУСТИЧЕСКАЯ РЕАЛЬНОСТЬ: ПСИХОАКУСТИЧЕСКИЕ ИССЛЕДОВАНИЯ»

СЕНСОРНЫЕ СИСТЕМЫ, 2004, том 18, № 3, с. 251-264

ПСИХОАКУСТИЧЕСКИЕ ИССЛЕДОВАНИЯ

УДК 621.85

ВИРТУАЛЬНАЯ АКУСТИЧЕСКАЯ РЕАЛЬНОСТЬ: ПСИХОАКУСТИЧЕСКИЕ ИССЛЕДОВАНИЯ

© 2004 г. И. Г. Андреева

Институт эволюционной физиологии и биохимии им. И.М. Сеченова РАН 194223 Санкт-Петербург, пр. М. Тореза, 44 Поступила в редакцию 10.03.04 г.

В обзоре отражено современное состояние исследований слухового восприятия, касающихся формирования виртуальной акустической реальности. Рассмотрены методические подходы к решению проблем, связанных с надежностью и точностью воспроизведения пространственного положения звуковых источников. При анализе механизмов помехоустойчивости пространственного слуха особое внимание уделено локализации речевого сигнала. Выявлены причины, препятствующие имитации движения звукового образа в произвольном направлении. Обсуждается проблема межсенсорного взаимодействия в процессе локализации источника звука.

Ключевые слова: пространственный слух, локализация звука, помехоустойчивость слуховой системы.

Современный этап развития информационных технологий позволяет поднять на новый уровень взаимодействие человека с виртуальной средой и решить многие вопросы обучения и профессиональной подготовки в самых разных областях промышленного производства и транспорта, реабилитации различных групп инвалидов и т.д. (Wenzel, 1992). Все это указывает на актуальность и практическую значимость развития тех областей физиологии сенсорных систем, которые необходимы для создания теоретических основ виртуальной реальности.

Основные методические подходы для "сохранения естественного впечатления при передаче с преодолением пространства и времени" были сформулированы в монографии Блауэрта (Блау-эрт, 1979). Один из подходов состоял в воспроизведении звукового поля на некотором пространстве. В этом случае нужно было смоделировать прямой звук, все отражения и реверберацию в помещении, где располагался звуковой источник. Уже к середине 70-х годов вариант "синтетического поля" был создан в Геттингенском университете (Meyer et al., 1965). Для формирования синтетического акустического поля было необходимо большое число каналов воспроизведения, сложная аппаратура для обработки звука, поэтому использование такого синтетического поля даже в исследовательских целях было сопряжено с большими финансовыми затратами. Преимущество этого подхода состояло в возможности движения слушателя без потери иллюзии естественного звучания. Упрощенный вариант воспроизведения акустического поля состоял в стерео- (2 канала) или квадро- (4 канала) фоническом воспроизведении, причем, если стояла задача точного воспро-

изведения звуковой иллюзии, то расположение головы слушателя и динамиков должно было быть четко зафиксировано. Один из таких способов под названием "Традис" был предложен еще в 1961 г. (Bauer, 1961). Он отличался тем, что позволял из сигнала, поступающего в правое ухо вычитать сигнал, предназначенный для левого, и, наоборот. Это создавало более полную иллюзию объема акустического пространства (акустической сцены). В обоих подходах воспроизводилось акустическое поле - на большом участке или более локально, а качество иллюзии не зависело от индивидуальности слушателя.

Третий подход состоял в записи сигналов через микрофоны, помещенные в ушные раковины искусственной головы и воспроизведении звукового пространства через головные телефоны (Dam-aske, Wagener, 1969; Kurer et al., 1969). Необходимость такой записи была обусловлена тем, что отражение и поглощение звука телом, головой и ушными раковинами слушателя вызывают существенные изменения спектра звукового сигнала (Butler et al., 1990). Изменения спектра зависят от направления прихода звука (эту особенность называют дирекциональностью), выражаются в фазовом и амплитудном изменении спектрального профиля сигнала и называются передаточной функцией головы (HRTF - head-related transfer function). Цифровая обработка передаточных функций, синтез на ее основе звуковых стимулов, предъявление их с помощью головных телефонов слушателю создает у него экстернализацию звукового образа, т.е. иллюзию реального, удаленного от слушателя, положения звукового образа в пространстве (Hartmann and Wittenberg, 1996). Именно этот подход был взят за основу современных вир-

туальных технологий. Под виртуальной акустической реальностью будем понимать иллюзию внешней акустической сцены, элементы которой могут меняться во времени, в том числе двигаться по акустической сцене. Звуковые образы - иллюзии реальных сигналов в акустическом пространстве, созданные таким способом, в дальнейшем будем называть виртуальными звуковыми образами. В современных условиях виртуальную акустическую реальность создают на основе компьютерной обработки звука с использованием передаточных функций и воспроизводят с применением головных телефонов. Преимущество подхода на основе компьютерных информационных технологий состоит в возможности сочетать слуховые, зрительные и др. иллюзии для создания технологии виртуального мира. Его широкому применению препятствует ряд нерешенных теоретических проблем слухового восприятия, обсуждению которых посвящен настоящий обзор.

Точность воспроизведения акустической среды

Передаточная функция определяется как индивидуальными анатомическими особенностями наружного уха, головы и тела слушателя, так и положением источника звука. Ее спектральные характеристики соответствуют положению этого источника в пространстве по направлению (азимут и элевация) и по расстоянию. Для воспроизведения акустического пространства необходимо знать множество передаточных функций. Обычно их измерения выполняются в точках пространства, разделенных угловым расстоянием в 12-15° (Wightman, Kistler, 1997), таким образом, что полный набор состоит из нескольких сотен замеров. Однако пространственное разрешение для стационарных звуковых источников составляет при оптимальных условиях (0° азимута, 0° элевации) приблизительно 1° при размещении источников в горизонтальной плоскости и 3.6° - в вертикальной (по горизонтали: Mills, 1958; Perrott, Pacheco, 1989; по вертикали: Wettschureck, 1973; в обеих плоскостях: Perrott, Saberi, 1990). Воспроизведение акустической сцены с таким разрешением потребовало бы тысяч измерений для каждого слушателя, поэтому была сделана попытка интерполировать передаточные функции в соседние точки пространства (Langendijk, Bronkhorst, 2000). При сопоставлении реального и виртуального положения широкополосных звуковых источников выяснили, что при смещении таких источников до 6° интерполяция не требуется, при смещении на 1015° - воспринимаемые широкополосные стимулы отличаются от реальных по тембру, а при 20° и более - по тембру и положению в пространстве.

Локализация звука - активный процесс, точность которого существенно зависит от движений слушателя (Wallach, 1940), поэтому в локализации звукового источника важную роль играют

небольшие сканирующие смещения или повороты (1-2°) головы, значительно улучшающие разрешающую способность пространственного слуха по азимуту (Burger, 1958; Thurlow et al., 1967; Thurlow, Runge, 1967). При ограничении и при поощрении движений головы было исследовано восприятие в переднезаднем направлении и по вертикали. Для локализации источника в этих направлениях наиболее важными являются составляющие сигнала с частотами выше 5 кГц. Исключение высоких частот приводит к значительному ухудшению локализации в указанных выше направлениях. Однако локализация низкочастотных звуковых источников в переднезаднем направлении и по вертикали оказалась удовлетворительной при движении головы слушателя (Wightman, Kistler, 1999; Perrett, Noble, 1997a, b). При локализации реальных и виртуальных звуковых образов в переднезаднем направлении возможность регулирования перемещения низкочастотного источника звука самим слушателем приводила к существенному снижению числа ошибок локализации (Wightman, Kistler, 1999). Таким образом, была подтверждена гипотеза о роли движений головы в локализации по вертикали и в переднезаднем направлении, и показана возможность применения динамических признаков движения при условии перемещения источника самим испытуемым.

При движении головы меняется угол, под которым поступает звуковая волна, и, соответственно, передаточная функция и спектральный контур поступающего на барабанную перепонку сигнала. Поэтому для воспроизведения в виртуальной среде ориентировочного поведения важно знать изменения передаточных функций не только для разных точек пространства, но и то, как эти функции будут изменяться при неподвижном источнике, если голова будет двигаться - смещаться или вращаться в трех плоскостях. Надежность воспроизведения звуковой среды в свободном поле по отношению к смещению и вращению головы была изучена при применении 2-каналь-ной системы воспроизведения звука (Takeuchi et al., 2001). Более устойчивое воспроизведение достигалось при малом угловом расстоянии (10° азимута) между парой динамиков по сравнению с большим (60° азимута). Расчеты на сферической модели головы, подтвержденные психоакустическими экспериментами, показали, что вращения головы вдоль вертикальной и сагиттальной осей, а также латеральные смещения приводят к сдвигу в межушных временных различиях и формированию локальных максимумов в межушной кросс-корреляционной функции. Смещения головы по вертикали, спереди назад и вращение вокруг оси, проходящей через ушные проходы, изменяют только локальные максимумы в межушной кросс-корреляционной функции. Экспериментальным путем было выявлено, что эти

изменения передаточных функций приводят к заметным искажениям восприятия при латеральном смещении головы всего на 5 см (Rose et al., 2002). В работе (Hill et al., 2000) было показано, что двухканальной системы для имитации изменений передаточной функции при поворотах головы не достаточно, они могут быть смоделированы только 4-канальной системой воспроизведения звука. Эти изменения позволяют разрешить ошибки локализации в направлении спереди назад, так называемые "front-back confusions".

Особое внимание в последние годы уделяется восприяти

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком