научная статья по теме НУЖЕН ЛИ СЛУХ ДЛЯ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ? Биология

Текст научной статьи на тему «НУЖЕН ЛИ СЛУХ ДЛЯ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ?»

СЕНСОРНЫЕ СИСТЕМЫ, 2009, том 23, № 4, с. 275-282

== ОБЗОР

УДК 612.85+612.0

НУЖЕН ЛИ СЛУХ ДЛЯ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ?

© 2009 г. В.В. Люблинская

Институт физиологии им. И.П.Павлова РАН 199034, Санкт-Петербург, наб. Макарова, д. 6 E-mail: 34valub@mail.ru

Поступила в редакцию 01.06.2009 г.

Решение проблемы автоматического распознавания речи (АРР), будучи поставленной перед инженерами в конце сороковых годов прошлого столетия, поначалу связывалось с моделированием процессов восприятия и понимания речи человеком. Однако в дальнейшем воплощение задачи создания систем АРР пошло преимущественно по пути применения формальных математических методов, для которых не требовалось исследования человека. Этому способствовали быстрое развитие вычислительной техники, с одной стороны, и недостаток знаний природы слухового восприятия речи у человека - с другой. Начиная с 70-х годов, наблюдался стремительный успех систем АРР, разработанных в некоторых зарубежных коллективах, решающих довольно сложные задачи распознавания слитной речи. Но в начале нашего столетия стало наблюдаться замедление роста эффективности новых разработок, причиной чего являются трудности условий эксплуатации систем, таких как малая помехоустойчивость, дикторская вариативность и пр. В ряде работ последнего времени специалисты предлагают преодоление указанных трудностей за счет включения в существующие системы моделей, имитирующих принципы обработки речевых сигналов в слуховой системе человека. В предлагаемой публикации проводится обзор некоторых работ (преимущественно зарубежных), отражающих мнение ведущих специалистов в области речевых технологий о целесообразности применения слуховых моделей в системах АРР.

Ключевые слова: речь, слух, слуховая система, восприятие, автоматическое распознавание, моделирование.

ВВЕДЕНИЕ

На рубеже 40-50-х годов прошлого столетия возникло и стало быстро развиваться новое научно техническое направление, которое в настоящее время известно как речевые технологии, целью которого была разработка и применение систем автоматического распознавания и синтеза речи. Очевидно, что единственный способ решения проблемы автоматического распознавания речи состоит в определении ее как моделирования процессов восприятия и понимания речи человеком. Среди зарубежных исследователей были известные ученые, которые придерживались подобной точки зрения. Как отклик на такую ситуацию, в конце 50-х годов в Институте физиологии был создан научный коллектив (лаборатории физиологии и биофизики речи) под руководством Л.А. Чистович и В.А. Кожевникова, изучавший закономерности слухового восприятия и воспроизводства речи человеком (Кожевников, Чисто-

вич, 1964). За четыре с лишним десятилетия работы коллектива был накоплен значительный набор данных о слуховом восприятии речи человеком и о речеобразовании, полученный экспериментальным путем и методами математического моделирования (Чистович и др., 1965; 1976; 1986).

Однако развитие речевых технологий в мировой практике и в нашей стране пошло другими путями, для которых роль научных исследований человека потеряла свою главную значимость. Этому способствовали две основные причины: недостаточность знаний о механизмах слухового восприятия и порождения речи и значительная трудоемкость их воплощения; мощное развитие вычислительной техники и создание новых более совершенных инженерно-математических средств для обработки речевых сигналов и алгоритмов принятия решений. Основная идеология разработчиков систем речевых технологий определялась выражением: "Самолету не нужно махать крыльями, чтобы летать". Надо лишь найти

и эффективно реализовать формальные методы работы с речевыми сигналами. И хотя были попытки указать на тупиковый характер такой идеологии (Pierce, 1969), жизнь позволила ей утвердиться надолго.

Успехи речевых технологий

В настоящее время огромные успехи речевых технологий отмечаются повсеместно. Подъем показателей, начиная с конца 70-х, обеспечивается бурным развитием мощной вычислительной техники, позволяющей применение таких формальных инженерно-математических (в основе - статистических) методов как динамическое программирование, реализация скрытых мартовских моделей, линейное предсказательное кодирование (КЛП), искусственные нейронные цепи и прочее. Более подробное изложение истории развития речевых технологий, классификацию систем АРР и описание методов их реализаций можно найти в русскоязычной литературе (Галунов, Родионов, 1988; Кадзасов, Кривнова, 2001; Потапова, 2001).

Современные проблемы создания систем автоматического распознавания речи (АРР) разделяются на две задачи. Одна из них состоит в том, чтобы конструировать практические работающие устройства, наиболее распространенные из которых предназначены для распознавания изолированных слов-команд из небольшого словаря в произнесении многих дикторов, или распознавания большого словаря (как правило, проблемно-ориентированного) и даже слитной речи при на-

стройке на голос одного диктора. Эти задачи успешно решаются формальными математическими методами и не требуют исследования и имитации ни процессов восприятия, ни речеобразования. Другая задача, связанная с автоматическим распознаванием устной речи без словарных ограничений, претерпела значительную эволюцию, стала формулироваться как задача понимания смысла устного сообщения и вылилась в более крупную проблему - общения человека с машиной на естественном человеческом языке.

Наглядную картину эволюционного усложнения задач и средств их решений, выполняемых системами АРР в разные временные периоды, представили известные специалисты на международном симпозиуме Next Generation Automatic Speech Recognition, Georgia Tech, October 7, 2003. Интерпретация истории развития АРР до 2002 г., предложенная одним из участников симпозиума -профессором Рабинером, представлена в табл. 1, где каждому периоду (примерно) соответствует круг задач, объем и тип речевого материала и методы, при помощи которых решались поставленные задачи. Видно, как со временем усложнялись задачи и совершенствовались применяемые математические методы.

В последующие годы (до 2011 г.) предполагалось решить проблемы, указанные в табл. 2, которые выглядят достаточно впечатляюще. Сюда входит создание диалоговых систем с практически неограниченным словарем, возможность взаимодействия человека с машиной на разных языках

Таблица 1. Задачи и средства их решений, выполняемые системами АРР в разные временные периоды

История, гг. Объект распознавания Речевой материал Средства решения

1962- -1967 Изолированные слова Небольшой словарь Анализ гребенкой фильтров, нормализация по времени, динамическое программирование

1967- -1977 Изолированные слова; Последовательность цифр; Словарь среднего объема Распознавание образов, КЛП-анализ, clustering algorithms,

1977- -1987 Связная речь Последовательность слов; Связная речь Большой словарь многоуровневая система Скрытые марковские модели, стохастическое моделирование языка

1987- -1997 Связная речь, Понимание Большой словарь, синтаксис, Стохастическое понимание

речи семантика языка, finite-state machines, статистическое обучение

1997- -2002 Речевой диалог; Разные мо- Очень большой словарь, се- Автоматическое обучение,

дальности мантика, мультимодальный диалог взаимноинициативныи диалог

Таблица 2. Задачи на будущее

Годы Системы Речевой материал

2002- Создание диа- Очень большой словарь,

2005 логовых си- ограниченные задачи, кон-

стем тролируемая окружающая

2005- Обеспечение среда Очень большой словарь,

2008 устойчивости ограниченный круг задач,

систем произвольная окружающая

2008- Мультилинг- среда Неограниченный словарь,

2011 вальные си- неограниченный круг задач,

стемы, муль- разные языки

тимодальные

речевые

устройства

с использованием мультимодальных устройств (например, устная и письменная речь, визуальное изображение диктора и т.д.), но главные надежды возлагаются на создание помехоустойчивых систем, надежно работающих в условиях разнообразной акустической среды.

Причины торможения роста эффективности современных систем АРР

Оптимистические прогнозы несколько охлаждают анализ недостатков существующих систем АРР. В докладе на симпозиуме и в работе этого же автора (Lee, 2006) представлен иллюстративный график роста эффективности систем АРР в разные временные периоды (рисунок). Обращает на себя внимание, что после примерно 2000 г. скорость развития замедляется. Каковы причины такого положения дел?

Частично ответ на этот вопрос можно найти в формулировке перспективных, т.е., пока еще нерешенных задач, которые указаны в табл. 2. Серьезной проблемой, с которой сталкиваются современные системы АРР, прежде всего, является их низкая помехоустойчивость. В реальной акустической среде при высоком уровне шума все системы дают большой процент ошибок, существенно больший, чем это делает человек при тех же условиях. Для обеспечения высокой эффективности требуется соблюдать определенные жесткие условия, то, что в табл. 2 обозначается как "контролируемая окружающая среда": тщательное произнесение текста и использование направленных микрофонов с шумоподавлением, близко располо-

женных ко рту диктора. Даже при таких условиях существует большое число акустических факторов, которые снижают показатели работы систем: индивидуальные характеристики дикторов, такие как диалект, гендерные характеристики, патология голоса, специфическое психологическое состояние и стиль речи, изменение громкости речи при увеличении внешнего шума (Ломбард-эффект). Кроме того, возможны различные искажения сигнала за счет постоянного и импульсного шума, реверберации помещений, нелинейности микрофона, превышения динамического диапазона канала. Большое влияние оказывает стиль речи: чтение или спонтанный разговор. В работе ^ршапп, 1997) приводятся некоторые численные примеры сравнения ошибок в АРР-системах при распознавании слов читаемого текста и телефонных диалогов: в первом случае они составляют от 6-10%, во втором случае - 20-30%.

Возврат к человеку

В последнее десятилетие наблюдается отхо

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком