научная статья по теме РЕАЛИЗАЦИЯ АВТОМАТИЧЕСКОЙ СИСТЕМЫ МНОГОМОДАЛЬНОГО РАСПОЗНАВАНИЯ РЕЧИ ПО АУДИО- И ВИДЕОИНФОРМАЦИИ Автоматика. Вычислительная техника

Текст научной статьи на тему «РЕАЛИЗАЦИЯ АВТОМАТИЧЕСКОЙ СИСТЕМЫ МНОГОМОДАЛЬНОГО РАСПОЗНАВАНИЯ РЕЧИ ПО АУДИО- И ВИДЕОИНФОРМАЦИИ»

Автоматика и телемеханика, № 12, 2014

Интеллектуальные системы управления

© 2014 г. А.А. КАРПОВ, д-р техн. наук (karpov@iias.spb.su) (Санкт-Петербургский институт информатики и автоматизации РАН, Университет ИТМО, Санкт-Петербург)

РЕАЛИЗАЦИЯ АВТОМАТИЧЕСКОЙ СИСТЕМЫ МНОГОМОДАЛЬНОГО РАСПОЗНАВАНИЯ РЕЧИ ПО АУДИО- И ВИДЕОИНФОРМАЦИИ1

Представлена математическая модель и программная реализация автоматической системы распознавания русской речи с применением методов цифровой обработки и анализа аудиовизуальных сигналов от микрофона и видеокамеры. Приведено описание вероятностного моделирования аудиовизуальной речи на основе математического аппарата сдвоенных скрытых марковских моделей, методов объединения информации с применением весовых коэффициентов аудио- и видеомодальностей речи и параметрического представления сигналов. Количественные результаты по многомодальному распознаванию слитной русской речи свидетельствуют о высокой точности и надежности работы автоматической системы.

1. Введение

В последние годы особую актуальность для систем управления сложными техническими объектами, роботами, мобильными устройствами приобретают интеллектуальные средства человеко-машинного взаимодействия, основанные на речевых интерфейсах с применением систем автоматического распознавания и синтеза речи. Для задач голосового управления автоматические системы распознавания уже используются в ряде приложений. Однако остаются недостаточными качество и надежность компьютерного анализа речи в реальных условиях применения. В некоторых условиях функционирования, в частности при низком качестве звукового сигнала, при наличии внешнего шума или посторонних разговоров, системы и модели распознавания не могут обеспечить требуемое качество функционирования даже при применении разных методов фильтрации и шумоподавления. Чтобы повысить точность и робастность автоматических систем, предлагается дополнительно к обработке звучащей речи проводить анализ визуальной информации о речи на базе технологий машинного зрения ("автоматическое чтение речи по губам"), создавая многомодальные системы распознавания речи.

1 Работа выполнена при финансовой поддержке Совета по грантам Президента РФ (проект МК-1880.2012.8), Российского фонда фундаментальных исследований (проект № 12-08-01265-а) и государственной поддержке ведущих университетов Российской Федерации (субсидия 074-Ш1).

Речь поступает от человека многомодально и одновременно по нескольким каналам в виде аудио- и видеоинформации. Сигналы от визуальных и слуховых сенсоров дублируют и дополняют друг друга, что помогает правильно воспринимать речь во многих сложных ситуациях, например при воздействии динамических шумов или при одновременном говорении нескольких человек. Многомодальные пользовательские интерфейсы и системы способны объединять в себе интегральный анализ и обработку гетерогенной информации (речь, мимика и артикуляция, жесты рук, головы и тела, направление взгляда и т.д.).

В настоящее время ведутся разработки систем автоматического распознавания русской речи по аудиоинформации, получаемой от микрофона, в промышленных компаниях Google и Nuance (США), в ЦРТ, СТЭЛ, Auditech (Россия) и в организациях РАН, в частности в ИППИ, ИПУ, СПИИ, ВЦ РАН, в университетах СПбГУ, МГТУ, МГЛУ, ИТМО и ряде других организаций [1]. Известны также единичные разработки автоматических систем "чтения речи по губам" (распознавания визуальной русской речи) в МГУ [2], в НГЛУ и в Институте кибернетики им. Глушкова НАН Украины [3]. Однако научные исследования (работы компании RealSpeaker таковыми не являются) многомодального распознавания русской речи с применением интегрального анализа аудио- и видеоинформации ранее не проводились ни в России, ни за рубежом, что определяет актуальность и значимость данного исследования.

2. Автоматическая система многомодального распознавания речи

Существуют два подхода к объединению звуковой и визуальной информации в процессе многомодального распознавания речи: раннее и позднее объединение. В первом методе независимо вычисляются параметрические представления аудио- и видеосигналов, а затем, с учетом достаточно высокой степени синхронности этих модальностей речи, данные параметры объединяются в единый вектор признаков для каждого сегмента анализируемого мультимедийного сигнала. На этапе классификации (распознавания) применяются методы, использующие скрытые марковские модели (СММ) или искусственные нейронные сети, при этом создаются единые модели для акустических звуков речи - фонем и визуальных речевых единиц - визем (динамических изображений формы губ при произнесении разных фонем). Метод поздней интеграции использует независимые модели для анализа звуковых и визуальных сигналов. В этом случае можно объединять как вероятностные модели фонем и визем, так и гипотезы распознавания по каждой модальности. Преимуществом методов позднего объединения является возможность принятия окончательного решения о гипотезе фразы с учетом весовых коэффициентов информативности каждой модальности, которые могут изменяться в зависимости от внешних условий, в частности от уровня шума, режима освещения и т.д.

2.1. Архитектура системы распознавания аудиовизуальной речи

На рис. 1 представлена обобщенная архитектура автоматической системы распознавания аудиовизуальной речи, которая использует методы сто-

Рис. 1. Архитектура автоматической системы многомодального распознавания аудиовизуальной речи.

хастического моделирования акустических и визуальных речевых сигналов. Диктор произносит фразу, представляющую собой последовательность слов Ш = (и>1,... , ). Эта последовательность подается в систему распознавания в виде аудио- и видеосигналов от микрофона и видеокамеры соответственно. Задача автоматической системы состоит в максимально точном распознании этой последовательности произнесенных слов и минимизации ошибки распознавания. В ходе распознавания возможно возникновение ошибок, поэтому результат может отличаться от Ш, например, получится последовательность Шн = (и>н,..., ). Для параметрического описания одномерный акустический сигнал равномерно разделяется на короткие сегменты, которые преобразуются в последовательности соответствующих векторов признаков оА = (оА,... ), а двумерный видеосигнал обрабатывается по кадрам с вычислением последовательностей векторов визуальных признаков ОХ = = (оХ,... ,оХ)• Вычисленные вектора параметров аудиовизуальных речевых сигналов поступают на вход многомодального декодера (распознавателя) речи, задача которого заключается в генерации множества гипотез произнесенной диктором фразы и в выборе оптимальной гипотезы, имеющей максимальное правдоподобие для входного сигнала. Для распознавания речевых сигналов применяются методы, использующие скрытые марковские модели (СММ), при этом создаются объединенные модели для акустических единиц речи (фонем) и визуальных единиц речи (визем). Во всех современных системах выполняется пофонемное моделирование и распознавание речи, а не целословное, так как это позволяет сократить объем необходимых обучающих данных и обеспечивает оперативное пополнение словаря распознавания путем добавления в него орфографических слов с их фонематическими транскрипциями.

2.2. Вероятностное моделирование аудиовизуальных речевых сигналов

Одной из основных проблем при машинном распознавании аудиовизуальной речи является реализация правильного способа синхронизации и объединения информации речевых модальностей. Суть проблемы состоит в естественном рассогласовании двух модальностей, т.е. потоки соответствующих фонем и визем в естественной речи не являются полностью синхронными. Такой феномен вызван естественными ограничениями в динамике процесса речеобразования, инерционностью человеческих органов артикуляции и эффектом коартикуляции (взаимовлияние и взаимопроникновение соседних элементов разговорной речи), который по-разному проявляется на акустическом и визуальном компонентах речи, что и вызывает асинхронность.

Для учета естественной для речеобразования временной асинхронности потоков соответствующих акустических и визуальных признаков предложены сдвоенные скрытые марковские модели [4, 5]. На рис. 2 показана топология модели аудиовизуальной единицы речи (пара фонема и визема) с несколькими состояниями для каждого потока векторов признаков. Кругами обозначены состояния СММ, являющиеся скрытыми для наблюдения, а квадратами - смеси нормальных распределений векторов наблюдений в состояниях. Сдвоенная скрытая марковская модель (ССММ) (Coupled Hidden Markov Model) представляет собой набор параллельных СММ, по одной на каждый информационный поток (модальность). Состояния модели в некоторый момент времени t для каждой СММ зависят от скрытых состояний в момент времени t — 1 всех параллельных СММ. Таким образом, общее состояние ССММ определяется совокупностью состояний двух параллельных

единицы.

СММ. Преимущество такой топологии в том, что она позволяет нескольким потокам векторов признаков независимо переходить по состояниям модели, что дает возможность моделировать допустимые временные расхождения в аудио- и видеоданных. В топологии ССММ аудиовизуальных единиц речи применяются по три скрытых состояния на каждый параллельный поток векторов признаков, при этом считается, что первые состояния соответствуют динамическому переходу от предыдущей речевой единицы, третьи - переходу к последующей единице, а вторые состояния объединенной модели (самые длительные) соответствуют стационарному центральному участку элемента речи. Для полного определения ССММ Л =< L,D,B,y > некоторой аудиовизуальной единицы речи необходимо задать следующие параметры:

1. Количество скрытых состояний модели - L (состояния для аудио- и видеомодальностей речи показаны кругами на рис. 2 и обозначены SA и SV соответственно);

2. Матрица вероятностей переходов между состояниями модели - D = = {dij };

3. Распределение вероятностей появления вектора признаков в состояниях модели (показаны в квадратах на рис. 2) - B = {bj(O)}. Применяются смеси нормальных распределений вероятности:

M M

(1) bj (O)=^(CjmN=

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком