научная статья по теме МЕТОДЫ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ РАСПОЗНАВАНИЯ РЕЧЕВЫХ СИГНАЛОВ В СИСТЕМАХ ГОЛОСОВОГО УПРАВЛЕНИЯ Метрология

Текст научной статьи на тему «МЕТОДЫ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ РАСПОЗНАВАНИЯ РЕЧЕВЫХ СИГНАЛОВ В СИСТЕМАХ ГОЛОСОВОГО УПРАВЛЕНИЯ»

Общие вопросы метрологии и измерительной техники

8. Шестопалова О. Л. Прогнозирование моральной долговечности распределенных информационных систем с учетом прогрессирующих ограничений на возможности восстановления ресурса элементной базы // Современные проблемы науки и образования. 2013. № 6. [Офиц. сайт] http:// www.science-education.ru/113-11078 (дата об ращения 06.04.2015 г.)

9. Ломакин М. И., Миронов А. Н., Шестопалова О. Л.

Многомодельная обработка измерительной информации в интеллектуальных системах прогнозирования надежности космических средств // Измерительная техника. 2014. № 1. С. 8—13.

Дата принятия 06.07.2015 г.

ИЗМЕРЕНИЯ В ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЯХ

004.934

Методы п овышения эффективности распознавания речевых сигналов в системах

голосового управления

А. К. АЛИМУРАДОВ1, Ф. Ш. МУРТАЗОВ2

1Пензенский государственный университет, Пенза, Россия, e-mail: alansapfir@yandex.ru 2Дербентский научно-исследовательский институт «Волна», Дербент, Россия, e-mail: cemetery.x2@mail.ru

Разработан усовершенствованный алгоритм распознавания речевых сигналов с дополнительными блоками обработки для увеличения количества сравниваемых информативных параметров и уменьшения естественных и спектральных искажений речевых сигналов. На основе верифицированной базы данных проведены экспериментальные исследования алгоритма.

Кпючевые слова: распознавание речи, голосовое управление, обработка речевых сигналов.

The advanced recognition algorithm with additional processing blocks to increase the number of compared informative parameters and reduction of natural and spectral distortion of speech signals is developed. The pilot studies of the algorithm are conducted on the basis of the verified database.

Key words: speech recognition, voice control, speech signals processing.

В управляющих системах широкую популярность получило голосовое управление в качестве интерфейса взаимодействия человек-машина. Системы голосового управления (СГУ) основаны на технологии распознавания речи и относятся к командным [1]. Корректное распознавание — одна из самых интересных и сложных задач голосового управления. В настоящее время представлено большое количество применяемых в СГУ алгоритмов распознавания [2—4], что обусловлено как важностью проблемы, так и отсутствием достаточно эффективных методов ее решения. Большой популярностью пользуются алгоритмы с открытым исходным кодом: «CMU Sphinx» [2], «RWTH ASR» (RAPT) [3], «Julius» [4], отличительной особенностью которых является возможность подключения различных словарей (баз шаблонов) — лингвистических, фонетических, грамматических и языковых.

На рис. 1 светлые блоки в совокупности составляют унифицированную структурную схему, используемую в перечисленных выше алгоритмах (исходный алгоритм — ИА). Штриховыми и сплошными линиями отмечены соответственно режимы обучения алгоритма и распознавания. Как следует из

рис. 1, в алгоритме применена сегментация нестационарных речевых сигналов сложной формы на кратковременные фрагменты (блок 2) с последующим получением информативных параметров (блоки 6—10) и непосредственным распознаванием (блоки 16, 17). В качестве информативных параметров используют мел-частотные кепстральные коэффициенты (МЧКК) [5]. Эффективность алгоритма зависит от объема уникальной информации, содержащейся в МЧКК, и точности распознавания, которая по результатам исследования составила только 77 %. Следовательно, проблема эффективного распознавания речи для СГУ решена не полностью.

Разработка усовершенствованного алгоритма распознавания. Проведенные авторами обзор известных алгоритмов и собственные исследования [6—9] выявили, что для повышения эффективности распознавания необходимо увеличить количество информативных параметров, содержащих информацию об уникальных свойствах речи, и точность распознавания.

При разработке усовершенствованного алгоритма (УА) к

исходному были добавлены дополнительные блоки, выделенные фоном на рис. 1. Блоки 3, 4, 11—13 предназначены для получения дополнительных информативных параметров: логарифма энергии фрагментов исходного сигнала; МЧКК — нормализованных, а также после первого и второго приращений. Блоки 1, 5, 18 необходимы для повышения точности распознавания: уменьшения естественных и спектральных искажений, увеличения точности сравнения. Рассмотрим подробнее их работу.

Блок 1 предварительной коррекции (ПК) применяется для устранения естественных искажений (-6 дБ на о ктаву), во зникающих в речевом аппарате человека при произнесении звуков [10, 11 ]. Исходный речевой сигнал в дискретном виде х(п) пропускают через корректирующий фильтр с передаточной функцией

Н(г) = (1 - z-1)/(1 - az-1),

где а — коэффициент, который выбирают близким к единице (чаще всего а = 127/128), так как такой фильтр проще реализовать; z — оператор Лапласа, z = jю; ю = 2П— угловая частота; ^ — частота речевого сигнала.

Блоки 3, 4 предназначены для определения и логарифмирования энергии (ЛЭ). Характер изменения амплитуды речевого сигнала во времени называется амплитудным распределением и является важным информативным параметром речи [12]. Изменения амплитуды удобно описывать с помощью функции кратковременной энергии сигнала. Кратковременную энергию фрагментов сигнала вычисляют по формуле

N

п=1

(п)]2

где 5 = 1,2,...,Б, п = 1,2,...,Ы — номера фрагмента и дискретного отсчета в ремени во фрагменте; х5—фрагмент речевого сигнала.

Слуховой аппарат человека не фиксирует речь линейно, различия между энергиями информативных и неинформативных участков речевых сигналов должно быть значи-

Рис. 1. Структурная схема усовершенствованного алгоритма распознавания: светлые прямоугольники относятся к исходному алгоритму, фоном выделены дополнительные

блоки

тельным, чтобы человек почувствовал изменение амплитуды. Так, для увеличения амплитуды в 2 раза необходимо, чтобы энергия увеличилась в 8 раз [12]. Логарифмирование энергии фрагментов максимально приблизит рабо-

ту алгоритма к функционалу слухового аппарата человека:

L

1од2 Е = 1од2 (п)]2,

I=1

где I = 1,2,...^ — номер отсчета в одном фрагменте.

Блок 5 — оконное преобразование (ОП) служит для у мень-шения искажения спектра исследуемого сигнала при цифровой обработке речи. Обычно используют ОП с плавно спадающими до нуля краями и сдвиг фрагментов сигнала относительно друг друга с перекрытием на 10—50 % [13]. Традиционно применяют окно Хэмминга — вектор коэффициентов в дискретном виде, определяемый как

ш(с + 1) = 0,54 - 0,46^(2лс/(С - 1)),

где с = 0,1,2,.,С — номер коэффициента окна Хэмминга.

Оконное преобразование фрагмента речевого сигнала осуществляют по формуле

у5(п) = х5(п) ® + 1),

где у5(п) — фрагмент речевого сигнала после оконного преобразования.

Блок 11 нормализации МЧКК (Н) используют для придания равнозначности каждому МЧКК во фрагменте. Как известно, высокие частоты хуже воспринимаются слухом и МЧКК на этих частотах практически не влияют на результат в отличие от низких частот. Нормализация МЧКК — это умножение каждого коэффициента на число, которое увеличивается с номером коэффициента. Таким образом, первые коэффициенты по уровню уменьшаются, а последние — увеличиваются [14]. Для этой операции используют выражение

MFCCнs(k) = MFCCs(k) ® (1 + 0,5Мгвт[лк/Мг]),

где MFCCнs(k), MFCCs(k) — нормализованные и статические МЧКК; к = 1,2,., К — номер МЧКК; К — количество коэффициентов; Мг — постоянная нормализации, Мг = 22 — подбирается эмпирически.

Блоки 12, 13 — первое и второе приращения МЧКК (ПП, ВП). Их находят, чтобы получить некоторую динамическую информацию о статических МЧКК. Вектор коэффициентов описывает фиксированную спектральную огибающую одного фрагмента, но речевые сигналы также несут информацию и в динамике: коэффициенты в течение времени незначительно изменяются [8].

Приращения МЧКК рассчитывают следующим образом:

" D " " D "

MFCC1s (k ) = X d(MFCCs(k+d) - MFCCs(k - d)) 2 X d2

d=1 / d=1

MFCC2s (k ) =

D " j " D "

X d(MFCCd s(k + d) - MFCCd s (k - d)) 2 X d2

d=1 / d=1

где MFCC1s(k), MFCC2s(k) — соответственно первое и второе приращения МЧКК; б — номер приращения; D — количество приращений, обычно D = 2.

Блок 18 — определение евклидова расстояния (ОЕР). Одну голосовую команду можно произнести по-разному, так как различные части слова произносятся с разной скоростью. Чтобы найти расхождения между сигналом и шаблоном, представленными как векторы информативных параметров, должно произойти выравнивание по времени. С этой целью применяют динамическое трансформирование времени, представляющее методику эластичного сравнения фрагментов сигнала и шаблона в регулярных интервалах [5, 14]. Процесс сравнения начинается с расчета локальных отклонений. Для увеличения точности распознавания в предлагаемом алгоритме в качестве дополнительного метода применяют вычисление абсолютного отклонения (евклидово расстояние):

dis = J X(MFCCc(k) - MFCC^k))2, ï k=1

где dis — геометрическое расстояние между МЧКК фрагментов s сигнала и шаблона; MFCC^k), MFCCm(k) — МЧКК соответственно сигнала и шаблона.

Результат сравнения — вектор, для которого было найдено минимальное расхождение между сигналом и шаблоном. Далее вычисляют минимальную глобальную оценку расхождения (МГОР) для маршрута — сумму локальных расстояний между фрагментами сигнала и шаблона:

G = min[G(b - 1, p - 1),G(b - 1, p),G(b, p - 1 )] + g(b, p),

где G(b, p), g(b, p) — глобальная и локальная оценки для точки (b, p).

Экспериментальное исследование усовершенствованного алгоритма распознавания проводили с использованием разработанной базы данных речевых сигналов [15]. В качестве критериев оценки эффективности выбраны точность и разница между МГОР для истинного и максимально близкого к истинному распознаваниями.

Исходными данными для исследования служили речевые сигналы — обучающая и тестовая непересекающиеся выборки звуков русского языка длительностью не более 10 мс, частота дискретизации 8000 Гц, разрядность квантования 16 бит. Обучающая выборка сформирована из 1000 чистых (соотношение сигнал—шум 50 дБ) речевых сигналов (20 разных звуков), произнесенн

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком