научная статья по теме ПОСТРОЕНИЕ И ОПТИМИЗАЦИЯ ТЕКСТУРНО-ГЕОМЕТРИЧЕСКОЙ МОДЕЛИ ИЗОБРАЖЕНИЯ ЛИЦА В ПРОСТРАНСТВЕ БАЗИСНЫХ ФУНКЦИЙ ГАБОРА Кибернетика

Текст научной статьи на тему «ПОСТРОЕНИЕ И ОПТИМИЗАЦИЯ ТЕКСТУРНО-ГЕОМЕТРИЧЕСКОЙ МОДЕЛИ ИЗОБРАЖЕНИЯ ЛИЦА В ПРОСТРАНСТВЕ БАЗИСНЫХ ФУНКЦИЙ ГАБОРА»

ИЗВЕСТИЯ РАИ. ТЕОРИЯ И СИСТЕМЫ УПРАВЛЕНИЯ, 2007, № 3, с. 85-96

РАСПОЗНАВАНИЕ ОБРАЗОВ И ОБРАБОТКА ИЗОБРАЖЕНИЙ

УДК 62-50;681.513

ПОСТРОЕНИЕ И ОПТИМИЗАЦИЯ ТЕКСТУРНО-ГЕОМЕТРИЧЕСКОЙ МОДЕЛИ ИЗОБРАЖЕНИЯ ЛИЦА В ПРОСТРАНСТВЕ БАЗИСНЫХ

ФУНКЦИЙ ГАБОРА*

© 2007 г. А. Н. Гнеушев

Москва, ВЦ РАН Поступила в редакцию 12.10.06 г.

Рассматривается подход развития построения текстурно- геометрической модели объекта с помощью среднеквадратичной аппроксимации области изображения линейной комбинацией базисных функций Габора (Gabor Wavelet Network). Усовершенствован метод построения модели на основе оптимизационного получения базиса функций Габора для множества изображений объектов заданного класса. Представлено развитие метода оценивания параметров объекта, заключающееся в оптимизации параметров деформируемой модели в нормированной метрике и собственной системе координат методом доверительных областей. Рассматривается задача слежения за лицом по видеоизображению в режиме реального времени, локализации его элементов на основе иерархического представления областей изображении текстурно-геометрическими моделями.

Введение. Ключевой проблемой в области анализа реальных сцен является обработка видеоизображения с целью выделения объекта и определения его характеристик. Трудности, возникающие при решении подобной проблемы, связаны, прежде всего, с многофакторностью реальных сцен, отсутствием единого подхода к решению, а также ограничениями на вычислительные ресурсы для работы в режиме реального времени.

Формализация частной задачи анализа изображения сводится к построению модели рассматриваемого класса объектов при заданных условиях наблюдения. Специфика объектов определяет методы обработки изображения для выделения оптимально характеризующих их признаков. Так, например, большой класс геометрически правильных объектов (автомобили, строения) может быть представлен совокупностью относительно однородных областей, которые характеризуются выраженной контрастностью своих границ. Причем использование информации об интенсивности точек на границах дает возможность оценить распределение яркости внутренних точек области [1, 2]. С другой стороны, для класса естественных объектов (таких, как лица людей, природные объекты), имеющих сложную и неоднородную структуру (текстуру) областей, описание с помощью множества границ и контуров элементов, малых относительно всего объекта, неэффективно. Такие объекты целесообразно описывать на основе аппроксимации целых областей некоторым семейством функций [2, 3], выбранных таким образом, чтобы наиболее эф-

* Работа выполнена при финансовой поддержке РФФИ (проект < 05-07-900-96).

фективно представлять структуру (текстуру) изображения. Эффективность в данном случае понимается как использование наименьшего количества необходимых функций для представления изображения с наилучшим качеством. Критерий качества, как правило, выбирается на основе меры близости к исходному изображению объекта и служит характеристикой степени точности (грубости) построенной модели.

В статье рассматривается задача построения текстурно-геометрической модели изображения объекта со сложной структурой, такой, как лицо человека, для систем выделения элементов лица и слежения в реальном масштабе времени. Этой задаче уделяется большое внимание в связи с возросшим интересом к проблеме распознавания человека по видеоизображению. В большинстве случаев для исследований используются изображения, на которых лица находятся в определенном положении при заданном масштабе и ракурсе. Для применения систем распознавания в реальных условиях необходимо решение задач автоматического обнаружения лица, отдельных его элементов (глаз, носа, губ), определение их границ, масштаба, ракурса, что позволяет выделить области характерных черт лица для распознавания.

Многими авторами предложены разнообразные методы описания таких текстурных объектов, как лицо на основе использования модельных шаблонов. Условно данные методы можно разделить на интегральные и локальные (иерархические). При интегральном подходе рассматриваются характеристики изображения всего объекта, при локальном подходе изображение разбивается на подобласти, которые в совокупности характеризуют объект. Ло-

кальные признаки достаточно точны и инвариантны к нелинейным изменениям геометрии объекта, однако чаще всего характеризуют неуникальные элементы. Интегральные признаки устойчивы к шумам, но относительно неточны как из-за возможного нелинейного изменения внутренней геометрии изображения объекта, так и вследствие того, что интегральная модель признаков должна быть обобщающей, представлять объекты некоторого класса.

Разработаны системы, реализующие оба эти подхода. В [4] строится интегральная модель изображения лица с помощью объединения локальных текстурных признаков в пространственный "эластичный граф". В [5] интегральная модель основана на иерархически организованном представлении областей изображения в виде набора аффинно-де-формируемых интегральных текстурных шаблонов. В настоящее время также широко разрабатывается подход, базирующийся на нелинейно деформируемом интегральном шаблоне [6, 7].

Используемые текстурные модели, или шаблоны, как правило, содержат отклики сверток эталонного изображения объекта с некоторым семейством базисных функций, которые наиболее эффективно характеризуют целевую область изображения. Широкое практическое развитие получили подходы построения текстурных моделей на основе метода главных компонент (разложение Кару-нена-Лоэва) [6, 8, 9] и разложения по различным семействам вейвлет-функций, в частности по семейству функций Габора [4, 5, 7, 10]. Применение функции Габора имеет ряд преимуществ. Она оптимально локализована как в пространственной, так и в частотной области [11] и вследствие этого обладает хорошей частотно-пространственной селективностью. По сути, скалярное произведение с функцией Габора может рассматриваться как преобразование Фурье в гауссовском окне и служит хорошим инструментом для анализа локально-стационарных случайных процессов, которые можно интерпретировать в качестве модели изображения. Хотя, в общем случае, функции Габора не являются вейвлета-ми [11], однако можно выделить такой подкласс функций этого семейства, который удовлетворяет условию "допустимости вейвлетов" теоремы о восстановлении функции по интегральному вейвлет-преобразованию [11, 12]. Вследствие того, что базисные вейвлет-функции Габора локальны и имеют нулевое среднее, при свертке в пределах носителя (который на практике ограничивают путем отсечения малых значений) каждой базисной функции не учитываются постоянные составляющие изображения. Данные составляющие можно рассматривать как кусочную аппроксимацию неравномерной освещенности изображения, к которой образ в таком базисе устойчив. Более того, использование функции Габора биологически оправдано, так как некоторое их семейство описывает отклик рецептивного поля

человеческой зрительной клетки [12, 13]. В [14] показано, что фильтр на основе функций этого семейства является также хорошим инструментом для выделения текстурных признаков изображения.

Фиксированный набор фильтров Габора привлекается в работе [4] для представления локальных участков изображения. Отклики фильтров представляют собой текстурные признаки объекта, ориентация фильтров и их положение характеризуют геометрические свойства. В последнее время развивается подход построения функционального базиса с помощью оптимизационных методов для аппроксимации целых областей изображения, что позволяет уменьшить количество базисных функций по сравнению с применением фиксированных фильтров [10]. Базис функций Габора определяет текстурно-геометрическую модель изображения и обладает аффинными свойствами, которые могут быть использованы для описания деформации объектов.

В работе, опираясь на результаты исследований [5, 10, 15], рассматривается построение текстурно-геометрической модели объекта с помощью среднеквадратичной аппроксимации участков изображения линейной комбинацией базисных вейвлет-функций Габора (Gabor Wavelet Network-GWN). В иерархическом представлении объект в целом и каждый его элемент определяется своей GWN-мо-делью. Процесс локализации целевого объекта состоит в минимизации среднеквадратичного отклонения (СКО) образа деформированной модели от анализируемого изображения по параметрам аффинного преобразования. Основные отличия данной работы от [5] состоят в следующем. Так как GWN-базис зависит от изображения конкретного объекта [10], используется общий GWN-базис, единый для всех изображений объектов заданного класса и представляющий каждое такое изображение как совокупность весов разложения (образ). Оптимизация GWN-модели производится в ее собственной геометрической системе координат меньшего масштаба, чем исходное изображение, с привлечением нормированной метрики методом доверительных областей (Trust region [16-18]), что значительно увеличивает скорость оптимизации и устойчивость к неравномерной освещенности изображения. Кроме того, в работе для иерархического описания применяются шаблоны элементов лица в целом, а не локальных областей. Такое представление предотвращает нахождение ложных элементов и при этом, как показали эксперименты, является хорошей их аппроксимацией при слабом нелинейном изменении формы.

1. Текстурно-геометрическая модель. В работе, как и в [10], используется семейство нечетных функций Габора для построения модели изображения. Таким образом, в качестве базисной функции

Рис. 1. Вид нечетной функции Габора.

будем рассматривать модулированную гауссианом синусоиду в виде

¥ n (x, У) =

//i -п \ 3

к 1-e )п

■ х

х exp

ч 2

(Sx) , 2 . , г\2 2 ,

---(Xrl + (Y ) Уп)

2 п

xri = (x - 40)cos0г + (y - 70) sin0г, Уп = -(x - 40) sin0г + (y - 70) cos 0г

с параметрами пг: п, = (40, 70, S'x, у', 00 и ограничениями:

Wn = {п: 0.1 < Sx < 1, 0.5 < у < 2}.

Л x y) = X w¥nt (x У) + f,

(1.3)

sin (S'xxn), (1.1)

(1.2)

Коэффициент нормализации в (1.1) определяется из условия (уп,, уп, > = 1 с точностью до масштабирующих параметров S1x и у', где (.,.> - операция

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком