научная статья по теме АЛГОРИТМ СЛЕЖЕНИЯ ЗА ЛЮДЬМИ ДЛЯ ПОСТРОЕНИЯ ИНТЕЛЛЕКТУАЛЬНОГО ИНТЕРФЕЙСА ЧЕЛОВЕК-КОМПЬЮТЕР НА ОСНОВЕ ФИЛЬТРА ЧАСТИЦ Математика

Текст научной статьи на тему «АЛГОРИТМ СЛЕЖЕНИЯ ЗА ЛЮДЬМИ ДЛЯ ПОСТРОЕНИЯ ИНТЕЛЛЕКТУАЛЬНОГО ИНТЕРФЕЙСА ЧЕЛОВЕК-КОМПЬЮТЕР НА ОСНОВЕ ФИЛЬТРА ЧАСТИЦ»

КОМПЬЮТЕРНАЯ ГРАФИКА

УДК 681.3.06

АЛГОРИТМ СЛЕЖЕНИЯ ЗА ЛЮДЬМИ ДЛЯ ПОСТРОЕНИЯ

ИНТЕЛЛЕКТУАЛЬНОГО ИНТЕРФЕЙСА ЧЕЛОВЕК-КОМПЬЮТЕР НА ОСНОВЕ ФИЛЬТРА ЧАСТИЦ

© 2011 г. В.С. Конушин1'2, В.А. Кононов2, А.С. Конушин2 (1) Институт прикладной математики имени М.В. Келдыша РАН 125047 Москва, Миусская пл., 4 (2)Лаборатория компьютерной графики и мультимедиа МГУ имени М.В. Ломоносова 119991 Москва, ГСП-1, Ленинские горы, МГУ, д. 1, стр. 52 E-mail: {vadim, vkononov, kiosh@graphics.cs.msu.ru} Поступила в редакцию 05.03.2011 г.

В данной статье предлагается новый алгоритм слежения за людьми для специального сценария видеонаблюдения. В этом сценарии видеокамера закреплена на стене или на стенде рядом с информационным или рекламным экраном и наблюдает за людьми, подходящими к экрану. Предложенный алгоритм слежения основан на методе фильтра частиц. Благодаря явному моделированию видимости объекта, алгоритм способен обрабатывать сложные случаи перекрытия между людьми, а также корректно определять момент выхода человека из сцены. Для обнаружения и слежения за объектами алгоритм использует как результат вычитания фона, так и выход детектора лиц. Результаты работы алгоритма демонстрируются на собственных видеороликах.

1. ВВЕДЕНИЕ

В последнее время активно развиваются интеллектуальные системы взаимодействия человека и компьютера, основанные на видеонаблюдении. Такие системы имеют множество потенциальных приложений, например, более удобный интерфейс управления компьютером, в частности возможное управление компьютером больными людьми. Другим возможным применением является интерактивная реклама, интерактивные информационные стенды. Такие системы смогут реагировать по-разному, в зависимости от количества и положения присутствующих людей, их пола, возраста, расы.

Необходимой составной частью описанных систем являются алгоритмы обнаружения и отслеживания людей. Эти алгоритмы как предоставляют важную информацию сами по себе (о том, сколько в данный момент людей присутствуют в сцене), так и позволяют дальнейшим алгоритмам классификации и

распознавания работать уже с отдельными людьми.

Алгоритмы слежения за людьми являются одной из самых проработанных областей компьютерного зрения (в частности из-за своих обширных практических приложений). Однако в большинстве случаев они предназначаются для работы в стандартных системах видеонаблюдения (см. Рис. 1а), в первую очередь для систем безопасности. Отдельный класс алгоритмов предназначается для работы со спортивными мероприятиями, например, для отслеживания футболистов во время матча (см. Рис. 1б). При этом камера обычно размещается высоко над землей и удалена от наблюдаемой сцены.

В данной работе мы рассматриваем другой сценарий видеонаблюдения (см. Рис. 1в, г). Камера закреплена на стене (или стенде) рядом с монитором на высоте 1-2 метра от пола или земли и наблюдает за людьми, подходящими к монитору. Данный сценарий возникает в таких

системах, как интерактивные информационные и рекламные стенды.

Рассматриваемый сценарий существенно отличается от принятого в системах безопасности или при трансляции спортивных соревнований. Во-первых, нижняя часть тела человека и области земли не видна на изображении. Поэтому, в частности, затруднено определение траектории движения человека относительно камеры. Во-вторых, один человек часто может полностью скрыть другого из вида, что редко происходит при высоком расположении камеры. В-третьих, из-за близости людей к камере размер занимаемой ими области кадра существенно больше, чем в кадре с камеры безопасности. Предложенный алгоритм учитывает все описанные особенности, благодаря чему позво-

ляет устойчиво отслеживать людей в рамках данного сценария.

2. СУЩЕСТВУЮЩИЕ ПОДХОДЫ

Как уже было сказано, слежение за объектами является одной из самых исследованных областей компьютерного зрения, по которой имеется множество публикаций. Подробный обзор и классификацию методов можно прочитать в частности в [1].

В этой секции мы рассмотрим лишь те методы слежения за людьми, которые либо работают со схожим е рассматриваемым сценарием видеосъемки, либо предлагают методы, задействованные в предлагаемом алгоритме.

В работе [2] авторы как раз рассматривают случай фиксированной камеры на стене.

Человек моделируется смесью из 5-мерных гауссиан, где 3 измерения отвечают за цвет, а 2 за положение на изображении. Причисление каждого пикселя к сегменту того или иного человека осуществляется по методу максимального правдоподобия. Определение нового человека в сцене происходит с помощью анализа вертикальной проекции маски переднего плана и вписывания в нее одномерных гауссиан. Если пиков получается больше, чем людей, значит, в сцене появился новый человек. Все результаты были продемонстрированы на нескольких достаточно простых собственных видеороликах. Возможно, основным недостатком предложенного алгоритма является эвристическое определение числа людей. При ошибках в выделении маски переднего плана (когда фон по цвету близок к человеку) или при вытягивании руки данный алгоритм будет выдавать неверное количество людей, причем это в дальнейшем будет приводить к деградации работы алгоритма. Также нет обработки выхода человека из сцены, а все очевидные варианты такой обработки будут путать ситуацию перекрытия одним человеком другого и выхода человека из сцены. Дополнительно можно отметить отсутствие явной модели движения человека, из-за чего разные части человека могут двигаться разнонаправленно.

Другим подходом для рассматриваемого сценария, используемым в ряде коммерческих систем (например, в [3]), является отслеживание лишь лиц людей. Лица ищутся на каждом кадре независимо, обычно с помощью алгоритма Viola-Jones [4]. Затем они сопоставляются с помощью, например, Венгерского алгоритма [5]. В таком подходе из недостатков можно выделить сильную зависимость от качества работы алгоритма нахождения лиц на изображении. Обычно такие алгоритмы относительно надежно позволяют находить лишь фронтальные лица, а значит, как только человек повернется, соответствующий трек обрывается. Сопоставление же разных треков уже потребует распознавания лиц, которое тоже может выдавать ошибки. Также у такого подхода возникают проблемы при изменении числа обнаруженных лиц между кадрами.

Дополнительно можно отметить, что этот алгоритм не выдает масок (даже грубых) людей на кадрах, а значит вся дальнейшая обработка (классификация людей) должна будет происходить только на основе лиц, без использования контекста.

Еще в одной работе [6] используется сценарий одной статичной камеры, висящей под потолком или на стене в помещении. Для отслеживания людей используется метод на основе фильтра частиц (particle filter). Человек моделируется с помощью обобщенного эллипсоида, параметризованного высотами и радиусами 4 горизонтальных дисков. Его положение описывается двумя пространственными координатами на полу. Для сопоставления двумерных координат изображения и трехмерных мировых координат сцена заранее калибруется. Фильтр частиц одновременно моделирует количество людей в сцене, а также их положение и форму. В качестве модели наблюдения используется цветовое распределение фона в каждом пикселе, а также глобальная модель распределения цвета объектов. Т.о. данный алгоритм может различать людей только на основании их движения, что на практике зачастую недостаточно (что и признали авторы статьи). Также, если оценивать данный алгоритм в рамках поставленного сценария видеосъемки, стоит отметить требование к видимости пола в сцене и неприспособленность к работе в случаях, когда человек подходит очень близко к камере, и его ноги видны не полностью.

Используемый в вышеописанной статье подход на основе метода фильтра частиц широко используется в последних статьях [7, 8, 9, 10]. Т.к. эти статьи используют более стандартные сценарии видеонаблюдения, то человек обычно в них моделируется ограничивающим прямоугольником, с 4 параметрами (положение центра, ширина, высота). В качестве модели движения используется обычный гауссиан с математическим ожиданием либо в нуле, либо в текущей оценке скорости человека (на основании предыдущих кадров). Для модели наблюдения используются цветовые и текстурные гистограммы человека и их сравнение либо с помощью метрики

Бхаттачарья (ВЬайасЬагууа) [8, 10], либо с помощью отдельных классификаторов, натренированных для каждого человека независимо с использованием алгоритмов машинного обучения на лету [7]. Применение таких классификаторов позволяет учитывать разные типы признаков без ручной настройки большого числа параметров и констант. Также такие классификаторы лучше адаптируются к изменениям внешнего вида объекта (например, из-за изменения освещения или поворота человека), чем простые обновления цветовых и текстурных гистограмм. Небольшой минус такого подхода - требуется дополнительное время на обучение классификатора.

Важно отметить, что большинство подходов, основанных на фильтре частиц, не моделируют перекрытия объектов в явном виде. Когда происходит перекрытие, вероятность нахождения человека в данном месте оценивается алгоритмом как очень низкая. Продолжение отслеживания при этом возможно только в том случае, если в момент перекрытия рядом отсутствовали другие люди, и частицы не могли переключиться на них. Если же рядом будет проходить еще один человек, то алгоритм сопоставит перекрытого человека тому, кто просто больше на него похож. В случае обычных сценариев видеонаблюдения это приводит к ошибкам не так часто, т.к. зачастую людей можно различить по явно выраженным траекториям движения, а также их размеру. В рассматриваемом же сценарии, ярко выраженной траектории движения человека нет, плюс его размер может сильно меняться, если человек подойдет или отойдет от камеры, поэтому отсутствие моделируемого состояния видимости человека приведет к большому числу ошибок.

В статьях [8, 10] было предложено использовать смесь фильтров частиц для моделирования многомодального распределения. Авторы демонстрировали свои алгоритмы на задаче слежения за футболистами и хоккеистами. При этом не указываетс

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком