ОБНАРУЖЕНИЕ ДВИЖЕНИЯ ОБЪЕКТОВ КОМПЬЮТЕРНЫМИ ИНФОРМАЦИОННЫМИ ВИДЕОСИСТЕМАМИ С ПОМОЩЬЮ ДВУХМЕРНЫХ И СТЕРЕОСКОПИЧЕСКИХ ХАРАКТЕРИСТИК ИЗОБРАЖЕНИЯ

ХАМУХИН А.В.

Хамухин А.В., кандидат технических наук ЗАО Научно-технического центра «Электронные вычислительные и информационные системы»

ОБНАРУЖЕНИЕ ДВИЖЕНИЯ ОБЪЕКТОВ КОМПЬЮТЕРНЫМИ ИНФОРМАЦИОННЫМИ ВИДЕОСИСТЕМАМИ С ПОМОЩЬЮ ДВУХМЕРНЫХ И СТЕРЕОСКОПИЧЕСКИХ

ХАРАКТЕРИСТИК ИЗОБРАЖЕНИЯ

Проблема слежения за движущимися объектами с помощью видеокамер изучается уже давно. Как правило, слежение за объектами в системах реального времени построено на одном из методов поиска положения объекта на текущем кадре на основе известного положения этого объекта на предыдущем кадре. Среди наиболее используемых можно отметить следующие методы поиска:

1) по наибольшему совпадению изображений текущего и предыдущего кадра по норме ¿2 [4], в частности, поиск нового положения по методу «mean shift» [5];

2) выделение контуров с последующим применением метода активных контуров [6];

3) фиксация изменяющихся положений особых точек изображения [2];

4) сравнение похожих сегментированных областей [3], в том числе, полученных с помощью вычитания фона.

Для каждого из приведённых выше методов существует много модификаций, связанных с оптимизацией вычислительной сложности или применением различных алгоритмов, например, алгоритма вычисления оптического потока по методу Лукаса-Канаде. Более того, существуют разработки, объединяющие несколько методов поиска и слежения, позволяющие получить более точное сопровождение объектов. Среди подобных работ наиболее интересна, на наш взгляд, статья [1], в которой предложено на основе обучения на большой выборке видеоданных выбирать метод вычисления следующего положения объекта, исходя из априорной оценки точности, полученной в процессе обучения для того или иного метода.

При переходе от анализа изображений от одной камеры (в формате RGB) к анализу изображений со стереокамер с восстановленной глубиной (в формате RGBD), можно сопоставлять положение объектов на текущем и предыдущем кадрах видеопотока за счёт признаков, вычисляемых в пространстве глубины.

Цель данной статьи - показать, каковы преимущества использования стереосистем в решении задач отслеживания движущихся объектов на изображении. Для этого будут представлены три различных алгоритма слежения за движущимися объектами: алгоритм слежения с помощью изображений только от одной видеокамеры, алгоритм слежения с использованием стереокамер, и алгоритм, который использует смешанный подход, состоящий из первых двух алгоритмов. Результаты, полученные с помощью упомянутых алгоритмов при обработке фиксированной видеопоследовательности, будут проанализированы, вероятностные характеристики их работы будут оценены с помощью специальных методик, которые введены автором данной статьи в работе [7].

Перед описанием алгоритмов условимся считать, что для видеокамер, на которых мы отслеживаем движущиеся объекты, проведена процедура калибровки, описанная в работе [8], т.е. в каждой точке изображения (х, у) нам известен характерный размер объекта Н(х,у). Данная функция является входом всех нижеперечисленных алгоритмов.

Систему координат на изображении кадра мы введём таким образом, чтобы единицы координат соответствовали пикселам изображения, координата (0,0) соответствует левому верхнему углу, ось у направлена вниз, ось х - вправо.

Пусть [Fi(x,y)} - последовательность изображений, а значениями функций Fj являются интенсивности изображения в точках (х,у). Данная последовательность, как и функция

Н(х,у), относится к входным данным для алгоритма отслеживания движения. К выходным данным алгоритма относится множество объектов А = {Ат}, где для каждого объекта Ат определено его множество положений {Р/^} на /-ом кадре видеопоследовательности, индекс а показывает, что положение объекта определено автоматически. Само положение объекта определяется координатами минимального по площади прямоугольника со сторонами, параллельными координатным осям. Примером алгоритма обработки видеопоследовательности изображений, достаточно достоверно выделяющего движущиеся объекты в поле зрения одной камеры, при этом обладая невысокой вычислительной сложностью, является следующая последовательность шагов.

1. Осуществим подбор проективного преобразования координат (х',у') = Л(х,у) =

(лх(х,у),лу(х, у}), такого, что на кадрах Р^(х,у) = ^ ^Лх(х,у),Лу(х,у)^ характерный размер изображения объектов в каждой точке примерно равен фиксированному значению Пъ = 16. Преобразование Л(х,у) представляет собой две дробно-линейные функции

Ах + Ву + С

х' = пг(х,у) = —---Г,

хК Сх + Еу + 1

Их + Еу + Е У' = кУ(х'у) = Сх + Ру + 1' где коэффициенты А, В, С, Б, Е, Е, С, Н необходимо подобрать таким образом, чтобы в любой точке кадра выполнялось условие

ку{х,у - Я(х,у)) - Лу(х,у) « пн.

При этом коэффициенты проективного преобразования могут быть заданы заранее с помощью графической утилиты подбора преобразования кадра, либо их можно вычислить, решив следующую задачу

(х,у)

например, методом градиентного спуска. Начальное приближение можно получить с помощью решения несколько упрощённой задачи

™п У (Л>(х,у - Н(х,у)) - М*,У) - п„)2 • (С* + Ру + 1)»,

(х,У)

например, методом наименьших квадратов, поскольку в данном случае целевая функция состоит из слагаемых, являющимися квадратами линейных функций относительно пространства, в котором ведётся поиск оптимальных значений.

2. Введём множество объектов , отслеживаемых на кадре /. Элементами множеств будем считать точки ^ характеризующие положение объектов. Индекс начального кадра видеопоследовательности мы будем считать единичным, и положим Т0 = 7\ = 0. Множество результирующих объектов в начале работы алгоритма положим Л = 0.

3. Следующие шаги алгоритма повторяются по порядку для каждого кадра последовательности {^(х, у)}.

4. Кадр Fi(x, Е) преобразуется в кадр F1P(x, Е) с помощью преобразования, полученного на шаге 0.

5. Кадр F1P(x, Е) подвергается операции Гауссова размытия путём свёртки с функцией

g(x, Е) = • е га2 , где ст = В результате получается кадр F1Pg(x, Е) = g(x, Е) * F1P(x, Е).

6. Для кадра FjЭ8(x, Е) производится поиск точек локальных нестрогих экстремумов, положение которых запоминается с помощью характеристических функций-таблиц Хтт(х, Е) и Хтах

(х, Е):

Хтт(х,И) = <

Хтах(х, 0) = <

1, если

Ух'е [х-П^х + П^И'е [ш-П^И + Пг]:

Р^х', И') > Р^х, И), 0 в противном случае, 1, если

рР8(х', И') < Р^х, И), 0 в противном случае.

7. С помощью алгоритма волновой раскраски выделяются множества соседних точек, помеченные 1 в области значений функций Хтт(х, И) и Хтах(х, И). Множества центров масс выделенных областей обозначим как

8. Из множества точек выделяются точки ^ с наиболее различимой текстурой. Это производится с помощью критерия, введённого в работе [9]: в каждой точке оцениваются

функции Р^х, И), из них составляется матрица ^рР) • УрР размером 2x2. Для устранения шума в градиентах данная матрица в каждой точке (х, И) усредняется по окрестности

[x-!гx+тMи-f;и+т^

а затем для усреднённой матрицы рассчитывается минимальное собственное значение. Если это собственное значение больше некоторой величины, значит найденный центр масс точек нестрогого экстремума на изображении рР(х, И) является достаточно существенным, и поэтому легко идентифицируемым на предыдущих и последующих кадрах. Именно эти точки из множества отбираются во множество ^.

9. Из элементов множества Т^ = и элементов множества ^ = {сг} строится соответствующий двудольный граф, каждому ребру сг) сопоставляется вес Wo = а|^° -сг|| + ре(^,сг), где а и в - положительные весовые коэффициенты, - сг|| - расстояние между соответствующими точками, сг) - разность изображений по норме L2 в окрестности точки (^Ду) на предыдущем кадре и в окрестности точки (с£,су) на текущем кадре Р[\ С помощью метода, описанного в работе [10], решается задача об оптимальном паросочетании

Их У(с-™5),

.о)} ¿—I

тИх {(г,о)}

(г,0)

где С - константа, превышающая все веса , а Е = {(г, И)} - множество пар индексов, однозначно определяющих рёбра построенного двудольного графа, входящие в оптимальные па-росочетания, это подразумевает что каждый индекс вершин г и И может входить в найденное множество Е только один раз. Используя найденное множество Е, строится множество новых положений объектов на Т текущем кадре: если (г, И) £ Е, то включаем во множество Т элемент ^ из множества Т^, при этом его положение обновляем новым положением сг. Если существуют элементы которые не входят в рёбра, задаваемые множеством Е, то в множество Т включаются новые объекты, соответствующие положению областей ^ без пары. Все объекты t £ Т_ь которые не обладают парой среди переносятся в Т;, при условии, что Зп < п^ (на кадре Т^^ у объекта t была пара в ).

Значение п является постоянным параметром, определяющим время сохранения в памяти информации об объекте, измеряемое в количестве кадров видеопоследовательности.

10. Обновляются выходные данные А = {Ат}. Информация о вновь появившихся объектах t множества Т переносится в качестве элементов Ат при условии, что

Зп0Уп < пь \ (на кадре Т1_П0_П_Х у объекта t была пара в где пь - постоянный параметр, определяющий длину отрезка последовательности изображений, на каждом кадре которого рассматриваемый объект должен сопоставляться с какой-либо точкой экстремума, чтобы попасть в конечный результат работы алгоритма. Положения объектов отмечаются прямоугольными рамками, получить которые можно с помощью построенного преобразования Л(х, у): для каждого объекта Ат на кадре / известно его текущее положение tm = (t^?г, t]?г). Окрестность положения объекта в координатах кадра Fjэ(x, Е)

можно определить как Р/^= ^ — -у-; + X — "ГТ; ^у2 + ~тт]. Прообраз данного множества при преобразовании Л(х,у) является оценочным положением объекта на исходном кадре Е), т.е. Р/^ = определяет четырёхугольник, приближающий положение

объекта. В качестве конечного результата, используя координаты вершин Р/^, строится Р/^ -минимальный по площади прямоугольник со сторонами, параллельными осям координат исходного кадра.

Таким образом, получается результат А = {Ат}. В системах видеонаблюдения поток обрабатывается непрерывно, поэтому

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.