научная статья по теме СОСТОЯНИЕ И РАЗВИТИЕ АЛГОРИТМИЧЕСКОЙ БАЗЫ АНАЛИЗА ИЗОБРАЖЕНИЙ КОМПЬЮТЕРНЫМИ ВИДЕОСИСТЕМАМИ Общие и комплексные проблемы естественных и точных наук

Текст научной статьи на тему «СОСТОЯНИЕ И РАЗВИТИЕ АЛГОРИТМИЧЕСКОЙ БАЗЫ АНАЛИЗА ИЗОБРАЖЕНИЙ КОМПЬЮТЕРНЫМИ ВИДЕОСИСТЕМАМИ»

Петричкович Я.Я., доктор технических наук, ген. директор ОАО НПЦ «ЭЛВИС»

СОСТОЯНИЕ И РАЗВИТИЕ АЛГОРИТМИЧЕСКОЙ БАЗЫ АНАЛИЗА ИЗОБРАЖЕНИЙ КОМПЬЮТЕРНЫМИ ВИДЕОСИСТЕМАМИ

Множество алгоритмов видеоаналитики использует обнаружение движения. Качество работы алгоритмов зачастую зависит от условий наблюдения. В статье рассматривается связь между качеством алгоритмов, разметкой тестовых баз данных и выбранными метриками качества. Ключевые слова: алгоритмы, компьютерное зрение, обнаружение движения.

THE STATE AND DEVELOPMENT OF THE ALGORITHMIC FRAMEWORK OF IMAGE ANALYSIS COMPUTER VIDEO SYSTEMS

The motion detection is a fundamental pre-processing step in computer vision and video processing. Many algorithms perform well in some types of video but not in others. We show the relationship between the algorithm quality, ground truth dataset and performance metrics.

Keywords: algorithms, computer vision, motion detection.

Задача компьютерного зрения - выделить полезную информацию из изображений. Несмотря на то, что алгоритмами обработки и распознавания изображений занимаются уже более 40 лет, мы все ещё далеки от построения всевидящей машины. Главной преградой на пути построения универсальной системы оказывается высокая сложность визуальных данных. В привычных сценах находятся сотни разных предметов, снятых с разных ракурсов и расположенных на сложном фоне. Мы желаем, чтобы алгоритм умел легко отделять одни объекты от других, при этом распознавая их. Конечно, указанные сложности не означают, что компьютерное зрение совсем бесполезно. Алгоритмы анализа изображений являются важным компонентом большого числа систем видеонаблюдения. Видеоаналитика применяется в современных компьютерных видеосистемах для обнаружения, распознавания и слежения за объектами.

С одной стороны, видеопоток данных выдаёт гораздо больше визуальной информации по сравнению с единственным изображением, а это усложняет задачу извлечения полезной информации. Но с другой стороны, тот факт, что соседние кадры тесно связаны и выглядят похоже, может помочь при построении алгоритмов машинного зрения. Обнаружение изменений в поле зрения камеры, в частности обнаружение движения, - это ключевой алгоритм для предварительной обработки видео в задачах компьютерного зрения.

На сегодняшний день разработано множество алгоритмов обнаружения движения, которые хорошо работают в некоторых условиях, но показывают слабые результаты в других. К сожалению, пока нет единого универсального алгоритма, чтобы иметь возможность одновременно решить все основные проблемы, которые сопровождают реальные (не синтетические) видео. Это связано, в частности, с отсутствием единой реалистичной крупномасштабной базы данных размеченных видеороликов, которая обеспечивала бы сбалансированное освещения тех проблем, которые присутствуют в реальном мире. Наличие большого числа тестовых данных позволит сравнивать различные алгоритмы компьютерного зрения между собой, выявляя наиболее универсальные.

Сейчас существуют различные тестовые базы данных для различных задач компьютерного зрения. Например, база LabelMe Массачусетского технологического института с набором из 150 тысяч изображений и размеченными на них объектами, база данных этого же института для тестирования распознавания лиц (2 429 изображений с лицами, 4 548 - без лиц).

Для тестирования алгоритмов восстановление глубины широко используется база данных Middlebury Stereo Datasets, размеченная с использованием структурного света [1]. Есть несколько баз данных для тестирования алгоритмов видеонаблюдения. Например, база Wallflower [2] от исследователей из Microsoft. Все такие базы данных содержат небольшое число видеороликов, охватывающих лишь незначительную часть проблем.

Существенное продвижение в вопросе хорошей тестовой базы данных сделали PierreMarc Jodoin (Universite de Sherbrooke), Fatih Porikli (Mitsubishi Electric Research Laboratories), Janusz Konrad (Boston University), Prakash Ishwar (Boston University). Весной 2012 года они предложили новый набор тестовых роликов для проведения тематического семинара по обнаружению изменений (Change Detection Workshop). Этот семинар прошёл на на 25-ой конференции по компьютерному зрению и распознаванию образов в США (Conference on Computer Vision and Pattern Recognition 2012) и собрал несколько десятков ведущих учёных в области компьютерного зрения. Авторы преследовали следующие цели: создать он-лайн-платформу, позволяющую сравнивать современные алгоритмы обнаружения движения, дать возможность сравнивать методы на различных типах видеороликов, использование реалистичных видеоизображений, создание точной разметки для видеороликов, проверка все большего и большего числа алгоритмов на расширяющей базе данных. Организаторы семинара планируют регулярно пересматривать и расширять базу данных, поддерживая обратную связь с научными учреждениями и промышленностью. Также планируется на долгие годы поддерживать всеобъемлющий рейтинг различных методов.

Новый набор видео в настоящее время состоит из 31 реальных видеоизображений (включая съёмки тепловой камеры) суммарной продолжительностью более 80000 кадров и охватывает 6 категорий, подобранных так, чтобы рассмотреть разнообразные условия и связанные с ними проблемы обнаружения движения. Съёмки велись как в помещениях, так и на открытых пространствах. База данных включает в себя тщательно размеченные человеком все области движения. Это позволяет делать точное количественное сравнение и ранжирование различных алгоритмов.

Ручная разметка представляет собой набор меток, заданных для каждого пиксела каждого кадра всех видеороликов. Всего используется 5 меток: «есть движение», «нет движения», «неизвестно» (обычно на краях подвижных объектов), «тень от подвижного объекта» и «вне области интереса». Для оценки качества алгоритмов авторы предлагают 8 различных метрик, основанных на четырёх основных показателях: True Positive (верно распознанное движение), False Positive (ложно распознанное движение), True Negative (верно распознанное отсутствие движения) и False Negative (ложно распознанное отсутствие движения). Все указанные характеристики можно вычислить, если алгоритмы попиксельно размечают ролики на каждом кадре теми же метками, что и человек при ручной разметке. Далее все метрики усредняются по кадрам, по видеороликам и по категориям для получения единого показателя.

Предложенный способ сравнения алгоритмов и, соответственно, требование к алгоритмам предоставлять попиксельную разметку имеют важную особенность. Все показатели отражают попиксельное сравнение областей движения, размеченных человеком и алгоритмами. Такое сравнение можно назвать низкоуровневым в том смысле, что результатом алгоритмов являются размеченные пикселы. Обычно же видеосистемы содержат алгоритмы компьютерного зрения, результатами которых являются не пикселы, а объекты (люди, машины, номерные знаки автомобилей, дым, огонь, оставленный предмет), или распознанные ситуации (проход в запретную зону, нарушение правил дорожного движения, подсчёт посетителей и т.д.) [3, 4, 5]. Такие алгоритмы невозможно сравнить предлагаемыми методами. Для алгоритмов, обнаруживающих объекты и ситуации, важными показателями являются ложные и пропущенные объекты.

Неверно размеченные пикселы не всегда являются проблемой для достоверного обнаружения объектов. Если часть подвижных точек объекта не обнаружена, это не означает, что мы

пропустим весь объект, который состоит из множества пикселов. В то же время существование небольшого количества шумовых точек (ложно определённых как подвижные) не является критичным для алгоритма обнаружения движения. Если процент шумовых точек мал, то они будут разбросаны по изображению и мы сможем определить их как шум, так как площадь областей будет 1 - 2 пиксела. Если же шумовых точек много, то повышается вероятность, что несколько точек окажутся рядом и могут быть ложно определены как движущаяся область.

Таким образом, группы близко расположенных шумовых точек могут создавать уже ложные подвижные объекты. Обычно, каждый алгоритм выделения движения имеет параметры, которые позволяют варьировать ошибки первого и второго рода. Например, для алгоритма вычитания фона это линейный коэффициент порога, отделяющий подвижные пикселы от неподвижных. Если подобрать указанные параметры алгоритма таким образом, чтобы сделать незначительной вероятность появления связных шумовых областей, то ложные объекты практически перестанут возникать в системе, хотя ложно определённые пикселы по-прежнему будут присутствовать. Более того, нам нужно подобрать такие параметры алгоритма, которые давали бы максимально возможный шум, уменьшая тем самым вероятность пропуска объектов, но такой шум, который не позволяет возникать связным шумовым областям.

Приемлемый уровень шума можно оценить [6]. Рассмотрим связные области, состоящие из 4 и более точек. Группы из меньшего числа пикселов сразу признаются незначительными и не рассматриваются как объекты. Оценим вероятность появления областей из шумовых точек площадью не менее 4 пикселов. Пусть дано изображение размером ус х Л пикселов, доля шумовых точек равна р е. (ОД) . Значение р - это несмещённая оценка вероятности точки быть шумовой, N = И'й - общее количество точек на изображении. Рассмотрим всевозможные фигурки тетрамино (фигурки, состоящие из четырёх пикселов), которые попадают на изображение. Каждая такая фигурка имеет одну из ' = . ■ возможных различных форм. Считаем, что поворот на 90° даёт разные фигурки. Кроме формы, фигурка определяется своим положением на изображении. Таким образом общее число фигурок 5; не превышает £ЛГ .

Если Ai - стохастическое событие, заключающееся в том, что фигурка Si не будет заполнена полностью шумовыми точками, тогда событие X, заключающееся в том, что на изображении нет шумовых областей площадью 4 пиксела или больше, есть одновременная реализация событий А1, А2, А3, ..., Ап:

■ ■ ' ..... .

Вероятность события X можно разложить в произведение:

а вероятность противоположного события, что существует хотя бы одна шумовая облас

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком