научная статья по теме ПРИНЦИП СЕМАНТИЧЕСКОГО СЖАТИЯ В АЛГОРИТМАХ ОБРАБОТКИ ВИДЕОИНФОРМАЦИИ Общие и комплексные проблемы естественных и точных наук

Текст научной статьи на тему «ПРИНЦИП СЕМАНТИЧЕСКОГО СЖАТИЯ В АЛГОРИТМАХ ОБРАБОТКИ ВИДЕОИНФОРМАЦИИ»

Петричкович Я.Я., доктор технических наук, профессор, генеральный директор

Хамухин А.В., кандидат технических наук, руководитель отдела (ЗАО «Научно-технический центр «ЭЛВИС»)

ПРИНЦИП СЕМАНТИЧЕСКОГО СЖАТИЯ В АЛГОРИТМАХ ОБРАБОТКИ

ВИДЕОИНФОРМАЦИИ

В статье вводится понятие семантического сжатия изображений, которое широко используется в новых системах обработки и анализа видеоинформации.

Ключевые слова: семантическая обработка, компьютерное зрение, машинное обучение.

SEMANTIC COMPRESSION PRINCIPLE IN COMPUTATIONAL VIDEO INFORMATION PROCESSING

In this paper we introduce the notion of semantic image compression. Semantic compression is commonly used in new video analytic systems.

Keywords: sematic processing, computer vision, machine learning.

В последние десятилетие резко возросло количество цифровых изображений, которые формируются во многих областях человеческой деятельности с помощью многочисленных устройств самого разного назначения. Многие из этих изображений сохраняются в общедоступных хранилищах мировой сети Интернет, в других случаях поток изображений сохраняется в системах с ограниченным в силу ряда обстоятельств доступом. Поскольку объём изображений становится огромен, остро стоит проблема индексации и поиска изображений. Даже поиск одинаковых изображений в общем виде является нетривиальной задачей. При подобном поиске желательно найти не только файлы изображения, полностью, вплоть до последнего бита, совпадающие с исходным файлом, но и изображения с той же сценой, зарегистрированные в другое время или с несколько иначе произведённым кадрированием, а также желательно находить те же самые изображения с изменёнными характеристиками из-за предобработки цифровыми фильтрами.

Ещё более сложную проблему представляет собой поиск изображений по его семантическим признакам. Задачей поиска является выделение по текстовому семантическому описанию подходящих под описание изображений. Примером семантического описания изображений может служить следующий текст: изображение машин красного цвета. Для выполнения семантического поиска необходимо сначала провести операцию составления семантического индекса, которая заключается в выделении семантических признаков изображения с последующим построением сбалансированного дерева поиска из выделенных на изображении семантических характеристик.

При операции выделения семантических признаков полученная информация существенно меньше по объёму, чем объём данных, необходимый для представления исходного изображения. Поэтому целесообразно ввести термин «семантическое сжатие» изображений для алгоритмов, которые выделяют отдельные семантические элементы. Поясним данный термин с помощью графических примеров.

На рис. . 1 отображено исходное изображение городской сцены с ДТП в разрешении 1000x750 пикселей, а также то же самое изображение, сжатое компрессором JPEG с сильным коэффициентом сжатия, что приводит к заметности блочных шумовых артефактов. Исходное изображение при кодировании каналов R, G и B с помощью 8 бит в каждой точке изображе-

ния требует 2 • байт для хранения, а изображение, преобразованное JPEG с сильным коэффициентом сжатия, требует 3 ■ байт.

Рис. 1. Пример исходного изображения 1000x750 точек (слева) и того же изображения, сжатого компрессором JPEG с большим коэффициентом.

Рис. . 2 является одним из примеров семантической разметки изображений, на котором выделены элементы изображения (люди, деревья, здания, дорога и др.). Каждый такой элемент представляет собой многоугольник с несколькими десятками вершин и текстовой меткой, описывающей выделенный семантический признак. На рис. . 3 проиллюстрировано, что семантическая разметка является достаточно подробным описанием изображения, и даже без исходного изображения она даёт общее представление о том, что было изображено. Объём семантического описания с многоугольником включает в себя информацию с текстовыми метками и вершинами многоугольников, и занимает для приведённого примера около 10а байт.

Рис. 2. Пример семантической разметки изображения с помощью многоугольников.

Рис. 3. Иллюстрация информативности семантической разметки.

Если в рамках анализа изображения относительное положение элементов изображения друг относительно друга не имеет значения, то исходное изображение можно описать с помощью текстового перечисления семантических элементов: здания, автомобили, трамвай, упавший мотоцикл, сотрудники Д11С, проезжая часть и т.д. Информационный объём такого описания по порядку величины 1СГ". Для описания типа наблюдаемого события, а именно: сцена ДТП, достаточно примерно 1Ф байт.

Представим себе, что приведённый пример изображения является одним из кадров видеопотока одной из многочисленных камер, входящих в систему ситуационного контроля крупного мегаполиса. В рамках анализа огромного объёма видеоданных, генерируемого видеокамерами подобных систем, часто необходимо для каждого изображения ограничится лишь однобитовым триггерным семантическим описанием: есть на изображении событие «интереса» с точки зрения диспетчера, или нет. В случае необходимости разбора события данный бит можно подвергнуть «семантической декомпрессии», обратившись за расшифровкой к архиву видеоданных.

Задача семантического сжатия в представленной формулировке является сложной проблемой, которая окончательно не решена. Современное состояние компьютерного зрения таково, что существует ряд известных открытых конкурсов по сегментации и классификации изображений [0,2], в рамках которых тестируются различные подходы, самые известные из которых базируются на основе аппарата свёрточных нейронных сетей, либо на основе подхода SVM с нелинейными ядрами, либо на основе составных классификаторов с использованием гистограмм градиентов изображения и т.д. Результаты тестирования показывают, что лучшие из методов сегментации достигают точности порядка 50%. И хотя методы сегментации и классификации с каждым годом совершенствуются, их достоверность пока не достаточна для применения в промышленных масштабах. Тем не менее, существует ряд задач, для которых семантическое сжатие разработано с достаточной степенью достоверности[3,4]. Существуют помехоустойчивые способы выделять движущиеся объекты в системах охранного видеонаблюдения, решена задача выявления возгораний на наблюдаемой сцене[5], предметов и вещей, оставленных без внимания, переброшенных через ограждение предметов, разработаны методы видеоконтроля транспортных средств в потоке и на парковках[6,7], находят широкое применение системы бизнес-мониторинга[8].

Таким образом, концепция семантического сжатия изображений обобщает принципы построения сложных алгоритмов обработки видеоинформации, применяемых как при индексации поиска в больших массивах видеоданных, так и при построении современных видеосистем контроля и анализа наблюдаемых сцен и событий, состоящих из большого количества видеокамер и других датчиков. Теоретическое и практическое развитие алгоритмов семантического сжатия является практически значимым и актуальным, т.к. уже сейчас оно привело к существенному увеличению значимости систем видеонаблюдения при построении сложных экспертных систем поддержки принятия решений при контроле крупных инфраструктурных объектов.

ЛИТЕРАТУРА

1. http://pascallin.ecs.soton.ac.uk/challenges/VOC/, дата обращения 29.07.2014.

2. http://image-net.org/challenges/LSVRC/2013/, дата обращения 29.07.2014.

3. Петричкович Я.Я., «Семантическое сжатие. Вторая ^-революция», www.all-over-ip.ru, 11.2010.

4. Пименов А.В., «Интеллектуальный видеоанализ событий в Ш-системах видеонаблюдения», журнал «Технологии защиты», 2010, №4.

5. Любимов А.В., СоколовЕ.Г., СоколовЕ.Е., «Некоторые инновационные технологии в области пожарной безопасности», журнал «Глобальная безопасность», специальный выпуск «Сочи 2014».

6. http://elvees.ru/home/uploads/media/publikacija032013_02.pdf, дата обращения 29.07.2014.

7. http://elvees.ru/home/uploads/media/stopgz_001_14_17.pdf, дата обращения 29.07.2014.

8. А.В. Хамухин, «Анализ применения стереосистем для решения задач бизнес-мониторинга», M.: из-во «Компания Спутник+», научно-технический журнал «Актуальные проблемы современной науки», №6, 2013.

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком