научная статья по теме СИСТЕМА РАСПОЗНАВАНИЯ ЖЕСТОВ С ПОМОЩЬЮ КАРТ ГЛУБИН Энергетика

Текст научной статьи на тему «СИСТЕМА РАСПОЗНАВАНИЯ ЖЕСТОВ С ПОМОЩЬЮ КАРТ ГЛУБИН»

ЛИТЕРАТУРА

1. Ультразвуковой технологический аппарат серии "Волна". URL: http:// www.u-sonic.com/catalog/apparaty_ dlya_uskoremya_protsessov_v_zhidkikh_ sredakh/ultrazvukovoy_tekhnologiches kiy_ apparat_serii_volna_v1/.

2. Khmelev, V. N., Barsukov R. V., Abra-menko D. S. et al. Practical Investigations of the Method of Indirect Parameter Checkout of the Acoustic Load Parameter // Proc. of Int. Conf.

and Seminar of Young Specialists on Micro/Nanotechnologies and Electron Devices EDM'2011. — Novosibirsk: NSTU, 2011. — P. 241—244.

3. Хмелев, В. Н., Барсуков Р. В., Гейне Д. В. и др. Контроль параметров кавитирующих жидких сред, подвергаемых ультразвуковому воздействию // Ползуновский вестник. — 2012. — № 2/1. — С. 154—159.

4. Хмелев, В. Н, Барсуков Р. В., Ильченко Е. В. Пути совершенствования электронных генераторов уль-

тразвуковых технологических аппаратов // Научно-технический вестник Поволжья. — 2014. — № 3. — С. 247—254.

5. Leonov G. V., Savina E. I. Modeling of Cavitation, Initiated by Ultrasonic Oscillators // International workshops and Tutorials on Electron Devices and Materials EDM'2006: Workshop Proceedings. — Novosibirsk: NSTU, 2006.

6. Колесников, А. Е. Ультразвуковые измерения: 2-е изд., перераб. и доп. — М.: Изд-во стандартов, 1970. — 248 с.

УДК 001.891 + 376.3 + 004.5

СИСТЕМА РАСПОЗНАВАНИЯ ЖЕСТОВ С ПОМОЩЬЮ КАРТ ГЛУБИН1 GESTURES RECOGNITION SYSTEM WITH THE AID OF DEPTH MAPS

Фархадов Маис Паша оглы

д-р техн. наук, зав. лабораторией E-mail: mais@ipu. ru

Абраменков Александр Николаевич

вед инженер-программист E-mail: aabramenkov@asmon. ru

Петухова Нина Васильевна

ст. научн. сотрудник E-mail: nvpet@ipu. ru

Васьковский Сергей Владимирович

ст. научн. сотрудник E-mail: v63v@yandex. ru

Институт проблем управления РАН им. В. А. Трапезникова, г. Москва

Аннотация: Рассмотрено применение специальных устройств, позволяющих получать карту глубин в задачах распознавания жестового языка. Предложены математические модели, подходы и программная реализация для решения данной задачи. Ключевые слова: распознавание образов, искусственный нейронный кортекс, жестовый язык, карта глубин.

Farkhadov Mais P.

Ph. D. (Tech.), Head of Laboratory E-mail: mais@ipu. ru

Abramenkov Alexander N.

Leading Engineer-Programmer E-mail: aabramenkov@asmon. ru

Petukhova Nina V.

Senior researcher E-mail: nvpet@ipu. ru

Vaskovsky Sergey V.

Senior Researcher E-mail: v63v@yandex. ru

V. A. Trapeznikov Institute of Control Sciences of Russian Academy of Sciences, Moscow city

Abstract: Application of special devices, which give depth map, in pattern recognition of sign language, is examined. The mathematical models, approaches and software implementation for this problem solving are offered.

Keywords: pattern recognition, artificial neural cortex, sign language, depth map.

ВВЕДЕНИЕ

Для большой группы людей с ограниченными возможностями распознавание жестового языка могло бы облегчить доступ к социальным системам массового обслуживания.

Существуют различные подходы к решению задачи распознавания жестов, например, основанные на применении внешних датчиков (одна

1 Работа выполнена при поддержке РФФИ, номер проекта 12-08-00752-(1.

или две видеокамеры) и особым образом раскрашенных специальных перчаток или только перчаток со встроенными датчиками. Наряду с облегчением параметризации жестов данный подход обладает и недостатком, поскольку использование перчаток не всегда удобно и требует наличия специализированного (штучного) оборудования, тогда как применение внешних датчиков, не требующих от человека дополнительных действий, выглядит более удобным.

Вычисление

вектора признаков

Вектор признаков

Классификатор (нейронный кортекс)

Распознанный жест

Рис. 1. Общая схема распознавания жестов

Проблемой распознавания жестов, в широком смысле слова, в мире занимаются весьма активно, а результаты ее решения находят применение в различных сферах человеческой деятельности, начиная от компьютерных игр и заканчивая управлением роботами. Существуют работы, посвященные распознаванию специальных жестов, например языка глухонемых [1—3]. Тем не менее, эта проблема является сложной и до сих пор не решенной полностью.

Отметим, что во многих системах распознавания жестов основной упор делается на работу с обычной камерой. Но часто информации о жесте, полученной таким способом, бывает недостаточно либо не очевидно, как ее извлечь. Привлечение дополнительных устройств (depth maps или камер глубины), способных формировать карту глубин (КГ), содержащую информацию о расстоянии объектов до камеры, позволило бы обогатить исходные данные новой информацией, упростив тем самым процесс распознавания.

В ряде работ по распознаванию жестов, например в [3], описано использование сенсорного устройства Kinect, позволяющего для решения данной задачи строить условный скелет человека. На основании взаимного расположения элементов скелета формируется описание жеста, которое используется для классификации жеста с привлечением аппарата скрытых марковских моделей. Отметим, что для описания жеста часто бывает важно знать не только взаимное расположение рук, но и форму кисти.

В данной работе исследованы новые алгоритмы распознавания жестов.

ОБЩАЯ СХЕМА РАСПОЗНАВАНИЯ ЖЕСТОВ

В основе предлагаемой системы распознавания жестов лежит сенсор Kinect. Он позволяет получать как обычное цветное изображение (RGB-изображение), так и КГ. Использование Kinect предоставляет дополнительные возможности, которые позволяют облегчить создание системы распознавания жестов. Однако Kinect не является

обязательным компонентом, он может быть заменен на другое аналогичное устройство.

Схематично система распознавания показана на рис. 1. Kinect формирует "сырые" данные (цветное изображение и КГ). Данные проходят предварительную обработку (нормализуются, отсекается лишнее, выделяются значимые фрагменты) и по ним вычисляется вектор признаков (ВП). Далее ВП поступает на вход заранее обученного классификатора (нейронного кортекса), формирующего на выходе класс, к которому данный вектор признаков должен быть отнесен.

В работе рассматриваются случаи распознавания статичных жестов. К ним можно отнести жесты дактильной азбуки и динамические жесты, содержащие характерные статичные элементы, достаточные для их распознавания. При этом основное внимание уделено обработке КГ и распознаванию жестов на ее основе. КГ имеет ряд преимуществ перед цветным изображением. Во-первых, ее данные не зависят от освещения, поскольку используемая в Kinect для определения расстояний инфракрасная подсветка позволяет работать при отсутствии освещения. Во-вторых, КГ позволяет эффективно отделять фон, оставляя только значимые фрагменты изображения. К недостаткам стоит отнести не очень большую разрешающую способность и довольно высокий уровень шума.

Предлагаемая система распознавания жестов была реализована на языке программирования C++ с использованием библиотек Kinect for Windows SDK (драйвера и программный интерфейс для взаимодействия с Kinect, http://www. microsoft.com/en-us/kinectforwindows) и OpenCV (библиотека компьютерного зрения с открытым исходным кодом, http://opencv.org).

ЛОКАЛИЗАЦИЯ ХАРАКТЕРНЫХ ТОЧЕК ИЗОБРАЖЕНИЯ

Важным параметром при распознавании жеста является расположение кистей рук как взаимное, так и относительно лица (или характерной точки, например губ).

Рис. 2. Три угла, описывающих взаимное расположение рук

Для определения местоположения лица на изображении обычно используют алгоритмы на основе каскадов Хаара (метод Виолы-Джонса [4]). Библиотека OpenCV уже содержит алгоритм и обученный каскад Хаара для поиска лиц, а для определения положения кистей рук можно воспользоваться алгоритмами на основе AdaBoost [5], предварительно сформировав обучающую выборку и обучив классификатор. С другой стороны, Kinect содержит готовую реализацию определения местоположения головы, рук и туловища человека, расположенных перед устройством. Поэтому были использованы именно эти данные, получаемые от Kinect.

Для описания взаимного расположения рук можно использовать три числа, представляющих собой углы треугольника, образованного точками на голове, левой и правой кисти (рис. 2). Такое представление инвариантно к преобразованиям масштаба и перемещения. Для полного описания жеста добавляется еще вектор признаков для левой и правой руки.

ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА КАРТЫ ГЛУБИН

Данные КГ представляют собой массив чисел со значениями от 800 до 4000. Меньшему числу соответствует точка, расположенная ближе к камере. Минимальное значение определяется тем, что Kinect способен оценивать расстояние до объектов, начиная от 80 см.

Для нормировки КГ, описывающих кисти рук, используется следующий алгоритм. В предположении, что обычно ближайшим объектом к камере является человек (или точнее кисти рук), вокруг точки, которая показывает местоположение кисти, выделяется небольшая область. В данном

случае это квадратное окно со стороной, равной 128 пикселям, центр которого расположен в точке местоположения предполагаемой кисти. Внутри данного окна ищется точка, наиболее близкая к камере, значение глубины которой вычитается из соответствующих значений для всех точек внутри окна. Изображение окна отсекается по глубине с порогом 127 и переводится в новое изображение, в котором самой близкой точке соответствует пиксель с интенсивностью цвета 255, а самой далекой и всем отсеченным — пиксель с интенсивностью 0.

Данный алгоритм может быть записан в виде следующей формулы:

1и(х, У) =

255 - 2(I(x, y) - /min) при I(x, У) - Imin < 127 0 при I(x, y) - Imin > 127.

Здесь In(x, y) — значение интенсивности пикселя нормированного изображения в координате x, y; I(x, y) — значение глубины нормируемого изображения карты глубин в координате x, y; /ш,л — минимальное значение глубины в данном окне.

Таким образом, получаются два небольших изображения (в градациях серого цвета) для правой и левой кистей рук, на основе которых потом вычисляются векторы признаков (рис. 3).

МЕТОДИКА ТЕСТИРОВАНИЯ

При тестировании точности распознавания в качестве

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком