научная статья по теме АЛГОРИТМ ИДЕНТИФИКАЦИИ ВЕЩЕСТВ ПО КОНЕЧНОМУ НАБОРУ СПЕКТРОВ ВТОРИЧНОГО ИЗЛУЧЕНИЯ Физика

Текст научной статьи на тему «АЛГОРИТМ ИДЕНТИФИКАЦИИ ВЕЩЕСТВ ПО КОНЕЧНОМУ НАБОРУ СПЕКТРОВ ВТОРИЧНОГО ИЗЛУЧЕНИЯ»

ОПТИКА И СПЕКТРОСКОПИЯ, 2015, том 118, № 1, с. 157-162

СПЕКТРОСКОПИЯ КОНДЕНСИРОВАННОГО СОСТОЯНИЯ

УДК 535.243.25

АЛГОРИТМ ИДЕНТИФИКАЦИИ ВЕЩЕСТВ ПО КОНЕЧНОМУ НАБОРУ СПЕКТРОВ ВТОРИЧНОГО ИЗЛУЧЕНИЯ

© 2015 г. Н. С. Васильев, Ил. С. Голяк, А. Н. Морозов

Московский государственный технический университет им. Н.Э. Баумана, 105005Москва, Россия E-mail: nickliamg@gmail.com, iliyagol@mail.ru, amor59@mail.ru Поступила в редакцию 07.03.2014 г. В окончательной редакции 16.06.2014 г.

Рассмотрена задача беспробоотборного определения химического состава веществ. Предложен метод, позволяющий проводить идентификацию искомого вещества по наборам получаемых спектров. Решена задача определения меры различия спектральных наборов друг с другом. Методика экспериментально апробирована, анализировались спектры, регистрируемые статическим фурье-спектрометром видимого и ближнего УФ диапазонов. Возбуждалось вторичное излучение образцов УФ источниками с максимумами на длинах волн 280 и 310 нм. Рассматривались вещества: антрацен, POPOP, PPO, стильбен и триптофан. Построены ROC-кривые, сравнение которых позволило уточнить параметры, используемые в алгоритме поиска веществ в базе эталонных спектров. Полученные результаты позволят увеличить надежность и расширить применимость экспресс-анализаторов химических веществ.

DOI: 10.7868/S0030403414120253

ВВЕДЕНИЕ

В промышленности нашли широкое применение приборы, осуществляющие анализ химического состава веществ по их спектрам электромагнитного излучения. Такие приборы незаменимы при крупных авариях на химически опасных объектах, так как позволяют идентифицировать загрязнение быстро и без пробоотбора вещества. Область применения определяет особенности, отличающие их от лабораторных установок, реализующих аналогичные методики. Регистрируемые в ходе замера спектры имеют низкое отношение сигнал/шум, а конструктивные особенности не позволяют эффективно регистрировать сигнал в широком интервале длин волн. Вследствие чего надежность получаемых результатов снижается, а перечень идентифицируемых веществ уменьшается.

В работе авторами предлагается для увеличения надежности и селективности приборов экспресс-анализа осуществлять идентификацию путем комбинирования данных, полученных различными спектральными методиками. При этом регистрация данных осуществляется одновременно либо последовательно для одного и того же исследуемого образца. Отдельно выбранная спектральная методика, используемая при таком анализе далее, будет называться диапазоном. Для реализации предлагаемого метода в портативных приборах возникает задача оптимального учета совокупности спектральной информации в различных диапазонах.

Существует два основных подхода, применение которых позволяет определять состав веществ по их спектрам. Первый основан на решении обратной задачи спектроскопии и отыскании структурных особенностей молекулы, отличающих ее от других. Во втором подходе зарегистрированный спектр сопоставляется с измеренными ранее в лаборатории с высоким отношением сигнал/шум. Как правило, в портативных приборах используется второй подход как менее ресурсоемкий и более надежный. Основная цель в таких методиках получить скалярную величину (коэффициент схожести, мера соответствия и т.д.), которая позволяет численно охарактеризовать соответствие измеренного и эталонного спектров.

Второй подход к задачам идентификации спектров позволяет применить методы редукции наборов коэффициентов схожести в различных диапазонах к одной скалярной величине.

ОДНОДИАПАЗОННЫЕ АЛГОРИТМЫ

Сначала рассмотрим способы идентификации веществ одной спектральной методикой, а затем рассмотрим вопрос о комбинировании результатов, полученных в нескольких диапазонах. С точки зрения расчетных алгоритмов спектр представляет собой упорядоченный набор чисел, зарегистрированных светочувствительной линейкой либо полученных методом фурье-преобразования. Алгебраически можно представить спектр как вектор в ^-мерном пространстве дей-

ствительных чисел. Идентификация веществ осуществляется путем классификации его зарегистрированного спектра по имеющимся в базе данным. Под классификатором будем подразумевать алгоритм классификации данных, т.е. разбиение множества на подмножества по имеющимся у каждого элемента признакам. Такие методы широко развиты на сегодняшний день.

К наиболее распространенным из них относится метод, основанный на вычислении функции "корреляции", которая в отличие от используемой в теории вероятности одноименной величины характеризует взаимную схожесть формы двух спектров как детерминированных функций.

Если даны два вектора (спектра) а, Ь е ^, где а — зарегистрированный спектр, Ь — спектр из базы данных, N — размерность пространства, то корреляция рассчитывается по формуле

_ (иЬ

N

(a, b) _ Xab, а _ V(а, а). (1)

Это и схожие с ним выражения использовались для определения меры различия спектров друг с другом в работах [1—13]. В [14] анализировалась спектральная база данных, содержащая 2682 УФ спектров различных веществ и столько же хрома-тограмм. Для этого была рассчитана матрица размерности 2682 х 2682, каждый элемент которой равнялся корреляции между двумя спектрами. Номера этих спектров соответствовали номеру строки и столбца указанной матрицы. Так как корреляция спектра с самим собой равна единице, то все диагональные элементы такой матрицы единичны.

В [15] анализировались наиболее применимые алгоритмы для задач идентификации, в частности были рассмотрены методы SAM (Sample Angle Mapper) [6] и SCM (Spectral Correlation Method) [16]. В этих методах используются модифицированные выражения "корреляции", учитывающие особенности рассматриваемой в работах задачи.

Для идентификации веществ указанным способом необходимо наличие спектральной базы эталонных спектров. Распознавание веществ производится по найденному максимальному значению коэффициента схожести при превышении им некоторого порога срабатывания. Часто этот порог определяется экспериментально на основе опытных данных.

Меры различия, предлагаемые рядом авторов [1—3, 8, 9, 17—20], сводятся к редукции ^-мерного пространства к одномерному скаляру. Если рассматривать сходство двух спектров, то большинство рассматриваемых в литературе функций эквивалентны величине косинуса угла в ^-мерном евклидовом пространстве либо минимальной

длине разности между спектрами как между N мерными векторами.

ДВУХДИАПАЗОННЫЙ АЛГОРИТМ

По зарегистрированным спектрам в различных диапазонах возможно определить их меру соответствия с эталонным, используя уже имеющиеся алгоритмы. Для визуализации распределения коэффициентов схожести спектров в различных наборах удобно воспользоваться пространством, где каждая размерность соответствует какому-то одному диапазону. Для методики, использующей два спектра для идентификации, получаемые точки распределения будут лежать на плоскости. Если используется только один диапазон, то задача сводится к определению порога срабатывания. В случае, если в наборе два и более спектров, то задача усложняется и требует определения положения областей в пространстве соответствующей размерности. Принципиальное отличие от предыдущего случая состоит в необходимости задания не только порога, но и формы кривой, разделяющей получаемые точки. Все результаты, оказавшиеся внутри этой области, приведут к индикации обнаружения вещества.

Для разбиения ^мерного пространства на области предлагается использовать несколько функций:

N

X aixi _ Р,

i _ 1

N

X ax _ Р,

i _ 1

N

а1 Xi _ Р.

(2)

(3)

(4)

i _ 1

Сами наборы далее будут обозначаться как а = = (а(1)(Х), ..., а(^(Х)) для зарегистрированных

спектров и Ь = (Ь(1)(к), ..., Ь(^(Х)) для эталонных спектров, а1 — варьируемый коэффициент. Для дальнейших рассуждений удобно использовать величину, которая имеет смысл расстояния, в частности свойство метрики обращаться в нуль для идентичных данных. Этому свойству будет удовлетворять величина

Р _ 1 -

( а, b) 2 И 2| bl2

(5)

Это выражение равно нулю при сравнении идентичных спектров и может быть использовано для определения координаты в пространстве меры соответствия эталонным спектральным наборам.

Р

АЛГОРИТМ ИДЕНТИФИКАЦИИ ВЕЩЕСТВ

159

ЭКСПЕРИМЕНТ

Для экспериментальной проверки эффективности формул (2)—(4) для классификации спектров использовались данные, получаемые на статическом фурье-спектрометре видимого и ближнего УФ диапазонов [18, 19]. Эксперимент состоял в регистрации набора спектров вторичного излучения при поочередном возбуждении образцов источниками с максимумами на длинах волн 280 и 310 нм. Использовался следующий набор тестовых веществ: 1) антрацен, 2) РОРОР, 3) РРО, 4) стильбен и 5) триптофан. Эти вещества относятся к хорошим люминофорам и позволяют зарегистрировать спектр люминесценции с высоким отношением сигнал/шум. Использование этих веществ для апробации алгоритмов обусловлено их доступностью, нетоксичностью, но в то же время типичностью регистрируемых спектров для задач химической разведки. Их вторичное излучение обладает широкими линиями с характерными максимумами либо серией локальных пиков.

Для получения наборов, имитирующих зарегистрированные спектры, к эталонным двумерным интерференционным картинам аддитивно добавлялся случайный сигнал, распределенный в каждой точке по нормальному закону. Для спектров, получаемых при возбуждении источником 280 нм (первый диапазон), среднеквадратическое отклонение шума составляло 750 разрядов, для спектров от источника 310 нм (второй диапазон) — 1000 разрядов 14-битного АЦП. По полученным интерферограммам строились спектры, к которым применялись различные алгоритмы идентификации. В результате такого искусственного за-шумления эталонных интерферограмм были получены наборы спектров с отношением сигнал/шум -3.2 для первого диапазона и -1.3 для второго. В результате такого подхода по зарегистрированным данным с высоким отношением сигнал/шум (>100) получается более 1000 экспериментальных спектров с отношением сигнал/шум -1.1—3.2 в зависимости от используемого диапазона и вещества.

Второй подход экспериментальной оценки эффективности применения формул

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком