научная статья по теме МЕТОД НЕЗАВИСИМЫХ КОМПОНЕНТ КАК АЛЬТЕРНАТИВА МЕТОДУ ГЛАВНЫХ КОМПОНЕНТ И ДИСКРИМИНАНТНЫМ АЛГОРИТМАМ В ОБРАБОТКЕ СПЕКТРОМЕТРИЧЕСКИХ ДАННЫХ Химия

Текст научной статьи на тему «МЕТОД НЕЗАВИСИМЫХ КОМПОНЕНТ КАК АЛЬТЕРНАТИВА МЕТОДУ ГЛАВНЫХ КОМПОНЕНТ И ДИСКРИМИНАНТНЫМ АЛГОРИТМАМ В ОБРАБОТКЕ СПЕКТРОМЕТРИЧЕСКИХ ДАННЫХ»

ЖУРНАЛ АНАЛИТИЧЕСКОЙ ХИМИИ, 2015, том 70, № 9, с. 925-932

ОРИГИНАЛЬНЫЕ СТАТЬИ

УДК 543.42

МЕТОД НЕЗАВИСИМЫХ КОМПОНЕНТ КАК АЛЬТЕРНАТИВА МЕТОДУ ГЛАВНЫХ КОМПОНЕНТ И ДИСКРИМИНАНТНЫМ АЛГОРИТМАМ В ОБРАБОТКЕ СПЕКТРОМЕТРИЧЕСКИХ ДАННЫХ © 2015 г. Ю. Б. Монахова1, А. М. Цикин, С. П. Муштакова

Саратовский государственный университет им. Н.Г. Чернышевского, Институт химии 410012 Саратов, ул. Астраханская, 83 1E-mail: yul-monakhova@mail.ru Поступила в редакцию 04.07.2014 г., после доработки 15.01.2015 г.

Показана возможность применения метода независимых компонент (independent component analysis, ICA) для поиска закономерностей в спектрометрических наборах данных и дискриминации объектов. Для исследования выбраны данные рентгенофлуоресцентного анализа базисных эмалей, ИК-спек-тры автомобильных лаков и ЯМР 1Н спектры вина из различных регионов Германии. ICA во всех трех случаях надежно разделяет группы объектов, увеличивая процент правильных предсказаний для новых, не включенных в модель, образцов. Кроме того, ICA дает результаты, сравнимые со специализированными дискриминантными методами (линейный дискриминантный анализ, проекции на латентные структуры — дискриминантный анализ и факторный дискриминантный анализ), при классификации ЯМР-спектров вина.

Ключевые слова: спектроскопия, хемометрика, метод независимых компонент, метод главных компонент, методы дискриминации.

DOI: 10.7868/S004445021509011X

В практику спектроскопического анализа различных процессов все больше входит применение метода независимых компонент (ICA) [1—8]. ICA-методы математически решают задачу выделения индивидуальных источников и их относительных вкладов в суммарный спектроскопический сигнал, не делая при этом никаких предположений о числе компонент смеси, их молекулярной структуре или типе спектра. Основополагающая гипотеза, впервые приложенная к спектральному анализу в работе [9], заключается в предположении о независимости спектров компонент смеси. Недавно разработаны улучшенные алгоритмы ICA, позволяющие находить наименее зависимые (в отличие от полностью независимых) компоненты, что дает несомненное преимущество при моделировании систем с сильно перекрывающимися сигналами [1, 2, 10—12].

Исходя из статистических основ метода, очевидно, что ICA весьма эффективен для восстановления сигналов источников, содержащихся в суммарных перекрывающихся спектрах, доступных для регистрации. Поэтому не удивительно, что этот метод нашел уже достаточно широкое применение для многокомпонентного анализа объектов сложного состава на основе различных по природе спектроскопических сигналов, вклю-

чая электронные (поглощения и испускания), ИК- и ЯМР 1Н спектры [1—8]. Установлено, что неопределенность нахождения концентраций соединений в смесях обычно не превышает 10%, коэффициенты корреляции выделенных и экспериментальных спектров составляют не менее 0.90 [1, 2, 6—8]. Немаловажным в современной экономической обстановке является также и тот факт, что продолжительность ICA-моделирования не превышает 5 мин, делая его применимым для скри-нингового анализа.

В последнее время ведутся работы по апробации ICA для решения других задач аналитической химии — изучения кислотно-основных, таутомер-ных равновесий и реакций комплексообразова-ния, в том числе с участием водородных связей [13-15].

С другой стороны, практически не исследована возможность использования ICA для решения дискриминантных задач. Идея заключается в применении результирующих матриц спектров индивидуальных компонент и их относительных вкладов в общий сигнал в качестве альтернативы матрице метода главных компонент (МГК) нагрузок и матрице МГК счетов соответственно. Так, показана применимость ICA для решения клас-

926

MОHAХОВA и др.

сификационных задач на примере дискриминации апельсинового и грейпфрутового соков, а также их смесей на основе ЯМР ХН спектроскопии [16, 17]. Однако в этом случае применение ICA-моделирования логично, так как два выделенных индивидуальных компонента отражали в основном спектры индивидуальных апельсинового и грейпфрутового соков, а смеси представляли их линейные комбинации.

В другом недавнем исследовании ICA совместно с классическими хемометрическими методами — МГК, линейным дискриминантным анализом (ЛДА), факторным дискриминантным анализом (ФДА), проекциями на латентные структуры—дискриминантным анализом (ПЛС— ДА), формальным независимым моделированим аналогий классов (SIMCA) — использован для дискриминации образцов риса относительно их сорта и географического происхождения на основе ЯМР 1Н спектроскопии [18]. ICA-моделирова-ние позволило полностью отделить образцы риса Басмати от других сортов крупнозернового риса, что невозможно при использовании классического МГК. Кроме того, ICA дает отличные значения чувствительности и селективности классификационной модели, незначительно уступая методу ПЛС-ДА [18].

Перечисленные выше примеры показывают перспективность использования ICA для дискриминации ЯМР спектроскопических данных. Очевидно однако, что необходимы работы по апробации ICA-алгоритмов для решения классификационных задач на других типах спектроскопического эксперимента.

В настоящей работе в качестве объектов выбраны данные рентгенофлуоресцентного (РФ) анализа базисных эмалей, ИК-спектры автомобильных лаков и ЯМР 1Н спектры вина из четырех близко расположенных винодельческих регионов Германии. Один из перечисленных выше наборов (ЯМР 1Н спектры) был ранее обработан МГК, что позволяет сравнить эффективности обоих методов [19].

ЭКСПЕРИМЕНТАЛЬНАЯ ЧАСТЬ

Оборудование и образцы. Исследовали образцы базисных эмалей черного цвета: n = 21, номер эмали по каталогу 490, производители: Vika (n = 6), Dyna-coat (n = 6), Quickline (n = 3) и Duxone (n = 6); а также прозрачных двухкомпонентных лаков: n = 18, производители: Vika (n = 6), Helios (n = 3), OTRIX (n = 6) и RAND (n = 3), представленные в торговой сети Саратова как материалы для ремонтного окрашивания автомобилей. Набор объектов может рассматриваться как представительный для Саратовской области.

Пробоподготовка образцов лаков для регистрации ИК-спектров включала приготовление смеси лака с отвердителем в рекомендованной пропорции (3 : 1), нанесение смеси шпателем в виде пленок на кристаллы KBr и сушку под ИК-лам-пой (60°C, 2.5 ч). Спектры исследуемых образцов лаков регистрировали на ИК-Фурье спектрометре Infralum FT-801 в диапазоне волновых чисел 4000— 500 см-1 с шагом сканирования 2 см-1.

Пробоподготовка образцов эмалей включала нанесение шпателем слоя эмали на пленку лавсана и сушку под ИК-лампой. Спектры базисных эмалей регистрировали на рентгенофлуоресцент-ном спектрометре Shimadzu Rayny EDX-720. Спектры измеряли в диапазоне 0.00-40.96 кэВ с шагом сканирования 0.02 кэВ.

Выбраны 111 аутентичных образцов вина из четырех винодельческих регионов Германии: Наэ (15), Мозель (31), Райнхессен (35), Пфальц (30). Спектры ЯМР 1Н вин регистрировали на спектрометре Bruker Avance 400 Ultrashield. Подробное описание пробоподготовки образцов и регистрации ЯМР-спектров сигналов приведено в работе [19]. Исследуемые образцы вина включали сорта белого и красного винограда Пино-блан (23), Пино-нуар (22), Рислинг (33), Кернер (14), Мюллер-Тургау (10), Пино-гри (9), собранные в период с 15 сентября по 11 ноября 2009 г.

Предварительная обработка спектральных данных. Хемометрический анализ спектральных данных выполняли с использованием программного комплекса Matlab 2013b (The Math Works, Natick, MA, USA) и встроенного в него пакета SAISIR [20]. Эллипсоиды с вероятностью 95% строили на основе дополнительных вычислений, используя программный комплекс SAISIR.

Бакетинг использовали для уменьшения размера ЯМР 1Н спектроскопических данных и нивелирования сдвига положения максимумов сигналов для спектров вина [19, 21]. Кроме того, два метода предварительной обработки (автошкалирование и Парето шкалирование) [22] протестировали на каждом из трех наборов данных для устранения вариаций в интенсивностях различных сигналов.

ICA-моделирование. В то время как МГК основан на поиске ортогональных осей, описывающих максимальную дисперсию данных в многомерном пространстве переменных, цель ICA состоит в восстановлении сигналов "чистых" источников из наблюдаемых суммарных сигналов [23]. В работе использовали анализ наименее зависимых компонент на основе минимизации численных значений взаимной информации (MILCA). Алгоритм MILCA имеет MATLAB интерфейс и свободно доступен в сети интернет [24].

Метод полной кросс-валидации [25] использовали для определения числа главных компо-

нент (ГК), необходимых для построения оптимальных моделей МГК. С другой стороны, перед проведением ICA-декомпозиции число значимых независимых компонент (источников) определяли с помощью метода ICA-by- Blocks [26]. Метод состоит в разделении исходной матрицы данных на B блоков (в нашем случае 2), состоящих примерно из одинакового числа спектров образцов. Далее проводят ICA-моделирование каждого блока с различным числом независимых компонент, а затем модели с одинаковым числом независимых компонент сравнивают между собой путем расчета коэффициентов корреляции между каждой парой выделенных сигналов. Оптимальное число компонент находят по резкому снижению коэффициентов корреляции [26]. В данной работе разделение образцов проводили случайным образом 30 раз.

Методика хемометрической обработки данных сводилась к следующему. На вход ICA-алго-ритма задавали матрицу экспериментальных спектров X, в которой количество строк соответ-свует числу образцов в наборе данных, столбцы представляют собой переменные (например, волновые числа для ИК- или химические сдвиги для ЯМР-спектроскопии). ICA-декомпозицию проводили для найденного методом ICA-by-Blocks числа независимых компонент, а число ближайших соседей варьировали от 5 до 15.

Результатом работы ICA являются сигналы индивидуальных источников и соответствующие им относительные концентрации (вклад компонента в суммарный спектр). Далее составляли матрицу, где каждому объекту соответствует вектор относительных вкладов для всех найденных независимых компо

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком