научная статья по теме КОЛИЧЕСТВЕННОЕ СООТНОШЕНИЕ СТРУКТУРА–ПОТЕНЦИАЛ ПОЛУВОЛНЫ ДЛЯ ЗАМЕЩЕННЫХ БЕНЗОИДНЫХ СОЕДИНЕНИЙ: МОДЕЛИРОВАНИЕ НА ОСНОВЕ ИСКУССТВЕННОЙ НЕЙРОННОЙ СЕТИ ЛЕВЕНБЕРГА–МАРКВАРДТА Химия

Текст научной статьи на тему «КОЛИЧЕСТВЕННОЕ СООТНОШЕНИЕ СТРУКТУРА–ПОТЕНЦИАЛ ПОЛУВОЛНЫ ДЛЯ ЗАМЕЩЕННЫХ БЕНЗОИДНЫХ СОЕДИНЕНИЙ: МОДЕЛИРОВАНИЕ НА ОСНОВЕ ИСКУССТВЕННОЙ НЕЙРОННОЙ СЕТИ ЛЕВЕНБЕРГА–МАРКВАРДТА»

ЭЛЕКТРОХИМИЯ, 2015, том 51, № 3, с. 293-302

УДК 541.135

КОЛИЧЕСТВЕННОЕ СООТНОШЕНИЕ СТРУКТУРА-ПОТЕНЦИАЛ ПОЛУВОЛНЫ ДЛЯ ЗАМЕЩЕННЫХ БЕНЗОИДНЫХ СОЕДИНЕНИЙ: МОДЕЛИРОВАНИЕ НА ОСНОВЕ ИСКУССТВЕННОЙ НЕЙРОННОЙ СЕТИ ЛЕВЕНБЕРГА-МАРКВАРДТА © 2015 г. Х. Нуризадех1, А. Фармани

Исламский Университет Азад, Илам, Иран Поступила в редакцию 06.04.2014 г.

С использованием как линейного, так и нелинейного подхода построены модельные количественные соотношения структура—электрохимические свойства, позволяющие скоррелировать потенциалы полуволны бензоидных ароматических соединений и их производных. Дескрипторы, вычисленные на основе только молекулярных структур, использованы для нахождения потенциалов полуволны Е1/2 бензоидов. Был составлен набор из 36 соединений и вычислены соответствующие наборы молекулярных дескрипторов. Для выбора наиболее подходящих молекулярных дескрипторов был использован метод "генетический алгоритм—метод парциальных наименьших квадратов", в то же время было предложено линейное количественное модельное соотношение "структура-свойство"; для построения нелинейной модели была применена искусственная нейронная сеть Ле-венберга-Марквардта с использованием выбранных дескрипторов. Устойчивость модели и ее способность к прогнозированию были обоснованы методом перекрестной проверки достоверности с выключением некоторых групп, внешнего тестирования и У-рандомизации. Описанная модель не требует экспериментальных параметров и способна прогнозировать значения Е^^ новых бензоид-ных соединений.

Ключевые слова: бензоидные соединения, потенциал полуволны, количественное соотношение структура-свойство, генетический алгоритм, искусственная нейронная сеть Левенберга-Марквардта

Б01: 10.7868/80424857015030093

ВВЕДЕНИЕ

Потенциал полуволны Е1/2 — важная электрохимическая характеристика органических соединений, которая для случая обратимого окисления—восстановления — может быть использована для прогнозирования электрохимических свойств других органических соединений. Существует ряд различных электрохимических методов, позволяющих определять потенциалы полуволны широкого круга органических и металл-органических соединений [1]. Изучение количественных соотношений структура—активность—свойство — это одна из важнейших областей хемометрики; оно дает информацию, полезную для молекулярного конструирования и медицинских приложений химии [2, 3]. Модели на основе количественных соотношений структура—активность—свойство — это математические уравнения, связывающие хи-

1 Адрес автора для переписки: a.farmany@usa.com (Н. N0011-2ас1ек).

мическую структуру с широким набором физических, химических, биологических и технологических свойств. Основная задача здесь — получить надежную статистическую модель для прогнозирования свойств и поведения новых химических веществ и аналитических систем. Разработка таких моделей включает несколько основополагающих стадий, а именно: 1) создание дескрипторов, 2) разделение данных на наборы для калибровки и для прогнозирования (или тренирования) и обоснования (или тестирования), 3) отбор переменных, 4) выбор подходящей модели для связи между отобранными переменными и активностью— свойством и 5) обоснование модели.

В последнее время появились многочисленные модели на основе количественных соотношений структура—активность—свойство, предназначенные для расчетов физико-химических свойств молекул по их химической структуре; сообщалось и об электрохимических приложениях таких моделей [4]. Успешная стратегия для про-

Таблица 1. Значения экспериментальных и вычисленных потенциалов полуволны производных бензоидов и относительной и средней квадратичной ошибок набора для тренировки по модели искусственной нейронной сети Левенберга—Марквардта

Бензоиды Эксперимент, В Расчет, В Относительная Средняя квадратич-

ошибка ная ошибка

Набор для калибровки

1 -1.98 -1.97 0.50 0.002

2 -1.46 -1.35 7.69 0.025

3 -1.94 -1.86 3.93 0.017

4 -1.14 -1.08 5.14 0.013

5 -1.53 -1.51 1.09 0.004

6 -1.81 -1.77 2.38 0.009

7 -1.75 -1.65 5.43 0.021

8 -1.97 -1.78 9.82 0.042

9 -1.61 -1.58 1.79 0.006

10 -0.86 -0.81 5.56 0.010

11 -1.19 -1.14 3.85 0.010

12 -1.44 -1.41 2.08 0.007

13 -1.54 -1.53 0.78 0.003

14 -1.57 -1.53 2.62 0.009

15 -1.79 -1.64 8.23 0.032

16 -1.65 -1.55 5.95 0.021

17 -1.55 -1.54 0.65 0.002

18 -1.25 -1.24 0.83 0.002

19 -1.67 -1.57 5.90 0.022

20 -1.4 -1.39 1.06 0.003

21 -1.73 -1.57 9.42 0.036

Набор для прогнозирования

22 -1.53 -1.48 3.19 0.018

23 -1.36 -1.28 6.21 0.032

24 -0.95 -0.96 1.05 0.004

25 -1.33 -1.26 4.97 0.025

26 -1.21 -1.17 2.91 0.013

27 -1.57 -1.60 1.91 0.011

28 -1.59 -1.48 6.96 0.042

гнозирования потенциалов восстановления основана на соответствующей конструкции моделей, с помощью которых можно понять и структурные особенности, влияющие на Е1//2 [4—7].

В ряде случаев электрохимический потенциал полуволны может быть скоррелирован с биологическими свойствами соединения. Поэтому целью настоящей работы является оценка способности оптимальных дескрипторов, вычисленных на основе линейной мультивариантной регрессии (например, парциальных наименьших квадратов), а

также нелинейной регрессии (искусственной нейронной сети Левенберга—Марквардта), в анализе потенциалов полуволны некоторых бензо-идных соединений. Устойчивость модели и ее способность к прогнозированию были обоснованы методом перекрестной проверки достоверности с выключением некоторых групп, внешнего тестирования и У-рандомизации.

ВЫЧИСЛЕНИЯ

Набор данных

Все данные, использованные в настоящей работе, доступны из литературы [8]. Набор данных состоит из 36 замещенных бензоидов. Химическое строение исследованных соединений приблизительно одинаково. При сборе данных мы обращали внимание на то, чтобы электрохимические данные отвечали сходным экспериментальным условиям. Молекулярные структуры исследованных соединений, использованных для тренировки или тестирования, приведены на рис. 1 и 2. Список исследованных соединений и их экспериментальные значения Е1/2 приведены в табл. 1 и 2.

Генетический алгоритм для отбора дескрипторов

Для того, чтобы отобрать наиболее подходящие дескрипторы с помощью генетического алгоритма, мы смоделировали эволюцию заселенности. Каждый индивид, определяемый хромосомой двоичных чисел, представляет подмножество дескрипторов. Число генов у каждой хромосомы равно числу дескрипторов. Заселенность первого поколения выбиралась случайно, наугад. Гену давали значение 1, если соответствующий ему дескриптор включался в подмножество; в противном случае он получал значение 0. Число генов со значением 1 поддерживалось относительно низким для того, чтобы подмножество дескрипторов было невелико [9—11], т.е. вероятность генерирования нуля для гена повышалась. Здесь использовались следующие операторы: кроссовер и мутация. Вероятность применения этих операторов менялась по линейному закону при обновлении заселенности. В типичном опыте эволюция заселенности останавливалась, когда на 90% заселенность приобретала одинаковую приспособленность. В настоящей работе размер заселенности — 30 хромосом, вероятность начального выбора переменной равняется 5 : V (V — число независимых переменных), кроссовер групповой, его вероятность равняется 0.5, мутация также групповая, ее вероятность равняется 0.01, а число эволюций заселенности равно 1000. Для каждого набора данных проводили 3000 испытаний.

Рис. 1. Строение бензоидных углеводородов в наборе для тренировки. ЭЛЕКТРОХИМИЯ том 51 № 3 2015

XXJ 00^° coo

29 30 31

32 33 34

35 36

Рис. 2. Строение бензоидных углеводородов в наборе для тестирования.

Предварительная обработка данных

Каждый набор рассчитанных дескрипторов собирали в отдельной матрице данных с раз-

Таблица 2. Значения экспериментальных и вычисленных потенциалов полуволны Еу2 производных бензоидов и относительной, и средней квадратичной ошибок набора для тестирования по модели искусственной нейронной сети Левенберга—Марквардта

Бензоиды Эксперимент, В Расчет, В Относительная ошибка Средняя квадратичная ошибка

29 -1.22 -1.26 3.20 0.014

30 -1.5 -1.45 3.16 0.017

31 -0.97 -0.93 4.21 0.014

32 -0.88 -0.93 5.68 0.018

33 -1.00 -1.01 0.68 0.002

34 -1.49 -1.64 10.07 0.053

35 -1.45 -1.39 3.81 0.020

36 -1.36 -1.45 6.77 0.033

мерностью (m х n), где m и n - соответственно, числа молекул и дескрипторов. Группирование дескрипторов основано на классификации, выполненной с помощью программного обеспечения Dragon. В каждой группе в вычисленных дескрипторах отыскивались постоянные или почти постоянные значения для всех молекул, и, будучи найдены, удалялись. Перед применением методов анализа, в зависимости от качества данных, необходимо ознакомиться с предшествующей их обработкой. Одним из методов, необходимых нам прежде, чем применять методы регрессии в сочетании с дальнейшим обучением, является масштабирование и центровка. Результаты методов проекции зависят от нормирования данных. Дескрипторы с малым абсолютным значением дают небольшой вклад в полное расхождение; последнее зависит от других дескрипторов, с большими значениями. При подходящем масштабировании каждому дескриптору приписывается одинаковый вес, так чтобы выделить в модели важные переменные. Для того, чтобы придать равное значение всем переменным, их стандартизируют по единичному расхождению и нулевому среднему (автомасштабирование).

У-рандомизация или случайные корреляции

Одна из составляющих обоснования моделей -это проверка возможности случайных корреляций. Это может быть сделано, если выполнить полный объем расчетов, но с шифрованием зависимых переменных. Шифрование разрушает любые связи между дескрипторами и зависимыми переменными. Поэтому не может быть построена модель, превосходящая по работоспособности вероятную работоспособность. Полученные таким образом результаты сравнивают с результатами реальных расчетов, чтобы продемонстрировать, что реальные результаты получены именно на основе соотношений, а не случайных корреляций.

Нелинейная модель

Искусственная нейронная сеть. Для исследования набора характерных признаков мы использовали трехслойную искусственную нейрон

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком