научная статья по теме Эволюционное программирование для выявления закономерностей "структура-активность" в ряду производных 3-феноксихромона и 3-фенокси-4-гидроксикумарина Химия

Текст научной статьи на тему «Эволюционное программирование для выявления закономерностей "структура-активность" в ряду производных 3-феноксихромона и 3-фенокси-4-гидроксикумарина»

m

БИООРГАНИЧЕСКАЯ ХИМИЯ, 1995, том 21, № 10, с. 809 - 815

УДК 547.814.03;577.1.01

ЭВОЛЮЦИОННОЕ ПРОГРАММИРОВАНИЕ ДЛЯ ВЫЯВЛЕНИЯ ЗАКОНОМЕРНОСТЕЙ "СТРУКТУРА-АКТИВНОСТЬ" В РЯДУ ПРОИЗВОДНЫХ 3-ФЕНОКСИХРОМОНА И З-ФЕНОКСИ-4-ГИДРОКСИКУМАРИНА

© 1995 г. И. В. Тетко, В. Ю. Танчук, С. А. Васильев*, В. П. Хиля*,

Г. И. Пода, А. И. Луйк

Институт биоорганической химии и нефтехимии HAH Украины, 253660, Киев, ул. Мурманская, 1, e-mail: tetko@bioorganic.kiev.ua; * Кафедра органической химии Киевского университета им. Тараса Шевченко, 252601, Киев, ул. Владимирская, 64 Поступила в редакцию 15.09.94 г. После доработки 17.01.95 г.

На примере ряда соединений, обладающих гиполипидемической активностью, показано, что для успешного решения проблемы выбора информативного набора параметров молекулы могут использоваться эволюционные алгоритмы. Наборы параметров, найденные для метода потенциальных функций, показали хороший прогноз активности молекул из контрольной выборки.

Ключевые слова: структура-активность; эволюционное программирование; метод "к ближайших соседей"; потенциальные функции; флавоноиды.

Проблема предсказания биологической активности (БА) химических соединений и создания новых веществ с заданной активностью является одной из наиболее важных в современной органической химии [1,2]. Применение методов трехмерных (30) количественных соогНошений "структура-активность" (КССА) позволяет анализировать тонкие молекулярные механизмы взаимодействия физиологически активных веществ с биорецепторами [3 - 5]. Однако эти методы достаточно сложны, требуют значительного опыта работы и поэтому не всегда доступны широкому кругу исследователей. С другой стороны, имеется очень много работ, в которых сообщается о хороших результатах предсказания БА, полученных с помощью представления молекулы как вектора в пространстве параметров [6 - 8] или Ш-КССА. Такое моделирование легко автоматизируется, позволяет осуществлять скрининг большого числа молекул для разных типов активности. Поэтому, несмотря на некоторую "идейную старость" этих методов, об их применении по-прежнему сообщается в значительном числе публикаций.

Методы Ш-КССА за последние годы сильно изменились. Это связано в основном с разработкой и применением для выявления соотношений

Используются сокращения: ЭА - эволюционные алгоритмы, ЭС - эволюционная стратегия, ЭП - эволюционное программирование, ГА - генетический алгоритм, БА -биологическая активность, КССА - количественное соотношение "структура-активность", ТГ - триглицериды.

"структура-активность" новых современных методов теории распознавания образов, таких, как adaptive least squares (ALS), fuzzy adaptive least squares (FALS), нейронные сети [9-11]. Эти методы позволяют проводить сложные нелинейные интерполяции и, как неоднократно сообщалось, дают лучшие прогнозы активности новых веществ по сравнению с традиционными методами множественного регрессионного анализа и линейного дискриминантного анализа [9, 10]. Однако проблема выбора наиболее информативных параметров для этих методов остается актуальной. Правильный выбор небольшого числа информативных признаков позволяет повысить эффективность классификации, поскольку включение малоэффективных параметров в решающее правило резко ухудшает прогноз. Заранее, как правило, неизвестно, какой набор признаков лучше всего описывает исследуемые ССА. Прямой перебор всех возможных вариантов неприемлем, так как требует проверки огромного числа наборов параметров 2^-1 (Q- число анализируемых параметров). Традиционные подходы к определению оптимального набора признаков заключаются в использований методов снижения размерности. Существует два общепринятых принципиально отличных друг от друга подхода. В первом отбор наилучших признаков производится на основе критерия информативности, для чего вводятся сильные математические предположения о характере исследуемого распределения (т.е. предполагаются форма и параметры исследуемого

распределения). Во втором подходе специальных предположений не делается, а используются"некоторые эвристические итеративные процедуры, каждый шаг которых понятен, но общий результат их применения осйыслить и изучить трудно. Пошаговые процедуры чаще используются в методах регрессионного анализа, а методы первой группы применяются в различных вариантах линейного дискриминантного анализа [12].

Первый подход может оказаться неприемлемым в случае неправильности математического представления о структуре исследуемого распределения. Вторая группа методов не гарантирует нахождение глобального минимума, т.е. выбор наилучшего с точки зрения оценки классификации набора признаков.

В последнее рремя в качестве альтернативных методов выбора наиболее информативных параметров стали использоваться методы, моделирующие законы биологического отбора, сформулированные Дарвиным. Эти методы носят общее название "эволюционные алгоритмы" (ЭА) [13]. Они формально подобны методам пошагового отбора параметров, однако в отличие от них обладают способностью преодолевать локальные минимумы (неоптимальные наборы параметров). ЭА с успехом применялись для решения таких сложных задач, как составление оптимального расписания уроков, создание эффективной системы управления газопроводом, конструирование турбин реактивных двигателей, выбор параметров, описывающих инфракрасные спектры, и др. [14]. Поэтому нам показалось небезынтересным исследовать применимость ЭА к проблеме выбора наиболее информативных параметров для решения задач поиска соотношений "структура-активность". Остановимся более подробно на описании ЭА.

ЭВОЛЮЦИОННЫЕ АЛГОРИТМЫ

ЭА используют модели эволюционных процессов как ключевые элементы в конструировании и воплощении компьютерных вычислительных систем. Существует много различных модификаций ЭА, Они используют общую концептуальную базу о возможности компьютерного моделирования эволюции индивидуумов через процессы отбора (селекции) и воспроизводства. Эти процессы зависят от приспособленности (функции качества) индивидуальных структур, которая определяется окружающей средой. Термины "популяция", "селекция", "приспособленность" и др., используемые в ЭА, являются искусственными функциональными аналогами биологических терминов.

Иначе говоря, ЭА поддерживают такую популяцию структур, которая развивается соответственно правилам селекции и другим операциям, именующимся поисковыми операторами (генети-

ческими операторами), такими, как рекомбинации и мутации. Каждый индивидуум в популяции оценивается в соответствии с его приспособленностью к данной среде. Селекция выявляет наиболее приспособленные индивидуумы, используя таким образом информацию об их приспособленности. Случайные рекомбинации и мутации изменяют индивидуумы, обеспечивая возникновение новых экземпляров для последующего отбора. Каждый индивидуум характеризуется набором "генов" (в нашем случае - признаков), которые кодируются цепочкой битов (0, 0, 1, 0, ..., 0, I). Единичка определяет наличие, а нуль - отсутствие соответствующего признака в анализируемом наборе параметров. В качестве генетических операторов используются операции кроссинго-вера, делеции, вставки, мутации, объединения, разрыва, которые были определены по аналогии с биологическими процессами, происходящими в реальных живых объектах. Ниже приведен список основных операторов.

Делеция состоит в замене одной единицы в наборе на нуль, т.е. удалении из набора одного из признаков:

(1,0, 1,0.....1.....0, 1)=>(1,0,1,0,...,0,...,0, 1).

Вставка - антипод делеции. Она добавляет в набор новый признак:

(1,0, 1,0, ...,0, ...,0, 1) => (1, 0, 1,0, ..., 1, ...,0,1).

Мутация состоит в случайном изменении положения одной из единиц в наборе

(1,0, 1,0, ...,0, ...,0, 1)=>(1,0, 0, 0, ..., 1, ...,0, 1)

и может рассматриваться как сочетание вставки и делеции.

Операция кроссинговера состоит в обмене частью признаков между двумя родителями, что приводит к появлению двух потомков. Точка обмена выбирается случайно:

(1,0, 1,0, ..., 1, ...,0, 0) ®

(0, 0, 1, 1, ...,0, ...,0, 1) т,о, 1,1,..о,...,о,1) .

ч(0,0, 1,0, ..., 1, ...,0,0)

Существуют три большие группы эволюционных алгоритмов: эволюционное программирование (ЭП), эволюционные стратегии (ЭС) и генетические алгоритмы (ГА). Они отличаются интенсивностью использования генетических операторов и реализациями функции селекции. Наиболее важной в методах ЭП и ЭС является операция мутации, а в ГА - операция кроссинговера [13]. Хотя все три метода могут использоваться для определения наиболее эффективного набора параметров, мы использовали ЭС.

АНАЛИЗИРУЕМЫЕ МОЛЕКУЛЫ

Для анализа был использован ряд молекул флавоноидов, 3-феноксильных производных хро-мона и кумарина. Как известно, производные флавоноидов обладают широким спектром биологической активности, являются аналогами природных соединений и считаются перспективными веществами для поиска новых высокоэффективных лекарственных средств. Для всех соединений

изучалась гипогликемическая активность, оцениваемая по уровню снижения триглицеридов (ТГ) в крови.

Обучающая выборка состояла из 25, а контрольная - из 27 соединений, синтезированных нами преимущественно в последнее время [15 - 17] (см. табл. 1). Все молекулы были отнесены к двум классам: активным (уровень снижения ТГ > 25%) и неактивным (уровень снижения ТГ < 25%).

Таблица 1. Биологическая активность 3-феноксихромонов и кумаринов

ЯЧ ^ ,Оч

(1) - (20) R' = ОН

(21) - (40) R' = 0С(0)Ме

Соеди- R Снижение Активность* Соеди- R Снижение ТГ, % Активность*

нение ТГ, % нение

1 H -23.0 30**' .w-OMe -3.4 -

2 o-F -27.0 t 31 n-OMe -14.3 -

3 п-F -44.5 + 32 o-N02 -24.8 -

4 «-Cl -12.0 - 33 JU-NO^ -33.0 +

5** o-Br -9.4 - 34 n-N02 -31.7 +

6** jti-Br -11.7 - 35** 0-0C(0)Me -38.4 +

7** «-Br -7.1 - 36** .м-0С(0)Ме -44.2 +

8** n-1 -19.9 - 37** n-ÔC(0)Me -36.0 +

9 o-OMe -4.9 - 38** и-OEt -40.4 +

10 ж-ОМе -22.7 - 39 rl-Ù 02Me -37.8 +

11 n-OMe -22.1 - 40** n-0CH(Me)C02Et -37.2 +

12 o-N02 -20.1 - MeO. Л

13 JK-N02 -24.0 - tX T fni

14 n-N02 -28.3 + R

15** o-OH -22.5 - R (41) - (4

16** м-OH -14.5 - 6) R' = OH

17** n-OH -24.7 — (47

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком