научная статья по теме ФРАГМЕНТНЫЕ ДЕСКРИПТОРЫ С “ВЫДЕЛЕННЫМИ” АТОМАМИ И ИХ ПРИМЕНЕНИЕ В ИССЛЕДОВАНИЯХ КОЛИЧЕСТВЕННЫХ СООТНОШЕНИЙ “СТРУКТУРА–АКТИВНОСТЬ”/“СТРУКТУРА–СВОЙСТВО” Математика

Текст научной статьи на тему «ФРАГМЕНТНЫЕ ДЕСКРИПТОРЫ С “ВЫДЕЛЕННЫМИ” АТОМАМИ И ИХ ПРИМЕНЕНИЕ В ИССЛЕДОВАНИЯХ КОЛИЧЕСТВЕННЫХ СООТНОШЕНИЙ “СТРУКТУРА–АКТИВНОСТЬ”/“СТРУКТУРА–СВОЙСТВО”»

ДОКЛАДЫ АКАДЕМИИ НАУК, 2007, том 417, № 5, с. 639-641

= ХИМИЯ =

УДК 541.6

ФРАГМЕНТНЫЕ ДЕСКРИПТОРЫ С "ВЫДЕЛЕННЫМИ" АТОМАМИ И ИХ ПРИМЕНЕНИЕ В ИССЛЕДОВАНИЯХ КОЛИЧЕСТВЕННЫХ СООТНОШЕНИЙ "СТРУКТУРА-АКТИВНОСТЬ"/"СТРУКТУРА-СВОЙСТВО"

© 2007 г. Н. И. Жохова, И. И. Баскин, В. А. Палшлин, А. Н. Зефиров, академик Н. С. Зефиров

Поступило 30.05.2007 г.

Методы исследования количественных соотношений "структура-активность"/"структура-свойство" (QSAR/QSPR) широко используют для прогнозирования физико-химических свойств и биологической активности химических соединений [1-3]. В ряде случаев в рамках фрагментного подхода - универсального приема построения количественных соотношений "структура-актив-ность"/"структура-свойство" [4] - представляет интерес прогнозирование характеристик исследуемых соединений с использованием дескрипторов, рассчитываемых на основе молекулярных фрагментов, включающих определенные атомы, которые играют специфическую роль в описании данной характеристики. Для идентификации такого рода атомов во фрагментах мы маркировали их специальной меткой [5]. В данной работе мы предлагаем использовать фрагментные дескрипторы с "выделенными" атомами при QSAR/QSPR исследовании широкого круга свойств: при расчете локальных характеристик молекул таких, например, как химические сдвиги в спектрах ЯМР; при прогнозировании биологической активности для однородных выборок соединений, содержащих общий фрагмент с анкерными атомами, к которым присоединены заместители; для прогнозирования кинетических параметров химических реакций одного типа. В каждом случае предлагаемый прием обеспечивает использование в построении моделей наиболее важных по смыслу фрагментных дескрипторов. Применение таких дескрипторов проиллюстрировано на примерах моделирования: 1) химических сдвигов в 31Р ЯМР-спектрах производных монофосфинов, 2) способности аналогов 1-[(2-гидроксиэтокси)-метил]-6(фенилтио) тимина ингибировать обратную транскриптазу вируса ВИЧ-1 и 3) констант скорости гидролиза эфиров карбоновых кислот.

Московский государственный университет им. М.В. Ломоносова

Расчет фрагментных дескрипторов с "выделенными" атомами и построение QSAR/QSPR-мо-делей методами быстрой пошаговой множественной линейной регрессии (БПМЛР) и трехслойной однонаправленной искусственной нейронной сети (ИНС) осуществляли с помощью программного комплекса NASAWIN [6, 7]. Число нейронов во входном слое ИНС соответствовало числу отобранных дескрипторов, число скрытых нейронов во внутреннем слое варьировалось от 2 до 5, выходной слой состоял из одного нейрона. В качестве алгоритма обучения использовался RPROP [8].

Для оценки прогнозирующей способности моделей была применена оригинальная процедура Ы(Ы - 1)-кратного двойного скользящего контроля [9]. При таком подходе исходная база данных систематически разбивается на три части: обучающую, внутреннюю контрольную и внешнюю контрольную выборки в соотношении (Ы - 2) : 1 : 1. Информация из внутренней контрольной выборки используется для отбора моделей с наибольшей прогнозирующей способностью. Информация из внешней контрольной выборки никак не учитывается при построении и отборе моделей, и поэтому ошибка прогнозирования на ней (как среднеквадратичная, так и средняя абсолютная) может быть использована для оценки реальной прогнозирующей способности моделей. При таких разбиениях каждое соединение из исходной базы данных попадает в обучающую выборку N - 3Ы + 2 раза, во внутреннюю контрольную выборку N - 1 раз и во внешнюю контрольную выборку - также N - 1 раз. Предсказанное значение свойства для каждого соединения вычисляется как среднее из предсказанных значений при всех N - 1 разбиениях, при которых оно попадает во внешнюю контрольную выборку. В данной работе N = 5.

При построении линейно-регрессионных моделей предложенным нами методом БПМЛР [9] внутренняя контрольная выборка используется для определения оптимального числа включае-

640

ЖОХОВА и др.

мых в модель дескрипторов. В рамках этого метода текущий вектор ошибок инициируется экспериментальными значениями свойств соединений из обучающей выборки. На каждой итерации дескриптор, наилучшим образом коррелирующий с текущим вектором ошибок на обучающей выборке, добавляется к текущему набору отобранных дескрипторов, а соответствующая регрессионная модель, построенная на этом дескрипторе, используется для пересчета текущего вектора ошибок, который уже используется на следующей итерации для отбора следующего дескриптора и т.д. Интересной и нетривиальной особенностью этого приема является то, что каждый дескриптор может быть включен в модель несколько раз на разных итерациях. При добавлении очередного дескриптора регрессионный коэффициент при свободном члене из построенного на нем регрессионного уравнения суммируется с текущим коэффициентом при свободном члене в многомерной (т.е. включающей множество дескрипторов) модели. Регрессионный коэффициент при самом дескрипторе переносится в многомерную модель, если дескриптор включается в нее в первый раз, либо суммируется с уже имеющимся значением при последующем включении его в модель. Процесс пошагового отбора дескрипторов и построения результирующей модели останавливается по достижению наименьшей ошибки прогнозирования для внутренней контрольной выборки, тогда как ошибка прогнозирования для внешней контрольной выборки, информация из которой никак не учитывается в проводимом статистическом анализе, используется для оценки прогнозирующей способности результирующей многомерной линейной регрессионной модели. При построении моделей с помощью искусственной нейронной сети внутренняя контрольная выборка применяется для определения точки остановки обучения с целью предотвращения эффекта "переучивания".

В результате на основе усреднения NN - 1) частных БПМЛР и ИНС моделей, выводимых при разных разбиениях исходной базы данных, получаются соответствующие комбинированные многомерные модели. Вычисляемые статистиче-

ские характеристики включают еост

е2

параметр

^ = ^ ^ , где Р88 - сумма квадратов ошибок прогноза свойства, ££ - сумма квадратов отклонения свойства от среднего значения

контроля обеспечивает наиболее корректную оценку реальной прогнозирующей способности моделей, способ отбора которых предполагает использование контрольной выборки либо процедуры скользящего контроля.

Приведем примеры применения дескрипторов с "выделенными" атомами в исследованиях QSAR/QSPR.

Пример 1. Для построения QSPR-моделей химических сдвигов в 31Р ЯМР-спектрах замещенных монофосфинов использовали базу данных, включающую 291 фосфин РН3 _ в том числе 29 первичных, 38 вторичных и 224 третичных с различными заместителями [10]. Диапазон экспериментальных значений химических сдвигов от -183 до +61 ррт. Известно, что величины химических сдвигов зависят от степени экранирования ядер атомов электронным облаком, плотность которого зависит от характера присоединенных к этим атомам заместителей. В связи с этим представлялось целесообразным использование дескрипторов, описывающих электронное и пространственное влияния этих заместителей. В качестве таковых были выбраны дескрипторы, основанные на числе вхождения в структуру фрагментов, содержащих от 4 до 10 неводородных атомов и включающих атом Р, маркированный меткой а. Из серии полученных нами комбинированных БПМЛР и ИНС моделей лучшая модель БПМЛР имеет следующие характеристики

прогнозирующей способности: еост = 0.9560, ЯМЖосу = 9.1 ррт, МЛЕосу = 6.1 ррт. Наиболее значимыми для описания исследуемого свойства являются следующие фрагменты с "выделенным" атомом Ра:

для усредненных спрогнозированных значений; ЛМ5Еосу - среднеквадратичную ошибку прогнозирования; МЛЕосу - среднюю абсолютную ошибку прогнозирования. Метод двойного скользящего

Ра_с ра-СН3 Ра-С-С Ра-С( Ра-С

Ъи у

¥

Первые три фрагмента отражают с-индукцион-ное влияние алкильных заместителей на атом фосфора, четвертый - эффект сопряжения с ароматическим ядром, пятый - влияние расположенного в орто--положении атома фтора.

Пример 2. Ингибирующую активность в отношении обратной транскриптазы вируса ВИЧ-1, представленную эффективной концентрацией

Iсоединений, необходимой для достижения

ЕС50

50%-ной защиты клеток линии МТ-4 от цитоток-сического действия вируса, исследовали для однородной выборки производных 1-[(2-гидрокси-этокси)-метил]-6(фенилтио) тимина [11]. Ниже приведены общий структурный элемент соединений выборки и фрагменты заместителей R1, R2 и

ФРАГМЕНТНЫЕ ДЕСКРИПТОРЫ

641

R3, которые соответственно связаны с анкерными атомами общего фрагмента, маркированными

метками Ь, с и с1, и которые вносят наибольший вклад в лучшую комбинированную модель:

O

А.

d

,R

N С I II

С a r*c

X" Nb R2 1

R3

Csp3 d \sp3

d—R1

c- S

c—R2

H2 H2 -Г^С b'^O^CH

d—R1 b—R3

d

Модель получена с помощью метода ИНС и имеет следующие параметры прогнозирующей способности: Оку = 0.8561, КМ8Е] = 0.41.

DCV = 0.520 и MAEDCV =

Пример 3. База данных, содержащая сведения по константам скорости гидролиза, измеренным в диапазоне температур от 0 до 154°С в бинарных системах вода-растворитель (концентрация неводного компонента 0-98%), для 2092 эфиров карбоновых кислот, была использована для прогнозирования константы скорости реакции, ^ к [12, 13]. В зависимости от природы заместителей у атомов С и О кислотного остатка эфиров экспериментальные значения ^к изменялись от -7.53 до -0.17. QSPR-модели строили с помощью метода ИНС с использованием в качестве дескрипторов температуры, концентрации органических растворителей, параметров, характеризующих их свойства [13], а также фрагментов, содержащих "выделенные" атомы, которые в соответствии с основными концепциями механизма реакции [14] входят в состав реакционных центров на какой-либо из ее стадий. Каждый из таких фрагментов описывает влияние ближайших к реакционным центрам групп атомов на скорость реакции. Лучшая комбинированная модель для этой выборки

получена с помощью метода ИНС и имеет О^ст = = 0.9162, ДМЖОСу = 0.31 и М4ЕоСу = 0.19. Ниже схематически приведены три фрагмента, наличие которых в структуре наиболее сильно отраж

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком