научная статья по теме ФРАГМЕНТНЫЕ ДЕСКРИПТОРЫ В МЕТОДЕ QSPR: ПРИМЕНЕНИЕ ДЛЯ РАСЧЕТА ЭНТАЛЬПИИ ИСПАРЕНИЯ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ Химия

Текст научной статьи на тему «ФРАГМЕНТНЫЕ ДЕСКРИПТОРЫ В МЕТОДЕ QSPR: ПРИМЕНЕНИЕ ДЛЯ РАСЧЕТА ЭНТАЛЬПИИ ИСПАРЕНИЯ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ»

ЖУРНАЛ ФИЗИЧЕСКОМ ХИМИИ, 2007, том 81, № 1, с. 15-18

ХИМИЧЕСКАЯ ТЕРМОДИНАМИКА И ТЕРМОХИМИЯ

УДК 541.6

ФРАГМЕНТНЫЕ ДЕСКРИПТОРЫ В МЕТОДЕ QSPR: ПРИМЕНЕНИЕ ДЛЯ РАСЧЕТА ЭНТАЛЬПИИ ИСПАРЕНИЯ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ

© 2007 г. Н. И. Жохова, В. А. Палшлин, И. И. Баскин, А. Н. Зефиров, Н. С. Зефиров

Московский государственный университет им. М.В. Ломоносова, Химический факультет E-mail zhokhova@org.chem.msu.ru; zefirov@org.chem.msu.ru Поступила в редакцию 29.12.2005 г.

Методом QSPR исследована энтальпия испарения при 25°C для 65 органических соединений, представителей 13 различных классов. Как альтернатива зависимости энтальпии испарения от температуры кипения предложена нейросетевая QSPR-модель, позволяющая прогнозировать это свойство, исходя из дескрипторов, учитывающих фрагментный состав молекулы.

Методология QSAR/QSPR в последнее десятилетие развивается чрезвычайно бурными темпами [1-10]. Хотя QSAR/QSPR исключительно успешно применялся для большого числа различных физико-химических свойств [3], наибольшие перспективы ожидаются при использовании этой методологии для предсказания плохо формализуемых свойств, таких как физиологическая активность [1, 2, 4] или параметров, характеризующих взаимодействие лекарственных веществ и организма (АБМБ) [5, 6].

Суть методологии QSAR/ QSPR заключается в следующем: 1) определяется набор соединений и для каждого из них экспериментально определяется величина (либо число, либо ранг) какого-либо свойства; 2) полученный набор делится на две части (либо случайно, либо по специальным правилам [7]), а именно на обучающую и контрольную выборки; 3) для каждого из соединений рассчитываются или определяются дескрипторы химической структуры [8-10] - специфические величины или параметры, характеризующие химическую структуру; 4) методами статистики находится корреляция между свойствами и дескрипторами для структур обучающей выборки. Результатом этого является построение QSAR/ QSPR-уравне-ния; 5) полученное QSAR/ QSPR-уравнение проверяется на предсказательную способность с использованием контрольной выборки. После этого в принципе можно использовать QSAR/QSPR-урав-нение для предсказания данного свойства тех соединений, которые не входят в первоначальный общий набор структур.

Данная работа была стимулирована появлением публикации [11]. Авторы этой работы отмечают, что "энтальпия парообразования является важнейшей термохимической характеристикой фазового перехода жидкость-пар.... и широко

используется на практике в различных термохимических расчетах." И действительно, энтальпия испарения используется, например, в экологических исследованиях для определения распределения веществ в системах почва : вода, воздух : вода или при разработке технологических процессов в химической промышленности [12].

Далее авторы [11] делают попытку найти зависимость энтальпии испарения, АуарН, от температуры кипения в соответствии с литературными данными. Они установили полиномиальный характер такой зависимости, но для каждого класса органических соединений эти зависимости имеют собственные параметры и, таким образом, универсальное уравнение не было получено [11]. Более того, температура кипения - не расчетный, а экспериментально определяемый параметр, что затрудняет использование полученных закономерностей для прогноза величин АтарН для других, особенно неизвестных соединений.

В связи с этим нам представлялось интересным попытаться применить QSPR-методологию для получения универсального, имеющего предсказательную силу, QSPR-уравнения на экспериментальном материале по величинам АтарН, взятым из работы [11]. Отметим, что в литературе имеются примеры применения методов QSPR для расчета АтарН с использованием физико-химических, топологических и структурных дескрипторов [13-16]. В работе [17] нами были предложены новый топологический индекс и QSPR-уравнение для расчета неспецифической сольватации органических неэлектролитов.

В работах [18-24] мы широко использовали фрагментные (подграфовые) дескрипторы, как для QSPR-прогнозирования физико-химических свойств органических соединений самых разных классов (хроматографических индексов удержи-

Энтальпия испарения (эксперимент и прогноз) для соединений выборки независимого прогноза [28], кДж/моль

Класс соединения [11] Соединение Эксперимент Прогноз

I н-нонан 46.4 46.8

II метилциклопентан 31.8 32.4

III метилциклогексан 35.4 37.2

IV 1-гексен 30.7 32.4

V 1-бутин 23.3 22.8

VI этилбензол 43.5 42.0

VII 1-гептанол 67.8 66.0

VIII метаналь 20.6 18.9

IX бутанон 34.6 33.4

X пентановая кислота 69.4 66.9

XI этилацетат 35.4 32.4

XII этиламин 26.6 26.1

XIII 1-хлорбутан 33.2 32.9

вания [18], температуры кипения [18], энтальпии сублимации [19], поляризуемости [20], температуры вспышки [21], диамагнитной восприимчивости [22], сродства красителей к целлюлозному волокну [23], вязкости, плотности, давления насыщенных паров [24]), так и для целей QSAR [25, 26]. Следует отметить, что любой топологический индекс может быть заменен набором фрагмент-ных дескрипторов, если количество соединений в выборке достаточно для построения статистически значимой модели [27]. Преимуществом фраг-ментных дескрипторов также является наглядность и легкая структурная интерпретация результатов QSPR/QSAR. В настоящей работе мы исследовали применение фрагментных дескрипторов для QSPR-рассмотрения энтальпии испарения AvapЯ.

В качестве модельной базы были взяты экспериментальные значения АтаН отнесенные к стандартным условиям (25°0), для 52 соединений из работы [11]. Подчеркнем, что этот набор достаточно представителен и включает органические соединения тринадцати различных классов, такие как алканы, циклоалканы, олефины, ацетилены, спирты, карбонильные соединения, кар-боновые кислоты, амины. Отметим, что в некоторых QSPR-исследованияx [19] использованы экспериментальные величины АтаН полученные при температурах кипения. База была разделена на обучающую (39 соединений) и контрольную (13 соединений, по одному соединению из каждо-

го класса: соединения номер 2, 6, 10, 14, 18, 22, 26, 30, 34, 38, 42, 46, 50 в табл. 1 из [11]) выборки. Для оценки предсказательной способности модели мы использовали независимую контрольную выборку, в которую были включены значения AvapH для тринадцати соединений [28], каждое из которых представляло один из классов модельной базы и которые не участвовали в построении модели (таблица 1). База была сформирована и проверена с помощью программ MEOW и BASTED1.

Моделирование QSPR проводили с использованием разработанной нами программы NASAWIN [25, 29-31], включающей блок FRAGMENT, который позволяет генерировать наборы фрагментов с учетом кратных связей, гетероатомов, функциональных групп и т.д. [25, 31, 32]. Построение QSPR-модели методом пошаговой регрессии осуществляли на основе предварительного расчета фрагментных дескрипторов и последующего отбора среди взаимно закоррелированных (R > 0.9) дескрипторов, наиболее коррелирующих со свойством. Рассчитывали фрагменты с максимальным размером от одного до шести атомов.

На первом этапе работы мы получили единое линейно-регрессионное QSPR-уравнение для соединений базы с использованием обучающей и контрольной выборок:

АуарЯрасч = 3.73 + 524fr 1 + 7.91 fr2 + + 5.68 fr3 + 23.93fr4 + 4.79 fr 5.

Уравнение построено на пяти одноатомных дескрипторах и имеет следующие параметры: число соединений в обучающей выборке - 38, число соединений в контрольной выборке - 13, квадрат коэффициента корреляции для обучающей выборки R2 = 0.993, квадрат коэффициента корреляции для контрольной выборки R^mp = 0.982, стандартное отклонение 5 = 1.785, критерий Фишера F = 908.19, среднеквадратичная ошибка для обучающей выборки RMSо6уч = 1.64. В уравнении (1) fri равно числу следующих фрагментов в молекулах: fr1 - Cl, fr2 - NH2, fr3 - =O, fr4 - OH, fr5 -общее число неводородных атомов в молекуле.

Наибольшее отклонение в обучающей и контрольной выборках наблюдается для 1-гептина (3.7 кДж/моль) и ди-н-бутилкетона (-4.1 кДж/моль). На величине энтальпии испарения наиболее существенным образом отражается наличие гидрок-сильных групп в молекуле, что, очевидно, связано с образованием водородных связей. Прогнозирующие свойства фрагментной модели оценивали с помощью независимой выборки, составленной по

1 Эти программы сделаны для ручного ввода, сортировки и поиска дубликатов в структурных базах для QSPR-исследо-ваний. Полученные базы могут работать с программой

NASAWIN либо конвертируются в другие форматы, включая Эти программы доступны по запросу у авторов.

ФРАГМЕНТНЫЕ ДЕСКРИПТОРЫ В МЕТОДЕ QSPR

17

данным [28], включающей 13 соединений (таблица): ^прогн = 0.988, RMS^^ = 1.57. Диаграммы разброса расчетных и экспериментальных значений энтальпии парообразования для обучающей выборки (а) и независимой выборки для прогноза (б) для этой модели представлены на рисунке. В отличие от уравнений, предложенных в работе [11] и представляющих собой частные случаи для расчета этого свойства для каждой группы из тринадцати классов, включающей по четыре соединения базы, полученная линейно-регрессионная QSPR-модель является единым уравнением для расчета энтальпии испарения исследованных соединений. Модель позволяет избежать использования таких экспериментальных параметров, как температура кипения, и ограничиться только знанием структурной формулы соединения.

С целью аппроксимации возможных нелинейных отклонений зависимости энтальпии испарения от фрагментного состава молекулы для построения QSPR-модели мы применили искусственные нейронные сети. Использовали набор фрагментных дескрипторов и выборки соединений, идентичные взятым для линейно-регрессионной QSPR-модели (1). Для построения нейросе-тевой модели была использована трехслойная однонаправленная нейронная сеть, реализованная в рамках программы NASAWIN [31, 33]. Обучение нейросети осуществляли методом обратного распространения ошибки (feed-forward backpropaga-tion neural network). Входной слой включал пять нейронов (и один псевдонейрон смещения) в соответствии с числом предварительно отобранных дескрипторов. Во внутренний слой

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком