научная статья по теме ОБОБЩЕННЫЙ ФРАГМЕНТНЫЙ ПОДХОД В ИССЛЕДОВАНИЯХ QSAR/QSPR Математика

Текст научной статьи на тему «ОБОБЩЕННЫЙ ФРАГМЕНТНЫЙ ПОДХОД В ИССЛЕДОВАНИЯХ QSAR/QSPR»

ДОКЛАДЫ АКАДЕМИИ НАУК, 2015, том 463, № 3, с. 297-300

== ХИМИЯ =

УДК 544.165

ОБОБЩЕННЫЙ ФРАГМЕНТНЫЙ ПОДХОД В ИССЛЕДОВАНИЯХ QSAR/QSPR © 2015 г. С. Б. Соснин, Е. В. Радченко, В. А. Палюлин, академик РАН Н. С. Зефиров

Поступило 10.02.2015 г.

Работа посвящена развитию обобщенного фрагментного подхода к анализу количественной связи структуры со свойствами и биоактивностью органических соединений. Предложены методы генерации множеств обобщенных фрагментных дескрипторов и продемонстрированы преимущества их использования при построении классификационных и регрессионных моделей QSAR/QSPR. Полученные модели для прогнозирования мутагенности и температуры вспышки органических соединений представляют также самостоятельную ценность при решении задач молекулярного дизайна соединений с заданными свойствами.

DOI: 10.7868/S0869565215210112

В ходе дизайна и поиска новых перспективных структур потенциальных лекарственных веществ широко используют методы анализа количественной связи структура—активность и структура-свойство (Quantitative Structure—Activity/Property Relationships, QSAR/QSPR), которые предполагают описание структуры соединений посредством набора числовых параметров (дескрипторов) и построение предсказательных моделей связи активности или свойства с такими параметрами с помощью методов статистического машинного обучения. В частности, фрагментные (подструк-турные) дескрипторы [1—3] отражают присутствие или количество определенных структурных фрагментов (подграфов) в молекулярном графе, соответствующем структуре соединения. С целью расширения области применимости моделей часто вводят так называемые обобщенные фрагменты, отличающиеся менее детализированными требованиями к атрибутам атомов и связей. Использование фрагментных дескрипторов оказывается особенно продуктивным при моделировании физико-химических свойств, фармакокинетических параметров (всасывания, распределения, метаболического изменения и выведения) и токсичности органических соединений (ADME/Tox). Таким образом обеспечивается возможность построения моде-

Московский государственный университет им. М.В. Ломоносова

Институт физиологически активных веществ Российской Академии наук, Черноголовка Московской обл. E-mail: geniе@qsar.chem.msu.ru

лей достаточно высокой точности, допускающих понятную химическую интерпретацию.

К настоящему времени предложено довольно много вариантов фрагментного подхода, которые с успехом применяют в исследованиях QSAR/QSPR. Тем не менее все они, как правило, используют лишь достаточно простые фрагменты ограниченного размера (линейные цепочки, иногда простые циклы и разветвления), а также жестко заданные схемы генерации и обобщения фраг-ментных дескрипторов, что в ряде случаев затрудняет построение моделей высокого качества и их интерпретацию. Целью настоящей работы является разработка методов: 1) автоматической генерации фрагментов произвольной структуры на основании исходной выборки химических соединений и 2) автоматического формирования обобщенных фрагментов. Это позволит расширить область применимости моделей, более гибко учесть при их построении особенности конкретной биомишени и анализируемых соединений, а также более четко выявить ключевые структурные элементы для проявления активности.

В рамках предлагаемого подхода для молекулярных графов соединений анализируемой выборки определяют множество всех связных подграфов, ограниченных сверху по количеству вершин. Одновершинные подграфы перечисляют непосредственно. Для нахождения подграфов большего размера (которые могут различаться не только множеством вершин, но и множеством ребер) в соответствии с принципом, предложенным в работе [4], выполняют перечисление связных вер-шинно-порожденных подграфов вспомогательного реберного графа с помощью алгоритма поиска в глубину с возвращением. На каждом шаге

298

СОСНИН и др.

H

HC ^CH i: :i

hc^ .с «о

C N H

145

a' a

I! !l A

a A

„а

234567 C C

2367

234567

C ,C.. -O ~C N

2367

.H,

H2C CH2 21 I 2 H2C^ ^CH ^OH 2 C N

H2 H

145

A A I I

AA

145

H

A Ж ^CH

HCV>CV

H

O

234567

„C.

C C C., ..C. .о

N C

145

Я4567 H,C CH;

H,^ .CH .. 2 N + ^C H H,

2

OH

Рис. 1. Схема формирования обобщенных фрагментов для молекулярных графов нитрозобензола, формилпиридина, циклогексилгидроксиламина и гидроксиметилпиперидиния.

Символ "А" означает произвольный алифатический атом, символ "а" — произвольный ароматический атом, символ * — произвольный атом, штриховая линия означает произвольную связь. Цифрами обозначены функции обобщения по атрибутам атомов и связей: 1 — символ атома, 2 — ароматичность атома, 3 — гибридизация, 4 — формальный заряд, 5 — число атомов водорода, 6 — порядок связи, 7 — ароматичность связи.

поиска рассматривают все вершины реберного графа, смежные с текущим его подграфом, включение которых не приведет к превышению заданного числа вершин целевого подграфа.

Далее на основе найденных подграфов молекулярного графа формируют обобщенные фрагменты. Для каждого атома молекулярного подграфа могут задаваться пять атрибутов (символ, ароматичность, гибридизация, формальный заряд, число атомов водорода), а для каждой связи — два атрибута (порядок связи и ароматичность). Каждый из атрибутов может либо иметь какое-то конкретное значение, либо находиться в состоянии "не определено". Под обобщением фрагмента понимается изменение каких-либо атрибутов из определенного состояния в состояние "не определено". В предлагаемом подходе функции обобщения применяют одновременно ко всем атомам и связям фрагмента, поскольку при обобщении отдельных атомов и связей возникает проблема комбинаторного взрыва — количество полученных обобщенных фрагментов оказывается чрезмерно большим, что затрудняет статистический анализ и вносит дополнительный шум. Пример формирования набора обобщенных фрагментов для реальных структур представлен на рис. 1. Затем для каждого фрагмента производят подсчет количества вхождений в каждый молекулярный граф из анализируемой выборки. Для генерации множеств обобщенных фрагментных дескрипторов в соответствии с описанной моделью нами был разрабо-

тан программный пакет HFrag на функциональном языке программирования Haskell.

Для демонстрации применимости предложенного метода в задачах моделирования связи структуры с биоактивностью и свойствами органических соединений он был использован для построения предсказательных моделей мутагенности и температуры вспышки.

При построении модели связи структуры и мутагенности в качестве обучающей выборки использовали набор из 4329 органических соединений различных классов [5], среди которых для 2401 соединения зафиксирована активность в тесте мутагенности Эймса, а 1928 соединений не проявляют такой активности (из выборки были исключены восемь природных соединений, обладающих слишком большой молекулярной массой). Для всех соединений проводили генерацию множества всех фрагментных дескрипторов с числом атомов от 1 до 7 включительно. Далее исключали фрагменты, которые встречаются менее чем в пяти молекулах, поскольку использование таких уникальных фрагментов в ходе машинного обучения сильно сужает область применимости построенных моделей. Среди полученных 25 543 дескрипторов (из которых для 20894 дескрипторов атомы и связи не обобщены ни по одному атрибуту, а для 4649 дескрипторов хотя бы один атрибут обобщен) методом множественной пошаговой линейной регрессии с последовательным добавлением дескрипторов от-

ОБОБЩЕННЫЙ ФРАГМЕНТНЫЙ ПОДХОД

299

Таблица 1. Статистические параметры классификационных моделей мутагенности органических соединений, рассчитанные с помощью процедуры перекрестного контроля

Модель Чувствительность Специфичность Общая точность

Набор фрагментов НОФ НФ ОФ НОФ НФ ОФ НОФ НФ ОФ

Метод опорных векторов 0.83 0.82 0.81 0.86 0.83 0.79 0.84 0.82 0.80

Метод случайного леса 0.83 0.81 0.81 0.82 0.83 0.82 0.82 0.82 0.81

Примечание. НОФ — необобщенные и обобщенные фрагменты, НФ — только необобщенные фрагменты, ОФ — только обобщенные фрагменты.

бирали 100 фрагментных дескрипторов, наиболее значимо связанных с активностью.

Для построения предсказательных классификационных моделей применяли методы опорных векторов и случайного леса. Качество моделей оценивали при помощи процедуры 5-кратного перекрестного контроля, используя параметры общей точности распознавания, чувствительности (точности распо-

знавания активных соединений) и специфичности (точности распознавания неактивных соединений), значения которых представлены в табл. 1. Как видно, оба метода показали хорошие результаты, которые максимально приближены к порогу межлабораторной воспроизводимости теста Эймса, составляющему 85% [6], а также сопоставимы с лучшими опубликованными в литературе моде-

F3 < 1

F4 < 1

ГД^ F1 < 55 (Нет)

/ \

F2 < 1 Щ

А,

А

л

ч / ч /

F5 < 3

А

А

А

F6 < 2

F7 < 5

F8 < 1

F9 < 1

с Л

№Р3-

V )

Г \

САг

V )

г А А-'------А

'--7^р2 -

Ср2 N

(

7 Сзр3 — _Ср3

V У

2

3

4

5

F10 < 1

F11 < 1

СНГ'

СН2

С1

11

9

8

Ср3

Вг

Рис. 2. Лучшее дерево принятия решения в модели случайного леса для прогнозирования мутагенности органических соединений (черный кружок — соединение считается мутагенным, белый — немутагенным).

В условиях проверяется число вхождений соответствующего фрагмента в структуру. В обозначениях фрагментов А —

2

любой атом (все пять атрибутов обобщены), САг — ароматический атом углерода, Ср — атом углерода в состоянии ги-

3

бридизации ¿р2, Ср — атом углерода в состоянии гибридизации ¿р3, Да — алифатический атом азота. Если атрибут не задан в явном виде, это означает, что он не определен (за исключением случаев, когда он однозначно задается другими

2

атрибутами, например, Саг подразумевает Ср ). Для связей штриховая линия означает произвольную связь (порядок и ароматичность обобщены).

300

СОСНИН и др.

лями или превосходят их [5, 7]. При этом модели, опирающиеся только на обобщенные дескрипторы, несмотря на значительно меньшее их число, практически не уступают по точности моделям с полным набором дескрипторов.

Для интерпретации фрагмен

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком