научная статья по теме ОЦЕНКА ОПАСНОСТИ ОРГАНИЧЕСКИХ ВЕЩЕСТВ С ИСПОЛЬЗОВАНИЕМ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ Химическая технология. Химическая промышленность

Текст научной статьи на тему «ОЦЕНКА ОПАСНОСТИ ОРГАНИЧЕСКИХ ВЕЩЕСТВ С ИСПОЛЬЗОВАНИЕМ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ»

ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ХИМИЧЕСКОЙ ТЕХНОЛОГИИ, 2009, том 43, № 2, с. 225-231

УДК 678.6:681.3.002

ОЦЕНКА ОПАСНОСТИ ОРГАНИЧЕСКИХ ВЕЩЕСТВ С ИСПОЛЬЗОВАНИЕМ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ

© 2009 г. И. В. Гермашев, Е. В. Дербишер*, А. Ю. Александрина*, В. Е. Дербишер*

Волгоградский государственный педагогический университет *Волгоградский государственный технический университет germasheviv@mail.ru Поступила в редакцию 31.05.2007 г.

Разработана процедура оценки класса опасности химических структур с использованием искусственных нейронных сетей. Строение нейронной сети основано на структурном анализе химических соединений. Обучение и апробация проведены в рамках компьютерной базы данных химических веществ.

Среди актуальных экологических задач в последние годы в отдельную группу выделились задачи выявления предполагаемых негативных последствий намечаемой хозяйственной и иной деятельности на окружающую среду и природные ресурсы. Сложность заключается еще и в самой постановке современной задачи экологической экспертизы и диагностики веществ, носящих многокритериальный характер, опирающихся как на количественные оценки, так и на экспертные заключения специалистов разного профиля.

Одним из направлений решения данной проблемы является создание автоматизированных систем, позволяющих дать оценку опасности использования веществ в хозяйственной и производственной деятельности для экологической системы. Для этого используются информационно-поисковые, экспертные, системы генерации химических структур с заданными свойствами [1, 2].

В данной работе для оценки экологической опасности веществ предлагается использовать искусственные нейронные сети (ИНС), получившие в последнее время серьезное развитие [3, 4], что позволяет применять их в интеллектуальных системах самых разных направлений [5-8]. Что собственно выразилось также и в создании сред моделирования нейронных сетей, как в качестве самостоятельных продуктов, так и в форме библиотек, подключаемых к средам высокоуровневого программирования.

В рамках данной проблемы решим следующую задачу. Пусть получено новое химическое соединение, предполагаемое к дальнейшему детальному исследованию и применению в производственно-хозяйственной деятельности. Необходимо дать численную оценку его экологической опасности (например, токсичности). Собственно набор вредных факторов воздействия вещества на экологическую систему определяется уже исходя из конкретной задачи.

Для решения задачи предлагается выделить химические соединения, обладающие свойствами, обеспечивающими эти факторы (активные), и не обладающие (неактивные). Далее с помощью структурного анализа построить статистическую модель этих множеств и на этой основе реализовать ИНС.

Формирование обучающей и контрольной выборок для обучения ИНС. В качестве обучающей выборки для данной работы были взяты известные, хорошо исследованные органические вещества. Основные данные по структуре, технологическому назначению и токсичности соединений, входящих в обучающие выборки, перенесены в профилированную базу данных из справочника [9].

Из полученной выборки на данном этапе были исключены неорганические соединения и смеси. Главным критерием для включения химических соединений в базу данных явилось наличие достоверных сведений об уровне токсичности, классе опасности и других экологических свойствах.

В результате общий объем базы данных составил 913 веществ: 48 веществ в I классе опасности, 290 веществ во II классе опасности, 277 веществ в III классе опасности и 298 веществ в IV классе опасности.

Аналогично на основании дополнительной информации была сформирована контрольная база данных. Для компьютерной реализации была выбрана иерархическая база данных в рамках системы управления базами данных ChemFinder пакета ChemOffice, структура которой показана на рис. 1.

Представление структуры химических соединений. Нейронные сети, как правило, оперируют с информацией заданной в виде чисел, которые подаются на входные синапсы, а ответ также представляется в виде чисел. Поэтому для анализа химических структур необходима, во-первых, особая архитектура нейронной сети и, во-вторых, подходящие под эту архитектуру дескрипторы химической структуры.

Идентификационный номер Структура Брутто-формула Молекулярная масса Источник информации Химическое название Температура плавления Температура кипения Элементный состав Технологические свойства Горючесть и взрывоопасность Растворители Токсичность Класс опасности

Примечание

Назначение, эффективность, способы синтеза

Идентификационный номер Технологическая функция Количественные характеристики Способы синтеза Дополнения

Поставщики

Идентификационный номер

- Торговое название

- Производитель

Рис. 1. Структура базы данных органических соединений.

Для начала рассмотрим процедуру формализации структуры химического соединения. Формализуем структуру химического соединения путем генерации всевозможных молекулярных цепочек (т.е. генерации всевозможных простых цепей в соответствующем молекулярном графе). Для этого введем следующие виды дескрипторов:

Атомный дескриптор (АД) - атом (или атомы) (кроме водорода), объединенный химической связью с одним или несколькими атомами водорода, рассматриваемый как одна целая структурная единица; при этом различают АД для одних и тех же атомов, но соединенных с молекулой разными химическими связями (например, -О-, =0 - это разные

АД). Примерами АД также могут служить -КН2, -СН=, >Р- и т.д. Для удобства представления закодируем те АД, которые будут в дальнейшем встречаться в нашей работе, следующим образом: -СН3 - 1,

-СН2- - 2, -ОН - 3, >С= - 4, =0 - 5.

Дескриптор длины (ДД) - число последовательных химических связей, соединяющих два каких либо АД. ДД принимает значения из множества натуральных чисел.

Дескриптор связи (ДС) показывает типы связей в молекулярной цепочке: а-связей, п-связей и химических связей, отличных от ковалентной.

В качестве примера разложим на всевозможные молекулярные цепочки молекулу этилового спирта:

НзС

ЧС'

Н2

.ОН

1. (1, 1, 2),

2. (1, 1, 2, 1, 3),

3. (2, 1, 1),

4. (2, 1, 3),

5. (3, 1, 2),

6. (3, 1, 2, 1, 1).

Здесь каждая молекулярная цепочка описана последовательностью чередующихся дескрипторов АД и ДС, где в качестве ДС стоит код химической связи, соединяющей атомы, соответствующие соседним дескрипторам АД (1 - а-связь, 2 - двойная п-связь и т.п.). При этом в цепочке на нечетных местах стоят АД, а на четных - ДС.

Схема обучения ИНС. Пусть задан набор веществ 5 = г = 1, ..., п} и ш-мерное параметрическое пространство свойств Qm = Q1 х ... х Qm, с некоторой метрикой р: Qm х Qm —Я, определяющей расстояние между двумя точками пространства Qm. Каждому веществу поставлен в соответствие вектор значений признаков хг е Qm, г = 1, ..., п.

Также заданы классы эквивалентности А = {Аь ..., Ак} веществ относительно их свойств. Для каждого нового вещества необходимо найти класс, к которому он принадлежит. Отнесение к классу проводится путем его сравнения с типичными элементами разных классов и выбора ближайшего. В терминах построенного пространства Qm малое значение р(хг, ху) будет означать сходство свойств соответствующих веществ ^ и ¿у.

Далее необходимо провести кластерный анализ множества 5 на Qm.

Таким образом, накапливаются знания о классах веществ. Для определенности положим:

А4 = А3 и А2 - "активные соединения", А3 - "высоко активные соединения", А2 - "умеренно активные соединения", Ах - "неактивные соединения".

На этом этапе мы уже можем сформулировать нашу задачу более формально.

Пусть 5 = Ах и А4, где Ах п А4 = 0, ву - цепочка №] вещества г = 1, ..., п,у = 1, ..., кг, где кг - число цепочек для вещества

Необходимо построить, вообще говоря, многослойную ИНС с входами хр и выходами ур, р = 1, ..., г, где г - число нейронов в слое, обладающее следующими свойствами.

Обучение ИНС проводится на основе множества 5 так, чтобы она могла идентифицировать некоторое вещество 8 £ 5, заданное цепочками ву, ] = 1, ..., к8, где к8 - число цепочек для 8, по следующей схеме. Множество {с^|у = 1, ..., к8} подается на вход ИНС, а в качестве идентифицирующей функ-

г

ции используем У = ^ ур: при У > 0 положим

р = 1

8 е А4, иначе - 8 е А1. Выбор такой идентифицирующей функции связан со статистическими соображениями, т.е. фактически ур - это статистика по некоторому подмножеству молекулярных цепочек, где подсчитывалась частота появлений звеньев молекулярных цепочек, учитывая также местоположение и окружение звеньев в цепочке. Поэтому сумма всех ур даст статистику по всему множеству молекулярных цепочек, а знак величины У лишь служит формальным признаком, среди веществ какого класса эквивалентности чаще встречаются звенья молекулярных цепочек диагностируемого вещества 8.

Основываясь на данной ИНС, реализуется зависимость "структура-свойство". Поскольку классы эквивалентности А1 и А4 представляют, вообще говоря, произвольное свойство вещества, то и идентифицируется также, вообще говоря, произвольное свойство вещества. Однако в рамках данного исследования, мы будем далее рассматривать только свойства, влияющие на экологическую обстановку (например, токсичность).

Далее на основе накопленной информации необходимо провести обучение распознающей системы (ИНС) по алгоритму:

1. Из обучающей выборки берется текущее соединение (вещество) и его параметры подаются на входные синапсы обучаемой нейронной сети. В нашем случае - это молекулярные цепочки.

2. Молекулярная цепочка проходит по ИНС от слоя к слою согласно АД. Очередной АД в цепочке служит ключом, определяющим к какому именно нейрону двигаться в следующем слое, а ДС определяет по какому именно синапсу. При этом вектор входных сигналов распространяется по связям между нейронами и модифицирует их, настраивая на уве-

\ \ \ \ \

© © ® © ©

© © © © ©

Рис. 2. Нейронная сеть перед обучением (нейроны раскрашены в цвета, соответствующие принятой выше кодировке для АД).

личение пропускной способности на соответствующих синапсах (если соединение активно) или на уменьшение (если соединение неактивно).

3. Шаги 1 и 2 по

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком