научная статья по теме ПОПОЛНЕНИЕ ОНТОЛОГИЙ НА ОСНОВЕ АЛГЕБРАИЧЕСКОГО ФОРМАЛИЗМА ИНФОРМАЦИОННЫХ СИСТЕМ И МУЛЬТИАГЕНТНЫХ АЛГОРИТМОВ АНАЛИЗА ТЕКСТА Математика

Текст научной статьи на тему «ПОПОЛНЕНИЕ ОНТОЛОГИЙ НА ОСНОВЕ АЛГЕБРАИЧЕСКОГО ФОРМАЛИЗМА ИНФОРМАЦИОННЫХ СИСТЕМ И МУЛЬТИАГЕНТНЫХ АЛГОРИТМОВ АНАЛИЗА ТЕКСТА»

- ПЕРСПЕКТИВЫ СИСТЕМ ИНФОРМАТИКИ

У V ; 004.032.24, 512

ПОПОЛНЕНИЕ ОНТОЛОГИЙ НА ОСНОВЕ АЛГЕБРАИЧЕСКОГО ФОРМАЛИЗМА ИНФОРМАЦИОННЫХ СИСТЕМ И МУЛЬТИАГЕНТНЫХ АЛГОРИТМОВ

АНАЛИЗА ТЕКСТА *

© 2015 г. Н.О. Гаранина, Е.А. Сидорова

Институт систем, информатики им. А. П. Ершова СО РАН 630090 Новосибирск, пр. Лаврентьева, 6 E-mails: garanina, lena@iis.nsk.su Поступила в редакцию 01.12.2014

В статье представлен подход к пополнению онтологии как работа с информационными системами Скотта. Отношение выводимости в информационной системе пополнения онтологии соответствует правилам обработки входных данных и пополнения онтологии. Для реализации процесса пополнения онтологии предложен мультиагентный подход, базирующийся на семантическом анализе текста на естественном языке. В предложенной мультиагентной модели взаимодействуют агенты двух основных типов: информационные агенты, соответствующие значимым единицам извлекаемой информации, и агенты-правила, реализующие правила пополнения заданной онтологии на основе семантико-синтаксической модели языка.

1. ВВЕДЕНИЕ

В настоящее время онтологические базы знаний широко используются для хранения информации, полученной из большого количества источников. Для пополнения таких онтологий разрабатываются формализмы и методы, позволяющие автоматизировать данный процесс.

Мы предлагаем рассматривать процесс пополнения онтологий как работу с информационными системами, которые являются понятием теории областей [1]. Информационная система может служить универсальной моделью для систем организации знаний (онтологий, тезаурусов, баз данных и т.п.). Информационные системы являются "синтаксическим" представлением областей Скотта. Они просты, хорошо изучены и в контексте пополнения онтологий обладают, в частности, полезными свойствами отношения выводимости. В рамках алгебраического подхода к работе с онтологиями обычно применяется теория формального анализа понятий, которая позволя-

* Исследование поддержано Российским Фондом Фундаментальных Исследований (грант № 13-01-00643, грант № 13-07-00422).

ет обогащать онтологию новыми понятиями [2]. Теория областей Скотта использовалась в контексте обогащения онтологии топологическими отношениями [3].

В нашей работе предлагается подход к пополнению онтологий из произвольно структурированных данных. Показано, что система пополнения онтологии является информационной системой, что дает представление о некоторых общих свойствах процесса пополнения. Однако сам процесс может быть реализован различными способами. Мы разрабатываем мультиагентный подход к пополнению онтологий, который имеет следующие достоинства: (1) агенты ускоряют процесс обработки, поскольку действуют параллельно; (2) они эффективно используют ресурс данных точно тогда и где это необходимо; (3) агенты могут разрешать неоднозначности посредством конкуренции. Последовательный анализ данных с использованием правил менее эффективен, поскольку необходимо перебирать правила с целью подобрать подходящее к заданной части данных. Агентный подход позволяет избавиться от перебора правил.

Мультиагентный подход к извлечению информации из разнородных источников данных для пополнения онтологий достаточно распространен. В частности, он используется для обработки текстов на естественном языке [4, 5, 6, 7] и информации из сети Интернет [8, 9, 10]. Поведение агентов в этих задачах различается. Обычно при обработке информации из Интернета агенты являются высокоуровневыми сущностями, которые скорее направляют потоки данных, используя для их обработки стандартные алгоритмы, чем имеют дело с данными непосредственно. При обработке текстов на естественном языке агенты больше ассоциируются с традиционными лингвистическими уровнями (морфологическим, синтаксическим, семантическим), либо предназначены распознавать специфические лингвистические феномены, такие как эллипсис, анафора, омонимия и т.п. Эти агенты по существу не используют знания об онтологии. Они являются скорее вычислительными процессами, которые могут ускорить обработку информации благодаря параллелизму, но не влияют на извлечение информации качественно.

В отличии от вышеупомянутых работ в нашем подходе мы используем агентов двух типов, которые коллективно владеют информацией как о рассматриваемых данных, так и о заданной онтологии. Агенты одного типа имеют дело с онтологическими и лингвистическими знаниями. Они не используют входные данные напрямую, однако обрабатывают информацию, получаемую от агентов другого типа. Последние наиболее близки агентам из работы [11], которые представляют слова из текста.

Идея нашего мультиагентного подхода к пополнению онтологий состоит в том, что множество различных элементов данных формирует информационного агента, рассматриваемого как экземпляр класса или отношения данной онтологии. Процесс формирования обеспечивается специальными заранее определенными агентами, соответствующими правилам пополнения онтологии и обработки входных данных. Предварительно специальным модулем во входных данных частично распознаются некоторые объекты и отношения, значимые для заданной онтологии. Если входными данными является текст на естественном языке, мы будем называть такие

сущности лексическими объектами (они соответствуют словарным терминам) и агентам,и экземплярами и отношениями (они соответствуют классам и отношениям онтологии). Не обнаруженные модулем предварительной обработки объекты отношений и атрибуты информационных агентов могут быть определены в процессе взаимодействия между информационными агентами и агентами-правилами. В процессе коммуникации агенты сообща устанавливают соответствие между классами и отношениями заданной онтологии и текстовыми единицами, таким образом пополняя онтологию экземплярами классов и отношений.

В данной статье мы показываем, что экземпляры классов и отношений онтологии, участвующие в процессе пополнения, вместе с правилами пополнения и обработки данных образуют информационную систему. Следствием этого являются, в частности, простое доказательство завершаемости процесса пополнения и обоснование разрешения контекстно-зависимой неоднозначности экземпляров посредством вычисления их информационных состояний. Далее, в качестве реализации процесса пополнения онтологий мы предлагаем мультиагентный подход к обработке текстов на естественном языке для пополнения онтологии, который является специализацией подхода обработки произвольных данных [12]. Основные свойства модифицированной мультиагентной системы остаются прежними. Даны формальные описания информационных агентов и агентов-правил, специализированных для анализа текста на естественном языке.

Оставшаяся часть статьи организована следующим образом. В разделе 2 изложен подход к пополнению онтологий в рамках информационных систем. В следующем разделе 3 описаны агенты, специализированные для анализа текстов на естественном языке. В разделе 4 приведены протоколы их действий. В заключении 5 обсуждаются направления будущих исследований.

2. ПОПОЛНЕНИЕ ОНТОЛОГИЙ И ИНФОРМАЦИОННЫЕ СИСТЕМЫ

Пусть имеются: онтология предметной области, правила ее пополнения, семантическая и синтаксическая модель подъязыка предметной области и формата данных, и входные данные,

из которых извлекается информация для пополнения заданной онтологии. Определим онтологию предметной области как следующий набор О = {Со ,Ко ,То ,Ао ),где

• Со = иСг — конечное непустое множество классов, описывающих понятия предметной области;

• Ко = иКг — конечное множество бинарных отношений на классах и : Со х Со ^ — функция имен отношений между классами;

• То = иТг — множество типов данных, и {^1,..., }г — область допустимых значений типа Тг]

• Ао = ищ — конечное множество атрибутов, КАо Q Ао — подмножество ключевых атрибутов для уникальной идентификации экземпляров понятий и отношений, и Га : Со и Ко ^ ^ 2а° хТ° — функция, определяющая

Со

ношений Ко-

Информационный контент онтологии О представлен как пара 1С о = {1о, К1о), где

• 1о = и1г — конечное множество экземпляров классов онтологии О, где 1г класс а Сг € Со имеет набор атрибутов щ- со значения ми Vj: 1г = Uj,Vj), так что ,Vj) € ГА(Сг);

• К1о = иК1г — экземпляры отношений онтологии, являющиеся конечными множествами отношений на множестве экземпляров классов 1о, где экземпляр К1г отношения Кг € Ко содержит экземпляры 01,02 € 1о, принадлежащие классам С1 и С2 соответственно, а также имеет атрибуты щ- со значениями К1г = ((о1,о2), Uj (^ ,Vj)), так что Кг € Ги(С1,С2) и (aj,Vj) € Гл(Кг).

Задача пополнения онтологии состоит в вычислении информационного контента заданной онтологии на основе входных данных. При этом отображение входных данных в онтологию должно быть взаимнооднозначным, что означает, что разным экземплярам соответствуют разные фрагменты данных. Правила для пополнения онтологии и обработки данных распознают во входных данных экземпляры классов или отношений заданной онтологии, означивают их атрибуты. Вычисление контента состоит из следующих стадий. На первой стадии входные данные сопоставляются признакам атрибутам, классов и отношений онтологии на основе заданных соответствий, которые зависят

от формата входных данных. Начальный набор экземпляров классов и отношений онтологии формируется с использованием полученных онтологических признаков. На данном этапе полученные экземпляры сформированы не полностью, поскольку информация, необходимая для означивания их атрибутов и установления отношений, часто находится в разобщенных частях входных данных и при их начальной обработке, как правило, оказывается сохраненной в различных экземплярах онтологии. На второй стадии необходимо согласованно доопределить полученные экземпляры, т. е. использовать информацию из одних для означивания других, а также для определения новых экземпляров. В процессе формирования экземпляров возможны неоднозначности (например, связанные с омонимией, референцией и др.), когда для одного и того же фрагмента входных данных формируется несколько экземпляров онтологии, либо атрибуту экземпляра приписывается несколько альтернативных значений. Задача разрешения неоднозначн

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком