научная статья по теме ОПРЕДЕЛЕНИЕ СТРУКТУРНЫХ СВОЙСТВ ОНТОЛОГИЙ Кибернетика

Текст научной статьи на тему «ОПРЕДЕЛЕНИЕ СТРУКТУРНЫХ СВОЙСТВ ОНТОЛОГИЙ»

ИЗВЕСТИЯ РАИ. ТЕОРИЯ И СИСТЕМЫ УПРАВЛЕНИЯ, 2008, № 2, с. 69-78

^ ИСКУССТВЕННЫЙ

ИНТЕЛЛЕКТ

УДК 004.8

ОПРЕДЕЛЕНИЕ СТРУКТУРНЫХ СВОЙСТВ ОНТОЛОГИЙ*

© 2008 г. А. С. Клещев, Е. А. Шалфеева

Владивосток, Институт автоматики и процессов управления ДВО РАН Поступила в редакцию 20.03.07 г., после доработки 09.08.07 г.

Для точного определения свойств онтологий предлагается использовать набор их моделей, являющихся размеченными графами. Каждому классу свойств соответствует своя графовая модель, для которой установлены общая схема, способ интерпретации, правила извлечения структуры из текста онтологии. В терминах графовых моделей однозначно задаются структурные свойства онтологий. Эти определения можно применять для оценивания свойств конкретных онтологий, которое предполагает два этапа. Первый этап связан с построением внутренних моделей онтологий в виде графовых моделей, второй - с получением значений структурных свойств онтологии по соответствующим графовым моделям оцениваемой онтологии на основе определений этих свойств.

Введение. На современном этапе развития Internet, создания распределенных информационных, многоагентных систем и систем, основанных на знаниях, онтологии стали играть ключевую роль в технологиях искусственного интеллекта. Онтология - это явное описание (на некотором языке) смысла терминов, определяющих концептуализацию [1].

С точки зрения синтаксической структуры, онтология - множество модулей, связанных друг с другом ссылками, а модуль - совокупность определений терминов (сущностей либо связей: отношений, функций) и онтологических соглашений (соглашений о связях между смыслами различных терминов). В работах, посвященных оцениванию онтологий, обсуждаются их различные свойства и метрики [2-10], описан ряд свойств конкретных онтологий, а также некоторые способы их измерения.

В рамках единого подхода к оцениванию свойств онтологий под свойством онтологии понимается любая отличительная особенность ее от других онтологий, любой признак, придающий ей схожесть с другими онтологиями, а также любая характерная особенность произвольного фрагмента онтологии, обладающего смыслом (модуля, совокупности определений, отдельного определения, онтологического соглашения) [11].

* Работа выполнена при финансовой поддержке РФФИ, проект "Исследование возможностей коллективного управления в Семантическом вебе информационными ресурсами различных уравней общности" и в рамках программы < 16 Президиума РАН, проект "Синтез интеллектуальных систем управления базами знаний и базами данных".

Поскольку онтологии, особенно "реальные"1, имеют большой объем, изучение их свойств вручную весьма трудоемко. Поэтому возникает проблема получения информации о свойствах конкретных онтологий, что необходимо и для выявления свойств онтологий реальных областей человеческого знания и для проверки удовлетворения формальных представлений этих онтологий существующим нормам и эстетическим критериям.

Известные методы оценивания онтологий (FIGO, OntoMetric, EvaLexon, Natural Language Application metrics, OntoClean, Declarative Methods) реализованы в разнообразных редакторах и анализаторах онтологий, но эти инструменты специализированы, а круг рассматриваемых свойств в них ограничен [12-15]. Кроме того, существуют такие средства анализа онтологий, как ONE-T, OntoManager, OntoAnalyser, OntoGenerator, OntoClean in OntoEdit, OntoClean, ODEval [13, 14, 16]. Их основные задачи - оценка таксономической структуры, синтаксиса, масштабируемости, "заселения" онтологии, контроль совместимости и непротиворечивости, помощь в принятии решения о пригодности специфической онтологии для нового проекта [14]. Такие инструментальные средства оценки обнаруживают ошибки грамматики, некоторые свойства таксономической структуры (ширина, глубина, разветвления), несогласованности и избыток в таксономии понятий, цикличность и исчерпываемость, некоторые позволяют

1 Под "реальными" здесь понимаются онтологии, описывающие системы понятий, которыми пользуются в реальной профессиональной деятельности. Одним из существенных требований, предъявляемых к реальным онтологиям, является их полнота (а не достаточность для решения конкретных задач, как в случае с онтологиями для конкретных проектов).

сравнить термины из словаря онтологии с текстом на естественном языке и определить, действительно ли результаты извлеченной онтологии охватывают большинство понятий входного текста [13].

Однако ни одно из автоматических средств оценивания онтологий не обеспечивает измерения полного спектра известных свойств [13, 17]. Одной из причин этого можно считать то, что в доступной литературе нет единым образом выраженных определений свойств. Упоминаемые в публикациях свойства и метрики онтологий представляются разными терминами (классы, объекты (InformationObject, social objects), типы (types of things), сущности (symbolic entity, entities that do not have a spatio-temporal localization), примитивы (primitive), представители, термы (terms), концепты (concepts), элементы (items), разбиения на подклассы, свойства (properties), отношения (relationship) между классами, дуги (conceptual relation arcs, graph whose arcs represent conceptualizations, communication elements, communication setting [10, 12, 13])), нет технических описаний того, как оцениваются (evaluated) онтологии.

Цель работы - предложить единый подход к определению структурных свойств онтологий и показать его применимость через формирование набора свойств онтологий.

1. Постановка задачи. Универсальная классификация свойств онтологий [11] позволяет их упорядочить и ввести единые термины для их определения. Для всякой онтологии (в том числе и для ее текста, записанного на некотором языке) можно построить внутренние модели, отражающие различные внутренние (структурные) свойства онтологии. Для этого наиболее естественно использовать размеченные графы. Определение всех известных свойств онтологии в терминах одной ее модели затруднительно. Поэтому задача состоит в том, чтобы, во-первых, каждому классу свойств сопоставить свою графовую модель, позволяющую строить (согласно заданной "разметке" графа) внутреннюю модель конкретной онтологии и измерять (в ее терминах) свойства этого класса для любых онтологий, и, во-вторых, сформировать наборы однозначных определений свойств каждого класса.

В этом случае оценивание структурных свойств онтологий включает два этапа. Первый связан с построением графовых моделей рассматриваемой онтологии - строятся внутренние (структурные) модели текста онтологии, достаточные для вычисления значений структурных свойств выбранных классов. Этот процесс может выполняться двумя способами: 1) автоматический - для представления структурных связей, которые можно извлечь из синтаксической структуры текста онтологии (например, имеет предка, атри-

бут); 2) интерактивный или ручной - для представления структурных связей, которые трудно извлечь из синтаксической структуры текста онтологии2, но требуемая структурная модель может быть построена при помощи эксперта. Второй этап связан с получением значений свойств по этим графовым моделям онтологии. При этом обеспечивается объективная оценка свойств по графовым моделям (по измерительным моделям) онтологии за счет однозначных определений в терминах этих моделей. Полученные значения зависят от адекватности графовых моделей онтологии, построенных на первом этапе.

Для всех графовых моделей, сгруппированных в зависимости от способа их интерпретации, должны быть установлены: общая схема графа, возможность извлечения структуры из текста онтологии и правила ее извлечения. Формируемые описания свойств должны включать название, однозначное определение в терминах графовой модели, область значений свойства; подразумевается некоторое практическое применение свойства.

2. Графовые модели для определения структурных свойств онтологии. Предлагаемые графовые модели онтологий разбиты на четыре группы по типу связей: синтаксических, стандартных, концептуальных, проблемно-ориентированных.

В графах синтаксических связей вершины соответствуют некоторым синтаксическим компонентам текста (их имена или обозначения становятся метками вершин), а направленные дуги - синтаксическим связям между такими компонентами. Синтаксические компоненты могут быть как одного, так и разных уровней рассмотрения (например, используемые функции, их аргументы, отдельные операнды в выражении для аргумента функции), а названия связей составляют конечное множество (они могут интерпретироваться как метки для дуг). Графы синтаксических связей позволяют оценить "архитектуру" онтологии, их построение по тексту возможно для любых онтологий. Такую структуру можно извлечь из текста автоматически путем обнаружения искомых синтаксических компонентов, на которые указывают ключевые слова или символы используемого языка (Rdf, Oil, Owl, Kif и т.п). Кроме того, каждый синтаксический компонент в тексте онтологии может иметь комментарий, поэтому добавление к каждому графу вершины-комментария дает возможность определять множество свойств документированности онтологии.

2 Так, например, в языках ЯПЛ и математики нет математической записи (конструкции) для представления отношения часть-целое общего вида. Зато имеются средства для представления нескольких частных случаев (элемент мно-

жества, пожмножество, элемент или часть последовательности, элемент кортежа...).

В графах стандартных связей вершины соответствуют терминам онтологии (их имена становятся метками вершин), а направленные дуги - стандартным видам связей (типично употребляемым при формализации онтологий: таксономическим, теоретико-множественным, причинно-следственным). Названия связей составляют конечное множество уточняющих подвидов стандартных связей (они могут рассматриваться как метки для дуг). Графы стандартных связей отражают однородные семантические стандартные связи между понятиями, причем полный перечень уточняющих подвидов связи заранее известен3 (для каждого языка представления онтологий). Построение графов стандартных связей по тексту онтологии возможно для любых онтоло

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком