научная статья по теме ОБ ОДНОМ МЕТОДЕ ОЦЕНКИ ОНТОЛОГИЙ Кибернетика

Текст научной статьи на тему «ОБ ОДНОМ МЕТОДЕ ОЦЕНКИ ОНТОЛОГИЙ»

ИЗВЕСТИЯ РАН. ТЕОРИЯ И СИСТЕМЫ УПРАВЛЕНИЯ, 2011, № 3, с. 98-110

= ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ

УДК 004.82

ОБ ОДНОМ МЕТОДЕ ОЦЕНКИ ОНТОЛОГИЙ* © 2011 г. Е. С. Болотникова, Т. А. Гаврилова, В. А. Горовой

Санкт-Петербург, Санкт-Петербургский государственный политехнический ун-т, Санкт-Петербургский государственный ун-т Поступила в редакцию 11.07.10 г., после доработки 15.09.10 г.

Рассматривается вопрос оценки качества онтологий. Дается классификация существующих методов оценки онтологий и предложена модель оценки воспринимаемости онтологий человеком с когнитивной точки зрения. Кроме того, приводится методика применения предложенной модели, а также пример сравнения данным методом двух онтологий в области искусственного интеллекта.

Введение. Онтологический инжиниринг исследует проблематику дизайна, разработки и применения онтологий как универсальных моделей представления знаний, предшественниками которых явились иерархические семантические сети и фреймы [1, 2]. На современном этапе развития Интернета и создания распределенных информационных интеллектуальных систем онтологии стали играть ключевую роль в технологиях искусственного интеллекта [3]. Например, как базы знаний в системах поддержки принятия решений [4].

Вопрос оценки качества онтологий является одной из актуальных проблем онтологического инжиниринга. Эта часть процесса разработки онтологий важна в практическом плане, подтверждением чего является тот факт, что разными группами ученых описано множество различных подходов в области оценки онтологий. В настоящее время известно более десятка методов, и задача выбора подходящей методики для решения конкретной задачи становится все более сложной. Современные обзоры существующих методов и подходов в оценке онтологий изложены в [5, 6], качественные критерии оценки с позиций гештальт-психологии — в [7, 8]. Обобщенный взгляд на существующие подходы предлагает модель классификации методов оценки онтологий на рис. 1 [9].

В целом методы оценки онтологий основаны на задачах, использующих один или более из следующих критериев:

1) полнота и точность словаря предметной области (такую задачу решают подходы из [10, 11]);

2) адекватность структуры с точки зрения таксономии, отношений и т.п. Наиболее известна в этом отношении формальная онтология метасвойств ОпШОеап [2], другие методы изложены в [10-12];

3) воспринимаемость (с когнитивной точки зрения). Гештальт-подход описан в [13], внимание этому аспекту уделено также в [14];

4) производительность при использовании в приложениях (см. [15]);

5) выбор лучшей онтологии из нескольких имеющихся. Как правило, такие работы привлекают различные метрики, например ОПюшеМс [16].

Оценка онтологий может проводиться на разных стадиях разработки и применения онтологий:

1) разработка и прототипирование [2];

2) тестирование перед выпуском [16];

3) использование [15].

По степени автоматизации все методы оценки онтологий можно разделить на три группы:

1) автоматические (например, ЕуаЬехоп [12]),

2) полуавтоматические [14],

3) ручные [16].

Объектами для анализа у существующих методов могут быть один или несколько из перечисленных ниже понятий, связанных с разработкой онтологий:

1)структура [14],

* Работа выполнена при частичной финансовой поддержке РФФИ (грант № 08-07-00062_а).

Полнота и точность словаря предметной области

Адекватность структуры с Ж точки зрения таксономии,

• отношений и т.п.

Воспринимаемость (с когнитивной точки зрения)

Поизводительность при использовании в приложениях

Выбор лучшей онтологии из нескольких имеющихся

Структура

v Словарь

Ш

Эффективность

практического

использования

Средства анализа Средства анализа

Зкспертные оценки

[Исследования профилей использования

Сравнение с "золотым стандартом"

Исследования топологии графа онтологии

Автоматические

автоматизации

П

Полуавтоматические

t

Ручные

if

Разработка и прототипирование

Стадия применения

Р

Тестирование перед выпуском

If

Использование

Степень

Рис. 1. Модель классификации методов оценки онтологий

2) словарь [10],

3) эффективность практического использования [15].

По средствам, применяемым для анализа качества и зрелости онтологий, можно все методы разделить на следующие классы:

1) методы, основанные на данных (Data-driven) [10];

2) методы, привлекающие экспертные оценки [16];

3) исследования профилей использования [15];

4) сравнение с "золотым стандартом" [11, 12];

5) исследования топологии графа онтологии [14, 17].

Создание онтологий предметных областей в интересах разработки и анализа сложных систем (объектов) и их систем управления является одной из актуальных проблем теории и практики управления сложными системами. В вопросе об оценке качества созданных онтологий наиболее важны два аспекта: 1) правильность и глубина отражения предметной области и 2) эргономич-ность представления онтологии с точки зрения качества и скорости восприятия людьми. Вопросы полноты и точности содержания онтологии, т.е. ее семантики, обсуждаются в [10, 11, 18]. В данной статье рассматривается только второй аспект.

Проблемы, относящиеся к когнитивной эргономике при оценке онтологий, частично исследованы в [13, 14]. Под когнитивной эргономикой понимается область междисциплинарных исследований, изучающая процессы восприятия и понимания интерфейсов, моделей, представлений с точки зрения эргономики. Первая из упомянутых работ послужила отправной точкой для формирования принципов, лежащих в основе воспринимаемости онтологий, которые изложены ниже. В [14] предлагается несколько метрик, которые могут использоваться для оценки когнитивной эргономичности.

С точки зрения представленной на рис. 1 классификации предлагаемый в данной статье метод оценки можно описать следующим образом.

Цель: оценка воспринимаемости (с когнитивной точки зрения), выбор лучшей онтологии из нескольких имеющихся.

Объект анализа: структура онтологии.

Средство анализа: анализ топологии графа онтологии.

Степень автоматизации: автоматический, полуавтоматический (окончательное решение принимает эксперт на основе посчитанной автоматически модели).

Стадия применения: разработка и прототипирование (подсчет может производиться на каждой следующей итерации разработки), тестирование перед выпуском.

1. Исследования качества онтологии на основе анализа графа. Подход к оценке качества на основе топологии графа онтологии описан в [14, 17]. В [17] приводится несколько метрик, используемых для анализа качества онтологии, часть из которых рассчитывается на базе топологии графа онтологии. Приведем здесь те из них, которые относятся к метрикам когнитивной эргоно-мичности (в контексте этих метрик будем далее рассматривать только is-A дуги в качестве ребер графа).

Глубина онтологии. В [14] Gangemi выделяет три метрики для подсчета глубины: абсолютная глубина, вычисляемая как сумма длин всех путей графа (где путем называется любая последовательность соединенных между собой вершин, начинающаяся от корневой вершины и заканчивающаяся листом графа); средняя глубина, которая равняется абсолютной глубине, деленной на количество путей в графе; максимальная глубина равняется максимальной длине пути. Чем больше глубина, тем труднее граф поддается восприятию.

Ширина онтологии. абсолютная ширина, представляющая сумму количества вершин для каждого уровня иерархии по всем уровням; средняя ширина, рассчитываемая как абсолютная ширина, деленная на количество уровней иерархии; максимальная ширина, равная количеству вершин на самом большом по количеству вершин уровне. Чем ширина меньше, тем лучше онтология с точки зрения когнитивной эргономики.

Запутанность онтологии (tangledness). Определяется как количество вершин графа онтологии, деленное на число вершин, у которых есть несколько непосредственных суперклассов. Таким образом, в онтологиях, где нет множественного наследования (связи is-A), эта метрика будет равняться нулю. Чем меньше итоговое значение, тем лучше онтология с точки зрения когнитивной эргономики.

Отношение количества классов к количеству свойств. Чем больше этот показатель, тем легче воспринимать онтологию.

Количество анонимных классов. Для повышения качества онтологии лучше минимизировать их число.

Несмотря на полезность этих метрик, они покрывают лишь очень небольшую часть факторов, воздействующих на наше восприятие и способность к запоминанию. В следующем разделе изложены принципы, влияющие на когнитивные способности человека, которые легли в основу предлагаемой модели метрик.

2. Принципы, лежащие в основе оценки когнитивной эргономичности. Основные принципы оценки визуальной воспринимаемости и понятности онтологий изложены в [7, 8, 13]. В их основе лежат взгляды Макса Вертгеймера в области гештальт-психологии [19]. Он рассматривал все задачи с точки зрения незавершенности или несовершенства структуры. Так, основной принцип хорошего гештальта (хорошей формы) или закон прегнантности был сформулирован так: "Организация любой структуры в природе или в сознании должна быть настолько хороша (регулярна, полна, сбалансирована или симметрична), насколько позволяют существующие условия".

Также, полезными могут оказаться и другие когнитивно-перцептивные принципы, сформулированные в виде законов:

близости — визуальные стимулы (объекты), находящиеся близко друг от друга, воспринимаются как единое целое;

сходства — вещи, обладающие одинаковыми свойствами. Обычно воспринимаются как нечто единое (цельное);

включения В. Келера — тенденция воспринимать только большую фигуру, а не ту меньшую которую она включает;

парсимонии — самый простой пример является самым лучшим, известен как принцип "бритвы Оккама": "не нужно умножать сущности без необходимости".

Для целей онтологического инжиниринга эти законы можно переформулировать и сделать применимыми для практического инженера по знаниям. Основная гипотеза может быть сформулирована как: "Гармония = концептуальный баланс + ясность". При этом концептуальный баланс подразумевает: понятия одного уровня иерархии связываются с родительским концептом одним и тем же типом отношения (например, "класс-

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком