научная статья по теме СИСТЕМЫ ДОСТУПА К ДАННЫМ, ОСНОВАННЫЕ НА ОНТОЛОГИЯХ Математика

Текст научной статьи на тему «СИСТЕМЫ ДОСТУПА К ДАННЫМ, ОСНОВАННЫЕ НА ОНТОЛОГИЯХ»

- БАЗЫ ДАННЫХ И БАЗЫ ЗНАНИЙ

УДК 681.3.06

СИСТЕМЫ ДОСТУПА К ДАННЫМ, ОСНОВАННЫЕ НА

ОНТОЛОГИЯХ

© 2012 г. М.Р. Когаловский Институт проблем рынка РАН 117418 Москва, Нахимовский проспект,, 47 E-mail: kogalov@cemi.rssi.ru Поступила в редакцию 15.01.2012 г.

Исследования, направленные на обеспечение семантического доступа к базам данных, имеют многолетнюю историю и начались еще на ранних стадиях развития технологий баз данных. К сожалению, они все еще не привели к созданию широко распространенных индустриальных технологий. В последнее десятилетие деятельность консорциума W3C в области Семантического Веба и создание стандартов языков описания онтологий вызвали новую волну активности в разработках инструментария для систем семантического доступа к базам данных и нового класса систем баз данных, называемых системами доступа к данным, основанными на онтологиях (OBDA-системам). В таких системах онтологии используются в качестве концептуальной схемы предметной области и основы пользовательского интерфейса для SQL-систем баз данных. Предложенные в последние годы подходы не обеспечивают "окончательного" решения проблемы. Тем не менее, удалось создать языки описания онтологий, позволяющие достигнуть приемлемого компромисса между их выразительностью, которая остается достаточной для многих приложений, и вычислительной сложностью рассуждений на онтологиях и обработки запросов данных, хранимых в больших базах данных. Созданы предпосылки для появления индустриальных технологий разработки систем указанного класса. В предлагаемой работе приводится обзор полученных в последние годы основных результатов исследований и разработок в рассматриваемой области.

1. ВВЕДЕНИЕ1

Достижения в области создания формальных языков описания онтологий для Всемирной паутины и их стандартизации консорциумом W3C, разработки инструментальных средств для описания и поддержки онтологий привели к активной экспансии онтологий в разработки веб-приложений, текстовых систем, систем баз данных и баз знаний. Открылись новые возможности для создания систем, обеспечивающих пользователям семантический доступ к информационным ресурсам. В технологиях баз данных формируется направление, в котором предусматривается использовать для этой цели онтологии в качестве

1 Работа поддержана грантом РГНФ 11-02-12026-в.

высокоуровневых концептуальных схем предметной области и основы пользовательских интерфейсов SQL-систем баз данных, позволяющих формулировать запросы данных в терминах онтологий и вместе с тем осуществлять рассуждения (reasoning) на онтологиях. Механизмы основанного на онтологии интерфейса становятся при этом посредником между пользователем с его информационными потребностями, выраженными в терминах онтологии, и традиционной системой базы данных. Такие системы называют системами доступа к данным, основанными на онтологиях (Ontology-Based Data Access Systems, OBDA-Systems, OBDA-системами).

В наших работах [4, 5] рассматривался вопрос о часто встречающихся на практике подменах

концептуальной схемы предметной области ее онтологией, детально обсуждались различия между ними. Такая подмена характерна и для OBDA-систем. Предлагаемые в этой области подходы используют язык описания онтологий в качестве языка концептуального моделирования предметной области.

Проблематике систем доступа к данным, основанных на онтологиях, посвящено большое количество публикаций в последние годы. В этой нашей работе рассматриваются подходы к созданию таких систем с использованием онтологий, представленных дескриптивными логиками (Descriptive Logic, DL) [83].

В 1990-х годах был выполнен ряд проектов в американских университетах, а также коллективами, финансируемыми DARPA и Европейской комиссией, целью которых было создание языков описания онтологий Веб на основе дескриптивных логик. Гибрид созданных в результате этих проектов языков - DAML и OIL послужил прототипом языка описания онтологий OWL, одобренного консорциумом W3C (2004) в качестве одного из ключевых стандартов технологий Семантического Веба. Позднее (2009) была одобрена новая версия этого стандарта - язык OWL2 [57, 58] вместе с его профилями (EL, QL и RL) [59] -подъязыками, в которых выразительные возможности OWL2 ограничиваются для достижения эффективности рассуждений в некоторых важных областях применения. Стандартизация языка описания онтологий способствовала довольно широкому его применению, активизации использования описываемых его средствами онтологий в разработках систем баз данных и информационных систем.

Исследования в области дескриптивных логик проводятся уже более четверти века. Они особенно активизировались в связи с разработками языков описания онтологий в последнее десятилетие. Среди исследований этого периода выделяется большой комплекс работ группы сотрудников итальянских университетов Free University of Bozen-Bolzano и Universit'a di Roma "La Sapienza". Ими предложено семейство дескриптивных логик DL-Lite [22, 23, 27], одна из которых - DL-LiteR послужила основой профиля OWL2

QL [59]. Предложены также конструктивно проработанные и экспериментально проверенные на исследовательских прототипах подходы к созданию систем интеграции данных и OBDA-систем на основе логик указанного семейства [23, 25, 26, 28, 29].

В этой статье обсуждение OBDA-систем опирается, главным образом, на указанные работы. Термины доступ к данным, основанный на онтологиях (Ontology-Based Data Access, OB-DA), и системы доступа к данным, основанные на онтологиях (Ontology-Based Data Access Systems, OBDA-Systems), были введены именно их авторами.

Нужно отметить, что группой итальянских исследователей предложен также подход к интеграции данных из множества источников с использованием логик указанного семейства. Поэтому при обсуждении OBDA-систем в указанном цикле работ предполагается, что благодаря возможности применения методов интеграции данных источник данных в OBDA-системе может рассматриваться в общем случае как единая SQL-система базы данных.

В данном обзоре обсуждаются предыстория и предпосылки создания OBDA-систем в технологиях управления структурированными данными, основные идеи и принципы их реализации. При этом акцент в обсуждении делается на технологических его аспектах. Поскольку в качестве источников информационных ресурсов в OBDA-системах рассматриваются базы данных, указанные вопросы обсуждаются именно в контексте технологий баз данных.

Остальная часть статьи организована следующим образом. Прежде всего, в разделе 2 обсуждается концепция OBDA-системы и требования к ней. Далее в раздeле 3-5 приводится краткий обзор тех направлений теории и технологий баз данных, достижения в которых создали предпосылки для рождения обсуждаемого класса систем. Прежде всего, это имеющие давнюю историю и обсуждаемые в разделе 3 и 4 технологии семантического доступа пользователей к базам данных. Их эволюция потребовала, в свою очередь, развития методологий, создания концептуальных моделей данных и языков концептуального моде-

лирования предметной области. При этом большое внимание исследователей привлекали поддержка абстрактной модели предметной области, представленной ее концептуальной схемой, непосредственно механизмами СУБД и ее использование как основы пользовательского интерфейса системы базы данных. Реализация таких возможностей обеспечивает сближение систем баз данных с системами, основанными на знаниях. В последнее время появился ряд публикаций, посвященных анализу истории, эволюции, состояния и перспектив концептуального моделирования. Среди них наиболее достойны внимания, по нашему мнению, фундаментальная монография [56], подготовленный по материалам Дагштульского семинара по эволюции концептуального моделирования сборник статей [45], а также обзоры [71, 88]. Мы ограничимся здесь кратким обсуждением этих вопросов в той степени, в которой это необходимо для целей данной статьи.

В разделе 5 обсуждается другое имеющее более чем сорокалетнюю историю направление исследований, предопределившее создание дескриптивных логик - основы ОББЛ-систем. Это - получившее в последние годы новый импульс для развития направление, связанное с использованием логического аппарата в технологиях баз данных. Первые его шаги связаны с рождением реляционного подхода в области баз данных. Позднее были предложены идеи дедуктивных и дедуктивных объектно-ориентированных баз данных. В последние годы главное внимание в этом направлении привлекают формальные языки представления знаний, в частности языки описания онтологий. Интерес к ним особенно активизировался в рамках деятельности по созданию технологий и стандартов Семантического Веба. Особенности дескриптивных логик, играющих важную роль в этих разработках, и возможности их применения в ОББЛ-системах обсуждаются в разделе 6.

На основе материалов предыдущих разделов в разделе 7 обсуждаются принципы организации и функционирования ОББЛ-систем. В разделе 8 рассматривается созданный для их разработки инструментарий, приводятся сведения о прототипах инструментальных средств для

создания и поддержки онтологий, а также для реализации OBDA-систем. Наконец, в разделе 9 дается оценка достоинств и ограниченности предложенного подхода к созданию систем этого класса. В заключении подводятся итоги обзора и обсуждаются перспективы распространения технологий OBDA-систем.

2. OBDA-СИСТЕМЫ И ТРЕБОВАНИЯ К НИМ

Как уже указывалось, термин доступ к данным, основанный на онтологиях, был введен авторами семейства логик DL-Lite (см. например [25]), которые предложили их не только для описания онтологий, для чего они первоначально разрабатывались, но и для создания систем интеграции данных, а также OBDA-систем. Заметим, что наряду с термином Ontology-Based Data Access System в литературе другими авторами используются также близкие термины: Accessing Data Mediated by an Ontology, Ontology-driven Information Systems, Ontology based Data Management.

OBDA-система рассматривается в работах авторов семейства DL-Lite как надстройка над множеством существующих источников структурированных данных, позволяющая предоставить пользователям систе

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком