научная статья по теме Автоматизированное извлечение семантических метаданных из распределенных реляционных БД Биология

Текст научной статьи на тему «Автоматизированное извлечение семантических метаданных из распределенных реляционных БД»

DOI: 10.12731/wsd-2014-2.1-22 УДК 004.42

АВТОМАТИЗИРОВАННОЕ ИЗВЛЕЧЕНИЕ СЕМАНТИЧЕСКИХ МЕТАДАННЫХ ИЗ РАСПРЕДЕЛЕННЫХ РЕЛЯЦИОННЫХ БД

Семерханов И.А.

Целью работы является создание нового способа получения семантических метаданных из реляционных БД, для дальнейшего их использования в системах интеграции. Семантические метаданные предназначены для описания информационных ресурсов, хранящихся в базах, с учетом их смыслового или семантического значения. На их основе возможно построение мета модели информационных систем и реализация онтологического подхода к интеграции данных. Однако на данный момент стандартных технических средств, для автоматизации процесса получения метаописаний из реляционных БД, не существует. Необходимость создания таких средств обуславливает актуальность работы. В статье представлены новый метод и алгоритмы, преобразующие информацию, хранящуюся в табличном виде, в семантические метаданные в формате RDF. Также рассматривается разработанный автором программный инструмент R2RMapper, предназначенный для апробации предложенных алгоритмов. Произведено сравнение реализованного программного решения с другими существующими автоматизированными системами, со сходной функциональностью.

Ключевые слова: извлечение метаданных, интеграция реляционных баз данных, онтологический подход к интеграции, RDF, IDEF5, семантические сети.

AUTOMATED SEMANTIC METADATA EXTRACTION FROM DISTRIBUTED RELATIONAL DATABASES

Semerhanov I.A.

The purpose of this work is to develop a new methodfor semantic metadata extraction from relational databases for further use in data integration systems. Semantic metadata is usually used for describing of information resources, stored in databases, according to their semantic meaning. It is possible to build a meta model of information systems on their basis and then implement so called ontological based data integration. However, at the moment there is no standard software for automation of the process of obtaining metadata from relational databases. The relevance of work is determined by the need of such software. The paper presents a new method and algorithms that convert the information stored in relational databases to semantic metadata in RDF format. Author also presents a software tool, that was developed in order to test new proposed algorithms - R2RMapper. Analysis of alternative tools was done in the work and presented in the paper.

Keywords: metadata extraction, relational database integration, ontological based data integration, RDF, IDEF5, semantic web.

Введение

Автоматизированные информационные системы (ИС) различного типа все чаще внедряются на предприятиях и организациях для автоматизации бизнес процессов. Количество информации, хранящейся в них, растет с каждым годом, поэтому задача интеграции данных в таких системах становится все более актуальной. Под интеграцией данных в информационных системах понимается обеспечение единого унифицированного интерфейса для доступа к некоторой совокупности

неоднородных независимых источников [1]. Иными словами, информационные ресурсы из всех распределенных источников могут быть доступны для пользователя из любой интегрируемой системы или из единого интерфейса для доступа к данным.

Существует несколько методов интеграции данных, их можно разделить на две группы: методы консолидации данных и методы виртуализации данных. Методы первой группы направлены на физический перенос всей информации из источников в единую базу данных, тогда как методы второй группы подразумевают создание только виртуального интерфейса для доступа к информации без ее физического переноса. Наиболее перспективными методами являются методы виртуализации данных, так как они позволяют интегрировать ресурсы без дополнительных затрат на создание нового хранилища.

Одним из таких методов является интеграция данных на основе онтологических моделей [8, 4]. Онтологический подход к интеграции данных подразумевает представление информации, хранящейся в ИС, в виде онтологической модели. В такой модели все элементы интегрируемых систем, а также сами данные описываются при помощи специальных семантических метаданных в рамках понятий, определяемых предметной областью. Основным преимуществом такого метода является то, что, используя семантические связи в онтологической модели, можно производить логические рассуждения при помощи специальных средств [6]. Такие средства, оперируя логикой первого порядка, помогают эффективно искать информацию в распределенных системах и находить решения. Уже существуют реальные примеры, где такой подход оказался эффективнее традиционных методов. В частности, в рамках проекта optique [5] была создана интегрирующая система, использующая механизмы логического рассуждения, которые смогли ускорить процесс поиска и обработки информации с двух недель до нескольких дней.

Однако для создания онтологической модели необходимо использовать семантические метаданные, описывающие объекты в ИС и хра-

нимые в них ресурсы. На данный момент не существует стандартизированных технических средств автоматизированного извлечения таких метаданных из ИС, хотя уже были сделаны первые шаги в этой области, например проект R2RML [7]. В связи с тем, что в современных информационных системах, чаще всего, в качестве хранилища данных используются реляционные базы данных, такие как Oracle, MSSQL Server, MySql, наиболее актуальной задачей становится извлечение метаданных именно из таких распределенных БД.

Метод и алгоритмы автоматизированного извлечения метаданных

Для решения этой задачи был разработан метод автоматизированного извлечения семантических метаописаний из распределенных реляционных баз данных. Данный метод базируется на стандарте онтологического исследования IDEF5 [3], однако направлен не на ручное создание модели, а на автоматизированное представление данных, хранящихся в реляционных БД, в виде онтологии. Разработанный метод состоит из четырех этапов:

1. Структурная онтология. Извлечение информации о структуре каждой из БД в онтологическом формате.

2. Общая структурная онтология. Объединение полученных он-тологий структуры в общую структурную онтологическую информационную модель.

3. Глобальная метамодель. Создание на основе верхнеуровневых онтологий, онтологии предметной области и общей структурной онтологии глобальной метамодели, описывающей семантические отношения между БД.

4. Онтология интегрируемых данных. Извлечение из БД семантических метаописаний информационных ресурсов, хранящихся в них при помощи глобальной метамодели и механизмов автоматизированного логического рассуждения.

Согласно методу, первый этап процесса по извлечению семантических метаописаний из баз данных состоит из двух шагов. На первом шаге происходит первичная трансляция структуры таблиц БД в сущности в формате RDF, названия таблиц становятся классами, а поля таблицы - свойствами. Далее, на втором шаге, получившаяся начальная онтологическая модель обогащается за счет связывания между собой классов и свойств, средствами расширения RDFs. На выходе получается онтологическая модель структуры одной из распределенных баз.

На следующих этапах происходит объединение отдельных моделей в единую глобальную онтологию и обогащение этой модели дополнительными семантическими свойствами, за счет анализа сходных метаданных и внедрения онтологий верхнего уровня. На основе такой метамодели на четвертом этапе происходит извлечение из источников данных семантических метаописаний хранимых ресурсов.

Для извлечения онтологии структуры БД был разработан специальный алгоритм. Пусть существуют некоторые информационные системы ИС-1 и ИС-2, работающие в рамках единой предметной области. Задачей разработанного алгоритма является превращение структуры базы данных ИС-1 и ИС-2 в онтологическую модель.

Алгоритм извлечения общей онтологии из структуры БД ИС-1 и ИС-2, будет состоять из пяти шагов:

Дано: S- = {ТЬ1Р.... ГЬ^}. где ,S'; и Л, - схемы БД, ТЬпи Tbt - таблицы схем.

ТЬг = {At*,....j4tz} где - атрибуты таблицы, .S'; и ,V, принадлежат ИС-1 и ИС-2 соответственно.

Шаг 1. «Структурное отображение»: Последовательное отображение схем S, и S, в RDF формат. Tb ^ T , TbT , AtA, где T -

1 2 n m k m г r m

классы онтологии, описанные при помощи RDF, A. - свойства классов в онтологии.

Шаг 2. «Автоматическое добавление связей»: Добавление семантических свойств P. путем автоматического анализа структуры БД на схо-

жесть. Анализ производится по нескольким признакам: соответствие типов данных, соответствие названий полей и таблиц.

Шаг 3. «Обогащение»: Импорт онтологий верхнего уровня, при помощи свойства OWL owl:import. Благодаря правилу транзитивности в RDF, дополнительные онтологии добавляют новые концепты и свойства.

Шаг 4. «Ручное добавление связей»: Редактирование извлеченной онтологии при помощи редактора онтологии, например Protégé, и добавление связей между концептами - R

Шаг 5. «Вывод»: Вывод получившейся общей онтологии о структуре распределенных БД в файл или хранилище метаданных в формате RDF.

Для извлечения семантических метаданных, хранимых информационных ресурсов был разработан второй алгоритм, использующий онтологии структуры распределенных БД, извлеченную на предыдущем этапе. Он состоит из пяти шагов:

Дано: Tbt = (V1P ...,Vn\ где Tbl - таблица в /'-ой БД, Vn - записи в таблице.

Шаг 1. «Добавление глобальной метамодели». Импорт извлеченной ранее глобальной онтологии или метамодели структуры БД.

Шаг 2. «Отображение записей» Извлечение каждой записи Vn из каждой таблицы 77.J : в распределенных БД.

Шаг 3. «Анализ сходных записей» Анализ схожести извлеченных записей в таблицах между собой и добавление семантических свойств skos:closeMatch, skos:narrowMatch, skos:exactMatch.

Шаг 4. «Логическое рассуждение» Добавление новых семантических свойств, при помощи механизмов логического рассуждения, работающих на основе дескрипционных логик из импортированной онтологии.

Шаг 5. «Вывод». Вывод созданной онтологии метаданных ресурсов и структуры БД в виде RDF документа в файл или в RDF хранилище.

Система автома

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком