научная статья по теме СИСТЕМА ИНТЕГРАЦИИ НАУЧНЫХ ДАННЫХ В ПРОСТРАНСТВЕ LINKED OPEN DATA Математика

Текст научной статьи на тему «СИСТЕМА ИНТЕГРАЦИИ НАУЧНЫХ ДАННЫХ В ПРОСТРАНСТВЕ LINKED OPEN DATA»

ПРОГРАММИРОВАНИЕ, 2013, No 1, с. 36-44

- БАЗЫ ДАННЫХ И БАЗЫ ЗНАНИЙ

УДК 681.3.06

СИСТЕМА ИНТЕГРАЦИИ НАУЧНЫХ ДАННЫХ В ПРОСТРАНСТВЕ LINKED OPEN DATA

© 2013 г. К.А. Кузнецов МГУ им. М.В. Ломоносова, факультет вычислительной математики и кибернетики 119991 Москва, Ленинские Горы мкр., 1, корп. 2, стр. 52 E-mail: k.kuznetcov@gmail.com Поступила в редакцию 15.06.2012

Статья посвящена проекту системы интеграции данных, ориентированной на работу в пространстве Linked Open Data. Предлагается архитектура системы, излагаются основные принципы ее функционирования. Для интеграции данных предлагается использовать комбинированный подход, основанный на использовании наборов связей Linked Data. Система может применяться для интеграции данных из многочисленных автономных источников, между которыми могут быть выявлены достаточно стабильные связи.

1. ВВЕДЕНИЕ

На протяжении последних нескольких десятилетий интеграция данных является одной из наиболее актуальных задач в области прикладной информатики. Интенсивное развитие информационных технологий привело к тому, что все больше и больше научных данных становятся доступными в сети Интернет. Эти данные хранятся в различных источниках, разнородных, автономно разработанных, представляющих информацию различными способами, содержащих взаимосвязанные и взаимно противоречивые сведения. Использование доступных объемов данных невозможно без автоматизированных средств поиска, публикации, преобразования и обработки этих данных.

Изначальная концепция гипертекстового Веб оказалась слабо пригодной для машинной обработки данных из гетерогенных источников в сети, что привело к распространению различных микроформатов и Web API, а затем и появлению концепции Semantic Web [1]. Эта концепция подразумевает использование ряда стандартных форматов и технологий, которые служат для структуризации, накопления и обмена данными в сети. К основным стандартам WT3C относятся язык представления моделей данных в форме объектов и их взаимосвязей RDF [2],

его расширения RDFS [3] и OWTL [4], а также SPARQL [5] - протокол доступа и язык поисковых запросов к источникам данных RDF.

С практической точки зрения из проектов WT3C наибольший интерес представляет проект Linking Open Data (LOD) [6]. Целью этого проекта является наполнение сети Интернет данными в стандартных форматах Semantic Web, а также установление связей между данными из различных источников. Таким образом формируется единое пространство данных Linked Open Data. Проект носит рекомендательный характер, описывает набор технологий и методик для работы с семантическими данными. Публикация данных в пространстве Linked Open Data позволяет увеличить степень повторного использования данных, понизить степень дублирования данных, повысить ценность данных за счет связывания их с другими данными и облегчить их потребление заинтересованными сторонами. Статистическая информация [7] о пространстве LOD говорит о высокой концентрации научных данных в пространстве LOD, а также высокой степени взаимосвязанности этих данных.

Таким образом, публикация научных данных в пространстве LOD является перспективным направлением информатизации научной деятельности. Однако этот процесс достаточно труцо-

емкий, и далеко не каждое научное учреждение может позволить себе преобразовать свои данные к пригодному для публикации в пространстве LOD виду, а затем осуществлять поддержку своего набора данных. Учитывая также такие характеристики научных данных, как их относительную открытость и пересечение наборов данных различных научных учреждений, целесообразной представляется разработка системы публикации данных из распределенных гетерогенных источников в пространстве LOD.

2. ОБЗОР СУЩЕСТВУЮЩИХ РЕШЕНИЙ

Все этапы процесса включения данных из множества гетерогенных источников в пространство Linked Open Data в той или иной степени рассмотрены в научной литературе, однако, в связи с новизной направления, количество прикладных решений достаточно мало. На настоящий момент не существует системы, которая обеспечивала бы одновременно всю рекомендуемую проектом LOD функциональность. Наиболее комплексным решением является платформа Virtuoso Universal Server [8]. Она включает средства для представления информации из различных источников (реляционных баз данных, RDF-хранилищ, источников с Web API) в форме виртуальной базы данных, с возможностью публикации данных в RDF формате. Virtuoso поддерживает SPARQL доступ к данным и содержит такие компоненты, как RDF-краулер и простейший движок логического вывода. Virtuoso может дополнять публикуемые RDF-ресурсы voiD дескрипторами и информацией о словарях данных. Однако Virtuoso является коммерческим продуктом, а его open-source версия обладает значительно урезанными возможностями. Среди open-source приложений для публикации данных в пространстве Linked Data следует упомянуть D2R Server [9] - инструмент для публикации RDF данных из реляционной базы данных с поддержкой SPARQL доступа. Также упоминания заслуживает проект МASTRO [10], позволяющий предоставить SPARQL-доступ к реляционной базе данных. По сравнению с Virtuoso и D2R Server MAS ПК > предоставляет более выразительные средства для описания

отображений между OWL-онтологией и реляционной базой данных, однако он не предоставляет никаких средств для публикации и связывания данных. Существуют также простейшие приложения для публикации RDF-данных из SPARQL-точек доступа и хранилищ RDF-троек (Pubbv, Paget и т.п.).

Однако ни Virtuoso, ни D2R Server не предоставляют средств для установления и поддержки связей между RDF-ресурсами, как внутренними, так и внешними, ограничиваясь генерацией URI по настраиваемым шаблонам. Использование таких жестких шаблонов не всегда позволяет выявить отношения идентичности между элементами данных из различных источников и в полной мере представить их в виде связанных наборов данных Linked Open Data. Существует ряд независимых приложений для генерации и поддержки связей между элементами данных, таких как SILK [11], LIMES [12], SemMF [13] и DSNotifv [14]. Однако на настоящий момент не существует приложений, которые бы осуществляли интеграцию набора данных в пространство Linked Open Data, т.е. автоматически обнаруживали бы новые наборы данных и по возможности устанавливали и поддерживали связи с элементами данных из этих наборов данных. Возможность построения такой системы обсуждается в [15] и [16].

Возможности нетривиального практического применения сгенерированных наборов RDF-связей исследованы слабо. Можно отметить систему SPLENDID [17], которая использует статистику наборов связей для исполнения федеративных SPARQL запросов. Также наборы связей (Linksets в терминах voiD) применяются различными семантическими поисковыми системами.

Постановка задачи

Предлагается создать публичный ресурс научных данных, интегрированный в пространство LOD посредством автоматизированной системы. Эта система будет предназначена для:

• формирования (из большого количества разнородных источников структурированной и неструктурированной информации) набора данных в области науки и техники

и оперативного обновления этого набора данных;

• связывания данных из сформированного набора с данными из других открытых наборов данных Linked Open Data, опубликованных в сети Интернет (в Semantic Web) в формате RDF, а также для выявления не указанных явно связей между элементами данных из источников данных системы;

пых в сети Интернет в формате RDF с возможностью доступа к данным сформированного набора (включая связанные с ними данные других наборов) через интерфейс пользователя и интерфейс прикладных программ (API);

программным агентам единого поискового интерфейса ко всем источникам данных системы.

Система должна поддерживать различные типы источников данных, должна быть предусмотрена возможность добавления новых типов источников данных, а также подключения новых источников данных в процессе работы системы. Должны поддерживаться реляционные хранилища данных с возможностью JDBC доступа и SPARQL-точки доступа. Для структуризации данных система должна использовать онтологию предметной области, разработанную согласно рекомендациям проекта LOD. Онтология должна обладать легко расширяемой структурой, что позволит подключать источники данных, элементы данных которых не вписываются в существующую версию онтологии.

3. АРХИТЕКТУРА СИСТЕМЫ

Для решения поставленной задачи предлагается модульную систему, которая будет включать следующие компоненты:

связей, которые могут представлять интерес для пользователей и потребителей информации системы;

для связывания данных из источников системы с данными из открытых наборов данных, опубликованных в пространстве Linked Open Data в формате RDF, а также между собой;

для предоставления пользователям и приложениям доступа к ресурсам из набора данных системы согласно рекомендациям проекта LOD;

ченную для предоставления единого интерфейса доступа ко всем источникам данных системы, а также для идентификации ресурсов системы;

фицированного SPARQL доступа к источникам данных различных типов (реляционные базы данных, Web API и т.п.);

чения данных с набором компонентов-сборщиков для извлечения и структуризации данных из различных форматов неструктурированных данных (текстовых документов, отсканированных документов, аудио / видеофайлов)

интеграции собранной информации и организации семантического хранилища знаний в формате RDF, хранения системных настроек и служебной информации;

(SPARQL точку доступа) для программных агентов.

4. ОНТОЛОГИЯ

Системная онтология служит для семантического структурирования объектов и связей, соответствующих значимым с точки зрения интегрируемых системой предметных областей понятиям. Системная онтология должна обладать модульной структурой, позволяющей расширять ее для описания новых тематических областей знаний. В ядро онтологии должны входить такие

Рис. 1.

Общая архитектура системы.

классы как „Персона", „Проект", „Публикация", „Событие".

В пространстве Linked Open Data онтология выполняет роль словаря набора данны

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком