научная статья по теме МЕТАДАННЫЕ В КОМПЬЮТЕРНЫХ СИСТЕМАХ Математика

Текст научной статьи на тему «МЕТАДАННЫЕ В КОМПЬЮТЕРНЫХ СИСТЕМАХ»

ПРОГРАММИРОВАНИЕ, 2013, N° 4, с. 28-46

- БАЗЫ ДАННЫХ И БАЗЫ ЗНАНИЙ

УДК 681.3.06

МЕТАДАННЫЕ В КОМПЬЮТЕРНЫХ СИСТЕМАХ

© 2013 г. М.Р. Когаловский

Институт проблем рынка РАН 117418 Москва, Нахимовский пр-т, Е-таИ: kogalov@cemi.rssi.ru Поступила в редакцию 15.12.2012

*

Важную роль в современных компьютерных системах играет особый вид информационных ресурсов, называемых метаданными. Метаданным посвящено огромное количество публикаций. В большинстве из них рассматриваются стандарты метаданных, используемых в различных областях, и весьма малочисленны публикации, в которых обсуждаются свойства и функции этого вида информационных ресурсов. Вероятно, по этой причине трактовка термина метаданные все еще не устоялась. Нередко в публикациях встречаются явные ошибки, при обсуждении частных видов метаданных не делаются необходимые оговорки, и тем самым их свойства и функции неправомерно распространяются на общий случай. В данной работе предлагается систематический взгляд на метаданные как на информационные ресурсы особого рода, обсуждается вопрос об определении этого термина, приводятся примеры метаданных, используемых в различных пластах информационных технологий, рассматриваются общие (независимые от сферы применения) свойства метаданных и их функции, выразительные средства для их представления, известные обобщенные классификации метаданных, а также деятельность по их стандартизации.

1. ВВЕДЕНИЕ

Хранение и обработка данных в компьютерных системах, обмен данными между ними и доступ к ним пользователей невозможны без явно представленных описаний свойств этих данных. Такие описания необходимы программным средствам, выполняющим указанные функции, а также пользователям для оценки возможности применения имеющихся данных в различных ситуациях, интерпретации и анализа их содержания, формулировки запросов. Описания такого рода называются метаданными и являются особым видом информационных ресурсов. Их создание часто требует значительных усилий и существенных затрат. Однако они существенно повышают ценность данных, обеспечивают более широкие возможности их использования.

Довольно трудно установить, кто и когда в области информационных технологий впервые

* Работа поддержана грантом РГНФ, проект 11-02-12026-в.

предложил использовать термин метаданные. Авторы работы [1] утверждают, что это было сделано Г. Мили в 1967 г. его статье [2]. Однако в этой статье интересующий нас термин вовсе не упоминается. Возможно, правы авторы статьи о метаданных в англоязычной \¥1к1ресЦа [3], приписывающие первенство П. Бэгли [4].

Каков бы ни был ответ на этот вопрос, метаданные начали использоваться задолго до появления компьютерных систем и до введения этого термина в научно-техническую лексику. Библиографические описания использованных источников в публикациях, библиотечные каталоги и тематические указатели, различные классификаторы, аннотации статей - все это примеры метаданных.

В данной работе нас будут интересовать метаданные, используемые в компьютерных системах. В этой сфере метаданные начали использоваться уже на ранней стадии их развития. Когда начали создаваться языки и технологии программирования, термин метаданные еще не

существовал. Однако в исходном коде программы на языке программирования должны были содержаться описания типов данных, которыми эта программа оперирует. Используя описания, компилятор обеспечивает требуемое для этих данных распределение оперативной памяти, оценивает правомерность выполнения над ними предусмотренных в программе операций. Если программа оперирует данными во внешней памяти, то в ее исходном коде, а для некоторых операционных систем и в языках управления заданиями, должны описываться свойства файлов, в которых хранятся эти данные. Указанные описания, несомненно, также являются примерами видов метаданных.

Рождение технологий баз данных и информационно-поисковых систем также потребовало использования метаданных. При проектировании конкретной базы данных необходимо сформировать концептуальную схему предметной области, представляя ее средствами какого-либо языка концептуального моделирования. На ее основе нужно создать описание структуры базы данных, ограничений целостности, полномочий пользователей и т.д. Для этой цели используется язык описания данных СУБД, выбранной для реализации системы базы данных. Указанное описание представляется в виде схемы создаваемой базы данных, которая, также как и концептуальная схема предметной области, является метаданными.

В ранних документальных информационно-поисковых системах каждый документ представлялся его поисковым образом, который идентифицировал этот документ, характеризовал его содержание набором дескрипторов и заменял этот документ в процессах обработки пользовательских запросов. Поисковый образ исходного документа является его метаданными. Метаданными текстовых публикаций в электронных библиотечных каталогах служат также их библиографические описания и аннотации, рубрики тематических классификаторов, к которым относится содержание данных публикаций, и другие их характеристики.

В 1960-1970 гг. были довольно широко распространены генераторы отчетов с разработанным и впервые реализованным компанией IBM входным языком PRG (Report Program Generator).

Этот язык позволяет описывать формат генерируемого отчета. Такие описания, несомненно, являются метаданными.

Появление гипертекстовых технологий, а затем и Всемирной паутины, предусматривает использование гипертекстовой разметки исходного текста в гипертекстовых издательских системах и в веб-страницах. Совокупность тегов разметки также представляет собой метаданные таких ресурсов.

Создание систем, основанных на знаниях, и технологий Семантического Веба, позволило явным образом представлять и использовать для поиска и логического вывода семантику данных, а также онтологию предметной области. Для их описания в последние годы активно используются, в частности, язык RDF, языки описания он-тологий RDFS, OWL и OWL2, а также профили языка OWL2. Такие описания также являются примерами метаданных.

В научных информационных системах метаданные позволяют описывать свойства используемых в них данных, связанные с особенностью предметной области исследований. Вместе с тем, часто необходимы описания характеристик научных приборов, с помощью которых они получены, мест и времени регистрации этих данных, компьютерных модельных экспериментов и т.п.

Метаданные необходимы в современных электронных библиотеках. Они описывают контент библиотеки в целом, составляющие его коллекции информационных ресурсов, отдельные ресурсы, содержащиеся в коллекциях, их классификаторы, связи между ними, организации, владеющие информационными ресурсами библиотеки, профили их авторов и пользователей библиотеки, ряд других информационных объектов и сервисов таких систем.

Осознание необходимости метаданных привело к созданию инструментария управления этим специфическим видом информационных ресурсов. Впервые серьезное внимание проблемам управления метаданными начало уделяться в 1970-е годы в контексте информационных систем, оперирующих структурированными данными. Была предложена концепция системы словаря-справочника данных. Появился ряд систем такого рода [5, 6]. Несколько позднее была реализована концепция интегрирован-

ных словарей-справочников данных - систем управления базами данных, выполняющих традиционные функции СУБД и одновременно функции системы словаря-справочника данных. Был разработан также международный стандарт для систем словарей-справочников данных [7].

Идея интеграции системы словаря-справочника данных и СУБД, хотя и в ограниченной форме, позднее нашла поддержку в стандарте языка SQL. В нем предусмотрено представление схемы базы данных (на "логическом" уровне) в форме набора системных таблиц базы данных, которыми можно оперировать с помощью обычных средств языка. В результате базы данных, которые управляются СУБД, основанными на стандартах SQL, стали самоописываемыми - они содержат пользовательские данные вместе с описывающими их метаданными (схемой базы данных).

Развитие информационных технологий и сферы их применения привело к существенному расширению функций метаданных и их многообразия. Средства представления метаданных и управления ими созданы и развиваются как для информационных, так и для других компьютерных систем. При этом содержание метаданных, их функции и средства их представления зависят от используемых информационных технологий, функциональных возможностей и предметной области использующих их систем, природы описываемых ресурсов, контекста и характера их использования, а также от многих других факторов.

В последние два десятилетия метаданные стали привлекать большое внимание, главным образом, в связи с развитием технологий Семантического Веба, технологий электронных библиотек и ряда других новых пластов информационных технологий. Кроме того, стала актуальной необходимость обеспечения обмена метаданными между различными системами, обеспечения интероперабельности и повторного использования информационных ресурсов, интеграции данных из многих источников. Все это вызвало активную деятельность по стандартизации метаданных, осуществляемую официальными международными и национальными органами стандартизации,

индустриальными консорциумами, научными и другими сообществами. В результате были созданы многочисленные стандарты описания метаданных "горизонтальной" и "вертикальной сферы". Активно используются на практике стандарты платформы XML [8, 9], Дублинское ядро [10-12], дескриптивное подмножество языка SQL, большое число схем метаданных для различных сфер применения, стандарты языков концептуального и онтологического моделирования, многочисленные стандарты научных метаданных и многие другие.

Хотя использование термина метаданные существенно активизировалось в последние годы, к сожалению, все еще не сложилось однозначное понимание этого термина. Широко распространенная абстрактная формула "метаданные - это данные о данных" не раскрывает многообразия свойств и функций этого вида информационных ресурсов. Метаданным в последние

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком