научная статья по теме ТЕХНОЛОГИИ СОЦИАЛЬНОЙ СЕТИ ДЛЯ СОЗДАНИЯ СЕМАНТИЧЕСКИХ СВЯЗЕЙ ИНФОРМАЦИОННЫХ ОБЪЕКТОВ В НАУЧНОЙ ЭЛЕКТРОННОЙ БИБЛИОТЕКЕ Математика

Текст научной статьи на тему «ТЕХНОЛОГИИ СОЦИАЛЬНОЙ СЕТИ ДЛЯ СОЗДАНИЯ СЕМАНТИЧЕСКИХ СВЯЗЕЙ ИНФОРМАЦИОННЫХ ОБЪЕКТОВ В НАУЧНОЙ ЭЛЕКТРОННОЙ БИБЛИОТЕКЕ»

ПРОГРАММИРОВАНИЕ, 2014, No 6, с. 22-33

БАЗЫ ДАННЫХ И ЗНАНИЙ

У V 681.32

ТЕХНОЛОГИИ СОЦИАЛЬНОЙ СЕТИ ДЛЯ СОЗДАНИЯ СЕМАНТИЧЕСКИХ СВЯЗЕЙ ИНФОРМАЦИОННЫХ ОБЪЕКТОВ В НАУЧНОЙ ЭЛЕКТРОННОЙ БИБЛИОТЕКЕ *

© 2014 г. М.Р. Когаловский1, С.И. Паринов2

1 Институт проблем рынка РАН 117418 Москва, Нахимовский проспект, 47

2

117418 Москва, Нахимовский проспект, 47 E-mail: kogalov@cemi. rssi.ru, sparinov@gmail.com Поступила в редакцию 28.05.2014

Традиционно функции активно разрабатываемых в последнее десятилетие научных электронных библиотек заключаются в обеспечении возможности публикации результатов выполненных исследований и широкого открытого доступа к ним научному сообществу. Новые возможности электронных библиотек могут быть достигнуты благодаря предоставлению пользователям возможности создавать связи между информационными объектами их контента с семантикой, явным образом определенной на основе заданной онтологии. В результате такой характерной для социальных сетей деятельности пользователей, мотивированной различными причинами и осуществляемой по их инициативе, динамически формируется семантическая структура контента электронной библиотеки. В среде такого рода своеобразной социальной сети становятся возможными некоторые новые формы научной деятельности, а также формируются более информативные источники данных для наукометрических исследований по сравнению с используемыми в сложившейся практике. В статье обсуждается предлагаемый авторами подход к созданию таких сетей, а также результаты его реализации в среде системы Соционет - крупного онлайнового научно-образовательного информационного пространства, поддерживающего информационные ресурсы ряда академических, образовательных и других организаций.

1. ВВЕДЕНИЕ

Активно развивающиеся в последнее десятилетие исследования и разработки привели к созданию в различных областях знаний крупных представительных электронных научных библиотек, которые стали играть важную роль в поддержке научных исследований и повышении их эффективности. Основные функции таких систем заключаются в предоставлении возможности электронной публикации результатов научных исследований, а также в обеспечении открытого доступа к ним широкому научному сообществу. Однако благодаря предоставлению пользователям научной электронной библиотеки

*Работа поддержана грантом РГНФ 14-02-12010-в.

возможности создавать связи между информационными объектами ее контента с явным образом определенной на основе заданной онтологии семантикой, которые мы называем семантическими связями, такая система сможет выполнять важные новые функции.

Предполагается, что пользователи библиотеки могут при этом руководствоваться различными мотивами и создавать по собственной инициативе бинарные ориентированные семантические связи между информационными объектами контента библиотеки, получать оповещения о возникновении новых связей и об изменениях свойств существующих, которые могут представлять для них интерес, и реагировать на такие события созданием новых связей. Участни-

ками семантических связей могут быть научные публикации, наборы научных данных, профили (метаданные) их авторов и других зарегистрированных пользователей библиотеки, профили организаций, в которых они работают. Связываемыми информационными объектами могут быть также представленные в электронной форме такие продукты научной деятельности, как программы научных исследований, научные отчеты, рецензии, описания проектов, онтологии различных исследуемых предметных областей, средства программного обеспечения и их описания, спецификации стандартов метаданных и др.

В соответствии с онтологией связей, используемой в данной электронной библиотеке, связь между профилем пользователя и научной публикацией может представлять, например, оценку этой публикации в целом или рассмотренных в ней отдельных результатов исследований - своего рода рецензию публикации. Связь между двумя публикациями может констатировать использование в одной их них метода, подхода или данных, опубликованных в другой, либо указывать на факт плагиата. Поскольку в предлагаемом в этой работе подходе предполагается, что семантические связи могут представляться как самостоятельные информационные объекты контента библиотеки, связь между профилем пользователя библиотеки и некоторой другой связью может выражать мнение этого пользователя о факте или мнении, выраженном этой другой связью. Семантика связей может быть весьма разнообразной и зависит от видов связываемых информационных объектов. Ограничимся здесь приведенными примерами.

Следует лишь отметить важный особый случай - связи цитирования между научными публикациями. Факты существования таких связей, представленные в пристатейных списках используемых источников, составляют источник данных для традиционной практики наукометрических измерений. Слабой стороной наукометрии, основанной на таком источнике, является отсутствие явным образом определенной семантики связей цитирования. Такие связи естественно называть "немыми" [1], поскольку они сами по себе не несут какой-либо информации, характеризующей, например, мнение автора цитирующей работы о цитируемом источнике или мотив цити-

рования. В связи с этим возможны такие парадоксальные ситуации, когда благодаря высокому количеству цитирований высоко ценится статья, содержащая грубые ошибки и/или принципиальные заблуждения, касающиеся обсуждаемой проблемы, и в связи с этим вызывающая активный отклик научного сообщества. Во избежание таких ситуаций в предлагаемом подходе предусматривается наделение семантикой и связей цитирования. Их семантику на основе используемой онтологии определяют пользователи электронной библиотеки - авторы цитирующих публикаций. Но выполнять эту работу могут и пользователи - эксперты в данной области знаний.

Таким образом, в онлайновой электронной библиотеке в режиме своеобразной социальной сети может обеспечиваться деятельность пользователей по созданию семантических связей. Благодаря этому становятся возможными некоторые новые виды научной деятельности, результаты которой будут открытыми для всего научного сообщества и в связи с этим обуславливают более высокий уровень ответственности ее участников. К числу таких видов деятельности относятся, в частности, альтернативные формы рецензирования научных публикаций, структурирование корпуса научных знаний, представленных в данной библиотеке, участие в "электронных" дискуссиях по поводу тех или иных публикаций или других продуктов научной деятельности.

Кроме того, в результате действий пользователей по созданию семантических связей формируется многослойная семантическая структура контента электронной библиотеки, его семантический ореол [2]. Каждый ее слой соответствует некоторому классу связей используемой онтологии. Эта структура может использоваться как новый, более информативный источник данных для наукометрических исследований по сравнению с традиционно используемыми в сложившейся практике, а также для изучения свойств корпуса знаний в соответствующей области науки. Исследуя некоторые слои семантической структуры, можно выявлять пути формирования отдельных направлений в науке, исследовать историю их развития, получать другие полезные резуль-

таты. В отличие от существующих систем -индексов цитирования, появляется возможность генерации новых наукометрических показателей [3, 4], учитывающих семантику ссылок цитирования. Заметим также, что пользователи библиотеки с семантически структурированным контентом получают еще один эффективный способ доступа к представленным в ней информационным ресурсам - путем визуальной семантической навигации по структуре контента. Для осуществления указанных видов деятельности зарегистрированным в библиотеке пользователям предоставляется открытый доступ к текущему состоянию ее семантически структурированного контента, к средствам создания семантических связей между его информационными объектами, а также к другим предусмотренным для этих целей сервисам.

В последние годы для явного описания семантики связей информационных объектов в информационных системах разработаны специальные онтологии, определяющие различные классы не только связей цитирования, но и связей другой природы, такие как "автор - публикация", "организация - автор", "публикация - фрагмент публикации" (например, аннотация, оглавление, предисловие, библиография и т.п.), связи между версиями публикации, вариантами ее представления и др. [5-9].

Актуальность использования семантических связей в исследовательских электронных библиотеках отмечалась, в частности, в нашей работе [10]. Общие принципы подхода к связыванию цифровых данных на основе технологий Веба были предложены ранее Т. Бернерсом-Ли [11] и развивались далее под "флагом" Open Linked Data (см., например, [12]). В последние годы была осознана необходимость стандартизации в рассматриваемой области. К этому направлению относится проект Open Annotation, инициированный группой представителей ряда университетов США Open Annotation Collaboration [13]. Целью этого сообщества является создание стандартов для семантического связывания цифровых ресурсов в среде Веба. Разработанные Open Annotation Collaboration базовые материалы стали основой деятельности учрежденной в составе консорциума W3C рабочей группы Open Annotation Community

Group [14], которая планирует создать общие основанные на RDF спецификации для аннотирования цифровых ресурсов. В частности, будут разработаны рекомендации консорциума по онтологии аннотирования и по модели аннотирования. В настоящее время уже существует проект спецификации рекомендаций, и над ним продолжается работа. За рубежом был реализован также ряд исследовательских проектов, в которых предусматривается явная спецификация семантики связей с использованием онтологий. К их числу относятся, например, проекты Nanopub.org [15] и SiteULike.org [16].

В данной работе развит и доведен до практической реализации подход, представленный в [10], который ориентирован на работу с научными информационными ресурсами и на использование реализующей его технологии в научной деятельности. При

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком