научная статья по теме МЕТОДЫ И СРЕДСТВА СЕМАНТИЧЕСКОГО СТРУКТУРИРОВАНИЯ ЭЛЕКТРОННЫХ МАТЕМАТИЧЕСКИХ ДОКУМЕНТОВ Математика

Текст научной статьи на тему «МЕТОДЫ И СРЕДСТВА СЕМАНТИЧЕСКОГО СТРУКТУРИРОВАНИЯ ЭЛЕКТРОННЫХ МАТЕМАТИЧЕСКИХ ДОКУМЕНТОВ»

ДОКЛАДЫ АКАДЕМИИ НАУК, 2014, том 457, № 6, с. 642-645

ИНФОРМАТИКА

УДК 004.912

МЕТОДЫ И СРЕДСТВА СЕМАНТИЧЕСКОГО СТРУКТУРИРОВАНИЯ ЭЛЕКТРОННЫХ МАТЕМАТИЧЕСКИХ ДОКУМЕНТОВ

© 2014 г. А. М. Елизаров, Е. К. Липачёв, О. А. Невзорова, В. Д. Соловьев

Представлено академиком А.Б. Жижченко 16.02.2014 г. Поступило 26.02.2014 г.

БО1: 10.7868/80869565214240049

Современные информационно-коммуникационные технологии (ИКТ) и интернет не только коренным образом изменили способы обмена научными знаниями, но и сделали для широкого круга ученых неизбежным использование ИКТ в их научной работе и актуализировали задачу интеграции электронных научных ресурсов в единое информационное пространство. Определяющей составляющей такой интеграции является процесс семантического структурирования научного контента. Для его обеспечения консорциум W3C (www.w3.org) разрабатывает технологии Семантического Веба. В частности, на платформе XML создан широкий спектр языков разметки, позволяющих не только учесть специфику предметных областей, но и повысить эффективность структурирования при автоматизированной обработке информации.

Математическая область знаний трудна для моделирования в силу ее абстрактности (многие определения традиционно даются на основе математической нотации в формульной записи); наличия эквивалентных определений ряда понятий (что затрудняет установление связей логической зависимости между терминами) и проблемы согласования различных мнений математиков-профессионалов по поводу неустоявшейся терминологии. Представление математических знаний в виде, пригодном для компьютерной обработки, — актуальная и быстро развивающаяся область исследований. Одним из примеров успешного использования ИКТ в области математики служит портал Math-Net. Ru (http://www.mathnet.ru/) [1, 2]. Ниже представлены новые подходы к семантическому структурированию электронных математических документов и полученные на их основе результаты.

Казанский (Приволжский) федеральный университет

1. Семантические модели математических документов можно создавать с помощью таких формальных языков, как MathLang [3] и OMDoc [4]. Один из новых подходов базируется на понятии "связанные данные": в рамках проекта Linking Open Data (LOD, http:// www.w3.org/wiki/SweoIG/TaskForces/Communi-tyProjects/LinkingOpenData) на основе унифицированной семантической модели созданы интегрированная база знаний и программные средства ее поддержки; данные хранятся в виде триплетов RDF. В рамках проекта LOD сформировалось новое направление — семантическая публикация данных, предполагающее увеличение числа семантических компонент текста. Сегодня в облаке LOD создано несколько онтологических моделей, в частности, набор данных DBPedia (http://dbpedia.org) содержит около 400 тыс. математических понятий. Базу данных из более чем 9.4 тыс. определений математических концептов и 49 тыс. теорем поддерживает Mizar Mathematical Library (http://mizar. org/), а такие системы семантического поиска, как Sindice (http://sindice.com) и Semantic Information MAshup (http://www.w3.org/2001/sw/wiki/ sig.ma), используют опубликованные RDF-дан-ные. Представление математических текстов в виде связанных данных можно выполнить и с помощью системы STEX [5, 6, 7]. Для моделирования предметных областей разрабатывают специализированные схемы данных — онтологии, например, Sci-enceWISE (http://sciencewise.info/) дает определения свыше 2.5 тыс. математических терминов, а онтология Mocassin (http://code.google.com/p/mocassin) (см. также [8]) описывает семантику структурных элементов научных статей по математике. Вместе с тем, моделирование математической предметной области остается открытой проблемой. Ниже представлены некоторые подходы к ее решению.

2. Онтология OntoMathPRO элементов математического знания создана нами в содружестве с группой математиков Казанского федерального университета (см. [9]) и содержит определения как общепринятых математических

понятий, так и развивающуюся терминологию из теории чисел, теории множеств, алгебры, геометрии, математической логики, дискретной математики, теории алгоритмов, математического анализа, дифференциальных уравнений, численных методов, теории вероятностей и математической статистики. Основой онтологии послужил массив статей журнала "Известия вузов. Математика" за 1995—2009 годы: она содержит 3450 классов, 6 типов свойств объектов, 3630 экземпляров свойства "подкласс—класс" и 1140 экземпляров остальных свойств. Метаданные каждого класса включают его определение и наиболее употребляемые наименования, в том числе синонимы. Семантика концептов OntoMathPRO устанавливалась с использованием как классических математических изданий, так и электронных ресурсов, в частности Wikipedia и Cambridge Mathematical Thesaurus. Решена задача упорядочивания массива математических понятий путем выделения ассоциативных связей, моделирующих различную степень зависимости как между самими терминами, так и между ними и разделами математики, представленными в онтологии. OntoMathPRO содержит тексты определений математических понятий и может рассматриваться как образовательный ресурс.

По отношению "подкласс — класс" в On-toMathPRO выделены две иерархии — разделов математики и элементов математического знания. В первой представлена таксономия основных разделов математики. Фундаментальные разделы — геометрия и анализ — разработаны более детально, например, выделены такие подразделы геометрии, как аналитическая, дифференциальная, фрактальная геометрия. Верхний уровень иерархии представлен тремя типами классов:

(i) базовые математические понятия (например, множество, оператор, функция, тензор);

(ii) корневые элементы соответствующих разделов математики (например, элемент теории математического анализа, элемент теории чисел);

(iii) общенаучные понятия (например, теорема, задача, метод, формула, высказывание).

Допускается нахождение класса в разных иерархиях (например, класс "Теорема Коши" является как подклассом класса "Теорема", так и подклассом класса "Элемент теории дифференциальных уравнений").

В качестве языков представления OntoMathPRO выбраны OWL-DL/RDFS. В частности, разделы математики и элементы математического знания выражены с помощью концепта owl:Class. Уникальный идентификатор ресурса (URI) каждого класса представляет собой ключ, который составлен из пространства имен онтологии и кода, од-

нозначно идентифицирующего класс внутри онтологии.

В OntoMathPRO определены четыре типа отношений между классами: отношение "подкласс-класс"; направленное объектное отношение принадлежности между элементом математического знания и разделом математики; направленное объектное отношение логической зависимости между элементами математического знания; симметричное объектное отношение ассоциативности.

OntoMathPRO реализована на языке OWL-DL; для работы с ней могут быть использованы такие средства, как редактор Protégé и программная библиотека Jena.

3. Поиск в математических текстах имеет особенности, связанные со сложной организацией математических документов, - объектом поиска служат как постановки задач, утверждения и их доказательства, так и формулы в различных системах нотации. С другой стороны, высокая степень структурированности и формали-зованности математических текстов обеспечивает дополнительные возможности поиска. Одна из реализаций такого поиска выполнена на основе MathML-разметки в Lobachevskii Journal of Mathematics (LJM, http://ljm.ksu.ru) — первом российском электронном математическом журнале, учрежденном в 1996 г. (см. [10]), — с предоставлением облачного сервиса, обеспечивающего, помимо стандартных возможностей, и поиск по формулам. В основе разработанного алгоритма поиска лежит технология преобразования математических документов в XML-формат, а формульных конструкций — в MathML-нотацию [11].

Сегодня язык MathML — это стандарт представления математической информации в электронной форме: реализуя одну из основных современных тенденций информатики (разделение разметки и данных), технология MathML-обра-ботки данных представляет возможности многоуровневого структурирования и интелектуального поиска. MathML может быть использован для организации сервисов представления математических формул, создания, хранения и отображения электронных публикаций по математике, а также организации поиска в математических текстах. Впервые ряд таких сервисов был реализован в журнале LJM.

Другая решенная задача — создание "переносимой" коллекции электронных математических документов, размещенной на внешнем носителе или в интернете. Результатом стал компакт-диск [12], содержащий хранилище статей журнала LJM и поисковую систему. Хранилище — это множество каталогов с информацией о статьях (автор, название, выходные данные и др.) и ссылками на файлы их текстов в форматах .dvi, .ps, .pdf, .XHTML+MathML,

644

ЕЛИЗАРОВ и др.

а также самими файлами. Реализован широкий спектр сервисов — как стандартный поиск (по авторам, названиям, ключевым словам и т.д.), так и поиск по фрагментам формул.

4. Программная платформа для публикации семантических данных математических коллекций. Подготовка математических RDF-наборов связанных данных для публикации их в LOD выполнена на основе статей журнала "Известия вузов. Математика" за 1997—2009 гг. Основные функции созданного прототипа программной платформы: индексирование математических статей в формате LATEX в виде LOD-совместимых RDF-данных; извлечение метаданных в виде концептов онтологии AKT Portal Ontology (http://www.aktors.org/publica-tions/ontology/); извлечение логической структуры документов с использованием онтологии Mocassin; извлечение экземпляров математических сущностей в виде концептов онтологии On-toMathPRO и связывание с ресурсами DBPedia; распознавание семантики формул путем связывания полученных экземпляров математических сущностей с математическими выражениями и формулами в тексте; установление взаимосвязи между опубликованными RDF-данными и существующими наборами данных LOD. Математический RDF-набор данных строится с использованием On-toMathPRO и онтологии семантики

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком