научная статья по теме ОНТОЛОГИИ В СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ Энергетика

Текст научной статьи на тему «ОНТОЛОГИИ В СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ»

Главный pедактоp — д-р техн. наук, п|)офессор В. Ю. Кнеллеp

УДК 681.518:001.8

ОНТОЛОГИИ В СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ

О. П. Кузнецов, В. С. Суховеров, Л. Б. Шипилина

Охарактеризованы задачи онтологического подхода к построению информационных систем: теоретические — формальное описание понятийных структур, методы логического вывода; оценивание семантической близости; компьютерная обработка текстов на естественном языке; технологические — разработка стандартов, программных сред, языков, специализированных программных средств для реализации теоретических методов. Приведены примеры фрагментов построенных онтологий и примеры запросов к онтологиям. Показано совместное использование онтологий и мультиагентных систем.

Ключевые слова: современные информационные системы, базы знаний, онтология, средства логического вывода, меры семантической близости, мультиагентные системы.

ЖУРНАЛ В ЖУРНАЛЕ

змерения

Контроль

Автоматизация: СОСТОЯНИЕ, ПРОБЛЕМЫ, ПЕРСПЕКТИВЫ

ВВЕДЕНИЕ

Постоянное увеличение объема информации, циркулирующей в глобальных (типа Интернет) и локальных сетях, предъявляет новые требования к средствам ее автоматической обработки и, соответственно, к архитектуре, алгоритмическому и программному обеспечению информационных систем. Удовлетворение этим требованиям, в свою очередь, связано с решением проблем, которые в рамках традиционных реляционных баз данных не решались. Среди этих проблем отметим следующие.

1. В последние годы активно создаются и развиваются крупномасштабные многопользовательские информационные системы, охватывающие целые предметные области: медицину, химию, геоинформатику и т. д. Необходимость обработки и хранения постоянно поступающих больших объемов данных в таких системах требует более развитых средств их структуризации. В частности, необходимы тщательная проработка понятийной структуры предметной области, учитывающая словарь терминов, сложившийся среди профессионалов в этой области, а также явное выделение разных уровней абстракции в понятийной структуре путем введения универсальных онтологических отношений типа "класс—подкласс", "часть—целое" и т. д. Введение таких отношений естественным образом приводит к унифицированным иерархическим структурам данных.

2. Становится актуальной проблема извлечения неявных знаний из хранящихся данных, в связи с чем возрастают требования к запросам, обеспечивающим доступ разнообразных пользователей к данным. Проблема извлечения неявных знаний имеет по крайней мере два аспекта.

Во-первых, традиционный поиск по ключевым словам уже не удовлетворяет пользователей: он не обеспечивает ни полноты, ни релевантности ответов. Словари терминов в различных группах пользователей никогда не бывают полностью согласованы, и, кроме того, пользователю часто нужны данные, связанные не только с термином, явно указанным в запросе, но и с терминами, близкими по смыслу. Для обеспечения таких требований к обработке запросов необходима формализация понятия семантической близости.

Во-вторых, под неявным знанием понимаются утверждения, которые не лежат в системе в явном виде, но могут быть выведены из имеющихся утверждений средствами логического вывода. Поэтому современные информационные системы должны обладать такими средствами. Поскольку среди специалистов по инженерии знаний принято считать, что знания — это данные плюс средства вывода, то можно сказать, что современные информационные системы из баз данных постепенно превращаются в базы знаний и тем самым приобретают признаки интеллектуальности.

3. Поддержка и пополнение больших хранилищ данных становится невозможной без автоматизации обработки постоянно поступающего объема неструктурированной и, прежде всего, текстовой информации. Наиболее мощным источником такой информации является Интернет. Необходимость в обработке текстов на естественных языках привела к бурному развитию компьютерной лингвистики, которая, начав с решения морфологических и синтаксических проблем обработки текстов, постепенно переходит к задачам семантического анализа. Опыт показывает, что при решении таких задач недостаточно чисто лингвистических средств — необходимо привлекать формализованные описания предметной области, средства логического вывода и т. д.

Таким образом, видно, что указанные проблемы сильно связаны между собой, и решать их надо в комплексе. Развившийся за последние два десятилетия онтологический подход к построению информационных систем как раз и ставит своей целью комплексное решение этих проблем. В свою очередь, указанные проблемы распадаются на ряд теоретических и технологических задач.

К основным теоретическим задачам относятся: построение адекватного логического фундамента, включающего развитые средства формального описания понятийных структур и методы логического вывода; разработка и исследование мер семантической близости; лингвистические задачи, связанные с обработкой текстов на естественном языке.

К технологическим задачам относятся: разработка стандартов, программных сред, языков, специализированных программных средств, реализующих методы, полученные при решении теоретических задач.

Настоящая статья является кратким введением в очерченную выше проблематику онтологического подхода к построению информационных систем.

Несколько слов о термине "онтология". В своем первоначальном смысле онтология (греч.) — это философский термин, который обозначает раздел философии, содержащий учение о бытии, т. е. о мире (в отличие от гносеологии — учения о познании), в котором исследуются всеобщие основы, принципы бытия, его структура и закономерности. В информационных технологиях этот термин сохраняет свой основной смысл, но приобретает, с одной стороны, гораздо более четкое и формализованное, а с другой стороны, более узкое содержание: речь идет не о бытии или мире вообще, а о конкретной части "мира", т. е. о конкретной предметной области. Под онтологией здесь понимается структурная спецификация некоторой предметной области и ее понятий, включающая словарь понятий предметной области и логические выражения, описывающие взаимосвязи этих понятий.

СТРУКТУРА ОНТОЛОГИИ

Формально онтология состоит из следующих множеств и отношений между ними: Ь — словарь (множество терминов); С — понятия (классы); I — экземпляры; Р: С хС — отношения; А — свойства (атрибуты); И — соответствие между терминами из Ь и понятиями;

С — соответствие между терминами из Ь и отношениями, которое формальным отношениям сопоставляет имена, характерные для профессионального словаря данной предметной области; Нс — частичный порядок на С (вертикальные связи, о которых сказано ниже).

Понятие в онтологии отождествляется с классом, имеющим связи (отношения) с другими классами. Класс определяется как множество объектов с общими свойствами (атрибутами) и содержит описания объектов и их свойств. Объекты — это либо классы (подклассы данного класса), либо экземпляры — единичные понятия, не содержащие других объектов. Основные (вертикальные) связи между классами — это отношения порядка, образующие иерархию понятий. Наиболее часто иерархии строятся на таксономических отношениях: класс—подкласс ("ИМ-оР, "^-а") и партономи-ческих: часть—целое ("рай-оР, "Чорю-виМорю"). Понятия и вертикальные связи образуют ациклический граф, чаще всего дерево, вершинами которого являются понятия (классы), а ребра отражают отношения порядка между понятиями. Этот граф можно назвать ядром, или скелетом онтологии (рис. 1). Концевые (висячие) вершины графа онтологии — это экземпляры, наполняющие классы. Предполагается, что экземпляр принадлежит всем классам, которые расположены на вертикальном (сверху вниз) пути к этому экземпляру.

Графовые структуры, в которых вершины соответствуют понятиям, а ребра — бинарным семантическим отношениям между ними, давно известны в искусственном интеллекте. Они используются для представления знаний и называются семантическими сетями. Граф онтологии — это частный случай семантической сети, характеризующийся свойствами, способствующими его стандартизации и тем самым облегчающими построение онтологий. С математической точки зрения граф онтологии — это граф, в котором всегда можно выделить покрывающее дерево (ядро, или скелет онтологии) с описанными выше стандартными иерархическими отношениями.

Онтологии могут служить для описания наиболее общих понятий, которые не зависят от предметных об-

Математика

Математи^есКая_ф Геометрия_И_топологи;

Дискретная_математика

Научное_направление -«О

с™1:ТЫп§

Исполнитель

азделение Организация

Система Метод облема

ИскусственНый_интеллект Методы_ИИ_в_компьютерной_лйнг^1СтикЬ . Диссертация

Управление_знаниями_и_онтологии * ИнтеллектуалЬнЫй_анализ_данных

ИнГеллектуальные_обучающие_системы

Интеллектуальные_системы_поддержки_принятия_решений_и_управления

КогнитиВный_анализ_ситуаций Многокритериальные_экспертные_оценки

Конференция Конгресс Семинар

Рис. 2. Фрагмент онтологии "Научная деятельность НИИ"

ластей, для описания предметных областей, для описания конкретной задачи и т. д. На рис. 2 представлен граф фрагмента иерархии классов онтологии "Научная деятельность НИИ".

Помимо вертикальных связей в графе онтологии возможны горизонтальные связи между вершинами различных ветвей, отражающие отношения, отличные от иерархических. Если типы вертикальных отношений ядра универсальны и используются во всех предметных областях, то для горизонтальных отношений они различны в различных предметных областях. Примером таких связей могут служить бинарные отношения индивидуумов (экземпляров) класса "Сотрудник" с экземплярами других классов ("Статья", "Доклад", "Монография", "Семинар", "ПроектГрант" и т. д.) в онтологии "Научная деятельность НИИ" (рис. 2). Эти отношения отражают сведения о конкретных сотрудниках: характеризуют их научную деятельность — авторство, участие в семинарах, проектах и т. д. или указывают на место их работы ("Организация", "Подразделение"). В структуре онтологии свойства классов и экземпляров отражает множество А.

Кроме того, в развитых онтологиях, как уже было сказано выше, имеются аксиомы и правила вывода, кот

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком