научная статья по теме МЕТОДЫ АВТОМАТИЧЕСКОГО ПОСТРОЕНИЯ И ОБОГАЩЕНИЯ НЕФОРМАЛЬНЫХ ОНТОЛОГИЙ Математика

Текст научной статьи на тему «МЕТОДЫ АВТОМАТИЧЕСКОГО ПОСТРОЕНИЯ И ОБОГАЩЕНИЯ НЕФОРМАЛЬНЫХ ОНТОЛОГИЙ»

ПРОГРАММИРОВАНИЕ, 2013, No 1, с. 23-34

- БАЗЫ ДАННЫХ И БАЗЫ ЗНАНИЙ

УДК 681.3.06

МЕТОДЫ АВТОМАТИЧЕСКОГО ПОСТРОЕНИЯ И ОБОГАЩЕНИЯ НЕФОРМАЛЬНЫХ ОНТОЛОГИЙ

© 2013 г. H.A. Астраханцев, Д.Ю. Турдаков

Институт Системного Программирования РАН

109004 Москва, ул. А. Солженицына, 25 E-mail: astrakhantsev@ispras.ru, turdakov@ispras.ru Поступила в редакцию 10.09.2012

Концептуализация знаний, необходимых для эффективной обработки текстовой информации, как правило, представляется в виде онтологий. В зависимости от предметной области и решаемых задач, создаются разные виды онтологий: формальные, включающие в себя подробные отношения между концепциями и аксиомы; таксономии, представляющие собой иерархически организованные концепции; неформальные онтологии, например, интернет-энциклопедии, которые создаются и поддерживаются сообществом пользователей. Создание онтологий вручную - трудоемкий и дорогостоящий процесс, требующий участия экспертов, поэтому за последние годы было разработано множество систем, в той или иной степени автоматизирующих этот процесс. В данной работе предлагается обзор методов автоматического построения и обогащения онтологий; в первую очередь рассматриваются неформальные онтологии.

1. ВВЕДЕНИЕ1

В настоящее время среди исследователей в области компьютерной лингвистики все более распространенной становится точка зрения, что использование онтологий значительно повышает эффективность обработки текстов на естественном языке (см., например, [1] и [2]). Переход от отдельных слов к концепциям сокращает влияние разреженности данных и позволяет решать проблемы многозначности и омонимии.

В частности, применение онтологий доказало свою эффективность в таких приложениях, как извлечение информации [3], вопросно-ответные системы [4], информационный поиск [5, 6] и другие. Эти приложения предъявляют высокие требования к корректности онтологий и в большинстве случаев используют онтологии, созданные вручную, например, WordNet [7], тезаурус Роже [8] и др. Однако построение онтологий вручную требует больших временных и трудовых затрат, а также привлечения экспертов в соответствующих областях знания.

хЭта работа частично поддержана грантами РФФИ 11-07-00419-а и 11-07-00607-а

Отдельно следует рассмотреть создаваемые сообществом пользователей неформальные онтологии, например, интернет-энциклопедии, крупнейшей из которых является Википедия2. Можно выделить два основных подхода к использованию неформальных онтологий. Первый подход заключается в построении формальной онтологии на основе информации из неформальной (например, проекты Yago [9] и DBPedia3). Второй подход предполагает использование интернет-энциклопедии в виде „связанных данных", где связь между концепциями показывает, что они семантически близки. В частности, разработано множество систем для автоматической разметки текстовых документов ссылками на статьи Ви-кипедии [10, 11, 12].

Такое внимание исследователей связано с очень значительным объемом знаний, заключенных в неформальные онтологии: на момент написания статьи англоязычная Википедия насчитывает более 4 миллионов статей и более 28 миллионов страниц. Однако покрытие многих

2http: //www.wikipedia.org/

3http://dbpedia.org/

предметных областей остается неполным, при этом наиболее распространенным, а иногда и единственным, способом представления знаний во многих предметных областях являются обычные текстовые документы.

Таким образом, учитывая стремительный рост информации в различных предметных областях, равно как и количество доступных для обработки текстовых документов, возникает необходимость в эффективных методах автоматических) построения и обогащения неформальных онто-логий на основе анализа текстовых документов определенных предметных областей.

Данная статья организована следующим образом. В второй главе рассматриваются различные виды онтологий и существующие в литературе определения. В третьей главе приводится обзор существующих работ но построению онтологий, структурированный но отдельным подзадачам. Четвертая глава посвящена обзору работ но обогащению онтологий. В заключении обсуждаются перспективы развития рассмотренных методов.

2. ОПРЕДЕЛЕНИЕ ОНТОЛОГИИ

Несмотря на широкое использование онтологий, не существует единого общепринятого определения самого понятия „онтология". Наиболее полный обзор и классификация определений приводится в работе Бименна [1]. Начиная с истории возникновения философского термина, автор переходит к употреблению понятия в информатике. Прежде всего дается наиболее общее определение, предложенное в статье [13] и используемое во многих других, например, [14]:

„Онтология концептуализация предметной об"

Далее Бименн разделяет онтологии на два уровня: верхние, или фундаментальные, онтологии и предметные онтологии. Верхние онтологии описывают наиболее общие сущности и служат основной для дальнейшей специализации. Предметные онтологии, напротив, хранят в себе сущности и отношения, специфичные для определенной предметной области. Основное практическое отличие данных уровней состоит в том, что сущности и отношения из верхних онтологий практически никогда не встречаются в явном виде в текстовых документах, поскольку являются частью самой языковой модели. Кроме того,

Аксиомы

Отношения

Иерархия концепций

Концепции

Синонимы

Термины

Рис. 1.

в отношении предметных онтологий Бименн делает следующие замечания, важные для данной работы: 1) чем более специализирована предметная область, тем меньше влияние лексической многозначности; 2) чем факт менее общий или менее известный, тем выше вероятность, что он будет упомянут в тексте в явном виде.

Джон Сова [15] выделяет три вида онтологий: формальные, прототипные и терминологические. Формальные онтологии представляют собой концептуализацию предметной области, в которой категории различаются аксиомами и определениями, записываемыми формальной логикой, что позволяет делать сложные выводы и вычисления. Более формальные определения могут быть найдены в работах [13, 16].

В прототипных онтологиях категории различаются не определениями и аксиомами, а типичными представителями, или прототипами. Связи между концепциями описывают отношение „часть-общее".

В терминологических онтологиях вместо типичных представителей выбирается метка, описывающая концепцию, связи между концепция"

как и в прототипных, отсутствуют аксиомы и определения.

Сравнение этих типов онтологий с точки зрения сложности их построения и возможностями использования подробно рассматривается в работе Бименна [1]. Кроме того, в этой работе выделяется еще один тип онтологий тезаурусы (сам автор не считает тезаурусы полноценными

онтологиями). Как и прототипные онтологии, тезаурус содержит множество связанных концепций, но, в отличие от остальных онтологий, в тезаурусе присутствуют отношения разных типов, не только „часть-общее" или „является", и эти отношения никак не маркируются. Например, Википедия является тезаурусом в соответствии с данным выше определением: концепции - это статьи Википедии; термины - названия статей; связи между двумя концепциями существуют тогда и только тогда, когда между двумя статьями есть гиперссылка, при этом все связи имеют один и тот же тип. Стоит отметить, что именно этому типу онтологий посвящена данная работа.

3. ПОСТРОЕНИЕ ОНТОЛОГИИ

Существует три основных способа построения онтологии: вручную, автоматически и полуавтоматически. Первые онтологии, такие как уже упоминавшиеся WordNet или тезаурус Роже, были верхними (фундаментальными) и создавались вручную. В настоящее время все более необходимыми становятся различные предметные онтологии, поэтому появляется все больше работ по автоматическому и полуавтоматическому построению и обогащению онтологий [1, 17, 18].

Из отсутствия общепринятого понятия онтологии следует также отсутствие общепринятого процесса построения онтологий. Таким образом, для того чтобы было возможно сравнивать между собой различные подходы, выделяют подзадачи, которые в той или иной степени решает каждый подход. В работе [18] предлагается такое

разделение, названное авторами „слоеным пиро-

"

основу во многих последующих работах, например, [19, 17, 20]), см. рисунок 1.

Список выделяемых подзадач следующий:

1) извлечение терминологии соответствующей предметной области;

2) распознавание синонимичных терминов или форм одного и того же слова;

3) образование концепций;

4) иерархическая организация концепций;

5) извлечение отношений, свойств или атрибутов концепций вместе с соответствующей областью применимости;

6) определение аксиом.

3.1. Извлечение терминологии

Первая подзадача считается одной из центральных при решении проблемы организации и упорядочивания знаний, представленных в лингвистических корпусах. Ее целью является „выбор такого множества представлений концепций, которое бы лучшим образом описывало набор

текстов определенной предметной области с точ-"

В работе [21] также обсуждается определение "

""

лишь весьма общее определение: „базовое представление концепции определенной предметной "

характеристик термина в литературе [22] предлагаются следующие свойства: терминоподоб-ность ^егтЬооё) и связность (ипйЬооё).

Термпноподобность показывает, в какой степени лингвистическая единица связана с концепциями соответствующей предметной области. Связность показывает степень устойчивости словосочетания. Очевидно, второе свойство применимо только к терминам из двух и более слов и не разделяет термины и фразеологизмы (например, „всего хорошего").

Данные свойства удобно использовать при анализе двух основных направлений в методах извлечения терминологии: лингвистическом и статистическом.

Лингвистические подходы распознают термины, используя их морфологические и синтаксические свойства. В частности, в исследовании [23] было показано, что термины обычно представляют собой именные фразы, состоящие из двух значимых слов определенных частей речи: существительные (сущ.), прилагательные (прил.) или наречия. В этой же работе выделялись две главные синтаксические формы таких именных фраз для английского языка: [сущ.

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком