ПРОГРАММИРОВАНИЕ, 2013, No 1, с. 23-34
- БАЗЫ ДАННЫХ И БАЗЫ ЗНАНИЙ
УДК 681.3.06
МЕТОДЫ АВТОМАТИЧЕСКОГО ПОСТРОЕНИЯ И ОБОГАЩЕНИЯ НЕФОРМАЛЬНЫХ ОНТОЛОГИЙ
© 2013 г. H.A. Астраханцев, Д.Ю. Турдаков
Институт Системного Программирования РАН
109004 Москва, ул. А. Солженицына, 25 E-mail: astrakhantsev@ispras.ru, turdakov@ispras.ru Поступила в редакцию 10.09.2012
Концептуализация знаний, необходимых для эффективной обработки текстовой информации, как правило, представляется в виде онтологий. В зависимости от предметной области и решаемых задач, создаются разные виды онтологий: формальные, включающие в себя подробные отношения между концепциями и аксиомы; таксономии, представляющие собой иерархически организованные концепции; неформальные онтологии, например, интернет-энциклопедии, которые создаются и поддерживаются сообществом пользователей. Создание онтологий вручную - трудоемкий и дорогостоящий процесс, требующий участия экспертов, поэтому за последние годы было разработано множество систем, в той или иной степени автоматизирующих этот процесс. В данной работе предлагается обзор методов автоматического построения и обогащения онтологий; в первую очередь рассматриваются неформальные онтологии.
1. ВВЕДЕНИЕ1
В настоящее время среди исследователей в области компьютерной лингвистики все более распространенной становится точка зрения, что использование онтологий значительно повышает эффективность обработки текстов на естественном языке (см., например, [1] и [2]). Переход от отдельных слов к концепциям сокращает влияние разреженности данных и позволяет решать проблемы многозначности и омонимии.
В частности, применение онтологий доказало свою эффективность в таких приложениях, как извлечение информации [3], вопросно-ответные системы [4], информационный поиск [5, 6] и другие. Эти приложения предъявляют высокие требования к корректности онтологий и в большинстве случаев используют онтологии, созданные вручную, например, WordNet [7], тезаурус Роже [8] и др. Однако построение онтологий вручную требует больших временных и трудовых затрат, а также привлечения экспертов в соответствующих областях знания.
хЭта работа частично поддержана грантами РФФИ 11-07-00419-а и 11-07-00607-а
Отдельно следует рассмотреть создаваемые сообществом пользователей неформальные онтологии, например, интернет-энциклопедии, крупнейшей из которых является Википедия2. Можно выделить два основных подхода к использованию неформальных онтологий. Первый подход заключается в построении формальной онтологии на основе информации из неформальной (например, проекты Yago [9] и DBPedia3). Второй подход предполагает использование интернет-энциклопедии в виде „связанных данных", где связь между концепциями показывает, что они семантически близки. В частности, разработано множество систем для автоматической разметки текстовых документов ссылками на статьи Ви-кипедии [10, 11, 12].
Такое внимание исследователей связано с очень значительным объемом знаний, заключенных в неформальные онтологии: на момент написания статьи англоязычная Википедия насчитывает более 4 миллионов статей и более 28 миллионов страниц. Однако покрытие многих
2http: //www.wikipedia.org/
3http://dbpedia.org/
предметных областей остается неполным, при этом наиболее распространенным, а иногда и единственным, способом представления знаний во многих предметных областях являются обычные текстовые документы.
Таким образом, учитывая стремительный рост информации в различных предметных областях, равно как и количество доступных для обработки текстовых документов, возникает необходимость в эффективных методах автоматических) построения и обогащения неформальных онто-логий на основе анализа текстовых документов определенных предметных областей.
Данная статья организована следующим образом. В второй главе рассматриваются различные виды онтологий и существующие в литературе определения. В третьей главе приводится обзор существующих работ но построению онтологий, структурированный но отдельным подзадачам. Четвертая глава посвящена обзору работ но обогащению онтологий. В заключении обсуждаются перспективы развития рассмотренных методов.
2. ОПРЕДЕЛЕНИЕ ОНТОЛОГИИ
Несмотря на широкое использование онтологий, не существует единого общепринятого определения самого понятия „онтология". Наиболее полный обзор и классификация определений приводится в работе Бименна [1]. Начиная с истории возникновения философского термина, автор переходит к употреблению понятия в информатике. Прежде всего дается наиболее общее определение, предложенное в статье [13] и используемое во многих других, например, [14]:
„Онтология концептуализация предметной об"
Далее Бименн разделяет онтологии на два уровня: верхние, или фундаментальные, онтологии и предметные онтологии. Верхние онтологии описывают наиболее общие сущности и служат основной для дальнейшей специализации. Предметные онтологии, напротив, хранят в себе сущности и отношения, специфичные для определенной предметной области. Основное практическое отличие данных уровней состоит в том, что сущности и отношения из верхних онтологий практически никогда не встречаются в явном виде в текстовых документах, поскольку являются частью самой языковой модели. Кроме того,
Аксиомы
Отношения
Иерархия концепций
Концепции
Синонимы
Термины
Рис. 1.
в отношении предметных онтологий Бименн делает следующие замечания, важные для данной работы: 1) чем более специализирована предметная область, тем меньше влияние лексической многозначности; 2) чем факт менее общий или менее известный, тем выше вероятность, что он будет упомянут в тексте в явном виде.
Джон Сова [15] выделяет три вида онтологий: формальные, прототипные и терминологические. Формальные онтологии представляют собой концептуализацию предметной области, в которой категории различаются аксиомами и определениями, записываемыми формальной логикой, что позволяет делать сложные выводы и вычисления. Более формальные определения могут быть найдены в работах [13, 16].
В прототипных онтологиях категории различаются не определениями и аксиомами, а типичными представителями, или прототипами. Связи между концепциями описывают отношение „часть-общее".
В терминологических онтологиях вместо типичных представителей выбирается метка, описывающая концепцию, связи между концепция"
как и в прототипных, отсутствуют аксиомы и определения.
Сравнение этих типов онтологий с точки зрения сложности их построения и возможностями использования подробно рассматривается в работе Бименна [1]. Кроме того, в этой работе выделяется еще один тип онтологий тезаурусы (сам автор не считает тезаурусы полноценными
онтологиями). Как и прототипные онтологии, тезаурус содержит множество связанных концепций, но, в отличие от остальных онтологий, в тезаурусе присутствуют отношения разных типов, не только „часть-общее" или „является", и эти отношения никак не маркируются. Например, Википедия является тезаурусом в соответствии с данным выше определением: концепции - это статьи Википедии; термины - названия статей; связи между двумя концепциями существуют тогда и только тогда, когда между двумя статьями есть гиперссылка, при этом все связи имеют один и тот же тип. Стоит отметить, что именно этому типу онтологий посвящена данная работа.
3. ПОСТРОЕНИЕ ОНТОЛОГИИ
Существует три основных способа построения онтологии: вручную, автоматически и полуавтоматически. Первые онтологии, такие как уже упоминавшиеся WordNet или тезаурус Роже, были верхними (фундаментальными) и создавались вручную. В настоящее время все более необходимыми становятся различные предметные онтологии, поэтому появляется все больше работ по автоматическому и полуавтоматическому построению и обогащению онтологий [1, 17, 18].
Из отсутствия общепринятого понятия онтологии следует также отсутствие общепринятого процесса построения онтологий. Таким образом, для того чтобы было возможно сравнивать между собой различные подходы, выделяют подзадачи, которые в той или иной степени решает каждый подход. В работе [18] предлагается такое
разделение, названное авторами „слоеным пиро-
"
основу во многих последующих работах, например, [19, 17, 20]), см. рисунок 1.
Список выделяемых подзадач следующий:
1) извлечение терминологии соответствующей предметной области;
2) распознавание синонимичных терминов или форм одного и того же слова;
3) образование концепций;
4) иерархическая организация концепций;
5) извлечение отношений, свойств или атрибутов концепций вместе с соответствующей областью применимости;
6) определение аксиом.
3.1. Извлечение терминологии
Первая подзадача считается одной из центральных при решении проблемы организации и упорядочивания знаний, представленных в лингвистических корпусах. Ее целью является „выбор такого множества представлений концепций, которое бы лучшим образом описывало набор
текстов определенной предметной области с точ-"
В работе [21] также обсуждается определение "
""
лишь весьма общее определение: „базовое представление концепции определенной предметной "
характеристик термина в литературе [22] предлагаются следующие свойства: терминоподоб-ность ^егтЬооё) и связность (ипйЬооё).
Термпноподобность показывает, в какой степени лингвистическая единица связана с концепциями соответствующей предметной области. Связность показывает степень устойчивости словосочетания. Очевидно, второе свойство применимо только к терминам из двух и более слов и не разделяет термины и фразеологизмы (например, „всего хорошего").
Данные свойства удобно использовать при анализе двух основных направлений в методах извлечения терминологии: лингвистическом и статистическом.
Лингвистические подходы распознают термины, используя их морфологические и синтаксические свойства. В частности, в исследовании [23] было показано, что термины обычно представляют собой именные фразы, состоящие из двух значимых слов определенных частей речи: существительные (сущ.), прилагательные (прил.) или наречия. В этой же работе выделялись две главные синтаксические формы таких именных фраз для английского языка: [сущ.
Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.