ИЗВЕСТИЯ РАН. ТЕОРИЯ И СИСТЕМЫ УПРАВЛЕНИЯ, 2013, № 2, с. 53-63
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ
УДК 004.82
ПОДХОД К АВТОМАТИЗИРОВАННОМУ ПОСТРОЕНИЮ ОБЩЕЦЕЛЕВОЙ ЛЕКСИЧЕСКОЙ ОНТОЛОГИИ НА ОСНОВЕ
ДАННЫХ ВИКИСЛОВАРЯ* © 2013 г. А. А. Крижановский, А. В. Смирнов
Санкт-Петербург, Федеральное государственное бюджетное учреждение науки Санкт-Петербургский
ин-т информатики и автоматизации РАН Поступила в редакцию 16.04.12 г.
Предложен подход и рассмотрена архитектура системы автоматизированного построения общецелевой лексической онтологии. В качестве онлайн-словаря был выбран викисловарь, поскольку он имеет большую базу данных из слов с переводами на многие языки. На примере Русского Викисловаря рассмотрена структура словарной статьи, на основе которой спроектирована база данных для хранения извлеченной информации. В системах управления знаниями важной составляющей частью являются онтологии, для работы с которыми требуется разработка подходов и алгоритмов для их построения. В результате построены лексические онтологии и выполнено сравнение основных показателей двух баз данных онтологий, созданных на основе Русского и Английского Викисловарей. Выполнен анализ динамики изменения численных параметров викисловарей и построенных авторами на их основе общецелевых лексических онтологий за 2010—2012 гг.
БО1: 10.7868/80002338813020066
Введение. В компьютерной лексикологии (направление вычислительной лингвистики) можно видеть последовательный переход (и в терминологии, и в смысловом наполнении) от машиночитаемых словарей к лексическим базам знаний и затем к лексическим онтологиям. Машиночитаемый словарь [1] представляет данные бумажного словаря в электронном виде с возможностью обработки этих данных на компьютере. Лексическая база знаний (lexical knowledge base) отличается от машиночитаемого словаря тем, что в ней явно выделены значения слов и указаны связи между соответствующими значениями этих слов, что позволяет использовать эти данные для логического вывода [2].
В данной работе представлен подход к построению общецелевой лексической онтологии, интегрирующей лексическую и семантическую информацию.
Лексическая онтология (lexical ontology) содержит структурированную информацию о словах и включает семантические отношения (например, синонимия, гиперонимия, холонимия) между значениями слов [3]. Под словом "общецелевая" в названии онтологии подразумевается отсутствие привязанности к конкретной предметной области, т.е. в словарь онтологии пытаются включить все слова данного языка. Однако значительная часть прикладных онтологий строится для конкретной предметной области с указанием отношений между концептами данной области [4]. Существует направление автоматического построения "специализированных лексических онтологий", где аргументом для их создания служит то, что такая специализация "значительно уменьшает размер онтологии и соответственно сокращает время ее обработки" [5]. Однако в настоящее время в прикладных задачах большую и труднопреодолимую проблему представляет именно недостаточный объем словарей, тезаурусов и онтологий, а не их избыток [6].
Таким образом, общецелевая лексическая онтология содержит структурированную информацию о словах и включает семантические отношения, при этом отсутствует привязанность к кон-
* Работа выполнена при финансовой поддержке РФФИ (проекты № 11-01-00251; 12-01-00481; 12-07-00070), РГНФ (проект № 12-04-12062), проекта № 213 Программы фундаментальных исследований Президиума РАН "Интеллектуальные информационные технологии, математическое моделирование, системный анализ и автоматизация" и проекта № 2.2 Программы ОНИТ РАН "Интеллектуальные информационные технологии, системный анализ и автоматизация".
кретной предметной области. Одним из наиболее успешных проектов подобного рода считается WordNet.
WordNet — это толковый словарь и тезаурус английского языка в машиночитаемой форме. В основе словаря лежат психолингвистические теории, с учетом которых были определены значения слов и связи между словами и значениями, а также связи между самими значениями [7]. Данные WordNet используются для решения многих задач, например, определения значения слова [8—10], вычисления логичности и связности предложений в тексте [11, 12]. Многие онтологии и базы знаний включают данные WordNet либо связаны со списками синонимов WordNet, например: OpenCyc [13], DBPedia [14]. Существует несколько баз знаний, включающих не только WordNet, но и Викисловарь, обсуждаемый далее. Это лексико-семантический ресурс UBY [15] для английского и немецкого языка и система Lexvo.org [16], содержащая отношения в виде RDF-троек между словами около 7000 языков.
При выборе источника данных для построения общецелевой лексической онтологии (далее — онтологии) был выбран викисловарь1 по нескольким причинам. Викисловарь — это свободно пополняемый многофункциональный многоязычный онлайн-словарь и тезаурус. В викисловаре содержатся толкования и переводы слов, описание фонетических и морфологических свойств, семантические отношения. Кроме того — произношение слов (транскрипция и аудиофайлы), правила разбиения слов на слоги, ударения в словах, информация об этимологии слов, а также цитаты из литературных произведений, иллюстрирующие употребление слов, и даже видео и фотографии, иллюстрирующие значения слов в прямом смысле. Достоинствами викисловаря являются большой объем и разнообразие лексикографических данных. В работах [17, 18] показано, что по объему информации Немецкий Викисловарь сопоставим с тезаурусами GermaNet и Open-Thesaurus, а Английский Викисловарь даже превосходит объем данных WordNet.
Научная значимость многофункциональных онлайн-словарей (викисловарей) подтверждается и тем, что викисловарь и родственный проект — википедия [19] активно используются в научных экспериментах. С помощью викисловаря решаются самые разные задачи, связанные с обработкой текста и речи:
в машинном переводе между нидерландским и бурским языками [20];
для автоматического определения части речи слов с помощью скрытой марковской модели для трех языков: английского, вьетнамского и корейского [21];
в обработке текста парсером NULEX, где используется интеграция части данных Викисловаря (времена глаголов) с базой данных WordNet и VerbNet [22];
в системе распознавания и синтеза речи, где викисловарь — основа для быстрого создания словаря произношений [23]; для построения онтологий [6]; при отображении онтологий [26].
Далее в статье дается краткий обзор структуры словарной статьи Русского Викисловаря (на примере статьи для слова "танцевать"). Рассмотрены подход и архитектура системы построения онтологии. На основе лексикографических данных викисловарей построены онтологии, что позволило провести анализ и сравнить лексику английского языка в многоязычных словарях (Английский и Русский Викисловари) и WordNet.
1. Викисловарь и структура его словарной статьи. В викисловаре содержатся не только толкования и переводы слов, но в том числе в словарных статьях описываются фонетические и морфологические свойства слов, указываются семантические отношения. Для задания семантических свойств в викисловаре используется несколько взаимодополняющих информационных структур: семантические категории, контекстные пометы (задают стиль, предметную область, языковую принадлежность).
Структура словарной статьи викисловаря достаточно жестко и однозначно задается правилами. Такие правила есть в Английском Викисловаре2, в Русском Викисловаре3 и, вероятно, в остальных 170 викисловарях4. Наличие структуры и правил форматирования словарных статей позволяет взглянуть на статью как на интереснейший объект с точки зрения автоматического извлечения данных, например с помощью регулярных выражений [25]. Такое автоматическое из-
1 Здесь и далее название конкретного проекта (Английский Викисловарь, Русский Викисловарь) пишется с заглавной буквы, название вообще словарей данного типа, т.е. викисловарей, пишется с маленькой буквы.
2 См. http://en.wiktionary.org/wiki/Wiktionary:ELE.
3 См. http://m.wiktюnary.org/wiki/Викисловарь:Правила_оформления_статей.
4 См. http://meta.wikimedia.org/wiki/Wiktionary/Table.
Морфологические и синтаксические свойства
тан-це-нать
Глагол, несовершенный вид, переходный, тип спряжения по классификации А Зализняка — 2а.
Корень: -танц-; суффикс: -ева-; глагольное окончание:
наст. прош. повелит.
Я танцую танцевал, танцевала -
Ты танцуешь танцевал, танцевала танцуй
Он танцевал
она танцует танцевала —
ОНО танцевало
Мы танцуем танцевали —
Вы танцуете танцевали танцуйте
Они танцуют танцевали -
Пр. действ, наст. танцующий
Пр. действ, прош. танцевавший
Деепр. наст. танцуя
Пр. страд, наст. танцуемый
Будущее буду/будешь... танцевать
Рис. 1. Фрагмент словарной статьи "танцевать" с таблицей форм глагола
МФА: [ЙГП&'УЭР] Пример произношения
Рис. 2. Фрагмент словарной статьи "танцевать" со ссылкой на аудиофайл (в виде графического значка нот и динамика) и транскрипцией
влечение позволит преобразовать "неявную" структуру, т.е. структуру, понятную только читателю словаря, в явную, "понятную" компьютерным программам форму, чтобы обеспечить в дальнейшем успешное использование данных викисловаря в различных проектах, связанных с обработкой текста.
Рассмотрим структуру викисловарей на примерах из Русского Викисловаря. В словарной статье можно выделить следующие разделы: морфологический и синтаксический, фонетический, семантический, этимологический, а также разделы родственных слов, фразеологизмов и переводов. Проиллюстрируем с помощью фрагментов словарных статей все эти разделы.
Морфологический и синтаксический раздел. В нем указаны морфологические свойства (часть речи, для существительных — род, склонение и тип склонения по классификации А.А. Зализняка [24] и т.д.). Указано членение слова на морфемы, например приставка, корень (рис. 1).
Фонетический раздел содержит произношение в транскрипции международного фонетического алфавита и звуковой файл, озвученный носителем языка (рис. 2).
Семантический раздел включает толкования и цитаты, иллюстрирующие каж
Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.