научная статья по теме ПОДХОД К АВТОМАТИЗИРОВАННОМУ ПОСТРОЕНИЮ ОБЩЕЦЕЛЕВОЙ ЛЕКСИЧЕСКОЙ ОНТОЛОГИИ НА ОСНОВЕ ДАННЫХ ВИКИСЛОВАРЯ Кибернетика

Текст научной статьи на тему «ПОДХОД К АВТОМАТИЗИРОВАННОМУ ПОСТРОЕНИЮ ОБЩЕЦЕЛЕВОЙ ЛЕКСИЧЕСКОЙ ОНТОЛОГИИ НА ОСНОВЕ ДАННЫХ ВИКИСЛОВАРЯ»

ИЗВЕСТИЯ РАН. ТЕОРИЯ И СИСТЕМЫ УПРАВЛЕНИЯ, 2013, № 2, с. 53-63

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ

УДК 004.82

ПОДХОД К АВТОМАТИЗИРОВАННОМУ ПОСТРОЕНИЮ ОБЩЕЦЕЛЕВОЙ ЛЕКСИЧЕСКОЙ ОНТОЛОГИИ НА ОСНОВЕ

ДАННЫХ ВИКИСЛОВАРЯ* © 2013 г. А. А. Крижановский, А. В. Смирнов

Санкт-Петербург, Федеральное государственное бюджетное учреждение науки Санкт-Петербургский

ин-т информатики и автоматизации РАН Поступила в редакцию 16.04.12 г.

Предложен подход и рассмотрена архитектура системы автоматизированного построения общецелевой лексической онтологии. В качестве онлайн-словаря был выбран викисловарь, поскольку он имеет большую базу данных из слов с переводами на многие языки. На примере Русского Викисловаря рассмотрена структура словарной статьи, на основе которой спроектирована база данных для хранения извлеченной информации. В системах управления знаниями важной составляющей частью являются онтологии, для работы с которыми требуется разработка подходов и алгоритмов для их построения. В результате построены лексические онтологии и выполнено сравнение основных показателей двух баз данных онтологий, созданных на основе Русского и Английского Викисловарей. Выполнен анализ динамики изменения численных параметров викисловарей и построенных авторами на их основе общецелевых лексических онтологий за 2010—2012 гг.

БО1: 10.7868/80002338813020066

Введение. В компьютерной лексикологии (направление вычислительной лингвистики) можно видеть последовательный переход (и в терминологии, и в смысловом наполнении) от машиночитаемых словарей к лексическим базам знаний и затем к лексическим онтологиям. Машиночитаемый словарь [1] представляет данные бумажного словаря в электронном виде с возможностью обработки этих данных на компьютере. Лексическая база знаний (lexical knowledge base) отличается от машиночитаемого словаря тем, что в ней явно выделены значения слов и указаны связи между соответствующими значениями этих слов, что позволяет использовать эти данные для логического вывода [2].

В данной работе представлен подход к построению общецелевой лексической онтологии, интегрирующей лексическую и семантическую информацию.

Лексическая онтология (lexical ontology) содержит структурированную информацию о словах и включает семантические отношения (например, синонимия, гиперонимия, холонимия) между значениями слов [3]. Под словом "общецелевая" в названии онтологии подразумевается отсутствие привязанности к конкретной предметной области, т.е. в словарь онтологии пытаются включить все слова данного языка. Однако значительная часть прикладных онтологий строится для конкретной предметной области с указанием отношений между концептами данной области [4]. Существует направление автоматического построения "специализированных лексических онтологий", где аргументом для их создания служит то, что такая специализация "значительно уменьшает размер онтологии и соответственно сокращает время ее обработки" [5]. Однако в настоящее время в прикладных задачах большую и труднопреодолимую проблему представляет именно недостаточный объем словарей, тезаурусов и онтологий, а не их избыток [6].

Таким образом, общецелевая лексическая онтология содержит структурированную информацию о словах и включает семантические отношения, при этом отсутствует привязанность к кон-

* Работа выполнена при финансовой поддержке РФФИ (проекты № 11-01-00251; 12-01-00481; 12-07-00070), РГНФ (проект № 12-04-12062), проекта № 213 Программы фундаментальных исследований Президиума РАН "Интеллектуальные информационные технологии, математическое моделирование, системный анализ и автоматизация" и проекта № 2.2 Программы ОНИТ РАН "Интеллектуальные информационные технологии, системный анализ и автоматизация".

кретной предметной области. Одним из наиболее успешных проектов подобного рода считается WordNet.

WordNet — это толковый словарь и тезаурус английского языка в машиночитаемой форме. В основе словаря лежат психолингвистические теории, с учетом которых были определены значения слов и связи между словами и значениями, а также связи между самими значениями [7]. Данные WordNet используются для решения многих задач, например, определения значения слова [8—10], вычисления логичности и связности предложений в тексте [11, 12]. Многие онтологии и базы знаний включают данные WordNet либо связаны со списками синонимов WordNet, например: OpenCyc [13], DBPedia [14]. Существует несколько баз знаний, включающих не только WordNet, но и Викисловарь, обсуждаемый далее. Это лексико-семантический ресурс UBY [15] для английского и немецкого языка и система Lexvo.org [16], содержащая отношения в виде RDF-троек между словами около 7000 языков.

При выборе источника данных для построения общецелевой лексической онтологии (далее — онтологии) был выбран викисловарь1 по нескольким причинам. Викисловарь — это свободно пополняемый многофункциональный многоязычный онлайн-словарь и тезаурус. В викисловаре содержатся толкования и переводы слов, описание фонетических и морфологических свойств, семантические отношения. Кроме того — произношение слов (транскрипция и аудиофайлы), правила разбиения слов на слоги, ударения в словах, информация об этимологии слов, а также цитаты из литературных произведений, иллюстрирующие употребление слов, и даже видео и фотографии, иллюстрирующие значения слов в прямом смысле. Достоинствами викисловаря являются большой объем и разнообразие лексикографических данных. В работах [17, 18] показано, что по объему информации Немецкий Викисловарь сопоставим с тезаурусами GermaNet и Open-Thesaurus, а Английский Викисловарь даже превосходит объем данных WordNet.

Научная значимость многофункциональных онлайн-словарей (викисловарей) подтверждается и тем, что викисловарь и родственный проект — википедия [19] активно используются в научных экспериментах. С помощью викисловаря решаются самые разные задачи, связанные с обработкой текста и речи:

в машинном переводе между нидерландским и бурским языками [20];

для автоматического определения части речи слов с помощью скрытой марковской модели для трех языков: английского, вьетнамского и корейского [21];

в обработке текста парсером NULEX, где используется интеграция части данных Викисловаря (времена глаголов) с базой данных WordNet и VerbNet [22];

в системе распознавания и синтеза речи, где викисловарь — основа для быстрого создания словаря произношений [23]; для построения онтологий [6]; при отображении онтологий [26].

Далее в статье дается краткий обзор структуры словарной статьи Русского Викисловаря (на примере статьи для слова "танцевать"). Рассмотрены подход и архитектура системы построения онтологии. На основе лексикографических данных викисловарей построены онтологии, что позволило провести анализ и сравнить лексику английского языка в многоязычных словарях (Английский и Русский Викисловари) и WordNet.

1. Викисловарь и структура его словарной статьи. В викисловаре содержатся не только толкования и переводы слов, но в том числе в словарных статьях описываются фонетические и морфологические свойства слов, указываются семантические отношения. Для задания семантических свойств в викисловаре используется несколько взаимодополняющих информационных структур: семантические категории, контекстные пометы (задают стиль, предметную область, языковую принадлежность).

Структура словарной статьи викисловаря достаточно жестко и однозначно задается правилами. Такие правила есть в Английском Викисловаре2, в Русском Викисловаре3 и, вероятно, в остальных 170 викисловарях4. Наличие структуры и правил форматирования словарных статей позволяет взглянуть на статью как на интереснейший объект с точки зрения автоматического извлечения данных, например с помощью регулярных выражений [25]. Такое автоматическое из-

1 Здесь и далее название конкретного проекта (Английский Викисловарь, Русский Викисловарь) пишется с заглавной буквы, название вообще словарей данного типа, т.е. викисловарей, пишется с маленькой буквы.

2 См. http://en.wiktionary.org/wiki/Wiktionary:ELE.

3 См. http://m.wiktюnary.org/wiki/Викисловарь:Правила_оформления_статей.

4 См. http://meta.wikimedia.org/wiki/Wiktionary/Table.

Морфологические и синтаксические свойства

тан-це-нать

Глагол, несовершенный вид, переходный, тип спряжения по классификации А Зализняка — 2а.

Корень: -танц-; суффикс: -ева-; глагольное окончание:

наст. прош. повелит.

Я танцую танцевал, танцевала -

Ты танцуешь танцевал, танцевала танцуй

Он танцевал

она танцует танцевала —

ОНО танцевало

Мы танцуем танцевали —

Вы танцуете танцевали танцуйте

Они танцуют танцевали -

Пр. действ, наст. танцующий

Пр. действ, прош. танцевавший

Деепр. наст. танцуя

Пр. страд, наст. танцуемый

Будущее буду/будешь... танцевать

Рис. 1. Фрагмент словарной статьи "танцевать" с таблицей форм глагола

МФА: [ЙГП&'УЭР] Пример произношения

Рис. 2. Фрагмент словарной статьи "танцевать" со ссылкой на аудиофайл (в виде графического значка нот и динамика) и транскрипцией

влечение позволит преобразовать "неявную" структуру, т.е. структуру, понятную только читателю словаря, в явную, "понятную" компьютерным программам форму, чтобы обеспечить в дальнейшем успешное использование данных викисловаря в различных проектах, связанных с обработкой текста.

Рассмотрим структуру викисловарей на примерах из Русского Викисловаря. В словарной статье можно выделить следующие разделы: морфологический и синтаксический, фонетический, семантический, этимологический, а также разделы родственных слов, фразеологизмов и переводов. Проиллюстрируем с помощью фрагментов словарных статей все эти разделы.

Морфологический и синтаксический раздел. В нем указаны морфологические свойства (часть речи, для существительных — род, склонение и тип склонения по классификации А.А. Зализняка [24] и т.д.). Указано членение слова на морфемы, например приставка, корень (рис. 1).

Фонетический раздел содержит произношение в транскрипции международного фонетического алфавита и звуковой файл, озвученный носителем языка (рис. 2).

Семантический раздел включает толкования и цитаты, иллюстрирующие каж

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком