научная статья по теме ЛАТЕНТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ В ЗАДАЧЕ АВТОМАТИЧЕСКОГО АННОТИРОВАНИЯ Математика

Текст научной статьи на тему «ЛАТЕНТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ В ЗАДАЧЕ АВТОМАТИЧЕСКОГО АННОТИРОВАНИЯ»

БАЗЫ ДАННЫХ И ЗНАНИЙ

УДК 681.3.06

ЛАТЕНТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ В ЗАДАЧЕ АВТОМАТИЧЕСКОГО АННОТИРОВАНИЯ

© 2011 г. И.В. Машечкин, М.И. Петровский, Д.С. Попов, Д.В. Царёв Московский государственный университет имени М.В. Ломоносова.

119991 Москва, ГСП-1, Ленинские горы, факультет вычислительной математики и

кибернетики

E-mail: mash@cs.msu.su, michael@cs.msu.su, ixaphire@gm,ail.com,, dima.tsarev@gmail.com

Поступила в редакцию 24.05.2011 г.

В данной статье рассматриваются наиболее актуальные методы автоматического аннотирования, которые строят аннотации в форме выдержек. Исходный текст представляется в виде числовой матрицы. Столбцы матрицы соответствуют фрагментам текста, а каждый фрагмент представляется в виде вектора пространства термов текста. Далее к полученной матрице применяется латентно-семантический анализ для построения представлений фрагментов текста в пространстве его тематик, размерность которого гораздо ниже размерности исходного пространства термов. На основе полученных представлений осуществляется выбор наиболее значимых фрагментов текста, число которых определяется в зависимости от длины требуемой аннотации. В рамках данной работы был представлен новый метод автоматического аннотирования, использующий неотрицательную матричную факторизацию для построения представлений фрагментов текста в пространстве его тематик. Разработанный метод был экспериментально проверен на эталонных тестовых наборах данных DUC 2001, DUC 2002 и показал лучшие результаты по сравнению с актуальными на сегодняшний день методами.

1. ВВЕДЕНИЕ

Настоящая статья посвящена одной из наиболее популярных на сегодняшний день задаче, решаемой методами интеллектуального анализа текстовых данных, - автоматического аннотирования текста [1, 2]. Это одна из основных алгоритмических задач, возникающая при реализации многих прикладных систем: в базах данных для анализа текстовых данных (Oracle Text), в web поисковых системах (еще в 1998 году Inxight Summarizer использовался для построения аннотаций в AltaVista), в текстовых редакторах (AutoSummarize в Microsoft Office).

Рассматриваемые в данной работе методы автоматического аннотирования строят аннотации в форме выдержек, т.е. результирующая аннотация документа полностью состоит из последовательности фрагментов исходного текста. В качестве фрагментов

обычно выбирают предложения текста. Кроме того, предполагаем, что аннотация строится для широкого круга читателей, т.е. освещаются все главные темы исходного текста, а не делается акцент на определенные темы, связанные с интересами конкретных читателей.

Наиболее популярные методы автоматического аннотирования, которые строят аннотации описанного класса, основаны на использовании латентно-семантического анализа. В данных методах исходный текст представляется в виде числовой матрицы. Столбцы матрицы соответствуют фрагментам текста, а каждый фрагмент представляется в виде вектора пространства признаков текста. Далее к полученной матрице применяется латентно-семантический анализ для построения представлений фрагментов текста в пространстве его тематик, размерность которого гораздо ниже размерности исходного

67

5*

пространства признаков. На основе полученных представлений осуществляется выбор наиболее значимых фрагментов текста, число которых определяется в зависимости от длины требуемой аннотации.

Настоящая статья имеет следующую структуру. В разделе „Модели представления текстовых данных" дан обзор существующих формальных моделей представления текстовых данных в виде матрицы. В разделе Методы автоматического построения аннотаций" приводится описание методов автоматического аннотирования, основанных на латентно-семантическом анализе. Для построения представлений фрагментов текста в пространстве его тематик в латентно-семантическом анализе используются матричные разложения, такие как сингулярное и неотрицательная матричная факторизация. Кроме того, в данном разделе представлен собственный метод автоматического аннотирования, основанный на неотрицательной матричной факторизации исходной матрицы текста. Раздел „Результаты экспериментального исследования" посвящен экспериментальному исследованию рассмотренных методов автоматического аннотирования на эталонных тестовых наборах данных DUC 2001, DUC 2002.

2. МОДЕЛИ ПРЕДСТАВЛЕНИЯ ТЕКСТОВЫХ ДАННЫХ

Метод латентно-семантического анализа работает с совокупностью всех фрагментов текста. В качестве фрагментов обычно выбирают предложения текста. Исходный текст представляется в виде числовой матрицы. Столбцы матрицы соответствуют заранее выделенным фрагментам текста, а каждый фрагмент отображается в числовой вектор a фиксированной размерности n, где n - число признаков текста, а i-ая компонента вектора определяет вес i-го признака. Для реализации модели представления текста необходимо, во-первых, определить признаковое пространство и, во-вторых, выбрать метод вычисления весов.

Самым распространенным способом формирования признакового пространства является метод ключевых слов [3]. В качестве признаков в данном методе используются

лексемы, входящие в текст, а размерность признакового пространства равна размерности словаря. Под лексемами в общем случае понимаются все различные слова текста. Однако обычно применяются некоторые меры по предварительной обработке текста с целью получения более информативного" признакового пространства.

Цель предварительной обработки текста -оставить только те признаки, которые наиболее информативны, наиболее сильно характеризуют аннотируемый текст. К тому же уменьшение анализируемых признаков приводит к уменьшению использования вычислительных ресурсов. В интеллектуальном анализе текстовых данных для обозначения признака текста принято использовать термин терм" .

Используемые в данной работе эталонные тестовые наборы документов DUC 2001 и DUC 2002 являются полностью англоязычными, поэтому для формирования списка лексем использовались такие методы предварительной обработки текста, как удаление стоп-слов и приведение слов к нормализованной форме (стемминг) [3].

Исходный текст представляется в виде числовой матрицы A = [A\, A2,..., A„\, строки которой соответствуют термам текста, а столбцы - его фрагментам. Каждый фрагмент исходного текста представляется в виде вектора в пространстве термов, координатами которого являются весовые коэффициенты соответствующих термов. Формально j-ый фрагмент текста отображается в вектор Aj = [ai,j, a2,j,..., am,j]T, где m - число термов текста, ai,j = Li,jGi. Li,j - локальный вес терма i во фрагменте j, Gi - глобальный вес терма i во всем исходном тексте. Приведем наиболее популярные локальные и глобальные веса термов, которые применяются в различных задачах интеллектуального анализа текстовой информации [4, 5].

Локальные веса:

• Частотный вес (FQ, TF) - число появлений терма i во фрагменте j : Litj = titj ;

• Бинарный вес (BI) :

Li,j — x(ti,j) —

1, если tij > 0 0, если tij — 0

Логарифмический вес (LOG) : Li,j — log(1 + tij);

Нормализованный логарифмический вес (LOGN) :

( l+log{U,j) если t. . > 0

I l+log(aj) , если bi,j > 0

L

i,j

0,

если ti}j — 0

где aj - среднее число вхождений термов во фрагмент j;

• Пополненный вес (англ. augmented, AU) :

Li,j —0, 5x(ti,j)+0, 5( j ,

где xj — max(ti,j); i

Глобальные веса:

• Глобальный вес не учитывается (NW) : Gi — 1;

• Обратная частота фрагмента. В интеллектуальном анализе текстовых данных этот вес обычно называют IDF (аббревиатура для Inverse Document Frequency): Gi — log ^^ + 1, где N - число всех фрагментов в тексте, ni - число фрагментов, содержащих терм i;

• Энтропия (ЕЫ) :

С — 1 _ (1од

— 1 ¡одМ

где Pi,j — , Е — ]

• Глобальная частота (СЕ) : ^ — ^.

3. МЕТОДЫ АВТОМАТИЧЕСКОГО ПОСТРОЕНИЯ АННОТАЦИЙ

Как было рассмотрено выше, исходный текст представляется в виде числовой матрицы. Столбцы матрицы соответствуют фрагментам текста, а каждый фрагмент представляется в виде вектора пространства термов текста. Далее к полученной матрице применяется латентно-семантический анализ для построения представлений фрагментов текста в пространстве его тематик, размерность которого гораздо ниже размерности исходного пространства термов. На основе полученных

представлений осуществляется выбор наиболее значимых фрагментов текста, число которых определяется в зависимости от длины требуемой аннотации.

3.1. Латентно-семантический анализ

Латентно-семантический анализ (англ. Latent semantic analysis, LSA) - это полностью автоматический алгебраически-статистический метод обработки текстовой информации на естественном языке, который используется для получения и представления контекстного использования значений слов во фрагментах текста (или в наборе текстовых документов). Основная идея этого метода состоит в том, что совокупность всех фрагментов исходного текста, приводит к взаимным ограничениям использований слов, которые и определяют сходство семантических значений слов и фрагментов текста [6, 7, 2]. Латентно-семантический анализ широко используется в различных областях интеллектуального анализа текстовых данных, в том числе в информационном поиске1 [7], категоризации документов, автоматическом аннотировании [8, 2], и т.д. Далее латентно-семантический анализ будем рассматривать в контексте задачи автоматического аннотирования.

Метод латентно-семантического анализа работает с матричным представлением текста, в качестве фрагментов будем использовать предложения текста. Таким образом, исходный текст отображается в матрицу A £ Rmxn. где m - число различных термов, а n -число предложений текста. Следующим шагом латентно-семантического анализа является построение представлений предложений текста в пространстве его тематик, которое осуществляется применением к матрице текста A одного из матричных разложений. Первым и являющимся до сих пор наиболее популярным является сингулярное разложение (англ. Singular Value Decomposition, SVD) [6, 7, 8]. В данной статье также рассматривается применение неотрицательной матричной факторизации

ХВ информационном поиске данный метод называют латентно-семантическим индек

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком