научная статья по теме МЕТОДЫ ВЫЧИСЛИТЕЛЬНОГО АНАЛИЗА МОДЕЛЕЙ СЕМАНТИКИ ДЛЯ ОЦЕНКИ КАЧЕСТВА НАУЧНЫХ ТЕКСТОВ Кибернетика

Текст научной статьи на тему «МЕТОДЫ ВЫЧИСЛИТЕЛЬНОГО АНАЛИЗА МОДЕЛЕЙ СЕМАНТИКИ ДЛЯ ОЦЕНКИ КАЧЕСТВА НАУЧНЫХ ТЕКСТОВ»

ИЗВЕСТИЯ РАН. ТЕОРИЯ И СИСТЕМЫ УПРАВЛЕНИЯ, 2013, № 2, с. 64-75

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ

УДК 519.767.6

МЕТОДЫ ВЫЧИСЛИТЕЛЬНОГО АНАЛИЗА МОДЕЛЕЙ СЕМАНТИКИ ДЛЯ ОЦЕНКИ КАЧЕСТВА НАУЧНЫХ ТЕКСТОВ*

© 2013 г. М. Г. Крейнес

Москва, ООО "БАЗИСНЫЕ ТЕХНОЛОГИИ" Поступила в редакцию 24.09.12 г.

Целью данной работы является построение компьютерных методов получения объективной оценки качества научных документов (научно-технических статей, диссертаций, отчетных материалов о научно-исследовательских работах и опытно-конструкторских разработках, заявочных документов на их проведение, патентной документации и др.). Указанные документы относятся к неструктурированным в отличие от программ для ЭВМ, баз данных, справочников физических констант и других документов, написанных на определенным образом структурированном формальном языке. Для объективизации процедур оценивания качества научных текстов на естественных языках предложен подход, основанный на вычислительном анализе моделей семантики отдельных документов и коллекций документов.

БО1: 10.7868/80002338813020042

Введение. Объективная оценка качества научных документов необходима на всех стадиях создания и использования научно-технической продукции: от подготовки документа и принятия решения о его одобрении (например, публикации научной статьи в рецензируемом журнале) до отбора документа для дальнейшего изучения и применения. Оценка качества научных текстов лежит в основе успешного конкурентоспособного развития всех отраслей науки и техники. Создание компьютерных методов оценки качества научных документов является важным направлением в организационном и технологическом развитии экспертизы в научно-технической сфере, служит базовым элементом решения задачи адекватного управления в этой сфере.

Традиционно конкретные оценки качества (оценки выполнения формальных требований или требований к содержанию) неструктурированной научно-технической документации — текстов на естественных языках формирует сообщество экспертов или отдельные эксперты в данной предметной области. В попытках избежать субъективизма таких оценок разрабатываются разнообразные процедуры, создаются, развиваются и модифицируются выполняющие экспертизу организационные структуры и механизмы. Обеспечение объективности оценок качества информационных источников (документов) научно-технического профиля связано со значительными затратами (трудовыми и финансовыми). Поэтому делаются попытки автоматизировать процессы соответствующего анализа научно-технических документов.

К настоящему времени большие усилия были приложены и существенные результаты были получены для развития формализованных методов оценки качества структурированных научно-технических документов. На основе математического моделирования созданы методы проверки правильности содержания баз данных по физико-химическим константам. Системы и способы автоматизации проектирования зачастую по факту исполняют роль контролеров конструкторской документации [1, 2]. Методы автоматической верификации программ для ЭВМ весьма эффективно решают задачи оценки качества конкретных видов программного обеспечения [3]. Важно, что в перечисленных случаях критериями качества научно-технических документов являются характеристики конечного продукта, который описывает научно-технический документ (правильность и согласованность констант, рабочие параметры изделий и программ, их способность обеспечивать "тактико-технические" требования).

Гораздо хуже обстоит дело с оценкой качества неструктурированных научно-технических документов — текстов на естественных языках, прямая оценка "работоспособности" которых принципиально невозможна. Сегодня для решения данной проблемы применяются библиомет-

1 Работа выполнена при финансовой поддержке Министерства образования и науки РФ, Государственный контракт № 14.514.11.4017.

рические и наукометрические методы [4—6], в конечном счете связывающие качество документа с числом ссылок на него. Однако использовать такие методы можно только для опубликованных документов, которые уже нашли своих благодарных и трудолюбивых читателей, выразивших признательность его авторам в форме ссылок на документ в собственных трудах.

Вне библиометрических и наукометрических подходов для неструктурированных научно-технических документов требования к качеству задают формальную структуру и характер содержания определенных типов документов или имеют вид призывов и благих пожеланий. Например, требования к форме и характеру содержания отчетов о НИР или документам, разрабатываемым при выполнении ОКР, определяют ГОСТы (ГОСТ 15.105-2001 — "Система разработки и поставки продукции на производство. Порядок выполнения НИР и его составных частей", ГОСТ 15.203-2001 — "Система разработки и поставки продукции на производство. Порядок выполнения ОКР по созданию изделий и его составных частей", ГОСТ 15.110-2003 — "Документация отчетная научно-техническая на научно-исследовательские, аванпроекты и опытно-конструкторские работы", ГОСТ 7.32-2001 — "Межгосударственный стандарт. Система стандартов по информации, библиотечному и издательскому делу. Отчет о научно-исследовательской работе. Структура и правила оформления"). Типичными примерами требований к содержанию научно-технических документов являются следующие: "статья должна содержать оригинальные материалы", "работа должна быть посвящена актуальной и практически важной теме" или "изложение материала должно быть логичным и последовательным" (см. "Положение о порядке присуждения ученых степеней" ВАК Минобразования России, а также требования, предъявляемые научными изданиями к подаваемым в них работам). Заметим, что представление текстов на естественном языке как формальных структур, описываемых правилами грамматики и синтаксиса, позволило частично автоматизировать контроль качества текстовых документов. Работу корректоров по обеспечению соответствия документов на естественных языках правилам правописания и грамматики в основном взяли на себя программы для ЭВМ, именуемые текстовыми редакторами. Но они выполняют поставленные задачи только в пределах формальных правил (грамматических и синтаксических моделей) и не способны выявить опечатку, если она имеет форму слова, грамматически и синтаксически правильного, но полностью не соответствующего содержательному контексту.

В настоящей работе предложен подход к решению практически важной и теоретически интересной задачи создания объективных методов оценки качества научных текстов в составе научно-технических документов на естественных языках с помощью технологий вычислительного анализа содержания документа и соответствующей документу предметной области. Предложенные методы оценки основаны на всегда доступной информации о документе и на результатах ее анализа, выполняемого на формальном уровне. Данный подход к оценке качества документов использует в виде исходной информации только модели семантики документа и соответствующих документу предметных областей. Эти модели автоматически строятся в результате вычислительного анализа информационных источников.

Обоснование указанного подхода с учетом специфики научных текстов, а также предложенная постановка задачи формального оценивания их качества приведены в разд. 1. В разд. 2 даны требования к моделям семантики информационных источников на естественных языках и их коллекций, позволяющим строить оценки качества научных текстов в составе научно-технической документации. В разд. 3 введена система показателей качества и описаны способы сведения задачи анализа содержания документов, решение которой требуется для определения значений показателей, к вычислительному анализу моделей семантики документов.

1. Постановка задачи и принципы оценки качества научных текстов. Качество неструктурированной научной и научно-технической документации, представленной в виде текстов на естественных языках, определяется широким рядом факторов: авторитетностью, степенью информативности, доступностью для понимания целевой аудиторией, оригинальностью, обоснованностью, качеством изложения материала и многими другими. Объективная оценка качества информационных источников научно-технического характера может быть сформирована по положительному опыту использования содержащейся в источнике информации в других научных, технических, технологических или практических работах. В рамках стандартного подхода к экспертизе научно-технической информации поиск работ, содержательно связанных с конкретным источником, оказывается делом специалистов в предметных областях. Что зачастую сводит результаты поиска и формируемые на их базе оценки к абсолютно субъективным и основанным на индивидуальных памяти, знаниях и предпочтениях эксперта. При этом на первый план выходит проблема поиска совершенного эксперта. Если работ, содержательно связанных с анализируемым источником, не обнаружено, то формирование объективной оценки, определяющей сте-

пень "работоспособности" (в том числе и для развития науки) источника, само по себе оказывается задачей непростого научного исследования, основой которого может быть только содержание самого документа. Таким образом, качество научного текста реально оценить только в соотнесении его содержания с содержанием других документов. Примерами конкретных свойств документа, которые не могут быть оценены без изучения других источников информации, относящихся к предметной области анализируемого документа, являются его значимость, новизна, самостоятельность, связи документа с тематически близкими документами, динамикой развития самой предметной области.

Возможности объективного поиска и анализа результатов работ, содержательно связанных с конкретным источником, определяются особенностями научно-технической информации. Информационные источники научно-технического профиля характеризуются наличием:

источников-предшественников, источников-последователей и источников-конкурентов, в которых предложены, развиваются или отвергаются и опровергаются принципы, идеи, методы, выводы, оценки и факты, нашедшие отражение в конкретном источнике,

иерархии предметных областей, к которым может быть

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком