ИЗВЕСТИЯ РАН. ТЕОРИЯ И СИСТЕМЫ УПРАВЛЕНИЯ, 2013, № 2, с. 64-75
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ
УДК 519.767.6
МЕТОДЫ ВЫЧИСЛИТЕЛЬНОГО АНАЛИЗА МОДЕЛЕЙ СЕМАНТИКИ ДЛЯ ОЦЕНКИ КАЧЕСТВА НАУЧНЫХ ТЕКСТОВ*
© 2013 г. М. Г. Крейнес
Москва, ООО "БАЗИСНЫЕ ТЕХНОЛОГИИ" Поступила в редакцию 24.09.12 г.
Целью данной работы является построение компьютерных методов получения объективной оценки качества научных документов (научно-технических статей, диссертаций, отчетных материалов о научно-исследовательских работах и опытно-конструкторских разработках, заявочных документов на их проведение, патентной документации и др.). Указанные документы относятся к неструктурированным в отличие от программ для ЭВМ, баз данных, справочников физических констант и других документов, написанных на определенным образом структурированном формальном языке. Для объективизации процедур оценивания качества научных текстов на естественных языках предложен подход, основанный на вычислительном анализе моделей семантики отдельных документов и коллекций документов.
БО1: 10.7868/80002338813020042
Введение. Объективная оценка качества научных документов необходима на всех стадиях создания и использования научно-технической продукции: от подготовки документа и принятия решения о его одобрении (например, публикации научной статьи в рецензируемом журнале) до отбора документа для дальнейшего изучения и применения. Оценка качества научных текстов лежит в основе успешного конкурентоспособного развития всех отраслей науки и техники. Создание компьютерных методов оценки качества научных документов является важным направлением в организационном и технологическом развитии экспертизы в научно-технической сфере, служит базовым элементом решения задачи адекватного управления в этой сфере.
Традиционно конкретные оценки качества (оценки выполнения формальных требований или требований к содержанию) неструктурированной научно-технической документации — текстов на естественных языках формирует сообщество экспертов или отдельные эксперты в данной предметной области. В попытках избежать субъективизма таких оценок разрабатываются разнообразные процедуры, создаются, развиваются и модифицируются выполняющие экспертизу организационные структуры и механизмы. Обеспечение объективности оценок качества информационных источников (документов) научно-технического профиля связано со значительными затратами (трудовыми и финансовыми). Поэтому делаются попытки автоматизировать процессы соответствующего анализа научно-технических документов.
К настоящему времени большие усилия были приложены и существенные результаты были получены для развития формализованных методов оценки качества структурированных научно-технических документов. На основе математического моделирования созданы методы проверки правильности содержания баз данных по физико-химическим константам. Системы и способы автоматизации проектирования зачастую по факту исполняют роль контролеров конструкторской документации [1, 2]. Методы автоматической верификации программ для ЭВМ весьма эффективно решают задачи оценки качества конкретных видов программного обеспечения [3]. Важно, что в перечисленных случаях критериями качества научно-технических документов являются характеристики конечного продукта, который описывает научно-технический документ (правильность и согласованность констант, рабочие параметры изделий и программ, их способность обеспечивать "тактико-технические" требования).
Гораздо хуже обстоит дело с оценкой качества неструктурированных научно-технических документов — текстов на естественных языках, прямая оценка "работоспособности" которых принципиально невозможна. Сегодня для решения данной проблемы применяются библиомет-
1 Работа выполнена при финансовой поддержке Министерства образования и науки РФ, Государственный контракт № 14.514.11.4017.
рические и наукометрические методы [4—6], в конечном счете связывающие качество документа с числом ссылок на него. Однако использовать такие методы можно только для опубликованных документов, которые уже нашли своих благодарных и трудолюбивых читателей, выразивших признательность его авторам в форме ссылок на документ в собственных трудах.
Вне библиометрических и наукометрических подходов для неструктурированных научно-технических документов требования к качеству задают формальную структуру и характер содержания определенных типов документов или имеют вид призывов и благих пожеланий. Например, требования к форме и характеру содержания отчетов о НИР или документам, разрабатываемым при выполнении ОКР, определяют ГОСТы (ГОСТ 15.105-2001 — "Система разработки и поставки продукции на производство. Порядок выполнения НИР и его составных частей", ГОСТ 15.203-2001 — "Система разработки и поставки продукции на производство. Порядок выполнения ОКР по созданию изделий и его составных частей", ГОСТ 15.110-2003 — "Документация отчетная научно-техническая на научно-исследовательские, аванпроекты и опытно-конструкторские работы", ГОСТ 7.32-2001 — "Межгосударственный стандарт. Система стандартов по информации, библиотечному и издательскому делу. Отчет о научно-исследовательской работе. Структура и правила оформления"). Типичными примерами требований к содержанию научно-технических документов являются следующие: "статья должна содержать оригинальные материалы", "работа должна быть посвящена актуальной и практически важной теме" или "изложение материала должно быть логичным и последовательным" (см. "Положение о порядке присуждения ученых степеней" ВАК Минобразования России, а также требования, предъявляемые научными изданиями к подаваемым в них работам). Заметим, что представление текстов на естественном языке как формальных структур, описываемых правилами грамматики и синтаксиса, позволило частично автоматизировать контроль качества текстовых документов. Работу корректоров по обеспечению соответствия документов на естественных языках правилам правописания и грамматики в основном взяли на себя программы для ЭВМ, именуемые текстовыми редакторами. Но они выполняют поставленные задачи только в пределах формальных правил (грамматических и синтаксических моделей) и не способны выявить опечатку, если она имеет форму слова, грамматически и синтаксически правильного, но полностью не соответствующего содержательному контексту.
В настоящей работе предложен подход к решению практически важной и теоретически интересной задачи создания объективных методов оценки качества научных текстов в составе научно-технических документов на естественных языках с помощью технологий вычислительного анализа содержания документа и соответствующей документу предметной области. Предложенные методы оценки основаны на всегда доступной информации о документе и на результатах ее анализа, выполняемого на формальном уровне. Данный подход к оценке качества документов использует в виде исходной информации только модели семантики документа и соответствующих документу предметных областей. Эти модели автоматически строятся в результате вычислительного анализа информационных источников.
Обоснование указанного подхода с учетом специфики научных текстов, а также предложенная постановка задачи формального оценивания их качества приведены в разд. 1. В разд. 2 даны требования к моделям семантики информационных источников на естественных языках и их коллекций, позволяющим строить оценки качества научных текстов в составе научно-технической документации. В разд. 3 введена система показателей качества и описаны способы сведения задачи анализа содержания документов, решение которой требуется для определения значений показателей, к вычислительному анализу моделей семантики документов.
1. Постановка задачи и принципы оценки качества научных текстов. Качество неструктурированной научной и научно-технической документации, представленной в виде текстов на естественных языках, определяется широким рядом факторов: авторитетностью, степенью информативности, доступностью для понимания целевой аудиторией, оригинальностью, обоснованностью, качеством изложения материала и многими другими. Объективная оценка качества информационных источников научно-технического характера может быть сформирована по положительному опыту использования содержащейся в источнике информации в других научных, технических, технологических или практических работах. В рамках стандартного подхода к экспертизе научно-технической информации поиск работ, содержательно связанных с конкретным источником, оказывается делом специалистов в предметных областях. Что зачастую сводит результаты поиска и формируемые на их базе оценки к абсолютно субъективным и основанным на индивидуальных памяти, знаниях и предпочтениях эксперта. При этом на первый план выходит проблема поиска совершенного эксперта. Если работ, содержательно связанных с анализируемым источником, не обнаружено, то формирование объективной оценки, определяющей сте-
пень "работоспособности" (в том числе и для развития науки) источника, само по себе оказывается задачей непростого научного исследования, основой которого может быть только содержание самого документа. Таким образом, качество научного текста реально оценить только в соотнесении его содержания с содержанием других документов. Примерами конкретных свойств документа, которые не могут быть оценены без изучения других источников информации, относящихся к предметной области анализируемого документа, являются его значимость, новизна, самостоятельность, связи документа с тематически близкими документами, динамикой развития самой предметной области.
Возможности объективного поиска и анализа результатов работ, содержательно связанных с конкретным источником, определяются особенностями научно-технической информации. Информационные источники научно-технического профиля характеризуются наличием:
источников-предшественников, источников-последователей и источников-конкурентов, в которых предложены, развиваются или отвергаются и опровергаются принципы, идеи, методы, выводы, оценки и факты, нашедшие отражение в конкретном источнике,
иерархии предметных областей, к которым может быть
Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.