научная статья по теме СОВРЕМЕННЫЕ ПРОБЛЕМЫ И ТЕНДЕНЦИИ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ (В ЗЕРКАЛЕ 24-Й МЕЖДУНАРОДНОЙ КОНФЕРЕНЦИИ ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ COLING 2012, МУМБАИ) Языкознание

Текст научной статьи на тему «СОВРЕМЕННЫЕ ПРОБЛЕМЫ И ТЕНДЕНЦИИ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ (В ЗЕРКАЛЕ 24-Й МЕЖДУНАРОДНОЙ КОНФЕРЕНЦИИ ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ COLING 2012, МУМБАИ)»

ВОПРОСЫ ЯЗЫКОЗНАНИЯ

№ 1 2014

© 2014 г. С.Ю. ТОЛДОВА, О.Н. ЛЯШЕВСКАЯ

СОВРЕМЕННЫЕ ПРОБЛЕМЫ И ТЕНДЕНЦИИ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ

(в зеркале 24-й Международной конференции по компьютерной лингвистике COLING 2012, Мумбаи)

Статья посвящена обзору современных тематик и актуальных направлений компьютерной лингвистики на основе анализа материалов одной из конференций в этой области, а именно 24-й Международной конференции по компьютерной лингвистике COLING 2012. В обзоре приводится анализ основных подходов и проблемных точек в таких традиционных областях автоматической обработки текста, как автоматический морфологический и синтаксический анализ, машинный перевод и др. Также подробно рассматриваются современные задачи автоматического извлечения информации из текста, такие как извлечение фактов, извлечение мнений, анализ контента на основе привлечения онтологических ресурсов веба. Делается вывод о том, что для современного уровня развития компьютерной лингвистики характерно вовлечение все более сложных уровней лингвистического анализа в сферу автоматического анализа, применение гибридных подходов в решении задач компьютерной обработки текстов, совмещающих машинное обучение и алгоритмические методы. При этом уровни сложности современных задач обработки текстов, таких как извлечение временной референции в тексте, анализ структуры дискурса и многие другие, требуют активного привлечения экспертных лингвистических знаний.

Ключевые слова: компьютерная лингвистика, автоматический анализ текста, извлечение информации из текста, машинное обучение, гибридные методы, экспертная лингвистическая аннотация

This paper is an overview of the current issues and tendencies in computational linguistics. The overview is based on the materials of the conference on computational linguistics COLING 2012. The modern approaches to the traditional NLP domains such as postagging, syntactic parsing, machine translation are discussed. The highlight of automated information extraction, such as fact extraction, opinion mining are also in focus. The main tendency of modern technologies in computational linguistics is to accumulate the higher level of linguistic analysis (discourse analysis, cognitive modeling) in the models and to combine machine learning technologies with the algorithmic methods based on deep expert linguistic knowledge.

Keywords: computational linguistics, natural language processing, machine learning, expert linguistic annotation

ВВЕДЕНИЕ

Настоящая статья посвящена рассмотрению основных тенденций и направлений современной компьютерной лингвистики. Несмотря на то, что основная проблематика этой области прикладной лингвистики - алгоритмы обработки языковых данных и их использование в компьютерных приложениях - далека от традиционных тем журнала «Вопросы языкознания», мы надеемся, что наш обзор позволит читателям познакомиться с современными подходами к ряду «горячих тем» компьютерной лингвистики, а также с некоторыми особенностями методики и формата компьютерно-лингвистических исследований.

Прежде чем мы перейдем к рассмотрению этой тематики, хотелось бы остановиться на проблеме взаимодействия теоретической лингвистики и таких инженерных приложений, как обработка текста или извлечение информации из текста. Если начальный этап становления компьютерной лингвистики как самостоятельной научной отрасли (60-е годы прошлого столетия) характеризовался главенствующей ролью теоретических лингвистических моделей при решении прикладных задач, то в дальнейшем в зарубежных прикладных разработках фокус почти полностью сместился на применение математических статистических методов, разработку новых методов машинного обучения и их применение к языковой реальности на практике. В отечественной традиции теоретический подход существенно дольше сохранял свои позиции. Однако следует отметить, что это утверждение справедливо не для всех направлений обработки текстов. В задачах информационного поиска по мере развития технологий поиска по неструктурированным данным разработчики неизбежно были вынуждены обращаться к различным статистическим методам. Если же говорить о стандартных задачах собственно лингвистической обработки текста, таких как морфологический, синтаксический, семантический анализ, до сих пор во многих отечественных системах эти задачи решаются с использованием эвристических правил и базируются на теоретических лингвистических моделях.

Что касается зарубежных разработок, следует констатировать, что активно развивающиеся технологии компьютерной обработки большого объема данных (например, текстов разных стилей, жанров, тематики), доступность этих данных в компьютерном виде создали условия для проведения различных статистических экспериментов, для применения к лингвистическим задачам методов машинного обучения. Такое «статистическое» направление, получив быстрые и достаточно высокие результаты относительно простыми математическими методами, достигло некоторого своего порога. Существующие методы и технологии позволяют использовать универсальные математические модели для быстрого решения различных задач обработки и анализа текста. В результате на современном этапе развития компьютерной лингвистики помимо поиска новых еще более изысканных и интеллектуальных методов машинного обучения исследователи обратились к вовлечению в модели более сложных языковых фактов, к решению высокоуровневых лингвистических задач. О таком изменении тенденций можно судить по проблемам, обсуждаемым на различных крупных конференциях по компьютерной лингвистике, по тематике таких конференций.

В настоящей статье мы представляем обзор современных тематик с привлечением в качестве иллюстраций материалов только одной конференции, а именно 24-й Международной конференции по компьютерной лингвистике, состоявшейся 8-15 декабря 2012 г. в Мумбаи, Индия (http://coling2012-iitb.org/). Конференция проходит раз в два года под эгидой Международного комитета по компьютерной лингвистике (1ССЬ). В этой конференции приняло участие около 800 человек со всех континентов: сотрудников университетов, исследовательских центров, коммерческих корпораций - математиков, 1Т-специалистов, лингвистов и т.п.

Как уже отмечалось, одной из современных тенденций является повышенный интерес к теоретическим дисциплинам, так или иначе связанным с задачами компьютерной лингвистики. Так, на конференции немногочисленные пленарные доклады преследовали цель ознакомить компьютерных лингвистов с положением дел в смежных областях. С приглашенными докладами выступили директор Школы устного перевода Женевского университета Барбара Мозер-Мерсер (нейролингвистические исследования о приспособлении работы мозга к задачам профессиональных синхронных переводчиков) и бывший президент Национальной парламентской библиотеки Японии Макото Нагао (цифровые библиотеки и роль обработки естественного языка в их развитии).

Тематика двух других приглашенных докладов была связана со страной проведения конференции, Индией, и с индийской лингвистической традицией. Профессор Института информационных технологий в Хайдарабаде Дипти Мисра Шарма провела параллель между идеями школы Панини и практикой создания современных компьютерных

ресурсов, прежде всего для индийских языков и других языков с развитой морфологией и свободным порядком слов. Профессор Пол Кипарски также предлагает взглянуть на грамматику Панини с современных позиций, как на набор классификаций, правил и алгоритмов, на котором основывается компьютерная система. С этой точки зрения оказывается, что Панини предложил описание санксрита минимальной длины. В этом случае все особенности грамматики (грамматические категории и лексические классы, правила, их конкуренция и порядок применения, цикличность, блокировка, аналог те-та-ролей, иерархии наследования и др.) служат для компрессии описания без потери точности и полноты - что, как нетрудно догадаться, представляет собой классическую задачу оптимизации работы компьютерно-лингвистического модуля. Кипарски задается также вопросом: может ли аналогичная идея минимизации длины метаданных лежать в основе деятельности человека при освоении языка? Его ответ - нет: на оптимизацию грамматики ушел труд нескольких поколений индийских грамматистов, в то время как человек усваивает язык слишком быстро.

Тематика конференции была весьма разнообразна и затрагивала практически все актуальные и активно развиваемые направления современной компьютерной лингвистики, начиная от исследования психолингвистических мотивов языкового поведения людей и заканчивая сложными математическими моделями машинного обучения без использования какого-либо предварительного лингвистического знания. Безусловно, невозможно в пределах одного небольшого обзора охватить все темы, обсуждавшиеся в рамках большой компьютерной конференции. Ниже мы остановимся на отдельных актуальных темах современной компьютерной лингвистики и кратко охарактеризуем решения, предлагавшиеся в докладах участников.

1. СОВРЕМЕННЫЕ ТЕНДЕНЦИИ В ОБЛАСТИ МАШИННОГО ПЕРЕВОДА

1.1. Общие направления исследований

Одной из доминант конференции стал машинный перевод. Этому направлению было посвящено несколько секций, а также многочисленные стендовые доклады. В последнее время потребность в автоматическом переводе чрезвычайно возросла, возрос и интерес исследователей к данной области компьютерной лингвистики. Это связано с активным развитием мультиязычной интернет-среды. С одной стороны, все больше документов в Сети представлено не на английском, а на других языках, все в большей степени растет потребность в интеграции знаний в различных областях деятельности на разных языках. С другой стороны, растет количество доступных в Сети текстов, представленных сразу на двух и более языках. Информация, извлекаемая из большого количества параллельных текстов, позволяет опираться в переводе не на экспертные оценки и правила, а на статистическую информацию. Эти обстоятельства обусловили развитие языковонезависимых подходов в области машинного перевода, а также дали толчок к активному использованию методов машинного обу

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком