научная статья по теме ПЛОДОТВОРНЫЙ СОЮЗ ЛИНГВИСТИКИ И ИНФОРМАТИКИ Общие и комплексные проблемы естественных и точных наук

Текст научной статьи на тему «ПЛОДОТВОРНЫЙ СОЮЗ ЛИНГВИСТИКИ И ИНФОРМАТИКИ»

ПЛОДОТВОРНЫЙ СОЮЗ ЛИНГВИСТИКИ И ИНФОРМАТИКИ

ОБСУЖДЕНИЕ ДОКЛАДА

Обсуждение началось с выступления академика Ю.Д. Апресяна. Он говорил не столько о самом корпусе, сколько о перспективах, которые он и другие подобные ресурсы открывают перед лексикографией и лингвистикой.

В Институте русского языка им. В.В. Виноградова РАН в 2006 г. приступили к работе над первым активным словарём русского языка. В чём разница между пассивными и активными словарями? Пассивными называются словари, назначение которых - обеспечить понимание текста, для

чего достаточно сообщить минимальные сведения о формах и значении слова. Например, о слове карта, в значении игральная, достаточно сказать, что это кусочек картона, один из нескольких, с обозначением масти и достоинства, предназначенный для разного рода игр. Самих слов в таком словаре должно быть много, чтобы было обеспечено покрытие довольно большого корпуса текстов. Следовательно, несколько упрощённая формула пассивного словаря - "много слов, мало сведений о каждом слове". Поэтому пассивные

словари объёмом от 100 тыс. слов и больше на 60-90% заполнены словами, которые говорящие в своём повседневном обиходе не употребляют. В заслушанном докладе, продолжал Ю.Д. Апресян, говорилось, что средний образованный носитель языка использует 10-12 тыс. слов, Шекспир использовал 21 тыс. слов, в словаре Пушкина чуть более 20 тыс.

Активные же словари предназначены для того, чтобы обеспечить не только понимание того, о чём говорится, но и нужды производства текстов. Для этого в словарь надо поместить как можно более подробную информацию обо всех свойствах слова: грамматических формах, значении, синтаксисе, сочетаемости и т.д. В частности, о том же слове карта в активном словаре следовало бы очень подробно описать его сочетаемость с глаголами, потому что такая сочетаемость идиоматична в разных языках. Например, по-русски карты тасуют, по-английски ими шаркают; по-русски их снимают, по-английски - срезают; по-русски - сдают, по-английски - распределяют; по-русски картами ходят, по-английски -играют; по-английски карту нельзя бить, а можно только покрывать.

Оказывается, что корпусы дают огромный материал для того, чтобы в словарь вошла живая идиоматичная разнообразная сочетаемость слов. Кроме того, они содержат все необходимые сведения о других свойствах слова.

Ещё одно свойство большинства пассивных словарей состоит в том, что они обращены в прошлое, ориентированы на литературную норму XIX - начала XX в. и часто не содержат элементарных сведений о словах и значениях слов, которые сегодня известны каждому говорящему. Например, ни в одном из существующих толковых словарей русского языка (а их довольно много, даже включая специальные словари и новации, содержащие трансферы, веб-блок, клипмейке-ры, постеры, слоганы и т.д.) не нашлось места для глаголов заходить и выходить в таких простых словосочетаниях, как самолёт заходит на посадку и он выходит на академика. Этих простых вещей, хорошо всем известных, в толковых словарях русского языка нет. Корпус, конечно, позволяет возместить этот недостаток.

После сравнения активных словарей с пассивными Ю.Д. Апресян указал на одну особенность того активного словаря, над которым работают в Институте русского языка и который отличается от подобных словарей других языков. Первые активные словари были составлены в начале XX столетия немецким преподавателем английского и французского языков Роймом. С середины века эта тенденция стала набирать силу, и сейчас все развитые западные лексикографии (английская,

французская, немецкая и др.) располагают большими семействами активных словарей (к сожалению, этого пока нельзя сказать о русской лексикографии), которые рассматриваются там как чисто учебные, а фундаментальными, научными продолжают считаться только пассивные словари.

Составители словаря в Институте русского языка РАН предпринимают попытку сделать активный словарь частью теоретического, то есть научного, описания языка. За счёт чего это делается? Раньше грамматика и словарь составлялись абсолютно разными специалистами, поэтому часто в самых ключевых местах не были друг с другом согласованы. Вот один из вопиющих примеров такого рассогласования. Известно, что во всех европейских языках, в том числе в английском, есть такая часть речи, как числительное, и она, конечно, признаётся английской грамматикой. Однако все словари квалифицируют числительное либо как существительное, либо как прилагательное. Очевидно, что такое лингвистическое описание не могло бы служить основой для каких-либо систем переработки текстов на естественных языках, потому что оно должно было бы порождать химерические продукты. Там существительное, прилагательное и числительное не могли бы правильно взаимодействовать с грамматическими правилами языка.

Для современных систем переработки информации, включая автоматический перевод, оказалось необходимым выработать совершенно новый тип лингвистического описания, которое получило название "интегральное описание языка". В нём грамматика и словарь должны быть идеально согласованы друг с другом. Каждое слово и каждый класс слов в словаре, предназначенном для компьютерной переработки текста, должны описываться таким образом, чтобы им приписывались все правила, обращения к которым могут потребовать грамматические правила. В результате возникает новый тип описания, который мы тоже собираемся реализовать в активном словаре русского языка. Таким образом, тот словарь, к работе над которым мы сейчас приступили, констатировал Ю.Д. Апресян, будет отличаться от существующих активных словарей других языков тем, что он станет использовать и современные технические ресурсы, и современную лингвистическую теорию.

Далее в выступлении шла речь о работах, которые проводятся Институтом проблем передачи информации им. А.А. Харкевича. Главная из них -система автоматического перевода с английского на русский и с русского на английский. В её состав входит мощный анализатор русских текстов, который отбирается на автоматический словарь объёмом 120 тыс. входов и выходов русского язы-

ка. Анализатор был использован в работах по созданию совершенно нового типа ресурсов для лингвистических исследований. Об этом говорилось в сегодняшнем докладе.

В лаборатории компьютерной лингвистики ФИАНа был автоматически размечен корпус текстов объёмом 35 тыс. предложений. В ходе разметки каждому предложению текста приписывалась определённая морфологическая и синтаксическая структура, последняя в виде "древа зависимости". Полученный продукт оказался ценным по крайней мере в двух отношениях. Во-первых, глубоко размеченный корпус текста предоставляет совершенно новые возможности для углубления лингвистических исследований. Во-вторых, и это самое важное, он создаёт некий экспериментальный полигон для теоретической лингвистики. Очевидно, что далеко не все предложения, входящие в состав корпуса, были проанализированы компьютером правильно. На некоторых из них не было получено никакой структуры или была получена неправильная структура. Чаще всего это объяснялось тем, что в тексте встретилась не известная программе синтаксическая конструкция, либо тем, что компьютер ошибся. Каждая такая ситуация, естественно, тщательно анализировалась. В первом случае писалось новое правило, способное дать точный анализ встреченной конструкции. Это так называемая идентифицирующая конструкция типа "это идёт Иван", "это стучит дождь"; в ней всего три слова, и компьютер не мог разобраться, где здесь подлежащее, а где сказуемое. После того как было написано соответствующее правило, был получен правильный анализ.

Этот факт приведён для того, пояснил выступающий, чтобы отметить и другой факт: в трёх академических грамматиках русского языка 1954, 1970 и 1980 гг. эта конструкция отсутствует. Она встретилась в тексте, компьютер с ней не справился, к этому было привлечено внимание лингвистов, и получилось некое новое правило, которого до сих пор в русской грамматике не было. "Это идёт Иван", а что такое "это"? Представим, что мы анализируем текст с определённой целью, например для перевода. Чтобы перевести наше предложение, скажем, на английский, нужно точно представить его синтаксическую структуру. Нельзя сказать: "Ну, это вот идёт Иван", ибо компьютер должен построить "древо зависимости", представляющее синтаксическую структуру предложения - только тогда он может перевести его на другой язык, и никакие иные слова здесь не помогут.

Таким образом, корпус и анализ корпуса с помощью технических средств создают для лингвиста уникальный экспериментальный полигон, в

своё время предусмотренный Андреем Николаевичем Колмогоровым, когда начинались все эти работы, которые в итоге вылились в область, называемую компьютерной лингвистикой.

Заведующий кафедрой теоретической и прикладной лингвистики филологического факультета МГУ член-корреспондент РАН А.Е. Кибрик высказал свои соображения о значении Национального корпуса русского языка на современном этапе развития лингвистической науки. Национальный корпус языка - это не просто справочный механизм, к которому можно обращаться для справок, как к языковому словарю или телефонной книге. Это технологический новационный инструмент познания языка, значимость которого сравнима с включением в арсенал научных инструментов таких изобретений, как микроскоп, телескоп, рентгеновский аппарат, томограф и т.д. Но сами инструменты "молчат", пока человек не научится читать то, что можно прочесть в объективной реальности, пока исследователь не освоит пределы и возможности данного инструмента. Языковой корпус сближает лингвистику, которую принято относить к гуманитарным областям знания, с естественными науками, потому что язык - это независимая от человека объективная реальность. Такие традиционные средства фиксации языка, как грамматика и словарь, - это абстрактные конструкты, они извлекаются исследователем из фактов речевой деятельности. Корпус -инструмент, позволяющий за очень короткое время собирать исчерпывающее количество языкового материала, что совершенно невозможно было осуществить ещё неско

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком