научная статья по теме НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА Общие и комплексные проблемы естественных и точных наук

Текст научной статьи на тему «НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА»

ВЕСТНИК РОССИЙСКОЙ АКАДЕМИИ НАУК, 2007, том 77, № 6, с. 498-50•

С КАФЕДРЫ ПРЕЗИДИУМА РАН

Тема статьи наверняка заинтересует многих. Что такое национальный корпус или языковой корпус в рамках языка отдельной страны? Эти вопросы касаются не только лингвистики, но - шире - русского языка, сферы образования и новых информационных технологий.

НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА

А. М. Молдован

Речь идёт о новой справочно-информацион-ной системе по русскому языку, созданной большим коллективом специалистов из академических институтов разного профиля: Института русского языка им. В.В. Виноградова, Всероссийского института научной и технической информации (ВИНИТИ), Института проблем передачи информации, Института языкознания, Института лингвистических исследований, а также из нескольких университетов России. В настоящее время система размещена в Интернете в свободном доступе на сайте www.ruscorpora.ru, организованном при поддержке компании "Яндекс".

Предпосылки для этой работы закладывались у нас давно, с 80-х годов прошлого века, когда по инициативе академика А.П. Ершова в Институте русского языка начал создаваться Машинный фонд русского языка. Бурное развитие компьютерной техники и появление новых программ постоянно меняли представления о том, какова должна быть "архитектура" такого фонда. В частности, на начальном этапе, когда никаких текстов в оцифрованном виде не было (сейчас в это трудно поверить!), нам казалось, что главная задача лингвистов - вводить в компьютер образцовые тексты, чтобы потом можно было с ними работать. И несколько лет в институте осуществлялась масштабная работа по перепечатке текстов на компьютере и их корректуре; дело продвигалось очень медленно, и несмотря на все усилия,

• *

МОЛДОВАН Александр Михайлович - член-корреспондент РАН, директор Института русского языка им. В.В. Виноградова РАН.

техническое качество текстов было неудовлетворительным. Но по прошествии нескольких лет оказалось, что лингвистам не нужно заниматься этой рутинной работой, так как компьютерным набором текстов успешно занимаются их авторы и издатели, а накопление и каталогизацию неплохо осуществляют интернет-библиотеки. Зато наметилась другая перспектива. Изобилие текстов в Интернете сделало возможным их использование в лингвистических целях, что послужило толчком для быстрого развития во всём мире, в том числе и в нашей стране, корпусной лингвистики. В 2001-2002 гг. работа над русским корпусом началась в рамках лингвистического семинара под руководством В.А. Плунгяна при Московском центре непрерывного математического образования. (Надо сказать, что дополнительные импульсы в этой работе, как и во многих других лингвистических начинаниях, исходили от математиков, понимающих значение хорошей лингвистики для программных продуктов.) По мере количественного и качественного усложнения задач увеличивалось и число участников. Сегодня этот коллектив состоит из 100 человек: помимо сотрудников Института русского языка и Отдела лингвистических исследований ВИНИТИ, возглавляемого Е.В. Рахилиной, в работе принимают участие сотрудники и аспиранты практически всех основных лингвистических центров Москвы, Петербурга, Воронежа, Саратова, Казани и других городов России. Таким образом, создание Национального корпуса русского языка -яркий пример сотрудничества академических и образовательных институтов и вовлечения студентов и аспирантов в научные исследования. Это большой и дружный коллектив, включающий лучших отечественных лингвистов, здесь царит дух истинного научного подвижничества.

Когда в рамках академической программы "Филология и информатика" в 2003-2005 гг. были созданы финансовые условия для этой работы, удалось в рекордно короткий срок - за два года -добиться создания действующей модели Нацио-

нального корпуса русского языка. Он был открыт в режиме свободного доступа в Интернете 29 апреля 2004 г. при технической поддержке компании "Яндекс", предоставившей для этих целей свой сервер и оказавшей многообразную технологическую помощь в размещении программных продуктов.

Теперь пора сказать, что такое языковой корпус вообще и национальный в частности. Корпус любого языка - это собрание текстов в электронном виде, но не обычное, а с "пришитым" к каждому тексту и каждому слову научным аппаратом -особой информацией о характеристиках и свойствах текстов и слов. Такой аппарат называется разметкой. Корпус тем лучше, чем полнее и совершеннее его разметка. Собственно, корпусная лингвистика - это прежде всего наука о том, как сделать хорошую разметку языкового корпуса. Хорошая разметка, в частности, позволяет быстро и эффективно найти в корпусе те слова, формы и конструкции, которые нужны исследователю. Для этого программа поиска как минимум должна "понимать", какие формы в тексте относятся к одному и тому же слову. Например, если нас интересует слово рожь, то программа должна выдать контексты не только с именительным падежом рожь, но и со всеми остальными (ржи, рожью и т.д.), при этом она не должна выдавать, например, таких слов, как ржал и Ржев. То есть программа должна хотя бы частично "понимать" грамматическую структуру данного языка.

Тем более такое понимание необходимо, если мы хотим искать не конкретные слова, а отвлечённые грамматические формы. Представьте, что нужно в достаточно длинном тексте найти все слова в дательном падеже единственного числа. Обычный текстовый редактор такие задачи решать не умеет. Для того чтобы грамматические формы можно было автоматически найти в тексте, эту информацию необходимо предварительно в него ввести. Иначе искать придётся только вручную, а это процедура долгая и трудоёмкая. Поэтому с самого начала работ над корпусом лексико-грамматическая разметка (приписывание каждой словоформе информации о лексемной принадлежности и об инвентаре морфологических признаков) была главным направлением. Для большинства слов задача была решена автоматически - посредством специально разработанных программных средств морфологического анализа. В тех случаях, когда алгоритмы разметки не давали однозначного ответа, вступала в действие технологическая цепочка ручного приписывания каждой неоднозначной словоформе (омографу) правильного разбора.

Кроме того, в семантическом словаре корпуса осуществлена частичная разметка лексем по се-

мантическим признакам. Семантический поиск осуществляется по классам слов: наименования частей тела, имена родства, глаголы движения, оценочная лексика, слова со значением уменьшительности и т.п.

Разметка включает также метатекстовую информацию. Пользователь может быть заинтересован в том, чтобы ограничить поисковую выдачу по самым разным параметрам, например, чтобы поиск заданной им комбинации грамматических и лексических признаков осуществлялся только в мемуарах или только в записях устной речи (игнорируя, скажем, длинный ряд однородных примеров из газетного текста; на сайте такое ограничение задаётся в разделе "Мой корпус"). Метатекстовая информация включает следующие параметры: автор (имя, пол, возраст), название, дата создания, объём (в словах) текста; жанр, тип текста (рассказ, роман и т.п.), место и время описываемых событий; для нехудожественных текстов - сведения о функциональной сфере, типе и тематике текста и др. По всем этим метатекстовым параметрам возможен поиск и создание пользовательского под-корпуса. Например, вас интересует, изменилась ли на протяжении того или иного отрезка времени частотность употребления в русском языке слова порядочность (интуиция подсказывает, что за последние 10-15 лет она изменилась). Выбираем хронологические границы "до 1990 г." и проводим поиск. Обнаруживается, что из 4011 документов слово порядочность встречается в 95, что составляет приблизительно 2.6%. Потом задаём хронологию "после 1990 г.": из 31580 документов слово порядочность встречается в 197, что составляет 0.6%. Так выясняется, что это слово за последние 15 лет стало звучать в 4-5 раз реже, чем прежде.

Итак, языковой корпус - это электронное собрание текстов, размеченное таким образом, чтобы в нём можно было быстро найти слова и конструкции с заданными грамматическими и другими свойствами. Национальным корпусом, по сложившейся традиции, называют самый большой и представительный корпус, характеризующий язык данной страны в целом. В настоящее время большинство крупных языков мира уже имеют свои национальные корпусы. Общепризнанным образцом считается, в частности, Британский национальный корпус. Своими национальными корпусами располагают Америка, Германия, Италия, Испания, Венгрия, Литва, Эстония, Ирландия и другие, в том числе славянские, страны. Наш национальный корпус сопоставим с названными по объёму текстов (сегодня он включает 140 млн. словоупотреблений и продолжает пополняться), но при этом наш корпус значительно превосходит большинство зарубежных по деталь-

ности разметки и, следовательно, возможностям поиска. В частности, в Национальном корпусе русского языка есть возможность точного грамматического поиска по очень большому массиву в 5 млн. словоупотреблений. Кроме того, осуществляется семантический поиск по классам слов: можно выбрать, допустим, названия частей тела, термины родства и т.п. Уникальная особенность нашего корпуса заключается в том, что в нём возможен сложный поиск, то есть поиск языковых конструкций длиной до 10 слов с заданной комбинацией характеристик для каждого компонента такой конструкции и заданным расстоянием между словами.

Помимо того, что корпус должен быть большим, он - и это даже важнее - должен быть представительным, репрезентативным. Иначе говоря, он должен содержать все типы текстов, представленные в данном языке в данный исторический период, и при этом содержать их в правильной пропорции, быть сбалансированным.

Именно поэтому Национальный корпус русского языка не ограничивается только произведениями художественной литературы XIX и XX вв., сколь бы важны они ни были для изучения языка. Он содержит и газетные, и журнальные статьи разной тематики (от общественно-политических до, например, спортивных), и специальные тексты (научные, научно-популяр

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком