научная статья по теме ПРОБЛЕМЫ КВАНТИТАТИВНОЙ ЛЕКСИКОЛОГИИ СЛАВЯНСКИХ ЯЗЫКОВ Языкознание

Текст научной статьи на тему «ПРОБЛЕМЫ КВАНТИТАТИВНОЙ ЛЕКСИКОЛОГИИ СЛАВЯНСКИХ ЯЗЫКОВ»

ВОПРОСЫ ЯЗЫКОЗНАНИЯ

№ 1 2011

© 2011 г. А.А. КРЕТОВ, И.А. МЕРКУЛОВА, В.Т. ТИТОВ*

ПРОБЛЕМЫ КВАНТИТАТИВНОЙ ЛЕКСИКОЛОГИИ СЛАВЯНСКИХ ЯЗЫКОВ

Статья посвящена выявлению существенных черт лексико-семантической системы славянских языков. Авторы исследуют функциональную, синтагматическую, парадигматическую и эпи-дигматическую стратификацию славянской лексики, производят сравнения славянских словарей по доминанте парадигматического ряда и составляют карту лексико-семантического пространства славянских языков.

Бурное развитие типологии началось с фонетического уровня, распространилось на морфологический и синтаксический и почти не затронуло лексико-семантического уровня. В этом отношении показателен проект «Языки мира», выполняемый Институтом языкознания РАН: сведения о лексике в описании языка скудны и ориентированы на внешнюю лингвистику: исконная/заимствованная лексика, источники заимствованной лексики, способы образования новых слов (это уже не столько лексикология, сколько словообразование), географическая, социальная и функциональная стратификация лексики.

Начиная с середины ХХ века проблемы лексико-семантической типологии волнуют славистов и сочувствующих: Н.И. Толстой [Толстой 1963; 1966], В.А. Москович [Москович 1965]; Б.Ю. Городецкий [Городецкий 1969], А. Гудавичюс [Гудавичюс 1985], А.К. Супрун [Супрун 1983; 1988], В.Г. Гак [Гак 1989], Х. Томмола [Томмола 2003], Е.В. Рахилина [Рахилина, Прокофьева 2004; Майсак, Рахилина 2007].

При этом основное внимание уделяется либо внешнелингвистическим характеристикам лексики (А.К. Супрун), либо фрагментам лексико-семантической системы (Н.И. Толстой, А. Гудавичюс, Е.В. Рахилина и И. Прокофьева, Т.А. Майсак и Е.В. Ра-хилина).

Лексический состав языка, как известно, измеряется сотнями тысяч единиц, поэтому представляется исследователю чем-то необозримым, трудно поддающимся систематизации и сопоставлению. Более того, высказывается мнение, согласно которому «.. .в сравнении с фонологией и грамматикой, лексика представляет собой более слабую и нечеткую, в большей мере вероятностную систему, значительно меньше структурированную. Поэтому, в отличие от фонетико-фонологической и грамматической типологии, в лексической типологии отсутствуют и, по-видимому, невозможны классификации языков» [Мечковская 2000: 106].

Практическим опровержением этого мнения является, в частности, книга А.В. Дыбо [Дыбо 1996] и монография [Майсак, Рахилина 2007]. Мнение, высказанное Н.Б. Меч-ковской, не учитывает иерархической и полевой организации словаря, в котором важнейшей является оппозиция ядро // периферия. Ядро лексики устойчиво и структурировано. Слаба (изменчива) и нечётка - периферия. Ядро мало по размеру, периферия - безгранична. Ядром владеет каждый индивид, периферией - все общество, обслуживаемое данным языком. Поэтому в лексической типологии классификации языков возможны, но в основу их должно быть положено ядро лексико-семантической системы. Таким

* Исследование выполнено при финансовой поддержке РГНФ проект № 07-04-00036а.

образом, важнейшим шагом на пути к лексико-семантической типологии является выделение ядер лексико-семантических систем языков мира. Ее решению помогает применение параметрического анализа лексики, подробно описанного в работах В.Т. Титова и примененного им к материалу романских языков [Титов 2002; 2005]. Есть все основания считать накопленный на романском материале опыт прило-жимым также и к славянским языкам. «Пилотный» проект такого исследования был представлен авторами в рамках тематического блока на XIV Международном съезде славистов (Охрид, Македония) [Кретов, Меркулова 2008].

Для получения параметрических характеристик славянской лексики необходимо было решить ряд сопутствующих задач:

1) создание электронных версий инославяно-русских словарей;

2) создание баз данных на основе полученных словарей;

3) получение количественной информации по каждому из параметров исследуемых языков;

4) применение методики параметрического анализа лексики к материалу каждого из исследуемых языков;

5) получение карты лексико-семантического пространства славянских языков.

Для того чтобы выявить типологически существенные черты лексико-семантиче-

ской системы предполагается достаточным проанализировать тысячу наиболее «весомых» единиц лексико-семантической системы. Выделение этой «ядерной тысячи», или этого «тысячного ядра», и составляет задачу квантитативной лексикологии. Отобраны эти слова могут быть по ряду параметров: функциональному (употребительность) -оценивается по длине слова; синтагматическому (широкая сочетаемость) - оценивается по количеству фразеосочетаний со словом; эпидигматическому (многозначность) - оценивается по количеству значений у слова; парадигматическому (вхождение в многочисленные синонимические ряды) - оценивается по частоте слов, использованных в словарных дефинициях. Следует отметить, что парадигматический параметр дает веса не слов, а значений. Если у слова несколько значений, то в первую очередь выбирается основное значение, а во-вторую - значение с максимальным весом.

По каждому из параметров отбирается 1000 слов с максимальным весом, определяемым по формуле:

Ег - Я1-{

Рг/ =-, (1)

Ег

где Ег - сумма единиц всех рангов, Я1 _ i - сумма единиц от первого до данного, а Рг, -вес единиц /-го ранга.

Формула (1) позволяет определить вес каждой из единиц на всем корпусе словаря. Более того, вес лексико-семантической единицы по каждому из параметров зависит от количества в данном словаре единиц с такой же или лучшей параметрической характеристикой, что делает параметрический анализ системным в полном смысле этого слова, поскольку вес каждой единицы зависит от количества и качества всех остальных единиц словаря.

Параметрический вес для каждого из членов ядра определяется как сумма его весов по каждому из четырех указанных выше параметров. Выделение лекси-ко-семантических ядер исследуемых языков проводилось на основе анализа «малых» двуязычных словарей, которые содержат основную коммуникативно значимую лексику. В качестве источников исследования был обработан целый корпус словарей (см. список этих словарей в конце этой статьи).

Данный список содержит не только двуязычные словари, так как опыт показал, что малые инославяно-русские словари, безусловно, оптимальны лишь по одному из параметров - функциональному. В остальных случаях при анализе столь близкородственных языков, какими являются славянские, лучшие результаты дает обращение к словарям синонимов (парадигматика), фразеологии (синтагматика) и одноязычным толковым

словарям (эпидигматика - многозначность). Привлечение соответствующих источников помогает корректировать результаты.

Для обработки источника № 27 участникам проекта предварительно потребовалось перевести метаязыковую часть с немецкого на русский язык, для источника № 24 -с английского на русский язык, для источника № 25 - с польского на русский. Кроме того, был проведен параметрический анализ двух словарей македонского языка (№ 14 и № 20) и получены два ядра македонской лексики, соответственно. Для русского и словацкого языков пришлось получить также по два ядра. Для русского: первый раз -с использованием данных словаря Ожегова (№ 15), второй раз - с использованием данных русско-финского словаря (Ф-параметр), словаря Ушакова (№ 19: Д-параметр), а также электронных фразеологического и синонимического словарей русского языка (С- и П-параметры соответственно). Для словацкого языка синтагматический и эпидиг-матический параметры определялись с использованием словаря № 22.

С помощью компьютерной программы Ме^Оп (автор - преподаватель кафедры программного обеспечения и администрирования информационных систем ВГУ Н.В. Огаркова) были получены большое (содержащее слова, вошедшие в ядро по трем параметрам) и малое (содержащее слова, вошедшие в ядро по каждому из четырех параметров) ядра, а также периферия большого ядра (слова, вошедшие в ядро по двум параметрам) лексики 14 славянских языков: белорусского, болгарского верхнелужицкого, кашубского, македонского, нижнелужицкого, польского, русского, сербохорватского, словацкого, словенского, старославянского, украинского и чешского языков.

Использование в качестве источников информации о лексико-семантической системе языка словарей требует обоснования. Как известно, язык не дан лингвистам в непосредственном наблюдении. Это всегда научный конструкт. На протяжении последних двухсот лет считалось бесспорным, что язык описывается комплектом из грамматики и словаря. Но в последнее время приходится слышать все больше сомнений в достоверности словарей. Порою вопрос ставится даже так: «А что вы описываете, язык или словарь?». При этом предполагается, что язык - это реальность, а словарь - непонятно что. Интересно, что вопроса: «А что вы описываете, язык или грамматику?» обычно не ставят, хотя он столь же правомерен.

Это обстоятельство требует разъяснений. Язык как лингвистическая реальность ненаблюдаем. В непосредственном наблюдении лингвисту даны тексты: либо в виде процесса, развертывающегося во времени (речь), либо в виде результата (собственно текст: устный или письменный). Множество текстов дает некий корпус текстов, которому приписывается свойство репрезентативности. Следует сказать, что любой корпус - сколь бы велик он ни был - в силу свой закрытости и конечности будет неполон и случаен по отношению к языку. Любой корпус будет лишь ограниченным набором следов работы языка. Грамматики и словари - это производные от корпусов текстов, положенных в их основание. Таким образом, язык-реальность ненаблюдаем, корпус как отражение работы языка всегда неполон и случаен, а грамматики и словари являются отражением этого корпуса текстов. Следовательно, любой словарь и любая грамматика является лишь отражением отражения языка (корпуса текстов). Альтернативой исследования словарей может послужить лишь исследование корпусов, что принципиально ситуации не изменит: ведь сами словари взяты из тех же (или иных), но корпусов текстов. Разница лишь в том, что корпусным лингвистам придется самим проделать ту работу,

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком