научная статья по теме МЕТОДИКА ОЦЕНКИ СТАБИЛЬНОСТИ ГРАММАТИЧЕСКИХ СВОЙСТВ Языкознание

Текст научной статьи на тему «МЕТОДИКА ОЦЕНКИ СТАБИЛЬНОСТИ ГРАММАТИЧЕСКИХ СВОЙСТВ»

ИЗВЕСТИЯ РАИ. СЕРИЯ ЛИТЕРАТУРЫ И ЯЗЫКА, 2009, том 68, № 4, с. 34-42

МЕТОДИКА ОЦЕНКИ СТАБИЛЬНОСТИ ГРАММАТИЧЕСКИХ СВОЙСТВ

© 2009 г. В. Д. Соловьев, Р. Ф. Фасхутдинов

В статье сопоставляются различные методики оценки стабильности грамматических признаков. Все рассматриваемые методики восходят к ранним идеям Гринберга и реализуют их с использованием компьютерных типологических баз данных. Это позволяет получить объективную числовую оценку стабильности признаков. Анализируются причины расхождения оценок стабильности по разным базам данных.

Various methods of evaluation of grammar features stability are compared in this paper. All these methods arise from Greenberg's early ideas and realize them with the use of computer typological databases. This allows to obtain an objective qualitative estimation of features stability. Reasons for disagreement between estimations by different databases are analyzed.

Введение

Вопрос о стабильности языковых черт давно привлекал внимание исследователей. Было понято, что разные языковые черты имеют разную степень стабильности и наибольший интерес представляют стабильные черты. Почти век назад Сепир писал по этому поводу [1, p. 172]:

The general drift of language has its depths. At the surface the current is relatively fast. In certain features dialects drift apart rapidly. By that very fact these features betray themselves as less fundamental to the genius of the language than the more slowly modifiable features in which the dialects keep together long after they have grown to be mutually alien forms of speech.

(Изменение языков имеет свою глубину. На поверхности изменения относительно быстрые. В некоторых аспектах диалекты удаляются друг от друга быстро. Но в действительности эти черты являются менее фундаментальными в природе языка, чем более медленно изменяющиеся признаки, которые остаются общими для диалектов еще долго после того, как они превращаются в невзаимопонима-емые формы речи.)

Выделение стабильного ядра лексикона лежит в основе глоттохронологии Сводеша [2]. В типологической литературе встречаются утверждения о том, что те или иные конкретные типологические свойства являются стабильными, либо нестабильными. Однако эти утверждения носили, скорее, интуитивный характер и не подкреплялись значительным объемом эмпирических данных, обработанных по хорошо обоснованной методике. Для продвижения в этом направлении требовалось строгое определение стабильности и методика ее измерения.

Определение стабильности было предложено в работе [3]. В ней под стабильностью признака пони-

мается вероятность того, что в данном языке этот признак останется неизменным в течение условного промежутка времени, скажем, 1000 лет. Данное определение, разумеется, не является строгим, т.к. термин "вероятность" в нем используется, скорее, в неформальном, обыденном понимании этого слова, а не в строгом математическом смысле. Применить для оценки стабильности конкретных черт это определение напрямую невозможно, т.к. вероятности в математическом смысле требует повторяемости ситуаций, что в принципе невозможно в языке, равно, как и в других аспектах человеческой культуры и истории.

Для того, чтобы иметь возможность сравнивать стабильность различных черт, необходима процедура измерения стабильности, т.е. приписывание каждой черте численного значения ее стабильности. Любая формализация меры стабильности будет одновременно и строгим определением стабильности.

Возможно, впервые подход к измерению стабильности предложил Гринберг [4, p. 76]:

If a particular phenomenon can arise very frequently and is highly stable once it occurs, it should be universal or near universal <...>. If it tends to come into existence often and in various ways, but its stability is low, it should be found fairly often but distributed relatively evenly among genetic linguistic stocks <...>. If a particular property rarely arises but is highly stable when it occurs, it should be fairly frequent on a global basis but be largely confined to a few linguistic stocks <...>. If it occurs only rarely and is unstable when it occurs, it should be highly infrequent or nonexistent and sporadic in its geographical and genetic distribution <...>.

(Если некоторый феномен может возникать очень часто и является очень стабильным, он дол-

жен быть универсальным или почти универсальным <...>. Если он имеет тенденцию появляться часто и разными способами, но его стабильность низкая, то он должен часто встречаться в языках, причем с относительно равномерным распределением среди языковых семей <...>. Если свойство возникает редко, но является высокостабильным, то такое свойство будет достаточно частотным в глобальном масштабе, но по большей части будет присутствовать в немногих семьях <...>. Если свойство редко возникает и является нестабильным, то оно должно быть вообще не присутствующим в языках или очень редким и распределенным географически и генеалогически случайным образом <...>.)

В этой формулировке представлена ключевая идея сопоставления распространенности признака среди родственных и среди неродственных языков. Большинство дальнейших исследований опирается на эту идею и развивает и уточняет ее.

Первые количественные исследования стабильности были проведены Николс [5]. Она предложила несколько вариантов мер стабильности. К сожалению, она не располагала большой типологической базой данных, что помешало широкой проверке (на большом множестве языков и признаков) и распространению ее подхода. В дальнейшем к проблеме стабильности обращались и другие авторы: Дал [6], Маслова [7], Вихман и Камхолц [8], Беляев [9]. Однако общепринятой меры стабильности грамматических признаков пока нет.

В нашей статье описаны несколько мер стабильности и проведено их сопоставление на материале базы данных "Языки мира" (далее, сокращенно, ЯМ). Одна из мер применяется к базе данных WALS [10], и стабильности сравниваются по обеим базам данных. Полученные численные значения стабильности сравниваются с качественными оценками, представленными в литературе.

1. Меры стабильности

Основные сравнения проводятся на материале серии ЯМ, созданной в Институте языкознания РАН по материалам одноименной серии монографий. ЯМ содержат описания 315 языков Евразии по 3821 признаку. Признаки охватывают практически все разделы грамматики. Признаки бинарные, т.е. считается, что язык либо обладает некоторым свойством, либо нет. ЯМ доступна в Интернете по адресу www.dblang2008.narod.ru и подробно описана в [11].

Будут рассмотрены 4 меры стабильности. Учитывая бинарность подхода в ЯМ, мы ограничимся характеристикой стабильности только бинарных признаков.

При этом оценивается одновременно стабильность и признака (значение 1 в базе данных), и его

отсутствия (значения 0). Таким образом, мера стабильности характеризует вероятность одновременно и потери, и возникновения признака, т.е. его изменчивости.

Первая из мер стабильности наиболее простая в идейном и в вычислительном плане. Она восходит к одной из мер, предложенных Николс (мера 3 в [5]), и лишь несущественными техническими деталями отличается от меры B из работы [3]. Вторая является ее усложнением. Она была предложена и изучена в работе Вихмана с соавторами [3] и близка мере (2) Николс [5]. Третья мера предложена Масловой [7]. Четвертая мера является единственной, реализующей диахроническую идею подсчета числа изменений признака в ходе эволюции. Эта мера близка к идее Дала [6], но он оперирует только с установленными сравнительно-историческим методом данными, которых явно недостаточно для получения сколько-нибудь надежных результатов по стабильности. Мы реализуем подход, при котором используется филогенетический алгоритм реконструкции праязыковых состояний.

Все рассматриваемые меры объединяет то, что они оперируют с языковыми группами, родство которых надежно установлено и которые имеют примерно одинаковую временную глубину в 34 тыс. лет. Это роды (genera), предложенные Драй-ером в [12] и положенные в основу классификации языков в WALS. Они соответствуют ветвям крупных семей в более привычной терминологии.

1.1. Мера стабильности 1.

В основе этой меры лежит следующая идея. Если в большинстве языков из данной группы родственных языков (рода) присутствует некоторый признак, то наиболее вероятно, что он присутствует и в протоязыке этой группы. Столь же вероятно, что в тех языках группы, в которых он присутствует, он сохранился из протоязыка. Разумеется, есть и контрпримеры, когда признак в ходе эволюции исчезал, а потом появлялся вновь. Однако подобные обратные мутации (это перевод термина back mutation, который пришел из эволюционной биологии, и сейчас используется и в эволюционной лингвистике, см. работы Варноу с соавторами [13]) весьма редки. Естественно считать, что чем в большем числе языков группы признак присутствует, тем он стабильнее. Симметричным образом обстоит дело с отсутствием признака.

Исходя из этого вычислим меру стабильности признака f следующим образом. Для каждого вида V подсчитаем долю языков этого рода, обладающих признаком f. Обозначим ее dV(f). Затем вычислим с-^f) = |0.5 - dV(f)|. Эта величина показывает, насколько отклоняется от среднего значения частота признака (либо его отсутствия). Чем она больше, тем признак стабильнее (в пределах вида V). На-

конец, сумма по всем видам с(1£) = Хусу(1) и является мерой стабильности 1 признака.

Это определение обладает следующим недостатком - оно учитывает только один уровень иерархии родства. Рассмотрим следующий гипотетический пример. Пусть есть две семьи и Б2, причем обе они содержат по 2 рода: = (К1, Я2}, Б2 = (Я3, Я4}. И пусть есть два признака П, £2, причем А присутствует во всех языках родов Я1 и Я3 и отсутствует во всех языках родов Я2 и Я4, а признак £2 присутствует во всех языках родов Я1 и Я2 и отсутствует во всех языках родов Я3 и Я4. Мера стабильности 1 обоих этих признаков одинакова и равна 2. Однако признак £2 естественно считать более стабильным, так как он имеет одно и то же значение в пределах целых семей. Эти значения могут быть отнесены к прото

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком