научная статья по теме О СКОРОСТИ ЭВОЛЮЦИИ ГРАММАТИКИ В РАЗЛИЧНЫХ ЯЗЫКАХ Языкознание

Текст научной статьи на тему «О СКОРОСТИ ЭВОЛЮЦИИ ГРАММАТИКИ В РАЗЛИЧНЫХ ЯЗЫКАХ»

ИЗВЕСТИЯ РАН. СЕРИЯ ЛИТЕРАТУРЫ И ЯЗЫКА, 2013, том 72, № 3, с. 3-9

О СКОРОСТИ ЭВОЛЮЦИИ ГРАММАТИКИ В РАЗЛИЧНЫХ ЯЗЫКАХ

© 2013 г. В. Д. Соловьев

В статье предложена оригинальная методика измерения скорости изменения грамматического строя различных языков. Она основана на использовании больших типологических баз данных и заимствованных из вычислительного арсенала современной эволюционной биологии филогенетических алгоритмов. В качестве базы данных используется созданная в ИЯ РАН база данных "Языки мира", содержащая подробные сведения о фонетике, морфологии и синтаксисе 315 языков. С помощью математических расчетов показано, что скорость изменений грамматик индоевропейских языков в последние тысячелетия была заметно выше, чем у алтайских и уральских. Обсуждаются возможные объяснения этого явления.

Our article proposes an original methodology of gauging the rate of grammatical change in different languages. Our methodology rests upon large typological database and makes use of phylogenetic algorithms borrowed from mathematical apparatus of modern evolutionary biology. Our primary source of reference is the database "World Languages" maintained by the Institute for Linguistics of the RAS - the database, which offers a detailed account of phonetics, morphology, and syntax of more than 315 languages. By aid of mathematics we demonstrate that the rate, at which the Indo-European languages have changed in the course of the last millenniums, is considerably higher than the rate of change that has taken place in the Ural-Altaic languages. The article offers a rationale for this phenomenon.

Ключевые слова: языковая эволюция, скорость изменения, грамматический строй, база данных. Key words: languages' evolution, rate of change, grammatical system, database.

1. ВВЕДЕНИЕ

Вопрос о скорости языковых изменений давно привлекает внимание исследователей. М. Сво-деш в своих классических работах [1], заложивших основы глоттохронологии, показал, что скорость изменения ядра лексики (так называемый, 100-словный список Сводеша) постоянна для всех языков и во все времена. Его оценки показывают, что за 1000 лет в любом языке меняется в среднем 13 слов из 100.

Более точные подсчеты, проведенные в последующих исследованиях [2], показали, что скорость изменения ядра лексики все же не является постоянной. Например, оказалось, что исландский язык меняется медленнее, вероятно, вследствие своей островной изоляции и малому числу заимствований (см. [3]). Впрочем, каких-либо устойчивых закономерностей варьирования скорости изменения лексики не выявлено.

В дальнейшем методология Сводеша была уточнена. В частности, в работе [3] обоснована необходимость исключить из рассмотрения случаи заимствований, что приводит к уменьшению скорости изменений. По данным С.А. Старостина [3], за 1000 лет меняется только 4-6 слов из 100-словного списка Сводеша. Хотя лексика

меняется и не с совершенно постоянной скоростью, но отсутствуют данные, что в каких-то языковых группах эта скорость существенно больше или меньше, чем в других. Таким образом, складывается впечатление, что в целом скорость изменения лексики близка для разных языков и варьируется случайным образом.

Теория прерываемого равновесия Диксона [4] постулирует неравномерный характер языковой эволюции - чередование периодов широкого распространения некоторого языка (в результате военных завоеваний, культурно-технологических новаций, природных катаклизмов и др.), сопровождающегося отделением ветвей семьи, и периодов стабильности. Эта теория, однако, не постулирует замедление темпов изменений в периоды стабильности. Просто в эти периоды изменения носят иной характер, например, увеличивается количество заимствований у контактных языков. Более того, как замечено в [5], даже в периоды равновесия наблюдается нормальный процесс дивергентного расхождения языков с формированием семей. Это имеет место для эскимосских, нахско-дагестанских, саамских и др. языков.

Идея неравномерного развития языков хорошо известна в типологии. Однако в типологических

исследованиях речь идет об отдельных грамматических свойствах языков. До последнего времени не было объективных численных способов оценить скорость изменения грамматики в целом. Это связано, в частности, с тем, что в основе исторической лингвистики лежит сравнительно-исторический метод, основанный на законе фонетических изменений и фактически применимый только к лексическому уровню языка.

Другим препятствием было отсутствие достаточно большого для статистической обработки числа данных по грамматикам различных языков, представленных единообразным способом [6]. В последние годы ситуация изменилась с появлением больших грамматических (типологических) баз данных. Это The World Atlas of Language Structures (WALS, [7]) и "Языки мира" [6].

В социолингвистике изучаются механизмы распространения инноваций, в частности, в [8] изучалась зависимость скорости изменений в языке от числа носителей. Компьютерное моделирование подтвердило правдоподобную гипотезу о том, что чем носителей языка больше, тем больше времени требуется на распространение на весь язык инноваций. В [9] на реальных данных из базы данных WALS показано, что этот эффект действительно имеет место, хотя и не очень велик.

В [10] приведены предварительные данные в пользу постоянства скорости грамматических изменений в разных языках, причем темпы грамматических изменений сопоставимы с темпами лексических изменений.

В данной статье предлагается новая методология, которая позволяет с использованием грамматических баз данных оценить скорость изменений грамматики в различных языковых группах.

2. МЕТОДОЛОГИЯ 2.1. Источник данных

В Институте языкознания РАН создана база данных "Языки Мира", содержащая описания 315 языков, в основном, Евразии по 3821 признаку, охватывающим все разделы грамматики языка: фонетику, морфологию, синтаксис. База данных создана на основе серии одноименных монографий. Формат представления данных - бинарный, т.е. считается, что язык либо обладает признаком, либо нет. Таким образом, каждый язык описывается бинарным вектором длиной 3821. Подробное описание БД можно найти в [6]. Тестовый вариант доступен через Интернет по адресу http:// dblang2008.narod.ru/

В нашем исследовании в качестве источника данных выбрана БД "Языки мира", так как она имеет существенно больший объем - содержит приблизительно в 4 раза больше данных, чем WALS (оценка [11]) - и равномерно покрывает практически все разделы грамматики.

2.2. Методы реконструкции эволюционных деревьев

Для определения числа изменений грамматических свойств (мутации) могут быть использованы как известные протоязыковые состояния, так и реконструированные. Для реконструкции грамматики протоязыков можно использовать разработанные в биологии способы реконструкции эволюционных деревьев - филогенетические алгоритмы [12]. Эта возможность определяется аналогией между описанием грамматики языка в виде вектора из нолей и единиц, как указывалось выше, и представлением генетического кода в виде вектора в 4-буквенном алфавите, а также базовым предположением о древовидном характере эволюционных процессов, как в живой природе, так и в языках.

Хотя заимствования в языке (как и параллельный перенос генов в биологической эволюции), осложняют картину, все же в нашем исследовании будем опираться на стандартное описание языковых семей в виде деревьев, листьями которого являются современные языки, а промежуточные вершины соответствуют неким протоязыко-вым состояниям. Для данного набора изучаемых объектов (биологических видов, языков) их эволюция может быть реконструирована различными способами, приводящими к различным деревьям. Одна из ключевых идей состоит в том, что из многих возможных деревьев наиболее вероятным является то, которое содержит минимальное число изменений значений признаков при движении по дереву от древних состояний к современным (в дальнейшем, будем именовать эволюционное изменение значений языковых признаков мутациями, по аналогии с биологией). Постулат минимальности эволюционных изменений (экономности эволюции) фактически соответствует принципу "Бритва Оккама".

В разделе эволюционной биологии - филоге-нетике - разработаны алгоритмы, реконструирующие деревья с учетом этого постулата. В лингвистике мы имеем несколько иную ситуацию. Для ряда языковых групп эволюционные деревья уже надежно установлены классическими лингвистическими методами. Однако для получения пол-

ной картины эволюции требуется не только восстановить дерево, но и реконструировать языки в промежуточных вершинах. В данном случае при работе с грамматическими свойствами речь идет о восстановлении всех грамматических свойств для всех промежуточных языков. Классическими методами эта задача не решается, так как сравнительно-исторический метод ориентирован на работу с лексическими данными.

Для решения этой задачи применим одну из версий алгоритма maximal parsimony [13], восстанавливающего по заданному дереву эволюции значения всех признаков во всех промежуточных вершинах. Этот алгоритм с успехом применялся, в частности, для реконструкции эволюции папуасских языков [14].

Этот же алгоритм позволяет подсчитать общее число мутаций в восстановленном дереве. Чтобы сопоставить по числу мутаций деревья с разным числом листьев (языков), разделим общее число мутаций на число листьев в дереве. Полученное значение назовем приведенным (в расчете на один язык) числом мутаций.

В исходной постановке проблемы нас интересует только темп изменений, а не сами промежуточные состояния. Темп изменений характеризуется числом мутаций в одном языке в единицу времени. Таким образом, для сравнения скорости изменений структуры языков в нескольких языковых группах, представленных в базе данных, необходимо, чтобы эти группы имели приблизительно одинаковый возраст, т.е. протоязыки этих групп распались примерно в одно и то же время (согласно результатам исторической лингвистики). В этом случае, взяв их эволюционные деревья, применив к ним алгоритм maximal parsimony и подсчитав приведенное число мутаций на язык,

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком