научная статья по теме ЧЕМ КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ МОГУТ ПОМОЧЬ ЛИНГВИСТИЧЕСКОЙ ТИПОЛОГИИ? Общие и комплексные проблемы естественных и точных наук

Текст научной статьи на тему «ЧЕМ КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ МОГУТ ПОМОЧЬ ЛИНГВИСТИЧЕСКОЙ ТИПОЛОГИИ?»

ВЕСТНИК РОССИЙСКОЙ АКАДЕМИИ НАУК, 2015, том 85, № 1, с. 32-38

ИЗ РАБОЧЕЙ ТЕТРАДИ ИССЛЕДОВАТЕЛЯ

DOI: 10.7868/S0869587315010168

Интенсивное развитие компьютерной лингвистики в последние годы свидетельствует, что лингвистические теории могут быть весьма полезны для решения различных проблем, связанных с компьютерными технологиями. Речь идёт, в частности, об информационном поиске, распознавании сканированного текста или спама. Сами технологии также могут быть полезны для решения чисто лингвистических задач. В предлагаемой вниманию читателей статье это показано на примере компьютерной базы данных "Языки мира". База создана на основе серии одноимённых монографий, подготавливаемых в отделе типологии и ареальной лингвистики Института языкознания РАН под общей редакцией А.А. Кибрика.

ЧЕМ КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ МОГУТ ПОМОЧЬ ЛИНГВИСТИЧЕСКОЙ ТИПОЛОГИИ?

В.Д. Соловьёв, А.А. Кибрик

Каждый человеческий язык (коих насчитывается около 7 тыс.) — это комплексная система, состоящая из множества взаимосвязанных элементов и представляющая собой продукт естественной эволюции и человеческого интеллекта. Любой язык заслуживает того, чтобы быть описанным — точно так же, как любой биологический вид. Идея глобального сопоставления языков мира посещала умы с давних пор. Так, Екатерина II инициировала подготовку сравнительного словаря языков и наречий, который впоследствии был собран известным учёным П.С. Палласом. В этом словаре несколько сотен понятий были переведены на несколько сотен языков.

СОЛОВЬЁВ Валерий Дмитриевич — доктор физико-математических наук, профессор, главный научный сотрудник Казанского федерального университета. КИБРИК Андрей Александрович— доктор филологических наук, заведующий отделом типологии и ареальной лингвистики Института языкознания РАН, профессор МГУ им. М.В. Ломоносова. maki.solovyev@mail.ru; aakibrik@gmail.com

Языки — это не только слова, но и грамматические системы, обеспечивающие возможность коммуникации между людьми. Одна из основных задач лингвистики — научное описание естественных человеческих языков. Эта огромная задача осложняется несопоставимостью языков в имеющихся описаниях, что объясняется, по крайней мере, двумя причинами. Во-первых, языки очень различны по своей внутренней организации. Скажем, в европейских языках большую роль играют категории единственного/множественного числа и мужского/женского (иногда также среднего) рода, а в ряде азиатских языков этих категорий нет, зато нужно постоянно выражать социальные отношения между говорящим, слушающим и предметом обсуждения (так называемая категория вежливости). Во-вторых, для разных языков, языковых семей и ареалов исторически сформировались своеобразные традиции, что делает описания несоизмеримыми. Например, глагольные системы семитских языков описываются в терминах "пород". Этот термин с трудом экстраполируется на другие языки, хотя аналоги (словообразовательные классы) есть во многих из них. В 1970-е годы учёные разных стран задались целью создать формат описания, который позволял бы сравнивать языки между собой.

В 1977 г. Б. Комри и Н. Смит подготовили вопросник [1], на базе которого в дальнейшем были составлены грамматики нескольких десятков языков. В Институте языкознания АН СССР в середине 1970-х годов под руководством В.Н. Ярцевой началась работа над энциклопедией "Языки мира" [2], которая предоставляла единый формат для единообразного описания любых языков, включая их общую характеристику, описание фонети-

ки, грамматики и особенностей лексикона. Тома энциклопедии выходят с начала 1990-х годов (рис. 1). Статьи издания создаются по типовым схемам — шаблонам, или вопросникам, которые могут быть применены к любому естественному языку. Это схема для группы языков, основная схема для хорошо изученных языков, краткая схема для малоизученных языков и схема для описания диалектов. Схемы базируются на знаниях из области лингвистической типологии — одной из центральных областей лингвистики, исследующей пределы и параметры языкового разнообразия.

С 1993 по 2013 г. опубликовано 20 томов энциклопедии, содержащих более 500 статей о языках и группах языков, распространённых в первую очередь на территориях, географически близких к бывшему СССР, в Европе, Азии (кроме Аравии, Китая и Юго-Восточной Азии), северовосточной части Африки, на крайнем севере Америки — см. список томов на сайте Шр://Шп§-ran.ru/langworld. Примерный ареал распространения этих языков представлен на рисунке 2. Общий объём опубликованных томов — около 9 тыс. страниц и около 20 млн. знаков. Это результат труда сотен авторов и редакторов, представляющих Институт языкознания РАН, научные центры России и других стран. На разных этапах подготовки находятся ещё около 10 томов (по ряду пока не охваченных изданием европейских и семитских языков, а также по австроазиатским, андаманским, сино-тибетским и манде языкам).

Работа с инвентарём признаков, используемых в статьях энциклопедии, требует постоянного решения сложной задачи. Нужно выяснить, применимо ли то или иное устоявшееся грамматическое понятие к определённому свойству некоторого языка, иными словами, являются ли два похожих свойства в двух разных языках одним и тем же свойством. Например, подлежащее в русском и английском языках — это одна и та же грамматическая категория, несмотря на ряд различий в свойствах (в русском подлежащее маркируется в первую очередь именительным падежом, в английском — позицией перед глаголом-сказуемым). А вот следует ли подлежащеподобную категорию в филиппинских языках, которая обычно именуется "топик", отождествлять с подлежащим, или же должна использоваться отдельная категория "топик", предназначенная специально для этих языков? Сам термин "топик" для разных языков используется по-разному и может означать совершенно разные явления, когда речь идёт о языках Юго-Восточной Азии, Африки или Европы. И наоборот, похожие синтаксические конструкции именуются в разных традициях "изафет", "сопряжённое состояние", "вершинное маркирование в посессивной группе", что создаёт видимость различий при фактическом сход-

Иовые ннОочринские

Й1ЫКЧ

Рис. 1. Обложка одного из томов энциклопедии "Языки мира"

стве. Окончательные ответы на подобного рода вопросы появятся ещё не скоро, но определённые решения приняты, и впервые получены унифицированные описания сотен разноструктурных языков.

Цифровой аналог издания не заставил себя долго ждать. Благодаря усилиям сначала М.А. Журин-ской, А.И. Новикова и Е.И. Ярославцевой [3], позже Ю.П. Скокана и затем В.Н. Полякова появилась база данных "Языки мира" (БД ЯМ). Отметим, что пока далеко не вся информация, отражённая в одноимённом издании, включена в эту базу. При создании пришлось решать целый ряд новых проблем. В частности, при переносе текстовых описаний из книг в цифровую форму выявилось значительное число не предусмотренных в исходной схеме признаков, которые были добавлены в БД. Приведём признаки из раздела "Морфологический тип языка" (количество точек перед названием маркирует уровень иерархии в системе признаков):

.способ соединения морфем в слове ..агглютинативные языки

..агглютинативные языки с элементами флексии

...только в имени ...только в глаголе .в основообразовании .только в словоизменении ..флективные языки

..флективные языки с элементами агглютинации

...только в имени .только в глаголе .только в словоизменении

...только в словообразовании ...только в отыменном словообразовании. БД существует в нескольких формах: наиболее современная — программа для ОС Windows (предоставляется разработчиками по запросу), Web-версия, Excel-версия. Для удобства доступа к данным и их использования коллективом разработчиков (его возглавляет В.Н. Поляков) создан специальный программный комплекс, обеспечивающий как базовые функции поиска нужных сведений, так и более продвинутые средства их обработки. Кроме описания грамматик языков, БД ЯМ содержит обширный справочный материал — географический и генеалогический указатели, перевод названий языков и признаков на английский и т.д.

Первые исследования по БД ЯМ приходятся на начало 2000-х годов [4], первая докторская диссертация [5] защищена в 2005 г., в 2006 опубликована первая монография [6]. А в 2007 г. в Софии Институтом языкознания РАН проведён первый международный семинар по базе данных и её приложениям.

БД ЯМ — не единственная типологическая база данных. Следует упомянуть базу данных WALS (The World Atlas of Language Structures) [7], созданную в 2005 г. объединённым коллективом типо-

логов разных стран в рамках проекта, координируемого отделом лингвистики Института эволюционной антропологии им. Макса Планка в Лейпциге. Современную версию WALS см. на сайте: http://wals.info. WALS содержит описания более 2.5 тыс. языков по 140 параметрам, каждый из которых может принимать несколько значений. Используемые параметры выбраны очень удачно и продуманно и в целом дают представление о варьировании важнейших типологических переменных по языкам мира. Авторы проекта преследовали цель отразить все существующие семьи и ареалы, поэтому охарактеризованные языки равно -мерно распределяются по территории планеты. Выборка языков различна для каждого параметра. В отдельных случаях она относительно невелика, но для некоторых параметров (например, "базовый порядок слов") достигает 2 тыс. языков, что даёт картину, по богатству сопоставимую с языковым разнообразием в целом. Однако далеко не каждый язык представлен по всем параметрам, фактически лишь немногие описаны более чем по половине из них.

Таким образом, базы данных ЯМ и WALS обладают различными преимуществами и в этом смысле дополняют друг друга. Первая ограничена

Рис. 2. Ареал, охваченный изданием "Языки мира" (карта Ю.Б. Корякова)

географически, но описывает включённые в неё языки довольно подробно, вторая характеризует языки мира в целом, но лишь выборочно и по ограниченному числу параметров. Это две крупнейшие типологические базы данных, причём объём информации в битах в БД ЯМ несколько больше. Существует также несколько десятков специализированных типологических баз данных,

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком