научная статья по теме МНОГОЗНАЧНЫЕ СЛОВА В КОНТЕКСТЕ И ВНЕ КОНТЕКСТА Языкознание

Текст научной статьи на тему «МНОГОЗНАЧНЫЕ СЛОВА В КОНТЕКСТЕ И ВНЕ КОНТЕКСТА»

ВОПРОСЫ ЯЗЫКОЗНАНИЯ

№ 4 2014

© 2014 г. Б.Л. ИОМДИН МНОГОЗНАЧНЫЕ СЛОВА В КОНТЕКСТЕ И ВНЕ КОНТЕКСТА*

В статье затрагиваются актуальные вопросы выявления и описания лексической многозначности. Эта проблема выступает на первый план в современной компьютерной лингвистике. Существующие сейчас методы автоматического разрешения многозначности во многих отношениях различаются, однако их роднит общая черта - опора на контекст. Между тем изучение лексической многозначности вне контекста и исследование того, как многозначные слова представлены в сознании носителей языка, тоже представляет значительный научный и практический интерес. В статье кратко характеризуются основные подходы к разрешению лексической многозначности с учетом контекста в узком смысле (окружающий текст) и широком смысле (ситуационный контекст) и уточняется роль корпусных методов при выделении и описании значений слов. Приводятся экспериментальные данные, позволяющие выделять наборы лексем полисемичных слов, различающиеся для разных групп информантов, и ранжировать лексемы внутри одной вокабулы. Ставится проблема различения относительной и абсолютной многозначности и особенностей их лексикографического описания.

Ключевые слова: семантика, лексикография, компьютерная лингвистика, многозначность, полисемия, омонимия, разрешение многозначности, опросы, эксперименты, частота, норма, узус, идиолекты

The paper discusses various techniques of discovering and describing lexical ambiguity. This is one of the top issues in computational linguistics. A variety of techniques are used for word sense disambiguation, but all of them are based on context. Yet, studying how word senses work without context and what patterns of polysemous words could be found in speakers' minds also seems an interesting and important issue. The main approaches to WSD with or without context (in narrow and broad sense, including the situational context) are evaluated. The importance of corpora in discovering word senses is substantiated. New experimental data are presented, which allow defining subsets of senses for polysemous words for different speakers and rating the senses in the dictionary. Finally, the paper proposes to distinguish between absolute and relative polysemy and to search for ways of their adequate lexicographic description.

Keywords: semantics, lexicography, computational linguistics, ambiguity, polysemy, homonymy, WSD, surveys, experiments, frequency, norm, usage, idiolects

ВВЕДЕНИЕ

Многозначность была и остается одним из важнейших свойств лексической системы языка, а ее изучение представляет несомненный интерес как с теоретической, так и с практической точки зрения (в первую очередь в лексикографии). Она пронизывает все слои языка и особенно характерна для активной части лексики. Вспомним, что еще в работах Дж. Ципфа было показано существование корреляции между частотностью слова и количеством его значений [Zipf 1945].

* Работа выполнена при финансовой поддержке Программы фундаментальных исследований отделения историко-филологических наук РАН «Язык и литература в контексте культурной динамики», гранта РГНФ № 13-04-00307а и гранта НШ-3899.2014.6 для поддержки научных исследований, проводимых ведущими научными школами РФ.

В справедливости этой закономерности легко убедиться на материале современной активной лексикографии. Так, в первых двух томах (А-Г) «Активного словаря русского языка» [Апресян и др. 2014] вокабул, у которых выделяется только одна лексема и нет омонимов, меньше четверти. При этом и у таких вокабул часто можно найти дополнительные значения или омонимы, не вошедшие в словарь из-за своей стилистической отмеченности, распространенности лишь в определенных регионах или достаточно низкой употребительности. Например: афиша 2 '(толстое) лицо' (в уголовном жаргоне, см., например, [Грачев 2005]), ср. ниже пример (1); байка1 'предмет верхней одежды из трикотажа' (в вариантах русского языка в Белоруссии и Латвии, см. [Языки городов]), ср. (2)-(3); балка2 'овраг, ложбина' (см., например, МАС, СЕф), ср. (4); баян1 'старая, давно известная информация' (в интернет-сленге), ср. (5); баян3 'шприц' (в сленге наркоманов, см., например, [Никитина 2003]), ср. (6); бомба 2 'большая шпаргалка' (в студенческом сленге, см., например, [Там же]), ср. (7); редк. босоножка 2 'босая девочка или женщина' (см., например, СОШ, СШ, МАС), ср. (8); уходящ. босоножка 3 'танцовщица, выступающая босой' (см., например, СУш), ср. (9); разг. спец. бумажник1 'рабочий в бумажной промышленности' (см., например, СОШ, СШ, СЕф), ср. (10); спец. бухта2 'канат, сложенный кольцами' (см., например, МАС), ср. (11); бык 2 'агрессивный человек, предпочитающий разрешать конфликты грубым физическим насилием' (в сленге; ср. бычить, быковать), ср. (12); спец. бык2 'промежуточная опора моста' (см., например, СОШ, СШ, МАС), ср. (13); весить 2 'иметь определенный объем' (о файлах, в интернет-сленге), ср. (14); годный 2 'хороший' (в молодежном сленге), ср. (15), и др. Все эти лексемы, впрочем, могут встретиться и в современных неспециальных текстах:

(1) Марина: Она проникает к тебе в дом, афиша у нее броская... Певцов: Какая афиша? Марина: По-вашему - лицо [Э. Брагинский. Авантюристка (1989)].

(2) В секонд-хэнде на улице Рокоссовского немноголюдно. Мужчины выбирают джинсы, молодые люди байки [«Комсомольская правда в Беларуси», 12.09.2011].

(3) Мы надевали белые высокие кроссовки с развязанными шнурками, джинсы и байки типа «кенгуру» с капюшоном [«Час», Рига, 19.04.2002].

(4) Так я перешел через балку, услышал дважды свист, принесенный ветром: егеря, выходя на патрулирование в параллельный маршрут, пересвистывались [А. Иличевский. Перс (2009)].

(5) Ребят ну реально может хватит присылать картинки и публиковать это? в основном это баян и люди их видели (Интернет-форум)1.

(6) Как известно уже, увы, большинству носителей великого и могучего, «баян» - это шприц, а Ширянов - от слова «ширяться» (Труд-7, 21.10.2006).

(7) Но иной раз видишь, как в лаборатории, спрятавшись за приборы, девушки вяжут; как на экзамене студент нагло достает шпаргалку или даже «бомбу» (готовый ответ на отдельном листке) [«Студенческий меридиан» (1984)].

(8) Никак не могли взять в толк, почему сам капитан Бох снисходит до разговора с этой смуглой босоножкой, нищенкой, утопленницей, случайно оставшейся в живых, безродной девчонкой [Ю. Буйда. Город палачей (2003)].

(9) А еще я помню гастроли в Харбине Айседоры Дункан. Знаменитая «босоножка» уже пережила в ту пору расцвет своей карьеры [Л. Лопато. Волшебное зеркало воспоминаний (2002-2003)].

(10) 21 января 2005 - газете «Сегежский бумажник» 65 лет (сайт газеты Открытого акционерного общества «Сегежский ЦБК»).

(11) Весь Левин сюжет легко свертывается кольцами, образуя как бы бухту каната или спящую змею [«Звезда» (2002)].

(12) Так, выступая перед собравшимися, заместитель председателя Николаевской областной организации ВО «Свобода» Наталья Грудинина назвала действующую власть «властью гопников и быков» (Портал украинского информационного агентства «Преступности НЕТ»).

(13) Ослепительно-белые льдины проплывали по черной, будто маслянистой воде, с легким шорохом касались берегов, потрескивали и шумели, налетая на быки мостов [Е. Хаецкая. Синие стрекозы Вавилона (1997)].

1 Здесь и далее в текстах из Интернета сохраняется авторская орфография и пунктуация.

(14) Внимание: загруженный файл должен «весить» не более 100 мб («Комсомольская правда», 11.08.2009).

(15) Смотрю Whitechapel. Нравится, годный сериал. Посмотрел первую серию, твердая четверка с плюсом (Интернет-форум).

Задача настоящей статьи - рассмотреть актуальные проблемы выявления и лексикографического описания лексической многозначности. Поскольку в последние десятилетия проблема многозначности наиболее остро стоит в компьютерной лингвистике, в первом разделе статьи мы кратко резюмируем существующие подходы к ее решению в этой области. Во втором разделе мы описываем проведенные нами эксперименты, результаты которых могут способствовать выделению наборов лексем полисемичных слов, различающихся для разных групп носителей языка, и ранжировать лексемы внутри одной вокабулы, и сопоставляем их с данными толковых словарей. В третьем разделе обсуждается роль корпусных исследований при выделении и описании значений слов. Наконец, в заключении ставится проблема различения относительной и абсолютной многозначности и ее лексикографического описания.

1. МНОГОЗНАЧНЫЕ СЛОВА КАК ПРОБЛЕМА КОМПЬЮТЕРНОЙ

ЛИНГВИСТИКИ

С развитием компьютерной лингвистики многозначность становится одной из главных проблем для систем автоматической обработки текстов. Проблеме автоматического разрешения лексической многозначности (word sense disambiguation, WSD) посвящены сотни работ, с 1998 г. регулярно проводятся посвященные ей международные рабочие семинары (SensEval, позднее SemEval), на которых тестируются автоматические и полуавтоматические системы идентификации лексических значений. Стоит сразу подчеркнуть, что в сфере компьютерной лингвистики различие между полисемией и омонимией, последовательно проводимое в теоретической семантике и (до последнего времени) в лексикографии (ср., однако, работу [Качурин 2014], где в частности на основе экспериментов с информантами предлагается ввести в лексикографическую практику «шкалу семантической связи между двумя значениями, крайними точками которой являются омонимия и полисемия» [Качурин 2014:16]), нерелевантно, поскольку для решения задачи определения значения слова в тексте наличие или отсутствие смысловой связи между возможными кандидатами несущественно. В настоящей статье мы также не затрагиваем проблему различения полисемии и омонимии и оперируем более общим термином «многозначность»2 (ср., например, [Рахилина и др. 2006]).

В цели настоящей статьи не входит подробное описание методов, используемых в компьютерной лингвистике для решения проблемы автоматического разрешения лексической многозначности. Их развитие можно проследить, в частности, по обзорам [Ide, Veronis 1998; Agirre, Edmonds (eds) 2006; Navi

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком