научная статья по теме Семантические проблемы компьютерной лингвистики Биология

Текст научной статьи на тему «Семантические проблемы компьютерной лингвистики»

СЕМАНТИЧЕСКИЕ ПРОБЛЕМЫ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ

Каменева Н.А.

Московский государственный университет экономики, статистики и информатики

(МЭСИ)

Датой возникновения компьютерной лингвистики считается январь 1954 года, когда в Джорджтаунском университете (США) был проведен первый в мире публичный эксперимент по машинному переводу. Компьютерная лингвистика также стремительно развивалась и в СССР. В те же времена под руководством крупнейшего математика и кибернетика Алексея Ляпунова начались активные работы по машинному переводу и в Москве. Успехи формального подхода к описанию языка наглядно продемонстрировали возможность превращения чисто гуманитарной науки в логически строгую дисциплину. Исследователи-лингвисты надеялись, что современные точные науки (вычислительная техника, математика) помогут лингвистике обрести недостающую ей точность, т.к. компьютеры являются мощным средством для автоматизации работы с текстами. Первоначально новая наука называлась структурной или вычислительной лингвистикой. Затем за ней прочно укрепилось ее современное название - компьютерная лингвистика.

Основная задача компьютерной лингвистики - автоматическая обработка информации, представленной на естественном языке. Благодаря разработкам в области компьютерной лингвистики были созданы системы: компьютерного перевода текстов с одних естественных языков на другие, автоматического поиска информации в текстах, автоматического анализа и синтеза устной речи, классификации, сортировки и индексирования текстовых документов, поиска документов в полнотекстовых базах данных, модификации и пополнения баз знаний, а также экспертные системы, обучающие и обучающиеся системы, гипертекстовые технологии представления текста, компьютерная лексикография, построение тезаурусов, автоматическое реферирование и аннотирование текстов.

Центральным научными проблемами компьютерной лингвистики являются проблема моделирования понимания смысла текстов (т.е. перехода от текста к формализованному представлению его смысла) и проблема синтеза речи (т.е. перехода от формализованного представления смысла к текстам на естественном языке) [2].

Для решения данных проблем необходимо выполнить две основные задачи -создать формальный семантический язык, адекватный естественному языку, и осуществлять прямой и обратный перевод с естественного языка на семантический. Таким образом, выполняются процедуры распознавания текстов и речи - построение полной синтаксической структуры предложений, соответствующей его семантической структуре, и перевод с естественного языка на формальный семантический язык, с которым способен оперировать компьютер, и синтеза текстов - формирование фраз и предложений на естественном языке по записям на формальном семантическом языке.

Знания человека хранятся на естественном языке, являющимся инструментом мышления и средством общения между людьми. Язык служит для восприятия, накопления, хранения, обработки и передачи информации. Психологи считают, что естественный язык представляет собой вторую сигнальную систему человека, функционирующую на основе первой сигнальной системы врожденных безусловных рефлексов. Мыслительные процессы, происходящие в "душе" человека, значительно богаче их внешнего языкового выражения.

Лингвистика (или языкознание) — это наука о языке, о его строении, функционировании и развитии, т.е. "проявление упорядочивающей, систематизирующей деятельности человеческого ума в применении к явлениям языка и составляет языковедение" (И.А.Бодуэн де Куртенэ) [4]. В состав Л. входит ряд частных наук: фонетика и фонология, изучающие звуковой строй языка; семасиология, изучающая значение языковых единиц; лексикология и лексикография, занимающиеся словарным

запасом языка и составлением словарей; этимология, исследующая происхождение слов и их частей; грамматика, традиционно распадающаяся на морфологию (науку о строении слов) и синтаксис (науку о строении предложения), стилистика, лингвостатистика и т.д. В сфере разработки компьютерной технологии понимания смысла текстов, выраженных на естественных языках, с областью применения лингвистики тесно связаны психолингвистика, социолингвистика, нейро-лингвистика, лингвокультурология.

Смысловыми единицами языка и речи могут выступать элементы различного уровня: морфемы- корни слов, их суффиксы и префиксы; слова, словосочетания, фразы, сверхфразовые единства - сочетание нескольких предложений в тексте, характеризующееся относительной завершенностью темы (микротемы), смысловой и синтаксической спаянностью компонентов. Средства компьютерной лингвистики подразделяют на декларативные - словари единиц языка и речи, тексты, грамматические таблицы, процедурные - средства манипулирования процедурными средствами. Приоритет декларативной компоненты приводит к преобладающему использованию метода аналогий (example based approach), и, наоборот, процедурные средства обработки данных лежат в основе алгоритмического подхода (rule based approach). Метод аналогии основывается на утверждении, что из сходства предметов по одному признаку следует их сходство по другому признаку, что может быть достоверно с некоторой вероятностью. Алгоритмический метод представляет в данном случае систематические формализованные описания процессов функционирования языка и мышления средствами формальной логики и теории алгоритмов, практическая реализация которых достаточно затруднена. Системы автоматической обработки текстов используют процедуры морфологического, семантико-синтаксического и концептуального анализа и синтеза. Концептуальный анализ текстов проводится после их морфологического и синтаксического анализа и заключается в выявлении их понятийной структуры - границ наименований понятий и отношений между ними [2]. Концептуальный синтез текстов представляет перевод формализованных структур текстов в вербальную (словесную форму).

Сложности применения концептуального анализа и синтеза на основе выбора смысловых единиц разного уровня происходят вследствие того предположения, что слова являются центральными единицами языка и обозначают основные понятия, а смысл словосочетаний и фраз понимается через смысл отдельных слов. Словосочетания можно подразделить на «лексически свободные», представляющие большинство, и «несвободные» или состоящие из «лексически закрытых» компонентов. К «несвободным» сочетаниям относят устойчивые единицы речи - идиомы (свойственное только данному языку неразложимое и неизменяемое информацию) и т.д. Среди устойчивых словосочетаний можно назвать: «there is no denying», «needless to say», «all things considered», «in good time», «subject to confirmation (approval)», «exempt from taxation». Примерами фразеологических оборотов служат единицы речевого этикета, функционирующие в стереотипных ситуациях: «How do you do? Many thanks! Many happy returns of the day! ». Используемое при прощании выражение Good-bye! буквально означает «god be with you», что можно сравнить с русским «спасибо - спаси тебя господь».

Языковые единицы в предложениях - высказываниях объединяются в более крупные речевые блоки, внося в речь устойчивые выражения. Данные структурно-семантические модели необходимо учитывать при анализе текстов, так как они являются ключом к пониманию смысла. Основоположник теоретического языкознания Ф.де Соссюр в «Курсе общей лингвистики» отмечал, что: «конкретную единицу следует искать не в слове... И наоборот, есть единицы высшего уровня, большие, чем слово, как например, композиты, устойчивые словосочетания, аналитические формы спряжения т.д. При выделении и этих единиц наталкиваешься на такие же трудности, как и при выделении собственной слов... Язык есть система, все части которой могут и должны рассматриваться в их взаимной связи» [7].

В. Фон Гумбольдт писал: «Любой язык в полном своем объеме содержит все, превращая в звук. И как невозможно исчерпать содержание мышления во всей бесконечности его связей, так и неисчерпаемо множество значений и связей в языке.» [2]. Таким образом, основными элементами языка и речи считают слова и фразеологические выражения, означающие понятия - социально-значимые мыслительные образы в памяти людей. Вся система языка со всеми его смысловыми единицами и отношениями между ними погружена в ту среду, в которой происходят психические процессы у человека, включая его сознание, подсознание и органы чувств. Основная задача концептуального (понятийного) анализа при выявлении смысла текста заключается в выявлении наименований понятий и определении синтагматических и парадигматических (изменяющих конструкции слов) отношений между ними.

Метод аналогии состоит из следующих шагов:

1. выдвижение на основе индуктивного вывода гипотезы о свойствах объекта, характеризующего также рядом известных признаков;

2. применение процедуры логического вывода по аналогии о приписывании предполагаемых свойств вышеупомянутого объекта новым объектам при условии, что их некоторые известные характеристики совпадают;

3. определение вероятности получения правильного результата путем многократного применения данной процедуры.

Примером применения метода аналогии в компьютерной лингвистике может служить морфологический анализ слов текста - определение грамматических признаков слов по их конечным буквосочетаниям. Метод аналогии в синтаксисе делается с целью получения формализованных описаний структуры текстов. Семантико-синтаксический анализ текстов более детально выявляется смысл сообщений, поскольку выстраивает семантико-синтаксическую цепь зависимостей вместо дерева зависимостей членов предложения в синтаксической структуре предложения. В ходе полного синтаксического разбора фразы возможно установление синтаксических ролей именных групп в предложении, ранжировать их по степени значимости для автора, и прийти к пониманию ключевых идей текста. Наиболее важными являются слова из группы подлежащего, затем сказуемого, прямого дополнения, косвенного дополнения, обстоятельства — таковы особенности русского языка.

Проблемы компьютерной лингвистики, касающихся прежде всего грамматического разбора текста на естественно

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком