научная статья по теме АВТОМАТИЧЕСКАЯ РАССТАНОВКА УДАРЕНИЙ В СЛОВАХ РУССКОГО ЯЗЫКА С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ Науковедение

Текст научной статьи на тему «АВТОМАТИЧЕСКАЯ РАССТАНОВКА УДАРЕНИЙ В СЛОВАХ РУССКОГО ЯЗЫКА С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ»

Естественные науки

Физико-математические науки

Математика

Теория, вероятностей., и. .математическая, статистика,

Владимиров В. В.

(Национальный исследовательский университет ««МИЭТ»)

АВТОМАТИЧЕСКАЯ РАССТАНОВКА УДАРЕНИЙ В СЛОВАХ РУССКОГО ЯЗЫКА С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ

Данная статья посвящена исследованию применимости методов машинного обучения к задаче автоматической расстановки ударений в словах русского языка.

This article is devoted to research the applicability of machine learning methods to the problem of automatic placement of accents in the words of the Russian language.

Автоматическое определение места ударения в слове имеет огромное значение в системах синтеза речи. О качестве синтезатора речи можно судить не только по его сходству с человеческим голосом, но и по его способности быть понятным. В тех системах, где все воспроизводятся предварительно записанные слова, проблем обычно не возникает. Но создать полноценный синтезатор речи по такой системе очень сложно из-за большого количества слов.Поэтому в большинстве синтезаторов слова генерируются из звуков. Здесь и возникает проблема выбора места ударения. Для большинства слов можно определить ударение по словарю. Однако во многих словарях отсутствует значительная часть различных словоформ, терминов и составных слов.

Для автоматической расстановки ударения в русском языке необходимо провести комплексный анализ слов и ударений в них.Для этого пригодятся различные статистические методы. В том числе и методы машинного обучения. Машинное обучение - обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа выделяющая знания из данных.

Для исследования в первую очередь необходима база данных слов русского языка с ударениями. Для создания базы за основу был принят «Русский орфографический словарь» под редакцией В. В. Лопатина, состоящий из более чем 150 тысяч слов. Также, для достоверности результатов, в базу были добавлены около 19 тысяч слов из некоторых литературных произведений.

Задача определения места ударения сводится к задаче выбора ударного слога. Поэтому целесообразно было исследовать группы слов, в каждой из которых количество слогов в словах одинаково. Таким образом, получился ряд подзадач, являющихся задачами классификации. В каждой j-й подзадаче требуется определить номер ударного слога в слове из nj слогов.

Для того, чтобы обеспечить алгоритм, решающий задачу классификации, входными данными, необходимо было составить для каждого классифицируемого объекта набор показателей. В нашем случае объектами являются слова из одинакового числа слогов.

Каждому слову был сопоставлен числовой вектор, координаты которого кодируют:

• Открытость или закрытость конкретного слога.

• Наличие согласных букв различных типов (звонкие, глухие, сонорные, шипящие, непарные по мягкости-твёрдости, парные по звонкости-глухости).

• Количество согласных букв между гласными.

• Наличие конкретных гласных букв.

• Наличие самых часто встречающихся подслов из базы.

Для решения поставленных задач классификации были использованы методы машинного обучения: метод k ближайших соседей и метод случайного леса.

Метод k ближайших соседей (англ. k-nearest neighbors algorithm, k-NN) - метрический алгоритм для автоматической классификации объектов. Основным принципом метода ближайших соседей является то, что объект присваивается тому классу, который является наиболее распространённым среди соседей данного элемента.

Случайный лес (англ. random forest) - алгоритм машинного обучения, заключающийся в использовании комитета (ансамбля) деревьев решений. Дерево принятия решений (также могут назваться деревьями классификации или регрессионными деревьями) - средство поддержки принятия решений, использующееся в статистике и анализе данных для прогнозных моделей. Структура дерева представляет собой «листья» и «ветки». На ребрах («ветках») дерева решения записаны атрибуты, от которых зависит целевая функция, в «листьях» записаны значения целевой функции, а в остальных узлах - атрибуты, по которым различаются случаи. Чтобы классифицировать новый случай, надо спуститься по дереву до листа и выдать соответствующее значение.

Для слов, длина которых колеблется от 2 до 7 слогов, точность метода k ближайших соседей составила от 80% до 87% в зависимости от длины, метода случайного леса - от 84% до 87%. Причём наибольшая точность получилась для длинных слов, вероятность нахождения которых в словаре меньше, что подтверждает эффективность данных методов для поставленной задачи.

Рассмотренные методы можно вполне использовать в системах синтеза речи.

1. Ударение. [Электронный ресурс]. - Режим доступа: https://ru.wikipedia.org/wiki/Ударение

2. Профессиональный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных. [Электронный ресурс]. - Режим доступа:

http://www.machinelearning.ru/wiki/index.php?title=Заглавная_страница

3. Qing Dou, Shane Bergsma, Sittichai Jiampojamarn and Grzegorz Kondrak. A Ranking Approach to Stress Prediction for Letter-to-Phoneme Conversion.

4. Метод ближайших соседей. [Электронный ресурс]. - Режим доступа: http://www.machinelearning.ru/wiki/index.php?title=Метод_ближайшего_соседа

5. Randomforest. [Электронный ресурс]. - Режим доступа: https://ru.wikipedia.org/wiki/Random_forest

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком