научная статья по теме РЕЧЕВЫЕ ТЕХНОЛОГИИ ДЛЯ МАЛОРЕСУРСНЫХ ЯЗЫКОВ МИРА Языкознание

Текст научной статьи на тему «РЕЧЕВЫЕ ТЕХНОЛОГИИ ДЛЯ МАЛОРЕСУРСНЫХ ЯЗЫКОВ МИРА»

ВОПРОСЫ ЯЗЫКОЗНАНИЯ

Voprosy Jazykoznanija

РЕЧЕВЫЕ ТЕХНОЛОГИИ ДЛЯ МАЛОРЕСУРСНЫХ ЯЗЫКОВ МИРА*

© 2015 г. Алексей Анатольевич Карпова,б@,

Василиса Олеговна Верходановаа

а Санкт-Петербургский институт информатики и автоматизации Российской академии наук

(СПИИРАН), Санкт-Петербург, 199178, Россия; б Университет ИТМО, Санкт-Петербург, 197101,

Россия; @ karpov@iias.spb.su

В последнее десятилетие активно развивающаяся область компьютерной обработки речи для малоресурсных и миноритарных языков испытывает значительный подъем. В статье представлен аналитический обзор существующих проблем, подходов и решений в области распознавания речи для многочисленных разговорных языков с недостаточными речевыми и текстовыми данными, в том числе языков Российской Федерации. Дается определение и характеристика малоресурсных языков, описываются трудности, связанные с их автоматической обработкой, также представлены ведущиеся в этой области исследования и проекты, направленные на изучение и сохранение малоресурсных языков мира.

Ключевые слова: малоресурсные языки, речевые технологии, распознавание речи, модели языка

SPEECH TECHNOLOGIES FOR UNDER-RESOURCED LANGUAGES OF THE WORLD

Alexey A. Karpovab@, Vasilisa O. Verkhodanovaa

a St. Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences

(SPIIRAS), St. Petersburg, 199178, Russia; b ITMO University, St. Petersburg, 197101, Russia;

@ karpov@iias.spb.su

Over the past decade, computer speech processing of under-resourced and minority languages has experienced a significant progress. In this paper, we present an analytical review of existing problems and approaches in the field of speech recognition for many spoken languages lacking speech and text resources, including languages of the Russian Federation. The definition and characteristics of under-resourced languages and challenges connected with their automatic processing are presented, as well as projects and investigations dealing with analysis and preservation of under-resourced languages of the world are described.

Keywords: under-resourced languages, speech technology, speech recognition, language models

Введение

В настоящее время персональные компьютеры и смартфоны очень активно используются для текстового и речевого общения между людьми. Разговорный язык является основным средством межчеловеческой коммуникации, а языковое разнообразие мира — это основа богатого культурного наследия человечества. К языковому разнообразию можно

* Исследование проводится при частичной финансовой поддержке фонда РФФИ (проект № 15-07-04415-а), Совета по грантам Президента РФ (проект № МД-3035.2015.8) и государственной поддержке ведущих университетов РФ (субсидия 074-Ш1).

относиться так же, как и к биологическому разнообразию [Crystal 2000]. Уже сейчас для ряда наиболее используемых языков доступны различные компьютерные средства обработки текста, электронные словари, машинные переводчики, системы синтеза и распознавания речи. Однако в мире насчитывается более 7 000 живых разговорных языков, и только для небольшого числа из них существуют необходимые информационные ресурсы и программное обеспечение для реализации естественно-языковых и речевых технологий. Современные информационные технологии в основном связаны с теми естественными языками, для которых доступны необходимые языковые и речевые электронные ресурсы, или же с языками, которые стали по какой-либо экономической или политической причине представлять интерес для мирового сообщества. Большая же часть языков развивающихся стран и малочисленных народов на сегодняшний день изучена недостаточно. Один из способов исправления данной ситуации заключается в создании лингвистических и речевых ресурсов, технологий и приложений для работы с такими языками. Таким образом, есть веские основания для разработки речевых технологий (систем автоматического распознавания речи, синтеза речи по тексту, машинного перевода речи) практически для всех языков мира.

В данной статье представлен аналитический обзор проблем, методов и систем автоматического распознавания речи (САРР) для малоресурсных языков (МРЯ, under-resourced languages), который демонстрирует возросший в последнее время интерес к этой области. Несмотря на то что задача автоматического распознавания речи достаточно специфична, ряд затрагиваемых в этой статье аспектов актуален и для других задач прикладной лингвистики и информационных технологий. В целом данный обзор является обобщением и развитием исследований и статей, опубликованных в 2014 г. в специальном выпуске международного научного журнала «Speech Communication» (http://www.sciencedirect.com/ science/journal/01676393/56/supp/C), который был посвящен компьютерной обработке МРЯ и приглашенными редакторами которого выступали Л. Безасие (Франция), Э. Барнард (ЮАР), А. Карпов (Россия, СПИИРАН) и Т. Шульц (Германия, президент ассоциации ISCA) [Besacier et al. 2014]. Также в данном обзоре анализируются доклады, представленные на международных семинарах по речевым технологиям для малоресурсных языков (SLTU), последний из которых впервые проходил в России (Санкт-Петербург) в мае 2014 г. (http:// www.mica.edu.vn/sltu2014).

1. Общая характеристика языков мира 1.1. Разнообразие разговорных языков

Актуальную оценку количества живых языков мира можно найти на языковедческом интернет-ресурсе Ethnologue (http://www.ethnologue.com), где приводится следующее определение живого языка: «Язык, на котором говорит хотя бы один человек и для которого этот язык является родным». Таким образом, мертвые языки и неродные языки не учитываются при подсчете. На основе этого определения Ethnologue по состоянию на 2014 г. выделяет более 7 100 известных науке живых языков, на которых разговаривает около 6,3 млрд. человек. Причем этот список включает в себя около тысячи языков, которые классифицируются как почти вымершие (находящиеся под угрозой исчезновения), т. е. только несколько пожилых носителей живы. Также известно, что на 96 % из числа всех известных языков разговаривает лишь 4 % человечества, а более половины жителей нашей планеты говорит на одном из пяти крупнейших мировых языков [Плунгян 2010]. Нужно еще отметить, что каталог Ethnologue включает в себя как вербальные, так и визуально-кинетические разговорные языки. Последние называют жестовыми, и они используются для повседневной коммуникации глухими и слабослышащими людьми и объединяют в себе жесты, мимику и артикуляцию губ [Карпов 2011]. В данном обзоре рассматриваются только вербальные разговорные языки, которые имеют звуковую форму.

Отдельно ведется также подсчет языков, имеющих письменную форму. Так, Фонд вымирающих языков FEL (http://www.ogmios.org/home.htm) указывает цифру примерно в 2 тыс. письменных языков по количеству опубликованных библий (полностью или частично), однако эта оценка включает и уже мертвые языки. Другой интернет-ресурс Omniglot — энциклопедия систем письма и языков (http://www.omniglot.com) — перечисляет около тысячи письменных языков и приводит описание более 180 разных систем письма.

В то время как общий учет языков мира является непростой научной задачей, количество достаточно хорошо исследованных языков с необходимыми языковыми и речевыми корпусами легко перечислить, назвав число языков, которые учитываются в современных информационных технологиях по обработке естественного языка и речи, таких как переводчик Google Translate (80 языков в 2014 г.), словарь Wiktionary и энциклопедия Wikipedia (более сотни языков), интернет-поисковик Google Search (более сотни языков), голосовой поисковик Google Voice Search (35 языков и их региолектов), голосовой помощник Siri для iPhone от Apple/Nuance (9 языков в 2014 г., причем, русский язык в них не входит).

Проблема сохранения и обработки МРЯ является насущной также и для России. Как известно, в республиках Российской Федерации используется свыше 150 различных языков [Potapova 2011], многие из которых являются государственными и официальными языками России. При этом каждая республика в дополнение к государственному русскому языку имеет возможность определять на своей территории другие государственные языки (наибольшее количество языков со статусом государственного зарегистрировано в Дагестане — 14). Помимо русского языка, который обязано знать все население страны, наиболее распространенными по числу носителей являются татарский (свыше 5 млн носителей), чеченский, башкирский и чувашский языки (не менее 1 млн носителей). Все данные языки по международной классификации считаются МРЯ; причем русский язык и его диалекты за рубежом тоже иногда относят к таковым [Lamel et al. 2012] (современный обзор САРР для русского языка представлен в работах [Кипяткова, Карпов 2010; Кипяткова и др. 2013; Vazhenina et al. 2012]). При этом лингвистические и фонетические корпусные исследования и сбор речевых баз данных и словарей проводятся в России для многих из данных языков (например, языков Кавказа [Potapova 2011]), но систематические работы по созданию компьютерных речевых технологий были начаты, пожалуй, только для татарского [Хусаинов 2014].

1.2. Процесс вымирания естественных языков

В современном мире с его растущей глобализацией языки исчезают с высокой скоростью. В начале этого века было спрогнозировано [Crystal 2000], что через столетие половина из ныне исчезающих языков будут мертвыми. Можно сказать, что в среднем каждые две недели один язык вымирает. Как показывает эволюция, даже если на языке говорит 100 тыс. человек, он не защищен от вымирания [Crystal 2000], так как выживание определенного языка зависит от оказываемого давления на язык и его носителей. Подобное давление может возникать из-за природных катастроф (так, сильные землетрясения в Папуа — Новой Гвинее убили несколько живых языков), геноцида народов (около 90 % американских аборигенов погибли в период 200-летнего покорения Америки Европой) или просто от тотального доминирования одного языка над другим [Besacier et al. 2014]. Последнее может вылиться также в культурную ассимиляцию (из-за социальных, по

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком