4-Й МЕЖДУНАРОДНЫЙ СЕМИНАР ПО РЕЧЕВЫМ ТЕХНОЛОГИЯМ ДЛЯ МАЛОРЕСУРСНЫХ ЯЗЫКОВ SLTU-2014

КАРПОВ АЛЕКСЕЙ АНАТОЛЬЕВИЧ

150

ВОПРОСЫ ЯЗЫКОЗНАНИЯ

1 Voprosy Jazykoznanija

2015. № 2

НАУЧНАЯ ЖИЗНЬ

4-й Международный семинар по речевым технологиям для малоресурсных языков SLTU-2014

Алексей Анатольевич Карпов

Санкт-Петербургский институт информатики и автоматизации Российской академии наук (СПИ-ИРАН), Санкт-Петербург, 199178, Россия; Университет ИТМО, Санкт-Петербург, 197101, Россия karpov@iias.spb.su

14—16 мая 2014 г. в Санкт-Петербурге состоялся 4-й Международный семинар по речевым технологиям для малоресурсных языков SLTU-2014 (4th International workshop on spoken language technologies for under-resourced languages).

Международный семинар по речевым технологиям для малоресурсных языков SLTU проводится с 2008 г. и традиционно организуется один раз в два года. В 2014 г. SLTU впервые проводился в России в Санкт-Петербурге, а три предыдущих встречи проходили в Ханое (Вьетнам) — SLTU-2008, Пенанге (Малайзия) — SLTU-2010 и Кейптауне (ЮАР) — SLTU-2012, каждый раз собирая до сотни ведущих ученых со всего мира, включая компьютерных специалистов, математических, прикладных и полевых лингвистов, фонетистов и др. Интернет-сайт международного семинара SLTU-2014 находится по адресу: http:// www.mica.edu.vn/sltu2014.

Организаторами SLTU-2014 выступили Санкт-Петербургский институт информатики и автоматизации Российской академии наук (СПИИРАН), а также Университет Авиньона (LIA, Франция), Гренобльский институт информатики (LIG, Франция) и Международный исследовательский институт MICA (Вьетнам), которые являются основателями этой солидной серии международных семинаров. Председателем семинара был А.А. Карпов (СПИИРАН). SLTU-2014 проводился на базе Санкт-Петербургского национального исследовательского университета информационных технологий, механики и оптики (ИТМО) при содействии СПИИРАН и Санкт-Петербургского государственного университета.

/ ACADEMIC LIFE

4th International Workshop on spoken language technologies for under-resourced languages

Alexey A. Karpov

St. Petersburg Institute for Infoimatics and Automation of the Russian Academy of Sciences (SPIIRAS), St. Petersburg, 199178, Russia; ITMO University, St. Petersburg, 197101, Russia karpov@iias.spb.su

Научное мероприятие было официально поддержано Международной ассоциацией по речевой коммуникации (ISCA), Европейской ассоциацией по обработке сигналов (EURASIP), а также Российской академией наук. Спонсорами SLTU-2014 выступили Российский фонд фундаментальных исследований (РФФИ) и ООО «Лингвистические и информационные технологии — Линфо» (Москва).

Как известно, в мире существует более семи тысяч живых разговорных языков, открытых на данный момент, но из них только для нескольких десятков наиболее распространенных мировых языков существуют или разрабатываются естественно-языковые и речевые технологии (компьютерные системы распознавания речи, синтеза речи по тексту, машинного перевода речи, идентификации языков и т. д.), а также доступны необходимые речевые и текстовые базы данных и ресурсы. Все остальные языки технологиями обработки языка и речи практически никак не охвачены и являются малоресурсными (under-resourced) языками, не имеющими достаточных речевых и языковых корпусов и обработанных данных для создания речевых технологий. При этом на таких малоресурсных языках могут разговаривать десятки и даже сотни миллионов человек, и многие из них являются государственными языками, как, например, языки Индии, Индонезии, Афганистана, Китая или ЮАР. Для России данная проблематика также очень актуальна, так как у нас в стране используется около двухсот различных языков, и почти в каждой республике РФ определены свои государственные или официальные языки в дополнение к русскому.

А. А. Карпов

151

Основными научными направлениями международного семинара SLTU традиционно являются проблемы и достижения, связанные с компьютерной обработкой и изучением малоресурсных (under-resourced), миноритарных (minority), а также находящихся под угрозой исчезновения (endangered) языков, в том числе:

— сбор и развитие, обработка языковых и речевых ресурсов: словарей, корпусов, грамматик, моделей языка и т. д.;

— автоматическое распознавание и синтез речи для языков и их диалектов, имеющих мало обучающих данных;

— многоязычная обработка устной и письменной речи;

— машинный перевод речи / текста и речевые диалоговые системы.

Таким образом, исследования и проблемы, рассматриваемые на данном семинаре, очень актуальны как для международной, так и российской науки. Семинар SLTU является весьма представительным международным мероприятием и способствует постепенному решению этих важных научных проблем.

SLTU-2014 в Санкт-Петербурге был масштабнее предыдущих семинаров и включал насыщенную научную программу, состоящую из трех дней устных докладов участников и двух ключевых лекций приглашенных специалистов. Официальным языком международного семинара был английский. Всего в семинаре приняли участие почти 80 участников, включая 45 человек из стран дальнего зарубежья. Иностранные участники семинара приехали из (в порядке уменьшения численности) Франции, Германии, Японии, ЮАР, Вьетнама, Великобритании, Румынии, Финляндии, Чехии, Испании, Венгрии, Эстонии, Бельгии, Италии, Украины, США, Ирландии, Португалии, Индонезии и Туниса. Российские участники представляли как академические институты СПИИ РАН и ИЛИ РАН, так и ведущие вузы: СПбГУ, НИУ ИТМО, МГУ, Казанский федеральный университет, а также коммерческие организации, такие как «Центр речевых технологий», «Лингвистические и информационные технологии — Линфо», «СТЭЛ — Компьютерные системы» и т. д. На семинаре российскими учеными было представлено пять научных докладов из 40, отобранных для научной программы международным научным комитетом, в который входят ведущие ученые и специалисты по данной тематике из России, Франции, Германии, Великобритании, Японии, ЮАР, США, Турции, Португалии, Вьетнама, Сингапура и Малайзии.

В программу SLTU-2014 были включены часовые лекции двух приглашенных всемирно известных ученых: С. Накамуры 14 мая 2014 г.

и М. Гейлса 15 мая 2014 г Оба доклада вызвали у собравшейся аудитории огромный научный интерес и еще долго обсуждались после лекций.

С. Накамура (Satoshi Nakamura — Нара институт науки и технологий, Япония; член президиума ассоциации ISCA) в лекции «В направлении синхронного многоязычного многомодального перевода речи в речь» («Towards realtime multilingual multimodal speech-to-speech translation») представил обзор современных исследований и разработок в области многоязычного машинного перевода речи, включающего в себя средства и системы для автоматического распознавания речи (преобразования речи в текст) на входном языке, машинного перевода распознанного текста с исходного языка на требуемый, компьютерного синтеза речи по переведенному тексту на выходном языке. В докладе освещались насущные проблемы для каждой из этих независимых задач и результаты выполненных исследований для нескольких языковых пар. Были представлены исследования, связанные с обработкой не только аудиоинформации, но и аудиовизуальной речи, включая технологии чтения речи по губам диктора и создания виртуальных трехмерных аватаров для мультимедийного синтеза речи.

М. Г ейлс (Mark Gales — Кембриджский университет, Великобритания) в лекции «Распознавание речи и нахождение ключевых слов для малоресурсных языков: исследования по проекту "Вавилон" в Кембриджском университете» («Speech recognition and keyword spotting for low resource languages: Babel project research at CUED») представил ведущиеся в настоящее время исследования и текущие результаты работы по компьютерному распознаванию речи и выделению ключевых слов в потоке слитной речи дикторов. М. Гейлс познакомил аудиторию с исследованиями в этой области, проводимыми консорциумом во главе с Кембриджским университетом на примере десяти малоресурсных языков мира (кантонский, ассамский, бенгальский, пушту, тагальский, турецкий, вьетнамский, гаитянский креольский, лаосский и зулу). Для проведения данных исследований используется многоязычный корпус речи, создаваемый несколькими организациями из целого ряда стран в рамках комплексного проекта «Вавилон» (Babel) агентства IARPA (Intelligence advanced research projects activity), который также был представлен в докладе ученого.

В ходе семинара участниками были прочитаны доклады по созданию и развитию различных речевых и естественно-языковых технологий, а также сбору и анализу корпусов и данных для десятков малоресурсных языков

152

Вопросы языкознания

2015. №2

мира. Организационно работа основной части SLTU-2014 проходила по следующим секциям: «Многоязычные естественно-языковые и речевые технологии» («Multilingual spoken language technologies»), «Речевые и языковые ресурсы» («Speech and language resources»), «Распознавание речи» («Automatic speech recognition»), «Синтез речи по тексту» («Text-to-speech synthesis), «Обработка речи» («Speech signal processing»). На семинаре были представлены исследования по основным мировым языкам и многим малоресурсным языкам Европы, Азии, Африки, Америки и Океании, включая эстонский, венгерский, румынский, албанский, баскский, мирандский, словенский, словацкий, чешский, сербохорватский, украинский, турецкий, саамский, вьетнамский, кантонский, корейский, тагальский, лаосский, бенгальский, урду, малайский, индонезийский, яванский, суданский, балийский, батакский, ибан-ский, кхмерский, мосо, ассамский, пушту, йоруба, африкаанс, зулу, коса, сепеди, сото, тсвана, тсонга, свати, венда, ндебели, шона, креольские языки, а также другие языки мира и их диалекты / регио-лекты. Практически все устные доклады вызвали у аудитории большой научный интерес, докладчикам было задано много вопросов.

К началу мероприятия был издан печатный и электронный сборник трудов международного семинара SLTU-2014 на английском языке, включающий 40 статей участников, отобранных научным комитетом по итогам рецензирования. Труды SLTU-2014 размещены в свободном доступе в Интернете в архиве международной ассоциации КСА: http://www.isca-speech.org/archive/ sltu_2014.

По р

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

научная статья по теме 4-Й МЕЖДУНАРОДНЫЙ СЕМИНАР ПО РЕЧЕВЫМ ТЕХНОЛОГИЯМ ДЛЯ МАЛОРЕСУРСНЫХ ЯЗЫКОВ SLTU-2014 Языкознание

Текст научной статьи на тему «4-Й МЕЖДУНАРОДНЫЙ СЕМИНАР ПО РЕЧЕВЫМ ТЕХНОЛОГИЯМ ДЛЯ МАЛОРЕСУРСНЫХ ЯЗЫКОВ SLTU-2014»