научная статья по теме XVI МЕЖДУНАРОДНАЯ КОНФЕРЕНЦИЯ SPEC0M’2014 «SPEECH AND COMPUTER» («РЕЧЬ И КОМПЬЮТЕР») Языкознание

Текст научной статьи на тему «XVI МЕЖДУНАРОДНАЯ КОНФЕРЕНЦИЯ SPEC0M’2014 «SPEECH AND COMPUTER» («РЕЧЬ И КОМПЬЮТЕР»)»

XVI Международная конференция

SPECOM'2014

«Speech and computer»

(«Речь и компьютер»)

Родмснга Кондратьевна Потапова1- @, Всеволод Викторович Потапов б

a Московский государственный лингвистический университет, Москва, 119034, Россия; б МГУ им. М. В. Ломоносова, Москва, 119991, Россия; @ rkpotapova@yandex.ru

5—9 октября 2014 г. в г. Нови-Сад (Сербия) на базе факультета технических наук (FTN) Университета г. Нови-Сад состоялась XVI Международная конференция SPECOM'2014 «Speech and computer) («Речь и компьютер»).

Конференция «Речь и компьютер» является мероприятием, регулярно проводимым с момента первой конференции SPECOM в 1996 г., которая проходила в Санкт-Петербурге. Это конференция с уже сложившимися традициями, которая привлекает исследователей прежде всего в области компьютерной обработки речи: автоматизированного распознавания и понимания речи, обработки речевых сигналов, мультимодальной обработки речи, анализа—синтеза речи и др. По мнению специалистов, международная конференция SPECOM является идеальной платформой для обмена современными ноу-хау, особенно для лингвистов-прикладников, работающих со славянскими и другими высокофлективными языками, а также с более или менее ресурсно обеспеченными языками.

Конференции SPECOM организовывались попеременно в Санкт-Петербурге и Москве: Санкт-Петербургским институтом информатики и автоматизации Российской академии наук (СПИИРАН) и Московским государственным лингвистическим университетом (МГЛУ). Кроме того, она проводилась в 1997 г. Научно-исследовательским институтом вычислительной техники (г. Клуж-Напока, Румыния), в 2005 г. — Университетом г. Патры (Греция), в 2011 г. — Казанским (Приволжским) федеральным университетом (Российская Федерация, Республика Татарстан), в 2013 г. — Университетом Западной Богемии и факультетом прикладных наук и кибернетики (Пльзень, Чешская Республика). В 2014 г. было принято решение продолжить традицию. Место проведения конференции SPECOM в этом случае было выбрано с учетом интересов сообщества носителей славянских языков, кроме того, там,

XVI International conference

SPECOM'2014

«Speech and computer»

Rodmonga K. Potapovaa @, Vsevolod V. Potapovb

a Moscow State Linguistic University, Moscow, 119034, Russia; b Lomonosov Moscow State University, Moscow, 119991, Russia; @ rkpotapova@ yandex.ru

где исследования по обработке речи имеют давнюю традицию.

Под руководством Московского государственного лингвистического университета и Санкт-Петербургского института информатики и автоматизации РАН конференция SPECOM 2014 г. (16-я по счету) проходила параллельно с 10-й конференцией DOGS 2014 г. («Обработка цифровой речи и изображений»), мероприятием, проводимым два раза в год и традиционно организованным на факультете технических наук Университета г. Нови-Сад. Параллельная работа двух конференций позволила обеспечить их участникам возможность присутствовать на заседаниях обеих конференций. Опытные и начинающие исследователи в области обработки речи и связанных с этим областях знаний имели возможность непосредственного общения и обмена опытом, с одной стороны, и обмена мнениями по поводу новых «прорывных» идей, с другой стороны. Было принято решение объединить работу обеих конференций для презентации и обсуждения пленарных докладов. На совместных пленарных заседаниях были заслушаны доклады А. Петровского (Белоруссия), Э. Брина (Великобритания), Г. Немета (Венгрия).

В работе конференции SPEC0M'2014 принимали участие докладчики из Великобритании, Венгрии, Белоруссии, Сербии, Германии, Японии, Чехии, Словакии, Мексики, России, США, ЮАР. Было отобрано и представлено в общей сложности 58 докладов. Число авторов докладов — 142.

Наряду с пленарными заседаниями работа конференции проходила по следующим секциям: распознавание и понимание речи, системы речевой безопасности, речевого диалога (человек— машина), анализа—синтеза речи, аудиовизуальной коммуникации. В постер-презентации было представлено 23 доклада.

В заключительной части конференции был организован круглый стол, посвященный проблемам развития и применения речевых технологий в современном мире.

К началу работы конференции доклады были опубликованы, как и в случае с предыдущей конференцией, издательским домом Springer, публикации которого входят в систему Scopus и Web of Science. В полном объеме материалы представлены в трудах конференции [Proceedings 2014].

Доклад Э. Брина (Великобритания) «Формирование набора голосов с учетом их экспрессивности, предназначенных для использования в системах синтеза "текст—речь"» посвящен проблеме преобразования текста в звучащую речь. Преобразование «текст—речь» (TTS — «text-to-speech») традиционно рассматривается в качестве компонента «черного ящика», где стандартные имеющиеся в наборе голоса соответствуют, как правило, профессионально подготовленному нейтрально-разговорному стилю речи. Для коммерчески наиболее престижных языков может быть предложено множество разнообразных голосов в похожем разговорном стиле. Заказчик, желающий использовать в коммерческих целях систему TTS, как правило, выбирает один из этих голосов. Единственной альтернативой является выбор в пользу решения «голос на заказ». В этом случае клиент платит за конечный продукт — создание, например, рекламы на базе преобразования «текст—речь» с использованием отобранного «голосового источника». Подобный подход позволяет реализовать некоторую предварительную «настройку» сценариев (скриптов) на используемый голос. В некоторых случаях могут быть добавлены определенные элементы сценариев, что необходимо для обеспечения большего охвата элементов сценария в области, указанной заказчиком. При подготовке конечного материала могут быть включены также специальные фразы, которые содержат примеры идеального произнесения конкретных фрагментов текста. При таком подходе процесс записи строго контролируется, а стандартные сценарии перерабатываются не с нуля, а расширяются. Подход «черный ящик» к TTS позволяет создать системы, которые удовлетворяют потребностям большого числа заказчиков.

Последние достижения в области применения систем «текст—речь» изменили мнение людей о том, как должен звучать и влиять на человека «компьютерный» голос. Оказалось, что для системы TTS (особенно в коммерческих сферах применения) гораздо важнее представить конкретное лицо, которое соответствует максимальному достижению цели коммуникации. Практика показала, что подобные системы требуют более яркого, оптимистичного и выразительного голоса. Подхода «черный ящик» уже недостаточно. Голоса для высокопроизводительных

«посредников» речевого общения в настоящее время явно «предназначены» для удовлетворения потребностей таких приложений. Эти голоса одновременно и выразительны, и легки, а также образуют контраст по сравнению с более «консервативными» голосами, используемыми традиционно на мировом рынке. Данный доклад в рамках проекта Nuance R&D посвящен описанию нового подхода к особому типу речевого синтеза TTS с использованием речевых образцов экспрессивного разговорного стиля.

Большой интерес вызвал пленарный доклад Г. Немета (Венгрия) «Нерешенные проблемы в области речевых технологий», в котором утверждается следующее: несмотря на то, что в последнее время наблюдается значительный прогресс в области использования и принятия в производство речевых технологий, в ряде развитых стран по-прежнему существуют серьезные пробелы, которые не позволяют большинству возможных пользователей найти конкретные решения, связанные с применением речевых технологий. В докладе перечислены некоторые из этих пробелов (нерешенных проблем) и предлагаются пути их ликвидации. Возможно, что наиболее значительным расхождением является мышление разработчиков программного обеспечения по типу «черный ящик», которые полагают, что ввод текста в систему преобразования текста в речь (TTS) приведет к голосовому продукту на выходе, который имеет отношение к данному контексту применения. Применительно к автоматическому распознаванию речи (ASR) разработчики ждут получения точной транскрипции текста на выходе, включая знаки препинания. При этом не принимается во внимание, что даже люди находятся под сильным влиянием априорного знания контекста, партнеров по коммуникации и т. д. По мнению докладчика, знания в области семантического моделирования все еще находятся в зачаточном состоянии. Для создания успешных приложений исследователи речевых технологий должны найти пути для создания «встроенного» априорного знания в среде приложений, адаптировать свои технологии и интерфейсы для данного сценария. Например, разборчивость и изменчивость скорости речи являются наиболее важными параметрами оценки TTS для слабовидящих пользователей. В то же время для информационных систем на железнодорожных станциях необходимы «человекоподобные» объявления с обычным темпом и в разговорном стиле. Увеличивающийся разрыв наблюдается между «большими» и «малыми» языками / рынками. Еще один пробел — между закрытыми и открытыми прикладными средами. Например, вряд ли существует мобильная операционная

система, которая обеспечивает переадресацию TTS при непосредственном телефонном разговоре, что является основной потребностью реабилитационных приложений для людей, испытывающих проблемы с речью. В этой ситуации может помочь создание открытой платформы, где «мелкие» и «крупные» игроки на поле могут одинаково внедрять свои средства / решения при надлежащем качестве продукта и больших доходах. В докладе приведены некоторые примеры попыток устранения указанных пробелов.

В докладе П. Чистикова, Д. Захарова и А. Таланова (Санкт-Петербург) «Повышение качества синтеза речи с использованием базы данных аудиокниг» представлен подход к повышению качества синтезированной речи с использованием базы данных, полученных на материале аудиокниг. Данные включают речевой материал, прочитанный одним диктором. Звучащий материал сравнивался с соответствующими письменными текстами. Основные проблемы исследования связаны со следующими факторами: а) запись проведена в разное время в разных акустических условиях; б) ди

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком