научная статья по теме ЧИСЛЕННЫЕ МЕТОДЫ ИНТЕРВАЛЬНОГО АНАЛИЗА В ОБУЧЕНИИ НЕЙРОННЫХ СЕТЕЙ Автоматика. Вычислительная техника

Текст научной статьи на тему «ЧИСЛЕННЫЕ МЕТОДЫ ИНТЕРВАЛЬНОГО АНАЛИЗА В ОБУЧЕНИИ НЕЙРОННЫХ СЕТЕЙ»

Автоматика и телемеханика, № 11, 2012

© 2012 г. П.В. САРАЕВ, канд. техн. наук (Липецкий государственный технический университет)

ЧИСЛЕННЫЕ МЕТОДЫ ИНТЕРВАЛЬНОГО АНАЛИЗА В ОБУЧЕНИИ НЕЙРОННЫХ СЕТЕЙ

Работа посвящена разработке и исследованию численных методов гарантированного обучения нейронных сетей прямого распространения на основе методов интервального анализа. Разработаны сжимающие операторы, учитывающие особенности задачи обучения (квадратичный функционал качества обучения и суперпозиционную линейно-нелинейную по весам структуру нейронных сетей) и применяемые в численных методах обучения. Приведены результаты вычислительных экспериментов по исследованию эффективности разработанных методов. Проведен сравнительный анализ с методом обучения, основанным на алгоритме обратного распространения ошибки и методе встряхивания весов для поиска глобального оптимума.

1. Введение

В задачах управления часто применяются нейронные сети прямого распространения [1, 2]. Нейронные сети обладают универсальными аппроксимаци-онными свойствами, они способны приблизить любую непрерывную нелинейную функцию с произвольной точностью. Наиболее популярны двухслойные нейронные сети, реализующие зависимость

д / п

(1) у = ^ тго ^Хз

2=1 У =0

где ^ - количество нейронов единственного скрытого слоя; Wij,] = 1,...,и, -веса г-го нейрона скрытого слоя, Wio - веса при фиктивных единичных входах, Wi - вес нейрона выходного слоя, соответствующий г-му нейрону скрытого слоя, а(-) - функция активации нейрона, которая обычно представляет собой униполярную сигмоидную логистическую функцию

(2) „(„еО = т_1_г € (0;1).

Веса wi входят в модель линейно, а веса wij - нелинейно. В работе будут рассматриваться только двухслойные сети (1), хотя многие рассуждения будут справедливы и для многослойных сетей, обладающих характерной суперпозиционной линейно-нелинейной по параметрам структурой.

Центральным этапом при построении нейронных сетей является обучение - определение значений весов с целью минимизации функционала качества. По сути, обучение - задача параметрической идентификации модели

5 Автоматика и телемеханика, № 11 129

на основе обучающего множества, составленного из входных и соответствующих им выходных значений. Это задача многоэкстремальной оптимизации, что приводит к необходимости применения методов глобальной оптимизации функций. Обычно для этого используются стохастические компоненты совместно с алгоритмами оптимизации гладких функций или применяются подходы на основе метода имитации обжига, генетические алгоритмы. Наиболее часто применяются методы на основе алгоритма обратного распространения ошибки, эффективно вычисляющего градиент функционала качества по вектору весов на основе учета суперпозиционного характера нейронных сетей прямого распространения [3]. Однако применяемые методы обучения не позволяют гарантировать глобальность найденного решения. Кроме того, хотя при увеличении количества весов нейронная сеть способна обучиться с меньшей ошибкой, это не означает, что построенная модель будет адекватной и правильно реагировать на входные сигналы, отсутствовавшие в обучающем множестве, т.е. обобщающая способность будет низкой. Наилучшие обобщающие свойства будут, как правило, у моделей, содержащих небольшое число параметров.

Гарантировать нахождение глобального оптимума позволяет использование алгоритмов глобальной оптимизации на основе методов интервального анализа [4-6]. Методы интервального анализа могут для заданной области изменения переменных оценить нижнюю и верхнюю границы изменения целевой функции, причем эти границы при сужении области изменения переменных могут быть только уточнены. Данные алгоритмы относятся к категории детерминированных методов оптимизации и исследуют всю, произвольно большую, допустимую область, на которой ищется глобальный экстремум функции.

Важным является исследование возможностей применения интервальных методов в обучении нейронных сетей и совершенствование методов обучения на основе учета специфики задачи. Работы по синтезу нейронных сетей и методов интервального анализа появились в начале 1990-х гг. и привели к понятию интервальных нейронных сетей, т.е. сетей, содержащих хотя бы один интервальный параметр - вход, выход или вес. Сфера их применения, в первую очередь,- робастное управление [7, 8]. В ряде работ указано на возможность применения алгоритмов оптимизации на основе методов интервального анализа. Однако результаты исследований эффективности интервальных алгоритмов оптимизации для обучения нейронных сетей в литературе не приводятся. Например, в [9] только декларирована возможность применения интервальных методов для обучения нейронных сетей, а также отмечено, что эти алгоритмы до той поры не применялись. В [10] рассматривалась трехслойная интервальная нейронная сеть, для настройки интервальных весов предлагалось применение интервального метода Ньютона. В [11] отмечена сложность использования производной по вектору весов вследствие появления больших неточностей в оценке образа из-за эффекта обертывания - вхождения веса кратное количество раз в формальное выражение функции, реализуемой нейронной сетью. Там же предложено для ускорения обучения нейронных сетей на основе методов интервального анализа использовать сплайны в функциях активации. В [12] исследуется применимость методов интервального анализа

в максимизации значений выходных сигналов нейронных сетей, что связано со значительно меньшей размерностью пространства входов по сравнению с размерностью пространства весов. Применение программного обеспечения для глобальной интервальной оптимизации - пакета 01оЪБо1 и его расширения Рага01оЪ8о1 для работы в параллельных средах [13, 14] - в обучении нейронных сетей затруднительно, так как пакет рассчитан на оптимизацию произвольных функций, учесть специфику задачи обучения нейронных сетей невозможно. Обработка интервальных входных значений, содержащих неопределенности, в нейронных сетях изучалось также в [15], где предлагался переход от интервальных значений к вещественным и последующее применение классических нейронных сетей. Таким образом, анализ эффективности применения алгоритмов глобальной оптимизации на основе методов интервального анализа в обучении нейронных сетей практически не проводился, а специфика задачи обучения вообще не учитывалась.

Целью данной работы является разработка и исследование качества и эффективности численных методов обучения нейронных сетей прямого распространения, основанных на интервальных методах глобальной оптимизации, позволяющих гарантировать глобальность находимого решения, на основе учета специфики задачи обучения - квадратичного функционала качества обучения и суперпозиционной линейно-нелинейной по весам структуры нейронных сетей. В разделе 2 приводятся теоретические основы применения методов интервального анализа в глобальной оптимизации. В разделе 3 предлагается модификация применяемых функций активации, разрабатываются сжимающие операторы для повышения эффективности численных методов, учитывающие специфику задачи обучения. В разделе 4 приводятся результаты вычислительного эксперимента по исследованию качества и эффективности численных методов обучения на основе методов интервального анализа с применением результатов раздела 3, а также приводятся результаты сравнительного анализа с классическим методом обучения нейронных сетей - методом обратного распространения ошибки совместно с методом встряхивания весов для поиска глобального оптимума.

2. Глобальная оптимизация на основе методов интервального анализа

Обучение нейронных сетей - определение значений весов и> € М5, минимизирующих функционал качества на обучающем множестве {Хс(г),:у(г)}, % = = 1,...,к, где ж(г) € Мга - вектор входов сети, а у(г € Мг - вектор соответствующих выходов (указаний учителя), к - объем обучающего множества [1, 2]. Обычно минимизируется квадратичный функционал качества обучения

к г

(3) 3 М - Уг3 )2 ,

г=1з=1

где уу - 2-й выход сети при подаче на вход %-го вектора ж(г) из обучающего множества, уц - 2-й элемент вектора указаний учителя %-го примера. В целях упрощения рассматривается сеть с одним выходом (г = 1), тогда функцио-

5* 131

нал (3) принимает вид

к

(4) J(w) = J>i(w) - Vi)2 .

i=1

Необходимо найти такой вектор весов w*, чтобы

(5) w* = arg min J(w).

™eis

Обучение нейронных сетей со скрытыми нейронами - нелинейная задача о наименьших квадратах с многоэкстремальным функционалом (4).

Гарантировать результат глобальной оптимизации могут методы, основанные на технике интервального анализа. Интервал (интервальное число) -односвязное подмножество множества вещественных чисел, задаваемое упорядоченной парой вещественных чисел:

[ж] = [ж, ж] = {ж € М : ж ^ ж ^ ж},

где ж, ж - нижняя и верхняя границы интервала соответственно. В Приложении 1 описана классическая интервальная арифметика Ii и ее расширение на случай деления на нуль-содержащий интервал. Важной положительной особенностью интервального расширения арифметических операций является их монотонность по включению:

[ж] С [x'], [у] С [y'\ ^ [x] * [у] С [ж'] * [у1 ],

где * - некоторая бинарная операция. Это означает, что при переходе к более узкому диапазону изменения аргумента результат вычислений не увеличивается. Арифметические операции естественным образом распространяются на интервальные векторы (брусы) и матрицы. Интервальные функции - образы обычных функций, аргументами которых являются интервалы:

(6) f ([ж]) = {f (ж) : ж е [ж] е Ii™}. Интервальные функции также монотонны по включению:

[ж] С [у] ^ f ([ж]) С f ([у]).

В общем случае точное вычисление интервальной функции невозможно. Вместо этого используют функции включения [4] (внешние оценивающие функции или интервальные расширения в терминах [6]) - достаточно легко вычисляемые функции [f]([ж]), удовлетворяющие условию

(7) f ([ж]) С [Д([ж]) У[ж] С 1™.

Вычисление вторых производных функционала качества по весам сети -трудоемкая задача, поэтому для оценки образа функционала целесообразно применение естественной [f]п или центрированной [f]c функций включени

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком