СТРАТЕГИИ ПРИЦЕЛИВАНИЯ В НАПРАВЛЕНИИ ИНВАРИАНТНЫХ ГРАДИЕНТОВ

ЛУКОЯНОВ Н.Ю.

ПРИКЛАДНАЯ МАТЕМАТИКА И МЕХАНИКА

Том 68. Вып. 4, 2004

УДК 62-50

СТРАТЕГИИ ПРИЦЕЛИВАНИЯ В НАПРАВЛЕНИИ ИНВАРИАНТНЫХ ГРАДИЕНТОВ

Для задач управления наследственными динамическими системами в условиях помех приведена конструкция построения стратегий управления при помощи экстремального прицеливания в направлении коинвариантных градиентов вспомогательных функционалов типа Ляпунова-Красовского. При достаточно общих предположениях доказано, что такие стратегии доставляют оптимальный гарантированный результат.

Метод экстремального прицеливания (ЭП) или сдвига в задачах позиционного управления, восходящий к работам H.H. Красовского (см., например, [1-5]), получил широкое развитие в современной теории управляемых процессов и теории дифференциальных игр. Подходящие конструкции ЭП используются в разных задачах для доказательства существования оптимальных решений и эффективного построения разрешающих законов управления по принципу обратной связи [4-7]. ЭП применяется в процедурах управления с поводырем [3, 4], стабилизирующих оптимальное движение, в динамических методах решения обратных задач динамики [8].

Данная работа продолжает исследования [6, 9-12] задач управления с наследственной информацией, развивая для них конструкцию ЭП в направлении квазиградиентов, которая была предложена ранее [13, 14] для задач управления обыкновенными дифференциальными системами. Формализация задачи выполняется в рамках теоретико-игрового подхода [4, 5] в сочетании с функциональной трактовкой процесса управления, близкой к указанной ранее [9, 15]. Используются элементы инвариантного дифференциального исчисления [16], негладкого анализа [17] и результаты [10, 12, 18] по развитию для наследственных систем теории обобщенных (минимаксных, вязкостных) решений уравнений типа Гамильтона-Якоби [19, 20]. В частных случаях подобная конструкция рассматривалась в работах автора [11, 12]. Ниже дается существенное уточнение и обобщение результатов этих работ.

1. Основные предположения. Рассмотрим динамическую систему, описываемую дифференциальным уравнением вида

x[ t ] = f(t, x[t*[ ■] t], u [t],v[t]), t* < t0 < t < T

k (1.1)

x[t]e Rn, u [t]e P с Rk, u[t]e Q с Rm

при начальном условии

x[t*[■ ]to] = Xo[t*[■]to] 6 C([t*, to], Rn) (1.2)

Здесь t - временная переменная, x[t] и x [t] = dx[t]/dt - значение фазового вектора и скорость его изменения в текущий момент времени t, x[t*[-]t] = |x[x], t* < т < t} - история движения, сложившаяся к моменту t, u[t] - текущее воздействие управления, u[t] -воздействие неконтролируемой помехи, P и Q - известные компакты, t* и T (t* < T) -

известные моменты времени, t0 - момент начала процесса управления, x0 [t*[]t0] - начальная история. Допустимы измеримые реализации управления и помехи u[ ]: [t0, T) ^ P и u[ ]:[t0, T) ^ Q. Движением системы (1.1) при начальном условии (1.2) является

функция х[ ] б C([t*, T], Rn), совпадающая с x0[t*[-]t0] на [t*, t0], абсолютно непрерывная на [t0, T и при почти всех t e [t0, T] удовлетворяющая уравнению (1.1). При этом история движения x[t*[-]t] - сужение этой функции на [t*, t]. Тройку |х[ ], u[-], u[-]}

будем называть реализацией рассматриваемого процесса управления.

Пусть качество процесса управления оценивается показателем

T

Y = у({х[■ ], u[■ ],u[■ ]}) = о(x[■ ]) - Jh(t, x[t*[■]t], u[t],u[t])dt (1.3)

t0

Цель управления - доставить этому показателю как можно меньшее значение. При этом следует принять во внимание, что действия помехи непредсказуемы и могут быть самыми неблагоприятными.

В соотношениях (1.1) и (1.2) предполагаем, что функция f = f(t, x[t*[ ]t], u, u) e Rn и функционал h = h(t, x[t*[-]t], u, u) e R определены при всех t e [t*, T], x[t*[-]t] e C([t*, t], Rn), u e P и u e Q, непрерывны по совокупности переменных x[t*[ ]t], u и u при любом фиксированном значении t и для любой фиксированной функции x[ ] e C([t*, T], Rn) непрерывны по совокупности переменных t, u и u, причем для любого компакта D с с C([t*, T], Rn) равностепенно относительно x[ ] e D. Выполняется оценка

||f (t, x[t*[■ ]t], u, u)||2 + h2(t, x[t*[■ ]t], u, u) < L2(t, x[t*[■ ]t]) (1.4)

где

L(t, x[t*[■ ]t]) = 11+ max ||x[t]|| Ic, c = const > 0

V t* <T< t )

и для любого s e Rn справедливо равенство

minmax[(s, f (t, x[t* [■ ]t], u, u)> - h(t, x[t*[■ ]t], u, u)] =

u e Pue Q (1 5)

= maxmin[(s, f (t, x[t*[■ ]t], u, u)> - h(t, x[t*[■ ]t], u, u)] = Я(t, x[t*[■ ]t], s)

u e Qu e P

Величину Я, определяемую этим равенством, называют гамильтонианом системы (1.1), (1.3). Здесь и ниже символ |||| означает евклидову норму вектора, (•, > - скалярное произведение векторов.

Относительно функционала о = o(x[]) предполагаем, что он определен и непрерывен на C([t*, T], Rn).

Символом Lip(t, x[t*[ ]t]) будем обозначать множество функций у[ ] e C([t*, T], Rn), каждая из которых совпадает с x[t*[ ]t] на [t*, t] и является липшицевой на [t, T]. Символом XM(t, x[t*[ ]t]) обозначим множество функций у[ ] e Lip(t, x[t*[ ]t]), которые при почти всех т e [t, T] удовлетворяют дифференциальному неравенству

||})[х^< L(t, у[t* [■ ]т]) + cM

В силу оценки (1.4) для любой возможной реализации {x[], u[], u[]} процесса управления (1.1)—(1.3) будет справедливо включение

x[■ ] e Xм(to, xo[t* [■ ]to]), M > 0 (1.6)

2. Стратегии управления и функционал оптимального гарантированного результата. Стратегию управления отождествим с произвольной функцией

U = U(t, x[t*[■ ]t]) e P

Процесс управления на базе стратегии и осуществляется в дискретной по времени схеме. Выбирается разбиение отрезка времени [?0, Т]

А = {ц : t1 = + 1 > г1, 1 = 1,..., N гИ +1 = Т}

и последовательно по шагам этого разбиения в цепи обратной связи формируется реализация управления

и [П = и^, х[^[ ■] t1■]), ti < t < ti + 1, 1 = 1,., N (2.1)

Символом х0[^[%], и, А) обозначим множество всех возможных реализаций рассматриваемого процесса управления, отвечающих выбранным стратегии и и разбиению А. Именно это множество состоит из троек {х[], и[], и[]| таких, что и[-]:[^, Т) ^ 2 - измеримая функция, и[ ] - кусочно постоянная функция вида (2.1), х[ ]:[^, Т] ^ Я" - удовлетворяющая условию (1.2) непрерывная функция, которая на Т] абсолютно непрерывна и почти всюду вместе с и[ ], и[ ] удовлетворяет уравнению (1.1). При сделанных предположениях множество х0[^[-]^], и, А) непусто.

Следуя принципу гарантированного результата, определим величину

Г(Хо[t*[■ ]to], и, А) = 8пру(5(Хо[t*[■ ]to], и, А)) (2.2)

Здесь и далее используем обозначение зирр(А) = эирр(а) при а е А. Оптимальным гарантированным результатом (ОГР) управления будет

Хо[t*[■ ]to]) = шЩ^, Хо[t*[■ ]to], и, А) (2.3)

и, А

В согласии с равенством (2.3) стратегия и° оптимальна, если для любого числа ^ > 0 найдется разбиение А такое, что

Г(Хо[t*[■ ]to], иА) < ф(to, Хо[t*[■ ]to]) + С (2.4)

Также будем рассматривать так называемые е-стратегии

и£ = ие(t, х[t*[■ ]t]) е Р

где е > 0 - параметр точности (см. [5], с. 68), выбираемый до начала процесса управления. Оптимальной будет е-стратегия и° , при которой для любого ^ > 0 найдутся е > 0

и А такие, что будет выполняться неравенство (2.4) (где вместо и° записываем и°).

Величина ОГР зависит от начальной позиции х0[^[-]^]}. Следовательно, можно определить следующий функционал ОГР:

{t е [tТ], х[t*[■ ]t] е С([tt], Я")} ^ ф = ф(t, х[t*[■ ]t]) е Я (2.5)

При t = Т этот функционал удовлетворяет условию

ф(Т, х[t*[■ ]Т]) = о(х[■ ]), х[t*[■ ]Т] = х[■ ] е С([tТ], Я") (2.6) Его нижнее замыкание

ф(и х[t*[■ ]t]) = 11ш1пг]ф(t, у[t*[■ ]t])| тах ||х[т] -< 5 I (2.7)

8 А о I t* <т< t I

обладает свойством, именуемым в теории дифференциальных игр и-стабильно-стью [4-6]. В рассматриваемом случае это свойство можно выразить следующим образом [12, 18].

Свойство А. Для любых т* б [г*, Т), у*[г*[-]т*] 6 С([г*, т*], Я") и М > 0, я б Я" существует функция (у[-], г[ ]) 6 С([г*, Т], Я" х Я), абсолютно непрерывная на [т*, Т] и такая, что

у[■ ]б Xм(т*, у*[г*[■ ]т*]), г[т*] = ф(т*, у*[г*[■ ]т*]) (2.8)

г[г] = <у[г], *> - Н(г, у[г*[■ ]г], ^) п.в. г 6 [т*, Т] (2.9)

г[г] = ф(г, у[г*[■ ]г]), г 6 [т*, Т] (2.10)

3. Вспомогательные определения. Для функционалов вида

{г 6 [г*, Т], я[г*[■ ]г] 6 С([г*, г], я")} ^ р = р(г, я[г*[■ ]г]) 6 Я (3.1)

введем следующие определения.

Определение 1. Функционал (3.1) назовем [г', г")-непрерывным (соответственно [г', г"]-непрерывным), где [г', г"] е [г*, Т], если, во-первых, он непрерывен по ы[г*[]г] 6 6 С([г*, г], Я") для любого фиксированного г 6 [г', г") (г 6 [г', г"]) и, во-вторых, он непрерывен по г на [г', г") (соответственно на [г', г"]) вдоль любой фиксированной функции ы[ ] 6 С([г*, Т], Я"), причем для любого компакта Б с С([г*, Т], Я") равностепенно относительно ы[] 6 Б. Функционал р является непрерывным, если он [г*, Т]-непрерывен.

Определение 2. Функционал (3.1) назовем кусочно-непрерывным, если существует конечное число q точек разрыва г ^ 6 [г*, Т] (г1 = г*, гч = Т), таких, что он [г^, г , + 1)-не-прерывен для любого ] = 1, ..., q - 1.

Определение 3. Функционал (3.1) является коинвариантно (а-) дифференцируемым, если для любых г 6 [г*, Т) и я[г*[-]г] 6 С([г*, г], Я") существуют Эгр = Эгр(г, я[г*[-]г]) 6 Я и Ур = Ур(г, ы[г*[ ]г]) 6 Я", такие, что при всех у[ ] 6 Ыр(г, ы[г*[ ]г]) справедливо равенство

р( г + 5, у [г* [ ■ ] г + 5]) - р(г, я [г*[ ■] г]) = (32)

= Эг р5 + <Ур, у [ г + 5] - я [ г ]> + оу[ ,](5), 0 <5< Т - г

где оу[.](5) зависит от выбора у[-], оу[.](5)/5 ^ 0 при 5 ^ 0+.

Величины Эгр и Ур = {У1р, ..., У"Р} называют соответственно й-производной по г и й-градиентом функционала р. Будем говорить, что функционал р является [г', г"]-с1-гладким ([г', г"] е [г*, Т]), если он [г', г"]-непрерывен, ¿-дифференцируем и его ¿-производная Эгр и компоненты Укр, к = 1, ..., " его ¿-градиента Ур представляют собою [г', г")-непрерывные функционалы. Функционал р называем ¿-гладким, если он [г*, Т]-е1-гладкий. Подробности техники инвариантного дифференциального исчисления функционалов изложены, например, в [16].

4. Случай ¿-гладкого функционала ОГР. Если функционал ф ОГР является ¿-гладким, то для его полной произв

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

научная статья по теме СТРАТЕГИИ ПРИЦЕЛИВАНИЯ В НАПРАВЛЕНИИ ИНВАРИАНТНЫХ ГРАДИЕНТОВ Математика

Текст научной статьи на тему «СТРАТЕГИИ ПРИЦЕЛИВАНИЯ В НАПРАВЛЕНИИ ИНВАРИАНТНЫХ ГРАДИЕНТОВ»