ПРИКЛАДНАЯ МАТЕМАТИКА И МЕХАНИКА
Том 68. Вып. 4, 2004
УДК 62-50
© 2004 г. Н. Ю. Лукоянов
СТРАТЕГИИ ПРИЦЕЛИВАНИЯ В НАПРАВЛЕНИИ ИНВАРИАНТНЫХ ГРАДИЕНТОВ
Для задач управления наследственными динамическими системами в условиях помех приведена конструкция построения стратегий управления при помощи экстремального прицеливания в направлении коинвариантных градиентов вспомогательных функционалов типа Ляпунова-Красовского. При достаточно общих предположениях доказано, что такие стратегии доставляют оптимальный гарантированный результат.
Метод экстремального прицеливания (ЭП) или сдвига в задачах позиционного управления, восходящий к работам H.H. Красовского (см., например, [1-5]), получил широкое развитие в современной теории управляемых процессов и теории дифференциальных игр. Подходящие конструкции ЭП используются в разных задачах для доказательства существования оптимальных решений и эффективного построения разрешающих законов управления по принципу обратной связи [4-7]. ЭП применяется в процедурах управления с поводырем [3, 4], стабилизирующих оптимальное движение, в динамических методах решения обратных задач динамики [8].
Данная работа продолжает исследования [6, 9-12] задач управления с наследственной информацией, развивая для них конструкцию ЭП в направлении квазиградиентов, которая была предложена ранее [13, 14] для задач управления обыкновенными дифференциальными системами. Формализация задачи выполняется в рамках теоретико-игрового подхода [4, 5] в сочетании с функциональной трактовкой процесса управления, близкой к указанной ранее [9, 15]. Используются элементы инвариантного дифференциального исчисления [16], негладкого анализа [17] и результаты [10, 12, 18] по развитию для наследственных систем теории обобщенных (минимаксных, вязкостных) решений уравнений типа Гамильтона-Якоби [19, 20]. В частных случаях подобная конструкция рассматривалась в работах автора [11, 12]. Ниже дается существенное уточнение и обобщение результатов этих работ.
1. Основные предположения. Рассмотрим динамическую систему, описываемую дифференциальным уравнением вида
x[ t ] = f(t, x[t*[ ■] t], u [t],v[t]), t* < t0 < t < T
k (1.1)
x[t]e Rn, u [t]e P с Rk, u[t]e Q с Rm
при начальном условии
x[t*[■ ]to] = Xo[t*[■]to] 6 C([t*, to], Rn) (1.2)
Здесь t - временная переменная, x[t] и x [t] = dx[t]/dt - значение фазового вектора и скорость его изменения в текущий момент времени t, x[t*[-]t] = |x[x], t* < т < t} - история движения, сложившаяся к моменту t, u[t] - текущее воздействие управления, u[t] -воздействие неконтролируемой помехи, P и Q - известные компакты, t* и T (t* < T) -
известные моменты времени, t0 - момент начала процесса управления, x0 [t*[]t0] - начальная история. Допустимы измеримые реализации управления и помехи u[ ]: [t0, T) ^ P и u[ ]:[t0, T) ^ Q. Движением системы (1.1) при начальном условии (1.2) является
функция х[ ] б C([t*, T], Rn), совпадающая с x0[t*[-]t0] на [t*, t0], абсолютно непрерывная на [t0, T и при почти всех t e [t0, T] удовлетворяющая уравнению (1.1). При этом история движения x[t*[-]t] - сужение этой функции на [t*, t]. Тройку |х[ ], u[-], u[-]}
будем называть реализацией рассматриваемого процесса управления.
Пусть качество процесса управления оценивается показателем
T
Y = у({х[■ ], u[■ ],u[■ ]}) = о(x[■ ]) - Jh(t, x[t*[■]t], u[t],u[t])dt (1.3)
t0
Цель управления - доставить этому показателю как можно меньшее значение. При этом следует принять во внимание, что действия помехи непредсказуемы и могут быть самыми неблагоприятными.
В соотношениях (1.1) и (1.2) предполагаем, что функция f = f(t, x[t*[ ]t], u, u) e Rn и функционал h = h(t, x[t*[-]t], u, u) e R определены при всех t e [t*, T], x[t*[-]t] e C([t*, t], Rn), u e P и u e Q, непрерывны по совокупности переменных x[t*[ ]t], u и u при любом фиксированном значении t и для любой фиксированной функции x[ ] e C([t*, T], Rn) непрерывны по совокупности переменных t, u и u, причем для любого компакта D с с C([t*, T], Rn) равностепенно относительно x[ ] e D. Выполняется оценка
||f (t, x[t*[■ ]t], u, u)||2 + h2(t, x[t*[■ ]t], u, u) < L2(t, x[t*[■ ]t]) (1.4)
где
L(t, x[t*[■ ]t]) = 11+ max ||x[t]|| Ic, c = const > 0
V t* <T< t )
и для любого s e Rn справедливо равенство
minmax[(s, f (t, x[t* [■ ]t], u, u)> - h(t, x[t*[■ ]t], u, u)] =
u e Pue Q (1 5)
= maxmin[(s, f (t, x[t*[■ ]t], u, u)> - h(t, x[t*[■ ]t], u, u)] = Я(t, x[t*[■ ]t], s)
u e Qu e P
Величину Я, определяемую этим равенством, называют гамильтонианом системы (1.1), (1.3). Здесь и ниже символ |||| означает евклидову норму вектора, (•, > - скалярное произведение векторов.
Относительно функционала о = o(x[]) предполагаем, что он определен и непрерывен на C([t*, T], Rn).
Символом Lip(t, x[t*[ ]t]) будем обозначать множество функций у[ ] e C([t*, T], Rn), каждая из которых совпадает с x[t*[ ]t] на [t*, t] и является липшицевой на [t, T]. Символом XM(t, x[t*[ ]t]) обозначим множество функций у[ ] e Lip(t, x[t*[ ]t]), которые при почти всех т e [t, T] удовлетворяют дифференциальному неравенству
||})[х^< L(t, у[t* [■ ]т]) + cM
В силу оценки (1.4) для любой возможной реализации {x[], u[], u[]} процесса управления (1.1)—(1.3) будет справедливо включение
x[■ ] e Xм(to, xo[t* [■ ]to]), M > 0 (1.6)
2. Стратегии управления и функционал оптимального гарантированного результата. Стратегию управления отождествим с произвольной функцией
U = U(t, x[t*[■ ]t]) e P
Процесс управления на базе стратегии и осуществляется в дискретной по времени схеме. Выбирается разбиение отрезка времени [?0, Т]
А = {ц : t1 = + 1 > г1, 1 = 1,..., N гИ +1 = Т}
и последовательно по шагам этого разбиения в цепи обратной связи формируется реализация управления
и [П = и^, х[^[ ■] t1■]), ti < t < ti + 1, 1 = 1,., N (2.1)
Символом х0[^[%], и, А) обозначим множество всех возможных реализаций рассматриваемого процесса управления, отвечающих выбранным стратегии и и разбиению А. Именно это множество состоит из троек {х[], и[], и[]| таких, что и[-]:[^, Т) ^ 2 - измеримая функция, и[ ] - кусочно постоянная функция вида (2.1), х[ ]:[^, Т] ^ Я" - удовлетворяющая условию (1.2) непрерывная функция, которая на Т] абсолютно непрерывна и почти всюду вместе с и[ ], и[ ] удовлетворяет уравнению (1.1). При сделанных предположениях множество х0[^[-]^], и, А) непусто.
Следуя принципу гарантированного результата, определим величину
Г(Хо[t*[■ ]to], и, А) = 8пру(5(Хо[t*[■ ]to], и, А)) (2.2)
Здесь и далее используем обозначение зирр(А) = эирр(а) при а е А. Оптимальным гарантированным результатом (ОГР) управления будет
Хо[t*[■ ]to]) = шЩ^, Хо[t*[■ ]to], и, А) (2.3)
и, А
В согласии с равенством (2.3) стратегия и° оптимальна, если для любого числа ^ > 0 найдется разбиение А такое, что
Г(Хо[t*[■ ]to], иА) < ф(to, Хо[t*[■ ]to]) + С (2.4)
Также будем рассматривать так называемые е-стратегии
и£ = ие(t, х[t*[■ ]t]) е Р
где е > 0 - параметр точности (см. [5], с. 68), выбираемый до начала процесса управления. Оптимальной будет е-стратегия и° , при которой для любого ^ > 0 найдутся е > 0
и А такие, что будет выполняться неравенство (2.4) (где вместо и° записываем и°).
Величина ОГР зависит от начальной позиции х0[^[-]^]}. Следовательно, можно определить следующий функционал ОГР:
{t е [tТ], х[t*[■ ]t] е С([tt], Я")} ^ ф = ф(t, х[t*[■ ]t]) е Я (2.5)
При t = Т этот функционал удовлетворяет условию
ф(Т, х[t*[■ ]Т]) = о(х[■ ]), х[t*[■ ]Т] = х[■ ] е С([tТ], Я") (2.6) Его нижнее замыкание
ф(и х[t*[■ ]t]) = 11ш1пг]ф(t, у[t*[■ ]t])| тах ||х[т] -< 5 I (2.7)
8 А о I t* <т< t I
обладает свойством, именуемым в теории дифференциальных игр и-стабильно-стью [4-6]. В рассматриваемом случае это свойство можно выразить следующим образом [12, 18].
Свойство А. Для любых т* б [г*, Т), у*[г*[-]т*] 6 С([г*, т*], Я") и М > 0, я б Я" существует функция (у[-], г[ ]) 6 С([г*, Т], Я" х Я), абсолютно непрерывная на [т*, Т] и такая, что
у[■ ]б Xм(т*, у*[г*[■ ]т*]), г[т*] = ф(т*, у*[г*[■ ]т*]) (2.8)
г[г] = <у[г], *> - Н(г, у[г*[■ ]г], ^) п.в. г 6 [т*, Т] (2.9)
г[г] = ф(г, у[г*[■ ]г]), г 6 [т*, Т] (2.10)
3. Вспомогательные определения. Для функционалов вида
{г 6 [г*, Т], я[г*[■ ]г] 6 С([г*, г], я")} ^ р = р(г, я[г*[■ ]г]) 6 Я (3.1)
введем следующие определения.
Определение 1. Функционал (3.1) назовем [г', г")-непрерывным (соответственно [г', г"]-непрерывным), где [г', г"] е [г*, Т], если, во-первых, он непрерывен по ы[г*[]г] 6 6 С([г*, г], Я") для любого фиксированного г 6 [г', г") (г 6 [г', г"]) и, во-вторых, он непрерывен по г на [г', г") (соответственно на [г', г"]) вдоль любой фиксированной функции ы[ ] 6 С([г*, Т], Я"), причем для любого компакта Б с С([г*, Т], Я") равностепенно относительно ы[] 6 Б. Функционал р является непрерывным, если он [г*, Т]-непрерывен.
Определение 2. Функционал (3.1) назовем кусочно-непрерывным, если существует конечное число q точек разрыва г ^ 6 [г*, Т] (г1 = г*, гч = Т), таких, что он [г^, г , + 1)-не-прерывен для любого ] = 1, ..., q - 1.
Определение 3. Функционал (3.1) является коинвариантно (а-) дифференцируемым, если для любых г 6 [г*, Т) и я[г*[-]г] 6 С([г*, г], Я") существуют Эгр = Эгр(г, я[г*[-]г]) 6 Я и Ур = Ур(г, ы[г*[ ]г]) 6 Я", такие, что при всех у[ ] 6 Ыр(г, ы[г*[ ]г]) справедливо равенство
р( г + 5, у [г* [ ■ ] г + 5]) - р(г, я [г*[ ■] г]) = (32)
= Эг р5 + <Ур, у [ г + 5] - я [ г ]> + оу[ ,](5), 0 <5< Т - г
где оу[.](5) зависит от выбора у[-], оу[.](5)/5 ^ 0 при 5 ^ 0+.
Величины Эгр и Ур = {У1р, ..., У"Р} называют соответственно й-производной по г и й-градиентом функционала р. Будем говорить, что функционал р является [г', г"]-с1-гладким ([г', г"] е [г*, Т]), если он [г', г"]-непрерывен, ¿-дифференцируем и его ¿-производная Эгр и компоненты Укр, к = 1, ..., " его ¿-градиента Ур представляют собою [г', г")-непрерывные функционалы. Функционал р называем ¿-гладким, если он [г*, Т]-е1-гладкий. Подробности техники инвариантного дифференциального исчисления функционалов изложены, например, в [16].
4. Случай ¿-гладкого функционала ОГР. Если функционал ф ОГР является ¿-гладким, то для его полной произв
Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.