научная статья по теме ТОЧНЫЕ РЕШЕНИЯ УРАВНЕНИЯ ГАМИЛЬТОНА - ЯКОБИ - БЕЛЛМАНА ДЛЯ ЗАДАЧ ОПТИМАЛЬНОЙ КОРРЕКЦИИ С ОГРАНИЧЕННЫМ СУММАРНЫМ РЕСУРСОМ УПРАВЛЕНИЯ Математика

Текст научной статьи на тему «ТОЧНЫЕ РЕШЕНИЯ УРАВНЕНИЯ ГАМИЛЬТОНА - ЯКОБИ - БЕЛЛМАНА ДЛЯ ЗАДАЧ ОПТИМАЛЬНОЙ КОРРЕКЦИИ С ОГРАНИЧЕННЫМ СУММАРНЫМ РЕСУРСОМ УПРАВЛЕНИЯ»

ПРИКЛАДНАЯ МАТЕМАТИКА И МЕХАНИКА

Том 68. Вып. 5, 2004

УДК 62-50:534.1

© 2004 г. А. С. Братусь, К. А. Волосов

ТОЧНЫЕ РЕШЕНИЯ УРАВНЕНИЯ ГАМИЛЬТОНА - ЯКОБИ - БЕЛЛМАНА ДЛЯ ЗАДАЧ ОПТИМАЛЬНОЙ КОРРЕКЦИИ С ОГРАНИЧЕННЫМ СУММАРНЫМ РЕСУРСОМ УПРАВЛЕНИЯ

Рассматривается задача управления колебаниями математического маятника. На суммарный ресурс управления наложено интегральное ограничение: абсолютная величина управляемой функции в произвольной неотрицательной степени (большей или равной единице) является суммируемой функцией на заданном временном интервале. Цель управления - минимизация заданной функции фазовых переменных к фиксированному моменту времени (задача Майера). Наряду с детерминированным случаем изучается стохастический случай, когда на систему воздействуют случайные возмущения в виде гауссовского белого шума. В этом случае требуется либо минимизировать математическое ожидание заданных функционалов, либо максимизировать вероятность попадания фазовой координаты в заданную область к фиксированному моменту времени. Известно [1, 2], что задача построения синтеза оптимального управления может быть сведена к решению задачи Коши в неограниченной области для соответствующего уравнения Гамильтона - Якоби - Беллмана. Доказано, что данная задача эквивалентна задаче Коши для линейного параболического уравнения. Найдены точные решения этой задачи для рассматриваемого класса задач оптимального управления. Отдельно рассмотрен случай импульсной коррекции, когда ограничена величина интеграла от абсолютной величины управляющей силы. Полученные результаты обобщаются на случай произвольного числа фазовых переменных, если интеграл от суммы квадратов величин управляющих сил - ограниченная величина.

1. Постановка задачи. Пусть управляемое движение материальной точки описывается уравнениями

2

хх = x2, x2 = - ю x1 + u(t) + o(tt)

x1( 0) = x°, x2( 0) = x°

Здесь t - время, 0 < t < T, x1, x2, - фазовые координаты, u(t) - управляющая сила (функция управления), £(t) - гауссовский белый шум единичной интенсивности, o(t) - ограниченная функция, представляющая интенсивность возмущения, ю - собственная частота.

Если o(t) = 0, то будем называть задачу (1.1) детерминированной задачей оптимального управления.

На величину управления (управляющую функцию) u(t) наложено следующее интегральное ограничение:

т

J|u\mdt < q0, Qo = const (1.2)

0

Здесь m - вещественное положительное число m > 1, m = 2k/(2s - 1), k > s, k, s = 1, 2...

Случай т = 1 будет рассмотрен отдельно. Число т является параметром задачи: разным значениям т соответствуют разные способы задания ограничения (1.2) суммарного ресурса управления. Отметим, что случай т = 2 называют управлением при помощи малой тяги, а случай т = 1 - импульсным управлением.

Введем переменную

q( t) = J| u (t)|mdt

Переменная q(t) имеет смысл неизрасходованного ресурса управления, причем q(0) = = Qo , q(T) = 0. Тогда к уравнениям (1.1) можно добавить уравнение

q = -I u (t)|m (1.3)

Цель управления - минимизация одного из следующих функционалов

Е{ф(^( T))}, E {ф( x2 (T))} (1.4)

Здесь E - знак математического ожидания, ф(х) - гладкая, четная неотрицательная функция своих аргументов, причем ф'(х) > 0, х > 0, ф(0) = 0. В случае детерминированной задачи (о = 0) знак математического ожидания в функционалах (1.4) необходимо отбросить.

Типичный пример функционалов (1.4) - потенциальная и кинетическая энергия в момент времени t = T, т.е.

ф( Xj) = 1 Ю^, ф(Х2) = 1 x2

Частным случаем стохастического варианта задачи (1.4) является задача управления системой (1.1), (1.3) с целью максимизации вероятности попадания фазовой траектории системы в заданное множество N на прямой xt или х2 в момент t = T.

Далее полагаем, что N - связное, симметричное относительно начала координат множество на фазовой прямой хг и х2.

Характерными примерами областей N служат области

хг: <5j, х2: |х2| <§2, 81; S2 = const > 0

Учитывая специфику функционалов (1.4), порядок системы (1.1), (1.3) можно понизить. Для этого введем новую переменную

у (t) = х^т (ю( T -1)) + юx1cos (ю( T -1))

Непосредственно проверяется, что

у (T) = юх1( T), у = sin (ю( T - t))(±2 + ю2 х1)

Следовательно, для функционалов, зависящих лишь от конечного состояния фазовой переменной хг система (1.1), (1.3) примет вид

у = sin (ю( T -1))(u (t) + о( t )£( t)), q = -| u\m (1.5)

Если же ввести переменную

y(t) = x2cos (ю( T -1)) - rax1sin (ю( T -1))

T

ТО

у (T) = x2( T)

поэтому для функционалов, зависящих лишь от конечного состояния фазовой переменной x2, первое уравнение системы (1.5) примет вид

у = cos (ю( T -1))(u (t) + о( t )£( t))

Если ю = 0, то в качестве новой переменной рассмотрим y(t) = x2(T - t) + x1. Тогда первое уравнение системы (1.5) примет вид

У = (T -1)(u (t) + о( t Ш t))

Обобщая представленные случаи, будем рассматривать далее следующее уравнение движения:

У = f (t)(u (t) + o( t )$( t)), q = -| Um (1.6)

где f(t) - гладкая непрерывная функция, 0 < t < T.

Отметим, что при ю = 0 с помощью автомодельных переменных задача решалась численно для случаев m = 1, 2 [2, 3]. Изучались [4] локальные решения соответствующего уравнения Гамильтона - Якоби - Беллмана.

2. Уравнение Гамильтона - Якоби - Беллмана (m > 1). Рассмотрим сначала стохастический вариант исходной задачи. Пусть S(y, q, t) - минимальное значение математического ожидания одного из функционалов (1.4), которое может быть достигнуто при начальных условиях t = t0, q = q0, у = y0 в задаче оптимального управления, описываемые уравнениями состояния (1.6). Предполагая существование и достаточную гладкость функции S(y, q, t), можно написать уравнение Гамильтона - Якоби - Белл-мана (ГЯБ)

St + min{ f (t)uSy -\u\mSq} + 2-o2(t)Syy = 0 (2.1)

u 2

Здесь минимум берется по u. Функция S удовлетворяет условию S(y, q, T) = ф(у).

Из постановки задачи следует, что величина функции S(y, q, T) может лишь уменьшиться при увеличении значения q, поскольку чем больше ресурс управления, тем меньшего значения функционала может достичь при прочих равных условиях, т.е.

S(у> q2>t) = S(У' qi>t), qi < q2

Учитывая гладкость функции S^, q, T), получим, что должно выполняться условие

Sq(у, q, T)< 0 (2.2)

В области, где Sq^, q, T) < 0, реализуется движение с помощью управляющей силы, при этом тратится некоторый ресурс управления q'. Минимальное значение выражения, стоящего в фигурных скобках в уравнении (2.1), достигается на следующей управляющей функции:

u = (SmS" J sign (Syf (t)), Ц = (m -1 )-1 (2.3)

После замены переменной

T

т = J f2( s) ds (2.4)

уравнение (2.1) трансформируется в уравнение

1 2 ( ^ +1 201 (т)5уу + (т - 1)Ет(т)1 т

= -о2(т)^уу + (т - 1)Ет(т)[ 1 Sq (2.5)

с начальным условием

5(у, ч, 0) = ф(у) (2.6)

Здесь

Ет (т) = /( г)|ц-1, О! (т) = о( 01Д01 ,= ,(т) (2.7)

причем переменные г и т связаны соотношением (2.4). Если на некотором множестве 5ч(у, ч, т) = 0, то минимум выражения, стоящего в фигурных скобках в уравнении (2.1), достигается тогда и только тогда, когда либо и = 0, либо на этом множестве одновременно = 5у = 0. В первом случае происходит неуправляемое движение под действием случайных сил. Уравнение (2.1) в этих областях имеет вид

+ 1 о2 (г) 5уу = 0 (2.8)

Во втором случае управление и = 0, причем дробно-линейная функция в уравнении (2.1), содержащая в соответствующих степенях величины Бу и должна быть определена на множестве, где Бу = = 0. Так как, по предположению, ф(у) - четная функция, задача (2.5), (2.6) инвариантна относительно замены переменной у на -у. Следовательно, эту задачу можно рассматривать только при у > 0 с дополнительным краевым условием

5у(0, ч, т) = 0 (2.9)

Все приведенные рассуждения сохраняют свой смысл и в случае задачи о максимизации вероятности попадания в заданное множество N на прямой х или (х2) в момент г = Т. Вычисление минимума в уравнении (2.1) необходимо заменить на вычисление максимума. Отметим, что максимум указанного выражения будет существовать тогда и только тогда, когда 5ч(у, ч, т) > 0.

В детерминированном случае вид формулы (2.3) сохраняется.

Уравнение (2.5) примет вид

5т = (т -1)Рт(т)(^/ +Ч (2.10)

Здесь

т = Т - г, Рт(т) = /(Т - т)Г - 1 (2.11)

3. Точные решения уравнения Гамильтона - Якоби - Беллмана (т > 1). Рассмотрим случай детерминированной системы (о(г) = 0).

Утверждение 1. Точное решение уравнения (2.10) дается равенством

5(у, ч,т) = ф(г)

где

т

г = у - Рт(ч,т), Рт(ч,т) = ч1/т(©т(т))1-1/т, ©„(т) = \Рт(5)ds

Функция рт($) определена равенством (2.11). Синтез оптимального управления в детерминированной задаче оптимального управления, определяемой уравнениями состояния (1.6) с одним из функционалов (1.4), определяется по формуле

u=

- f (t )|Ц(©ео)1/m sign f( t), у - pm( q, т)

(3.1)

0, 0 < у < P m( q,T)

Доказательство. Первая часть утверждения непосредственно проверяется подстановкой функции ф(г) в уравнение (2.10). Рассмотрим области

Dm = {у, q, т: у > Pm(q,T)}, Dm2 = {у, q, т: 0 < у < Pm(q,T)} (3.2)

Граница ym этих областей задается поверхностью у = Pm(q, т), содержащей координатную ось q = 0, а ее сечения при q = const > 0 представляют собой в плоскости у, т монотонно возрастающую кривую, выходящую из начала координат. Поверхность

разделяет области Dm и Dm таким образом, что поверхность т = 0 является границей области Dm , а поверхность у = 0 - границей области Dm .

Уравнение (2.10) и условие (2.6) дополняются краевым условием

Sq(у, q, т) < 0, u Ф 0

Следовательно, первая часть формулы (3.1) справедлива лишь в области Dm. На

границе ym областей Dm и D"l функция S = ф(г) обращается в нуль вместе со своими производными по у и q.

Продолжим функцию S = ф(г) нулем в область D"l. Выбор управления u = 0 в области Dm обеспечивает попадание фазовой траектории системы на множество у = 0 при т = 0.

Действительно, при u = 0, из уравнений (1.6) следует, что у = const > 0, q = const > 0, поэтому с уменьшением обратного времени, т = T - t фазовая траектория системы обязательно попадет на границу уш (см. фиг. 1).

Траектории детерминированной системы (1.6) в области Dm лежат на поверхности

G(у, q, т) = у - Pm(q, т) = const

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком