ПРИКЛАДНАЯ МАТЕМАТИКА И МЕХАНИКА
Том 68. Вып. 4, 2004
УДК 531.36;517.977
© 2004 г. М. И. Зеликин РЕШЕНИЕ УРАВНЕНИЯ РИККАТИ КАК ГЕССИАН ФУНКЦИИ БЕЛЛМАНА
Изучена задача оптимального управления с разделенными условиями для концов. Предполагается, что для многообразия левых концов (а также для многообразия правых концов) существует поле экстремалей, включающее данную экстремаль. Доказывается критерий, дающий необходимые и достаточные условия оптимальности в терминах этих двух полей. Достаточным условием служит положительная определенность разности решений соответствующих матричных уравнений Риккати, необходимым условием - ее неотрицательность. Ключевую роль в доказательстве критерия играет формула, связывающая решение уравнения Риккати с гессианом функции Беллмана.
1. Постановка задачи. Рассмотрим задачу минимизации функционала
г2
](и(■)) = |/(г, х, и)йг (1.1)
'1
при ограничениях
X = ф(г, х, и), Ф1(г1; х(г 1)) = 0, Ф2(г2, х(г2)) = 0; и(г)е и (1.2)
Здесь х - фазовые переменные, принадлежащие гладкому я-мерному многообразию М, управление и(г) е и непрерывно, функции/, ф, Ф1, Ф2 гладко зависят от своих аргументов.
Отметим, что полученные в статье результаты верны при гораздо менее жестких предположениях, но в целях наглядности и простоты изложения здесь будет приведена простейшая версия. Без ограничения общности можно считать, что /(г, х, и) > 0. Этого всегда можно добиться, прибавив к подынтегральной функции подходящую постоянную. Обозначим подмногообразие левых концов (второе равенство (1.2)) через М1 с К х М, правых концов (третье равенство (1.2)) - через М2 с К х М; размерности Мх и М2 произвольны.
2. Предварительные факты. Напомним факты, касающиеся задачи (1.1), (1.2). Пусть у - элемент кокасательного расслоения Т*М многообразия М. Условимся обозначать результат подстановки функций х (г), у (г), и (г) под знак некоторой функции Р(х, у, и) через Р (г). Рассмотрим функцию Понтрягина
Ж(г, х, у, и) = - /(г, х, и) + уф(г, х, и)
Обозначим ее максимум по и через Н(г, х, у). Предполагаем, что задача нормальна и поэтому коэффициент при / можно взять равным -1. Всюду в дальнейшем будем также считать, что значение и, реализующее максимум Ж, определено однозначно и функция Н(г, х, у) гладкая.
Пусть х (г), и (г), г е [?1, г2 ] реализует сильный локальный минимум. Тогда в силу принципа максимума Понтрягина существует непрерывный подъем у (г) оптималь-
ной траектории X (t) в кокасательное расслоение, удовлетворяющий следующим условиям.
1°. Функция cK.(t, X (t), у (t), u) достигает своего максимума по u при u = u (t):
H(t, X(t), у(t)) = H(t) = maхЖ(t, X(t), у(t), u) (2.1)
u e U
2°. Пара функций X (■), у (■) является решением гамильтоновой системы
X = Hу(t, x, у), у = — Hx(t, x, у) (2.2)
3°. Удовлетворяются условия трансверсальности: пара (- H (tk), у (tk)) является аннулятором касательной плоскости к подмногообразию Mk в точке tk, X (tk), т.е.
- H (tk )0 + у (h = 0 для любых (9, S) e Г * Mk (tk, x 0k)) (2.3)
Здесь k = 1 для левого конца, k = 2 для правого конца.
Предположение 1. Функция у(-), которая удовлетворяет условиям (2.1)-(2.3), определена однозначно.
Пары x(), u(), удовлетворяющие условиям (2.1)-(2.3), называются экстремалями.
Определим подъем <Ш1 многообразия M1 в расширенное фазовое пространство переменных t, x, у: для каждой точки (t, x) e M1 рассмотрим все у, которые удовлетворяют условию (2.3) в этой точке. Легко видеть, что dim<Ш1 = п. Подъем многообразия M2 обозначим через Ш2.
Предположение 2. Будем считать, что вектор скорости гамильтоновой системы (2.2), дополненной уравнением t = 1:
Zk = (1, Hv(?k), -Hx(tk)) (2.4)
не касается многообразия Wik, (k = 1, 2).
Предположение 2 сохраняется для некоторой окрестности cUk с Wik точки (tk,
x (tk), у (h)).
Обозначим n-мерный вектор координат, параметризующий cUk, через ok.
Рассмотрим решения гамильтоновой системы (2.2) с начальными условиями в точках g1 = (t1, x(t1), у(^)) e (U1. Предположения 1 и 2 гарантируют, что в результате получится (п + 1)-мерное гладкое многообразие которое, в силу теоремы об интегральном инварианте Пуанкаре-Картана и в силу условий трансверсальности на левом конце (2.3), является лагранжевым, т.е.
°(- Hdt + уdx) = 0 (2.5)
Y
для любой замкнутой кривой у с Уменьшив при необходимости окрестность потребуем, чтобы многообразие ^ при t e (t1, t2], где t1, t2 зависят от соответствующей траектории (x(t), у(t)) с диффеоморфно проектировалось на некоторую область N1 пространства (t, x). Если это возможно, то говорим, что в N1 определено поле экстремалей отвечающее многообразию M1, и что на данной экстремали нет фокальных точек многообразия M1. В этом случае проекции экстремалей, лежащих в ^1, однозначно покрывают область N1. В силу взаимной однозначности проекции, в N1 определена функция у^, x) и тогда -Hdt + уdx становится дифференциальной формой на N1, причем равенство (2.5) означает, что эта форма точная. Следовательно, существует функция S^t, x), такая, что
dS1 = - Hdt + уdx (2.6)
Отсюда следует выполнение уравнения Гамильтона-Якоби в форме Беллмана для 51, и функция 51 является функцией Беллмана в задаче минимизации функционала J с начальным многообразием М1 и с правым концом в точке (г, х).
Точно такую же конструкцию, но только с движением по времени вспять, реализуем для многообразия М2 и получим другое решение 52(г, х) уравнения Гамильтона-Якоби, отвечающее многообразию концов М2.
Предположение 3. Для экстремали х(-), и(-) на полуинтервале (?1, г2 ] нет фокальных точек многообразия М1. На полуинтервале [ ?1, г2) нет фокальных точек многообразия М2.
Если бы, скажем, многообразие М2 сводилось к точке, то отсутствие фокальных точек многообразия М1 наряду с принципом максимума Понтрягина давало бы достаточные условия сильного минимума, так как экстремаль х ( ) была бы погружена в поле, а условие максимума функции Понтрягина гарантировало неотрицательность функции Вейерштрасса. Однако, если оба многообразия, как М1 так и М2 - нетривиальны, предположение 3 необходимо, но далеко не достаточно для оптимальности.
Данная статья посвящена нахождению важной формулы для вычисления гессиана (матрицы второго дифференциала) функций 5к(г, х). Эта формула - не просто новая интерпретация известных конструкций, а удобный математический аппарат. В частности, она позволила найти приведенные ниже необходимые и достаточные условия оптимальности для задачи (1.1), (1.2) столь же простые и эффективные, как критерий отсутствия фокальной точки для задачи с одним закрепленным концом.
3. Основные теоремы. Рассмотрим систему уравнений в вариациях для уравнений (2.2)
< = Нух(г, х у)? + Нуу(г, х у)Р
Р = -Нхх( г, х, у) 1 - Нху( г, х, у) Р
Через < и р обозначены производные по начальным данным соответственно для функций х и у, являющихся решениями системы (2.2). В дальнейшем под < и р нам будет удобно понимать (я х я)-матрицы из производных по значениям а^ Коэффициенты системы (3.1) это тоже (я х я)-матрицы.
Основным инструментом исследования будет служить матричное уравнение Рик-кати [1] для переноса лагранжевых плоскостей по решениям системы (3.1). Обозначим через Ж = р<-1 матричные координаты лагранжевых плоскостей. Прямым дифференцированием легко получить матричное уравнение Риккати для Ж
-Ж = Нхх + Нх у Ж + ЖНух + ЖНууЖ (3.2)
Так как матрица коэффициентов системы (3.1) принадлежит алгебре Ли симплек-тической группы Ли, матрица Ж(г) будет симметрической, если ее начальное значение Ж(г1) - симметрическая матрица. Начальное значение Ж(г{) определяется из условия трансверсальности (2.3), которое задает лагранжеву плоскость и, следовательно, является симметрической матрицей.
При вырождении матрицы < решение Ж(г) уравнения (3.2) уходит в бесконечность (фокальная точка), и при необходимости начать или продолжить решение уравнения (3.2) надо совершить матричное дробно-линейное преобразование, чтобы перейти в другую карту на многообразии Лагранжа-Грассмана.
Теорема 1. Предположим, что на экстремали х ( ), у ( ) выполнены предположения 1, 2 и 3. Пусть решениер(г), <(г) уравнений (3.1) описывает эволюцию производных по начальным данным на многообразии ^ вдоль экстремали х (), у ().
Тогда соответствующее решение ^(г) уравнения Риккати (3.2) задает гессиан функции Беллмана Б1(г, х) поля ^
д2 б
^(г) = —-1 (г, х(г)) (3.3)
д х
Доказательство. Из формулы (2.6) следует, что вектор у в любой точке (г, х), покрытой полем экстремалей, задает градиент функции Беллмана
дБ, (г, х)
V1(г, X) = дх 7 (3.4)
Матрица р есть, по определению, матрица производных от у по начальным значениям а q - матрица производных от х по начальным значениям Следовательно, матрица q~1 - это производные от по х, т.е.
-
-1 ду(г, х)до, д г, х)
pq = —----т- =-2— (3.5)
д°1 дх дх2
Аналогично для поля имеем -1 д2Б2 (г, х)
pq =---— (3.6)
дх
дБ2 (г, х)
Знак минус появляется из-за того, что у2(г, х) =--д--, так как для отождествления Б2 с J приходится иметь дело с нижним пределом интегрирования.
Рассмотрим поле экстремалей ^ для левого многообразия М1 и поле экстремалей для правого многообразия М2. Поскольку оба поля включают экстремаль х (), имеем
V (г) = УЫг), г е [?ь ?2] (3.7)
Следовательно,
д Б1( г, х (г)) д Б2( г, х (г))
дх дх
(3.8)
т.е. касательные плоскости к поверхностям уровня функций и Б2 в точках траектории х () совпадают и противоположно ориентированы.
В следующих ниже теоремах покажем, что необходимым условием оптимальности является неотрицательность, а достаточным - положительная определенность квадратичной формы с матрицей (Ш1 - Ш2).
Теорема 2. Пусть выполнены предположения 1, 2 и 3 для траектории х ( ), удовлетворяющей принципу максимума Понтрягина (2.1)-(2.3).
Тогда необходимым условием для того, чтобы траектория х ( ) доставляла слабый минимум функционалу (1.1), является неотрицательность квадратичной формы с матрицей (Ш1(т) - Ш2(т)) при любом т е (?0, ).
Доказательство. Для траектории х ( ), дающей слабый минимум, предположим противное, т.е. что найдется момент т и вектор такие, что
((т)^) - (^(т)^)< 0 (3.9)
Рассмотрим траекторию х^)
Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.