научная статья по теме РЕШЕНИЕ УРАВНЕНИЯ РИККАТИ КАК ГЕССИАН ФУНКЦИИ БЕЛЛМАНА Математика

Текст научной статьи на тему «РЕШЕНИЕ УРАВНЕНИЯ РИККАТИ КАК ГЕССИАН ФУНКЦИИ БЕЛЛМАНА»

ПРИКЛАДНАЯ МАТЕМАТИКА И МЕХАНИКА

Том 68. Вып. 4, 2004

УДК 531.36;517.977

© 2004 г. М. И. Зеликин РЕШЕНИЕ УРАВНЕНИЯ РИККАТИ КАК ГЕССИАН ФУНКЦИИ БЕЛЛМАНА

Изучена задача оптимального управления с разделенными условиями для концов. Предполагается, что для многообразия левых концов (а также для многообразия правых концов) существует поле экстремалей, включающее данную экстремаль. Доказывается критерий, дающий необходимые и достаточные условия оптимальности в терминах этих двух полей. Достаточным условием служит положительная определенность разности решений соответствующих матричных уравнений Риккати, необходимым условием - ее неотрицательность. Ключевую роль в доказательстве критерия играет формула, связывающая решение уравнения Риккати с гессианом функции Беллмана.

1. Постановка задачи. Рассмотрим задачу минимизации функционала

г2

](и(■)) = |/(г, х, и)йг (1.1)

'1

при ограничениях

X = ф(г, х, и), Ф1(г1; х(г 1)) = 0, Ф2(г2, х(г2)) = 0; и(г)е и (1.2)

Здесь х - фазовые переменные, принадлежащие гладкому я-мерному многообразию М, управление и(г) е и непрерывно, функции/, ф, Ф1, Ф2 гладко зависят от своих аргументов.

Отметим, что полученные в статье результаты верны при гораздо менее жестких предположениях, но в целях наглядности и простоты изложения здесь будет приведена простейшая версия. Без ограничения общности можно считать, что /(г, х, и) > 0. Этого всегда можно добиться, прибавив к подынтегральной функции подходящую постоянную. Обозначим подмногообразие левых концов (второе равенство (1.2)) через М1 с К х М, правых концов (третье равенство (1.2)) - через М2 с К х М; размерности Мх и М2 произвольны.

2. Предварительные факты. Напомним факты, касающиеся задачи (1.1), (1.2). Пусть у - элемент кокасательного расслоения Т*М многообразия М. Условимся обозначать результат подстановки функций х (г), у (г), и (г) под знак некоторой функции Р(х, у, и) через Р (г). Рассмотрим функцию Понтрягина

Ж(г, х, у, и) = - /(г, х, и) + уф(г, х, и)

Обозначим ее максимум по и через Н(г, х, у). Предполагаем, что задача нормальна и поэтому коэффициент при / можно взять равным -1. Всюду в дальнейшем будем также считать, что значение и, реализующее максимум Ж, определено однозначно и функция Н(г, х, у) гладкая.

Пусть х (г), и (г), г е [?1, г2 ] реализует сильный локальный минимум. Тогда в силу принципа максимума Понтрягина существует непрерывный подъем у (г) оптималь-

ной траектории X (t) в кокасательное расслоение, удовлетворяющий следующим условиям.

1°. Функция cK.(t, X (t), у (t), u) достигает своего максимума по u при u = u (t):

H(t, X(t), у(t)) = H(t) = maхЖ(t, X(t), у(t), u) (2.1)

u e U

2°. Пара функций X (■), у (■) является решением гамильтоновой системы

X = Hу(t, x, у), у = — Hx(t, x, у) (2.2)

3°. Удовлетворяются условия трансверсальности: пара (- H (tk), у (tk)) является аннулятором касательной плоскости к подмногообразию Mk в точке tk, X (tk), т.е.

- H (tk )0 + у (h = 0 для любых (9, S) e Г * Mk (tk, x 0k)) (2.3)

Здесь k = 1 для левого конца, k = 2 для правого конца.

Предположение 1. Функция у(-), которая удовлетворяет условиям (2.1)-(2.3), определена однозначно.

Пары x(), u(), удовлетворяющие условиям (2.1)-(2.3), называются экстремалями.

Определим подъем <Ш1 многообразия M1 в расширенное фазовое пространство переменных t, x, у: для каждой точки (t, x) e M1 рассмотрим все у, которые удовлетворяют условию (2.3) в этой точке. Легко видеть, что dim<Ш1 = п. Подъем многообразия M2 обозначим через Ш2.

Предположение 2. Будем считать, что вектор скорости гамильтоновой системы (2.2), дополненной уравнением t = 1:

Zk = (1, Hv(?k), -Hx(tk)) (2.4)

не касается многообразия Wik, (k = 1, 2).

Предположение 2 сохраняется для некоторой окрестности cUk с Wik точки (tk,

x (tk), у (h)).

Обозначим n-мерный вектор координат, параметризующий cUk, через ok.

Рассмотрим решения гамильтоновой системы (2.2) с начальными условиями в точках g1 = (t1, x(t1), у(^)) e (U1. Предположения 1 и 2 гарантируют, что в результате получится (п + 1)-мерное гладкое многообразие которое, в силу теоремы об интегральном инварианте Пуанкаре-Картана и в силу условий трансверсальности на левом конце (2.3), является лагранжевым, т.е.

°(- Hdt + уdx) = 0 (2.5)

Y

для любой замкнутой кривой у с Уменьшив при необходимости окрестность потребуем, чтобы многообразие ^ при t e (t1, t2], где t1, t2 зависят от соответствующей траектории (x(t), у(t)) с диффеоморфно проектировалось на некоторую область N1 пространства (t, x). Если это возможно, то говорим, что в N1 определено поле экстремалей отвечающее многообразию M1, и что на данной экстремали нет фокальных точек многообразия M1. В этом случае проекции экстремалей, лежащих в ^1, однозначно покрывают область N1. В силу взаимной однозначности проекции, в N1 определена функция у^, x) и тогда -Hdt + уdx становится дифференциальной формой на N1, причем равенство (2.5) означает, что эта форма точная. Следовательно, существует функция S^t, x), такая, что

dS1 = - Hdt + уdx (2.6)

Отсюда следует выполнение уравнения Гамильтона-Якоби в форме Беллмана для 51, и функция 51 является функцией Беллмана в задаче минимизации функционала J с начальным многообразием М1 и с правым концом в точке (г, х).

Точно такую же конструкцию, но только с движением по времени вспять, реализуем для многообразия М2 и получим другое решение 52(г, х) уравнения Гамильтона-Якоби, отвечающее многообразию концов М2.

Предположение 3. Для экстремали х(-), и(-) на полуинтервале (?1, г2 ] нет фокальных точек многообразия М1. На полуинтервале [ ?1, г2) нет фокальных точек многообразия М2.

Если бы, скажем, многообразие М2 сводилось к точке, то отсутствие фокальных точек многообразия М1 наряду с принципом максимума Понтрягина давало бы достаточные условия сильного минимума, так как экстремаль х ( ) была бы погружена в поле, а условие максимума функции Понтрягина гарантировало неотрицательность функции Вейерштрасса. Однако, если оба многообразия, как М1 так и М2 - нетривиальны, предположение 3 необходимо, но далеко не достаточно для оптимальности.

Данная статья посвящена нахождению важной формулы для вычисления гессиана (матрицы второго дифференциала) функций 5к(г, х). Эта формула - не просто новая интерпретация известных конструкций, а удобный математический аппарат. В частности, она позволила найти приведенные ниже необходимые и достаточные условия оптимальности для задачи (1.1), (1.2) столь же простые и эффективные, как критерий отсутствия фокальной точки для задачи с одним закрепленным концом.

3. Основные теоремы. Рассмотрим систему уравнений в вариациях для уравнений (2.2)

< = Нух(г, х у)? + Нуу(г, х у)Р

Р = -Нхх( г, х, у) 1 - Нху( г, х, у) Р

Через < и р обозначены производные по начальным данным соответственно для функций х и у, являющихся решениями системы (2.2). В дальнейшем под < и р нам будет удобно понимать (я х я)-матрицы из производных по значениям а^ Коэффициенты системы (3.1) это тоже (я х я)-матрицы.

Основным инструментом исследования будет служить матричное уравнение Рик-кати [1] для переноса лагранжевых плоскостей по решениям системы (3.1). Обозначим через Ж = р<-1 матричные координаты лагранжевых плоскостей. Прямым дифференцированием легко получить матричное уравнение Риккати для Ж

-Ж = Нхх + Нх у Ж + ЖНух + ЖНууЖ (3.2)

Так как матрица коэффициентов системы (3.1) принадлежит алгебре Ли симплек-тической группы Ли, матрица Ж(г) будет симметрической, если ее начальное значение Ж(г1) - симметрическая матрица. Начальное значение Ж(г{) определяется из условия трансверсальности (2.3), которое задает лагранжеву плоскость и, следовательно, является симметрической матрицей.

При вырождении матрицы < решение Ж(г) уравнения (3.2) уходит в бесконечность (фокальная точка), и при необходимости начать или продолжить решение уравнения (3.2) надо совершить матричное дробно-линейное преобразование, чтобы перейти в другую карту на многообразии Лагранжа-Грассмана.

Теорема 1. Предположим, что на экстремали х ( ), у ( ) выполнены предположения 1, 2 и 3. Пусть решениер(г), <(г) уравнений (3.1) описывает эволюцию производных по начальным данным на многообразии ^ вдоль экстремали х (), у ().

Тогда соответствующее решение ^(г) уравнения Риккати (3.2) задает гессиан функции Беллмана Б1(г, х) поля ^

д2 б

^(г) = —-1 (г, х(г)) (3.3)

д х

Доказательство. Из формулы (2.6) следует, что вектор у в любой точке (г, х), покрытой полем экстремалей, задает градиент функции Беллмана

дБ, (г, х)

V1(г, X) = дх 7 (3.4)

Матрица р есть, по определению, матрица производных от у по начальным значениям а q - матрица производных от х по начальным значениям Следовательно, матрица q~1 - это производные от по х, т.е.

-

-1 ду(г, х)до, д г, х)

pq = —----т- =-2— (3.5)

д°1 дх дх2

Аналогично для поля имеем -1 д2Б2 (г, х)

pq =---— (3.6)

дх

дБ2 (г, х)

Знак минус появляется из-за того, что у2(г, х) =--д--, так как для отождествления Б2 с J приходится иметь дело с нижним пределом интегрирования.

Рассмотрим поле экстремалей ^ для левого многообразия М1 и поле экстремалей для правого многообразия М2. Поскольку оба поля включают экстремаль х (), имеем

V (г) = УЫг), г е [?ь ?2] (3.7)

Следовательно,

д Б1( г, х (г)) д Б2( г, х (г))

дх дх

(3.8)

т.е. касательные плоскости к поверхностям уровня функций и Б2 в точках траектории х () совпадают и противоположно ориентированы.

В следующих ниже теоремах покажем, что необходимым условием оптимальности является неотрицательность, а достаточным - положительная определенность квадратичной формы с матрицей (Ш1 - Ш2).

Теорема 2. Пусть выполнены предположения 1, 2 и 3 для траектории х ( ), удовлетворяющей принципу максимума Понтрягина (2.1)-(2.3).

Тогда необходимым условием для того, чтобы траектория х ( ) доставляла слабый минимум функционалу (1.1), является неотрицательность квадратичной формы с матрицей (Ш1(т) - Ш2(т)) при любом т е (?0, ).

Доказательство. Для траектории х ( ), дающей слабый минимум, предположим противное, т.е. что найдется момент т и вектор такие, что

((т)^) - (^(т)^)< 0 (3.9)

Рассмотрим траекторию х^)

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком