научная статья по теме ЛОКАЛЬНЫЕ РЕШЕНИЯ УРАВНЕНИЯ ГАМИЛЬТОНА - ЯКОБИ - БЕЛЛМАНА ДЛЯ НЕКОТОРЫХ СТОХАСТИЧЕСКИХ ЗАДАЧ Автоматика. Вычислительная техника

Текст научной статьи на тему «ЛОКАЛЬНЫЕ РЕШЕНИЯ УРАВНЕНИЯ ГАМИЛЬТОНА - ЯКОБИ - БЕЛЛМАНА ДЛЯ НЕКОТОРЫХ СТОХАСТИЧЕСКИХ ЗАДАЧ»

Автоматика и телемеханика, Л- 6, 2007

Стохастические системы

PACS 02.30.Yy. 45.30.^s. 02.50.Fz

© 2007 г. A.C. ВРАТУСЬ, д-р физ.-мат. наук, А.П. ИВАНОВА, канд. физ.-мат. наук (Московский государственный университет путей сообщения), Ж.Л. МЕНАЛЬДИ, д-р философии

(Wayne State University, Detroit), Д.В. ЮРЧЕНКО, д-р физ.-мат. наук (Московский государственный университет путей сообщения)

ЛОКАЛЬНЫЕ РЕШЕНИЯ УРАВНЕНИЯ ГАМИ Л ЬТ ОН А-ЯКОБ И-Б Е Л Л М АН А ДЛЯ НЕКОТОРЫХ СТОХАСТИЧЕСКИХ ЗАДАЧ

Рассматривается задача управления движением линейного осциллятора, подверженного внешним гауссовским и пуассоповским случайным воздействиям, с целыо минимизации средней энергии с помощью внешней ограниченной управляющей силы. Для решения поставленной задачи предлагается метод гибридного решения. Этот метод осповап па отыскании в части фазового пространства точного аналитического решения соответствующего уравнения Гамильтона Якоби Веллмапа и численного решения этого уравнения в остальной (ограниченной) части пространства. Доказано, что найденные аналитические решения представляют асимптотику решений уравнения Гамильтона Якоби Веллмапа. С помощью метода декомпозиции полученные результаты применяются к задаче о гашении с помощью актуатора колебаний упругого стержня (пластины), находящегося под действием гауссовских случайных воздействий. Приведены результаты численного моделирования.

1. Введение

Метод динамического программирования [1] является одним из основных для решения задач стохастического оптимального управления [2 5]. В основе метода лежит идея сведения исходной задачи к решению задачи Коши для нелинейного уравнения квази-параболического типа (уравнения Гамильтона Якоби Беллмана) во всем фазовом пространстве, которое описывает эволюцию функционала задачи. Отыскание решения этого уравнения представляет достаточно трудную математическую проблему. Именно поэтому в настоящее время имеется лишь небольшое число задач, в которых решение было получено в аналитической форме.

Отметим, что только задачи стохастического управления с линейно-квадратичным критерием качества допускают точные решения [5]. Однако в ряде случаев рецепт оптимального управления, полученный в этих задачах, невозможно применить в силу того, что управляющая функция допускает бесконечно большие значения [6].

4* 99

В связи с этим представляется целесообразным изучать задачи с ограниченным управляющим воздействием.

В последние годы для отыскания приближенных решений уравнения Гамильтона Якоби Беллмана (ГЯБ) широко применяется метод вязких решений [7 9]. Полную информацию о последних достижениях в этом направлении можно найти в монографии [10]. Приближенные решения уравнения ГЯБ. основанные на методе возмущений, изучались в [3. 11 13]. В [14 17] развиты методы, позволяющие в конкретных задачах отыскивать решения уравнения ГЯБ численно. Задачи стохастического оптимального управления для систем с неполным наблюдением изложены в монографии [18]. В [19. 20] изучалось применение метода динамического программирования к гибридным системам, т.е. системам с непрерывными и дискретными переменными. Применению метода характеристик для решения уравнений ГЯБ в ряде задач оптимального управления и теории игр посвящена монография [21].

Несмотря на перечисленные выше достижения, имеется ряд достаточно простых по постановке и естественных задач стохастической оптимизации, которые до сих пор остаются нерешенными. К таким задачам относится задача о минимизации полной энергии линейного осциллятора под действием широкополосных случайных сил (гауссовского и пуассоновского белых шумов) и ограниченной управляющей силы. В настоящей работе на примере этой задачи предложен метод решения задач стохастической оптимизации. Метод состоит из двух этапов. На первом этапе с помощью метода характеристик находится точное аналитическое решение соответствующего уравнения ГЯБ в некоторой неограниченной области фазовых переменных. Далее такое решение будем называть локальным решением уравнения ГЯБ. а область, в которой это решение остается справедливым, внешней областью. Эта область характеризуется тем. что она не содержит линий переключения для любых значений фазовых переменных и времени. Доказывается, что локальное решение во внешней области представляет асимптотику решения уравнения ГЯБ. Для построения решения уравнения ГЯБ в области, дополнительной к внешней (внутренняя область), предлагается численный подход. На границе Г внешней и внутренней областей с помощью локального решения задается краевое условие, после чего задача решается численно методом сеток. Найденное таким образом решение уравнения ГЯБ аналитическое во внешней области и численное во внутренней будем называть гибридным решением, а предложенный метод гибридным. Гибридное решение непре-Г

Г

щается в сторону внешней области до тех пор. пока не происходит склейка соответствующих первых производных. В итоге, найденное таким образом решение представляет непрерывно дифференцируемое решение уравнения ГЯБ во всем фазовом пространстве, что позволяет найти полный синтез закона оптимального управления. Без обоснования аналогичный подход применялся ранее для решения ряда задач стохастической оптимизации с гауссовским белым шумом [22 25]. а также задач параметрического управления [26. 27]. Отметим, что полученные в [22. 24] результаты были подтверждены с помощью альтернативного численного метода в [16].

2. Постановка задачи

Рассмотрим систему второго порядка:

-.ч (x + 2ax + f32x = v + aW, t<s < T,

| x(t) = x0, x(t) = xо, а, в = const > 0,

где W = W(s) - винеровский процесс (здесь производную следует понимать формально), v = v(s) - измеримая функция, та которую наложен о ограничение |v(s)| < < R, R = const > 0.

Цель управления минимизация математического ожидания следующего функционала:

(2.2) = Е |а [Р2Х\(Т) + хЦТ)] + I 2 [в2хКв) + хКв)] .

Здесь и далее Е - знак математического ожидания процесса, х(э) = Х1(в) и Х(э) = = Х2(в). Функционал (2.2) является функционалом Больца для полной энергии системы. Отметим, что при Ь = 0 из (2.2) получим функционал Майера, а при а = 0 функционал Лагранжа.

Через и(х1,х2,1) обозначим нижнюю грань значений функционала (2.2) по всем допустимым управлениями, удовлетворяющим ограничению:

(2.3) п(х1,х2,г) = Ш ух1 ,Х2,г(у) : Н< К} .

Функция и является решением следующего уравнения ГЯБ [2-5]:

(2.4) ди + Ьи + М кди) + / = 0, от М<д I дх2 )

которое нужно решать с условием в конечный момент времени

(2.5) и(х1,х2,Т) = а {в2х\ + х2) ,

(2.6) /(х1,х2) = 2 (в2х21 + х2) . Ь

г2

^ ' ах2 2 дх2

Отметим, что

„ч . Г ди ) „ ди 2.8 V— = -К

М<д I дх2 I

du , „о ч du а д2 u

(2.7) Lu = х2 — - (2ах2 + ^ + Y дХ2 '

дх2

Если удается найти гладкое дифференцируемое решение задачи (2.4), (2.5), то синтез оптимального управления реализуется по формуле, непосредственно следующей из (2.8),

д'И

(2.9) v = -R sign

дх2

3. Построение локальных аналитических решений

Рассмотрим сначала случай системы без трения (а = 0) с функционалом Майера (Ь = 0). Через В+ обозначим область фазового пространства, в которой знак производной ди/дх2 в задаче (2.4), (2.5) остается постоянным. С учетом равенств (2.8), (2.9) это означает, что область Б+ не содержит линий (поверхностей) переключения,

на которых ди(х1, х2,Ь)/дх2 = 0 и при переходе через которые знак производной меняется на противоположный. Введем функцию

ди

г(хьх2,г) = эщп -—, дх2

тогда в области В+ задача (2.4), (2.5) примет вид ди ди

(з-1) ^ = Ьи - ^'

(3.2) u{xux2, 0) = - (в2x1 + xf)

где т = Т — Ь - обратное время.

Рассмотрим соответствующую задачу Коши без учета вторых производных по переменной х2 в операторе Ь.

. . du ди 2 ди ^ди - , 2 2 2\

(3.3) — = x^---в xi---Rz-—, u(xi,x2, 0) = - в x [ + x2) .

дт dx1 dx2 dx2 2

Задача Коши (3.3) может быть решена с помощью классического метода характеристик

/„ Лхл (1х2 „2 „

(3.4) —- = — х2, -г2 = в2хл + Rz. ат ат

Уравнения характеристик имеют вид

£1 = 2 (в2х2 + х2) + Rzx 1;

(3-5) \ е ,1 . в(х1 + Rz/@2) 1 £2 = т +— агевт —, .

£2 в у/2ёТ+д^

Следовательно, решение задачи Коши (3.3) имеет вид

(3.6) u(xi,x2,T) = 2

' Rz ■ fí'

x2---Г sin вт

в

2

+

Rz

вx1--— (1 — cos вт)

в

Если в области D+ к функции и добавить функцию та2 ¡2, то легко убедиться, что функция им гДе "M" обозначает задачу Майера,

та2

(3.7) им(xi, x2, т) = u(xl,x2,т) +~2~

является решением исходной задачи Коши (2.4), (2.5). Остается найти границы области D+, в которой решение (3.7) будет справедливо. Для этого вычислим

дим Rz дим

—— = x2--— sin вт, z = sign ——.

dx2 в dx2

Условие зпакопостояпства дим ¡dx2 заключается в выполнении неравенства R

(3.8) |x2|> r \ sin вт\.

в

2

Это условие и определяет область Б+, в которой решение (3.7) удовлетворяет задаче (3.1). (3.2). Решение (3.1) будем называть локальным решением уравнения ГЯБ в области Б+, а область Б+ - внешней областью. Отметим, что в качестве внешней области можно выбрать любую область, для которой неравенство (3.8) будет заведомо выполнено, например

я

(3.9) \х2\ > -.

Р

Далее будем полагать, что область Б+ определена неравенством (3.9).

Дополнительную к области Б+ область, в которой выполняется условие \х2\ < < Я/в, будем называть внутренней областью и обозначим ее через Важно отметить, что область ограничена то отношению к пвременной Х2, относительно которой уравнение (3.1) содержит вторую производную.

Решение для задачи Лагранжа (а = 0,6 = 1,а = 0) было получено в [24], где показано, что если система автономна, то

т

(3.10) uL(xi,x2,r) = j uM(xi,x2,s)ds.

0

Отмстим, что внешняя область в этом случае определена в виде R в2

(3.11) т\x2\ >-2 |1 - cos /Зт\, 0 <т < T.

Отсюда следует, что при очень большом T закон "сухого" трения v = —R sign (x2) является оптимальным для минимизации средней энергии системы во всем фазовом пространстве за исключением x2 = 0. Отметим, что в [28] проводилось сравнение законов управления для задачи с ограниченным управлением и линейно-квадратичной задачи с неограниченным управлением.

Аналогичный подход позволяет найти локальное решение уравнения ГЯБ в задаче

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком