ИЗВЕСТИЯ РАИ. ТЕОРИЯ И СИСТЕМЫ УПРАВЛЕНИЯ, 2007, № 3, с. 27-38
= ОБРАБОТКА ИНФОРМАЦИИ И ИДЕНИТИФМКАЦИЯ =
УДК 62-50
ЧИСЛЕННЫЕ МЕТОДЫ СИНТЕЗА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ДЛЯ СТОХАСТИЧЕСКИХ ДИНАМИЧЕСКИХ СИСТЕМ ДИФФУЗИОННОГО ТИПА*
© 2007 г. Д. С. Румянцев, М. М. Хрусталёв
Москва, МАИ (технический ун-т) Поступила в редакцию 19.07.06 г., после доработки 16.11.06 г.
Предложено несколько схем численных методов синтеза оптимальных траекторий в задаче управления стохастической динамической системой диффузионного типа. Рассматриваются системы как с полной информацией о состоянии, так и при наличии информационных ограничений, выражающихся в том, что каждая компонента стратегии управления может зависеть лишь от заранее оговоренного набора точно измеряемых компонент вектора состояния. Показано, что в задаче с полной информацией о состоянии один из методов сходится за одну итерацию. Для линейных и квазилинейных систем с квадратичным критерием качества предложенные методы доведены до регулярных вычислительных процедур.
Введение. Задача оптимального управления для стохастических диффузионных процессов общего вида с полной информацией о состоянии достаточно хорошо изучена. Для случая неполной информации проведено меньше исследований. Необходимые условия оптимальности получены в [1, 2]. Известны достаточные условия оптимальности для общей нелинейной задачи оптимального управления системой, описываемой стохастическим дифференциальным уравнением Ито, при наличии информационных ограничений [3, 4].
В работах [5-7] эти условия конкретизированы для линейных и квазилинейных систем с квадратичным критерием качества. Показано, что задача синтеза оптимальной стратегии сводится к краевой задаче для системы матричных дифференциальных уравнений типа Риккати. Некоторые квазилинейные задачи изучались в [8, 9], но численные методы для таких задач авторам неизвестны.
Здесь предложено несколько схем численных методов поиска стратегий оптимального управления диффузионным стохастическим процессом при наличии информационных ограничений. В основе алгоритмов лежит разработанный в [5] метод Лагранжа. В задаче с полной информацией один из методов приводит к точному решению всего за одну итерацию. Для одного из алгоритмов, в общем случае информационных ограничений, доказывается теорема об улучшении критерия.
В ситуации, когда уравнения управляемой системы линейны или квазилинейны, а критерий качества квадратичен, неформальные элементы методов поиска приобретают форму регулярных
* Работа выполнена при финансовой поддержке РФФИ (грант < 06-08-00398).
вычислительных процедур и предложенные численные методы могут быть реализованы в виде компьютерных программ. Приводятся результаты численного решения модельных примеров с помощью программной системы, созданной авторами.
1. Описание динамической системы. Введем обозначения: Rr - г-мерное евклидово пространство векторов у = (у1, ..., уг); Т = [?0, X1] с R1 - замкнутый
интервал; Яг0, Т0 - множества нулевой меры Бореля из Rr и Т соответственно; Вг - множество вектор-функций V: Кп —Rr, каждая компонента которых измерима по Борелю; Б = Б (у) = дБ (у)/дуа -
частная производная функции у —► S(y): Rr —- R1 по компоненте уа вектора у е Rr, а Sy = Sy(y) - соответствующий вектор частных производных функции S(y). Процесс управления описывается системой уравнений Ито[10]
аХг(X) = /г(X, х(X), и(X, х(X)))ах + + gгl(X, х(X), и(X, х(X)))X),
где X е Т - время; х = (х1, ..., хп)Т - состояние процесса, i = 1, п; Wl - нормированный винеровский
процесс, I = 1, V; и = (и1, ..., ит)Т е и - управление. Функции (X, х, и) —- /¡(X, х, и) : Т х Rn х Rm —► R1, (X, х, и) —► g¡l(X, х, и) : Т х Rn х Rm —► R1, (X, х) —► и(Х, х) : Т хКп —► и измеримы по Борелю. Здесь и далее, где в произведении стоят повторяющиеся индексы, по ним происходит суммирование.
Введем в рассмотрение функцию X —- и*^) = = и^, •) : Т —- V е Вп'т, где V - множество, задающее информационные ограничения, состоящие в
том, что каждая компонента стратегии управления и^, х) может зависеть от произвольно назначаемого набора компонент вектора состояния х, своего для каждой из компонент и(^ х). Эти ограничения отражают возможности получения информации о состоянии. Для формального задания информационных ограничений фиксируем набор операторов
проектирования Па: Rm —*- Я , а =1, п1, щ < п. Оператор проектирования Па: Кт —- Rr ставит в соответствие вектору у = (у1, ..., ут) вектор уг =
= (Уа^ Уаг ) е К.
Функцию (t, х) —- u(t, х) : Т х К" —- и назовем стратегией управления с информационными
ограничениями, если для каждого а = 1, п1 и любого фиксированного элемента х~а) е Т х К"-1, где х~а= (х1, ..., ха-1, ха+1, ..., хп) (х~а - нуль-мерный вектор при п = 1), функция иа(^ х) непрерывно дифференцируема по ха и
дХ-Н^г, X) = 0, < ха < (1.2)
Если все компоненты функции и(^ х) могут зависеть от любых компонент вектора х (случай п1 = 0), операторы проектирования не вводятся и стратегия управления заданной структуры совпадает с обычной стратегией управления с полной информацией о состоянии. Именно условие (1.2) конкретизирует включение и*(1) е V. Так что стратегии, удовлетворяющие ограничению и*(1) е V, суть борелевские стратегии с информационными ограничениями.
Распределение состояния х задается функцией Р(^ •), которая при фиксированном t - достаточно произвольная вероятностная мера. Пусть Мв -множество всех ограниченных мер произвольного знака на борелевской с-алгебре ¿в пространства К", а М+в с Мв - подмножество вероятностных мер, выделяемое из Мв условиями е Мв, ц(А) > 0 для всех А е £в и ц(К") = 1.
Введем пространство С дифференцируемых функций у(х) : К" —► К1 с нормой ||у(• )|| = = 8ирп{г(X)|у(X)} + 8ирп{г(X)|уX(X)|} . Здесь ^ -
х е Яп X е Яп
евклидова норма; х —► г(х) : К" —- К1 - непрерывная весовая функция, удовлетворяющая условию: 0 < г(х) < 1, х е К", М - подмножество мер е Мв, для которых конечна величина
11ц( • )|| = ЭИр
у(•) е С^, ||у(-)||< 1
|у( X )ц( dx)
(1.3)
обычным способом. Пополняя полученное линейное нормированное пространство М, получим банахово пространство с нормой (1.3), которое
будем обозначать М. Пусть М+ = М п Ы+в - подмножество вероятностных мер из М.
Используем функцию t —► Р*(^> = Р(^ •) : Т —► М* с М+ и будем описывать эволюцию вероятностной меры, задающей распределение состояния х системы (1.1), обыкновенным дифференциальным уравнением в банаховом пространстве М
с!Р *( г- = г,Р*(г), и*(г))
(1.4)
с начальным условием
Р*( го) = Р*, Р*= Ро (•) е М* с М . (1.5)
При фиксированных t е Т\Т0 и q е М*, V е V
элемент е М, представляющий собой значение
функции (^ q, V) —- Г^, q, V) : Т х М* х V —► М, определяется равенством
|п(X)ц(dx) = | [пx¡(X)/г(г, X, и(г, X))
(1.6)
задающая норму на М. Сложение и умножение на вещественное число элементов из М задаются
+ Ч^/X)аг](г, X, и(г, X))]д(dx),
которое должно выполняться для любых функ-
° 2 2 ° 2 ций х —► п(х) : К" —*- К1 из С с Сг. Здесь С -
пространство дважды непрерывно дифференцируемых функций на К", аннулирующиеся вне некоторого шара в К". При t е Т0, q е М* функция Г может быть задана произвольно.
Тождество (1.6) в каждой конкретной задаче или классе задач может выполняться для более
°2
широкого класса функций п(х), чем класс С . При фиксированных t е Т и q е М* обозначим че-
* ° 2 рез W(t, q) з С расширенный класс функций
Ч(х), для которого при любом значении управления и(^ •) е V справедливо тождество (1.6). В част*
ном случае класс W(^ q) может не зависеть от ^ q и быть постоянным. В простых регулярных случаях уравнение (1.4) эквивалентно классическому уравнению Фоккера-Планка-Колмогорова (ФПК) [4].
Уравнение (1.4) и начальное условие (1.5) дают достаточно полное описание изучаемой динамической системы, которое является детерминированным, но в функциональном пространстве. При заданной функции и*(0 решением задачи Коши (1.4), (1.5), следуя [11], будем называть абсолютно непрерывную функцию Р*(0, удовлетворяющую граничному условию (1.5) и почти всюду на интервале Т - уравнению (1.4). Для начального состоя-
а
п
Я
Я
ния Р*^) = Р* через D обозначим множество допустимых процессов управления г = (Р*(0, и*()), определяемых требованиями:
1) управление X —► u*(X) = и(г, •) : Т —- V с Вп т является управлением с информационными ограничениями;
2) при фиксированном управлении и*(-) функция X —► Р*^) : Т —► М* с М+ (траектория) есть решение уравнения (1.4) с граничным условием (1.5). Здесь М* - подмножество всех абсолютно непрерывных относительно меры Лебега на Кп вероятностных мер из М+;
3) для процесса г определен критерий качества управления
J(z) = JJ f (t, x, u(t, x))P(t, dx)dt-
(1.7)
+
JF(x)P(tj, dx) :
D
R,
M*
x Rm x M*
- R1, а = 1, п1, где М* с М - некоторая окрестность множества М* в М, быть может, все М (тогда М* = М). Функции ф из Ф должны удовлетворять требованиям 4-8:
4) функция q) локально липшициева на Т х М* и дифференцируема (по Фреше) по совокупности аргументов (X, q) всюду на (Т\Т0) х М*;
5) частная производная ф°д функции ф0 при всех X е Т\Т0 и q е М* представима в виде
Ф0Ч = X, х, д(•))д(ах),
(2.1)
7) для каждого е V функция (х а, ха) —► —► п(ха, ха) = фа(X, х, Уа(х), q) : Rn-1 х R1 —► R1 суммируема на Кп-1 х R1 и удовлетворяет условию |л(х~а, ха) - л(х~а, ха + А)|А-1 < Q(x) при всех А е [0, А0], где Q(x) : Кп —► R1 - суммируемая функция, число А0 е (0, ^ достаточно мало, а ^(х) = П^(х);
8) для любого е V функция ха —► У(ха) : R1 —► R1, определяемая равенством
Y(xa) =
J П(x a, xa)dx a,
n > 2,
где (X, х, и) —► х, и) : Т х Кп х Кт —► R1, х —- ^с(х) : Кп —«- R1 - заданные функции.
Цель управления состоит в минимизации критерия (1.7) на множестве D.
2. Условия оптимальности метода Лагранжа.
Введем класс Ф вектор-функций Ляпунова-Лаг-
ранжа ф = (ф0, ф1, ., фп1), (X, q) —- ф0^, q) : Т х х
п(x a, xa), n = J, абсолютно непрерывна и lim y(t) = 0. Построим следующие конструкции
K(t, x, u, q) = fi(t, x, u)dx£(t, x, q) +
d 2
+ at](t, x, u^x dx £(t, x, q) + f(t, x, u, q),
H(t, x, u, q) = K( t, x, u, q)d^x) +
, d k,^ k ч + ф (t, x, u ,
Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.