научная статья по теме ЧИСЛЕННЫЕ МЕТОДЫ СИНТЕЗА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ДЛЯ СТОХАСТИЧЕСКИХ ДИНАМИЧЕСКИХ СИСТЕМ ДИФФУЗИОННОГО ТИПА Кибернетика

Текст научной статьи на тему «ЧИСЛЕННЫЕ МЕТОДЫ СИНТЕЗА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ДЛЯ СТОХАСТИЧЕСКИХ ДИНАМИЧЕСКИХ СИСТЕМ ДИФФУЗИОННОГО ТИПА»

ИЗВЕСТИЯ РАИ. ТЕОРИЯ И СИСТЕМЫ УПРАВЛЕНИЯ, 2007, № 3, с. 27-38

= ОБРАБОТКА ИНФОРМАЦИИ И ИДЕНИТИФМКАЦИЯ =

УДК 62-50

ЧИСЛЕННЫЕ МЕТОДЫ СИНТЕЗА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ДЛЯ СТОХАСТИЧЕСКИХ ДИНАМИЧЕСКИХ СИСТЕМ ДИФФУЗИОННОГО ТИПА*

© 2007 г. Д. С. Румянцев, М. М. Хрусталёв

Москва, МАИ (технический ун-т) Поступила в редакцию 19.07.06 г., после доработки 16.11.06 г.

Предложено несколько схем численных методов синтеза оптимальных траекторий в задаче управления стохастической динамической системой диффузионного типа. Рассматриваются системы как с полной информацией о состоянии, так и при наличии информационных ограничений, выражающихся в том, что каждая компонента стратегии управления может зависеть лишь от заранее оговоренного набора точно измеряемых компонент вектора состояния. Показано, что в задаче с полной информацией о состоянии один из методов сходится за одну итерацию. Для линейных и квазилинейных систем с квадратичным критерием качества предложенные методы доведены до регулярных вычислительных процедур.

Введение. Задача оптимального управления для стохастических диффузионных процессов общего вида с полной информацией о состоянии достаточно хорошо изучена. Для случая неполной информации проведено меньше исследований. Необходимые условия оптимальности получены в [1, 2]. Известны достаточные условия оптимальности для общей нелинейной задачи оптимального управления системой, описываемой стохастическим дифференциальным уравнением Ито, при наличии информационных ограничений [3, 4].

В работах [5-7] эти условия конкретизированы для линейных и квазилинейных систем с квадратичным критерием качества. Показано, что задача синтеза оптимальной стратегии сводится к краевой задаче для системы матричных дифференциальных уравнений типа Риккати. Некоторые квазилинейные задачи изучались в [8, 9], но численные методы для таких задач авторам неизвестны.

Здесь предложено несколько схем численных методов поиска стратегий оптимального управления диффузионным стохастическим процессом при наличии информационных ограничений. В основе алгоритмов лежит разработанный в [5] метод Лагранжа. В задаче с полной информацией один из методов приводит к точному решению всего за одну итерацию. Для одного из алгоритмов, в общем случае информационных ограничений, доказывается теорема об улучшении критерия.

В ситуации, когда уравнения управляемой системы линейны или квазилинейны, а критерий качества квадратичен, неформальные элементы методов поиска приобретают форму регулярных

* Работа выполнена при финансовой поддержке РФФИ (грант < 06-08-00398).

вычислительных процедур и предложенные численные методы могут быть реализованы в виде компьютерных программ. Приводятся результаты численного решения модельных примеров с помощью программной системы, созданной авторами.

1. Описание динамической системы. Введем обозначения: Rr - г-мерное евклидово пространство векторов у = (у1, ..., уг); Т = [?0, X1] с R1 - замкнутый

интервал; Яг0, Т0 - множества нулевой меры Бореля из Rr и Т соответственно; Вг - множество вектор-функций V: Кп —Rr, каждая компонента которых измерима по Борелю; Б = Б (у) = дБ (у)/дуа -

частная производная функции у —► S(y): Rr —- R1 по компоненте уа вектора у е Rr, а Sy = Sy(y) - соответствующий вектор частных производных функции S(y). Процесс управления описывается системой уравнений Ито[10]

аХг(X) = /г(X, х(X), и(X, х(X)))ах + + gгl(X, х(X), и(X, х(X)))X),

где X е Т - время; х = (х1, ..., хп)Т - состояние процесса, i = 1, п; Wl - нормированный винеровский

процесс, I = 1, V; и = (и1, ..., ит)Т е и - управление. Функции (X, х, и) —- /¡(X, х, и) : Т х Rn х Rm —► R1, (X, х, и) —► g¡l(X, х, и) : Т х Rn х Rm —► R1, (X, х) —► и(Х, х) : Т хКп —► и измеримы по Борелю. Здесь и далее, где в произведении стоят повторяющиеся индексы, по ним происходит суммирование.

Введем в рассмотрение функцию X —- и*^) = = и^, •) : Т —- V е Вп'т, где V - множество, задающее информационные ограничения, состоящие в

том, что каждая компонента стратегии управления и^, х) может зависеть от произвольно назначаемого набора компонент вектора состояния х, своего для каждой из компонент и(^ х). Эти ограничения отражают возможности получения информации о состоянии. Для формального задания информационных ограничений фиксируем набор операторов

проектирования Па: Rm —*- Я , а =1, п1, щ < п. Оператор проектирования Па: Кт —- Rr ставит в соответствие вектору у = (у1, ..., ут) вектор уг =

= (Уа^ Уаг ) е К.

Функцию (t, х) —- u(t, х) : Т х К" —- и назовем стратегией управления с информационными

ограничениями, если для каждого а = 1, п1 и любого фиксированного элемента х~а) е Т х К"-1, где х~а= (х1, ..., ха-1, ха+1, ..., хп) (х~а - нуль-мерный вектор при п = 1), функция иа(^ х) непрерывно дифференцируема по ха и

дХ-Н^г, X) = 0, < ха < (1.2)

Если все компоненты функции и(^ х) могут зависеть от любых компонент вектора х (случай п1 = 0), операторы проектирования не вводятся и стратегия управления заданной структуры совпадает с обычной стратегией управления с полной информацией о состоянии. Именно условие (1.2) конкретизирует включение и*(1) е V. Так что стратегии, удовлетворяющие ограничению и*(1) е V, суть борелевские стратегии с информационными ограничениями.

Распределение состояния х задается функцией Р(^ •), которая при фиксированном t - достаточно произвольная вероятностная мера. Пусть Мв -множество всех ограниченных мер произвольного знака на борелевской с-алгебре ¿в пространства К", а М+в с Мв - подмножество вероятностных мер, выделяемое из Мв условиями е Мв, ц(А) > 0 для всех А е £в и ц(К") = 1.

Введем пространство С дифференцируемых функций у(х) : К" —► К1 с нормой ||у(• )|| = = 8ирп{г(X)|у(X)} + 8ирп{г(X)|уX(X)|} . Здесь ^ -

х е Яп X е Яп

евклидова норма; х —► г(х) : К" —- К1 - непрерывная весовая функция, удовлетворяющая условию: 0 < г(х) < 1, х е К", М - подмножество мер е Мв, для которых конечна величина

11ц( • )|| = ЭИр

у(•) е С^, ||у(-)||< 1

|у( X )ц( dx)

(1.3)

обычным способом. Пополняя полученное линейное нормированное пространство М, получим банахово пространство с нормой (1.3), которое

будем обозначать М. Пусть М+ = М п Ы+в - подмножество вероятностных мер из М.

Используем функцию t —► Р*(^> = Р(^ •) : Т —► М* с М+ и будем описывать эволюцию вероятностной меры, задающей распределение состояния х системы (1.1), обыкновенным дифференциальным уравнением в банаховом пространстве М

с!Р *( г- = г,Р*(г), и*(г))

(1.4)

с начальным условием

Р*( го) = Р*, Р*= Ро (•) е М* с М . (1.5)

При фиксированных t е Т\Т0 и q е М*, V е V

элемент е М, представляющий собой значение

функции (^ q, V) —- Г^, q, V) : Т х М* х V —► М, определяется равенством

|п(X)ц(dx) = | [пx¡(X)/г(г, X, и(г, X))

(1.6)

задающая норму на М. Сложение и умножение на вещественное число элементов из М задаются

+ Ч^/X)аг](г, X, и(г, X))]д(dx),

которое должно выполняться для любых функ-

° 2 2 ° 2 ций х —► п(х) : К" —*- К1 из С с Сг. Здесь С -

пространство дважды непрерывно дифференцируемых функций на К", аннулирующиеся вне некоторого шара в К". При t е Т0, q е М* функция Г может быть задана произвольно.

Тождество (1.6) в каждой конкретной задаче или классе задач может выполняться для более

°2

широкого класса функций п(х), чем класс С . При фиксированных t е Т и q е М* обозначим че-

* ° 2 рез W(t, q) з С расширенный класс функций

Ч(х), для которого при любом значении управления и(^ •) е V справедливо тождество (1.6). В част*

ном случае класс W(^ q) может не зависеть от ^ q и быть постоянным. В простых регулярных случаях уравнение (1.4) эквивалентно классическому уравнению Фоккера-Планка-Колмогорова (ФПК) [4].

Уравнение (1.4) и начальное условие (1.5) дают достаточно полное описание изучаемой динамической системы, которое является детерминированным, но в функциональном пространстве. При заданной функции и*(0 решением задачи Коши (1.4), (1.5), следуя [11], будем называть абсолютно непрерывную функцию Р*(0, удовлетворяющую граничному условию (1.5) и почти всюду на интервале Т - уравнению (1.4). Для начального состоя-

а

п

Я

Я

ния Р*^) = Р* через D обозначим множество допустимых процессов управления г = (Р*(0, и*()), определяемых требованиями:

1) управление X —► u*(X) = и(г, •) : Т —- V с Вп т является управлением с информационными ограничениями;

2) при фиксированном управлении и*(-) функция X —► Р*^) : Т —► М* с М+ (траектория) есть решение уравнения (1.4) с граничным условием (1.5). Здесь М* - подмножество всех абсолютно непрерывных относительно меры Лебега на Кп вероятностных мер из М+;

3) для процесса г определен критерий качества управления

J(z) = JJ f (t, x, u(t, x))P(t, dx)dt-

(1.7)

+

JF(x)P(tj, dx) :

D

R,

M*

x Rm x M*

- R1, а = 1, п1, где М* с М - некоторая окрестность множества М* в М, быть может, все М (тогда М* = М). Функции ф из Ф должны удовлетворять требованиям 4-8:

4) функция q) локально липшициева на Т х М* и дифференцируема (по Фреше) по совокупности аргументов (X, q) всюду на (Т\Т0) х М*;

5) частная производная ф°д функции ф0 при всех X е Т\Т0 и q е М* представима в виде

Ф0Ч = X, х, д(•))д(ах),

(2.1)

7) для каждого е V функция (х а, ха) —► —► п(ха, ха) = фа(X, х, Уа(х), q) : Rn-1 х R1 —► R1 суммируема на Кп-1 х R1 и удовлетворяет условию |л(х~а, ха) - л(х~а, ха + А)|А-1 < Q(x) при всех А е [0, А0], где Q(x) : Кп —► R1 - суммируемая функция, число А0 е (0, ^ достаточно мало, а ^(х) = П^(х);

8) для любого е V функция ха —► У(ха) : R1 —► R1, определяемая равенством

Y(xa) =

J П(x a, xa)dx a,

n > 2,

где (X, х, и) —► х, и) : Т х Кп х Кт —► R1, х —- ^с(х) : Кп —«- R1 - заданные функции.

Цель управления состоит в минимизации критерия (1.7) на множестве D.

2. Условия оптимальности метода Лагранжа.

Введем класс Ф вектор-функций Ляпунова-Лаг-

ранжа ф = (ф0, ф1, ., фп1), (X, q) —- ф0^, q) : Т х х

п(x a, xa), n = J, абсолютно непрерывна и lim y(t) = 0. Построим следующие конструкции

K(t, x, u, q) = fi(t, x, u)dx£(t, x, q) +

d 2

+ at](t, x, u^x dx £(t, x, q) + f(t, x, u, q),

H(t, x, u, q) = K( t, x, u, q)d^x) +

, d k,^ k ч + ф (t, x, u ,

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком