научная статья по теме АЛГОРИТМ ПОИСКА СУБОПТИМАЛЬНЫХ СТРАТЕГИЙ УПРАВЛЕНИЯ КВАЗИЛИНЕЙНЫМИ ДИНАМИЧЕСКИМИ СТОХАСТИЧЕСКИМИ СИСТЕМАМИ ДИФФУЗИОННОГО ТИПА Кибернетика

Текст научной статьи на тему «АЛГОРИТМ ПОИСКА СУБОПТИМАЛЬНЫХ СТРАТЕГИЙ УПРАВЛЕНИЯ КВАЗИЛИНЕЙНЫМИ ДИНАМИЧЕСКИМИ СТОХАСТИЧЕСКИМИ СИСТЕМАМИ ДИФФУЗИОННОГО ТИПА»

ИЗВЕСТИЯ РАН. ТЕОРИЯ И СИСТЕМЫ УПРАВЛЕНИЯ, 2014, № 1, с. 74-86

УПРАВЛЕНИЕ В СТОХАСТИЧЕСКИХ СИСТЕМАХ И В УСЛОВИЯХ НЕОПРЕДЕЛЕННОСТИ

УДК 517.977

АЛГОРИТМ ПОИСКА СУБОПТИМАЛЬНЫХ СТРАТЕГИЙ УПРАВЛЕНИЯ КВАЗИЛИНЕЙНЫМИ ДИНАМИЧЕСКИМИ СТОХАСТИЧЕСКИМИ СИСТЕМАМИ ДИФФУЗИОННОГО ТИПА* © 2014 г. Д. С. Румянцев, М. М. Хрусталёв, К. А. Царьков

Москва, Институт машиноведения РАН, МАИ (национальный исследовательский ун-т) Поступила в редакцию 25.06.13 г., после доработки 18.09.13 г.

Рассматривается задача оптимизации динамических стохастических систем диффузионного типа с информационными ограничениями, описываемых квазилинейными уравнениями Ито. Ограничения выражаются в том, что каждая компонента вектора стратегии управления зависит от заранее заданного набора точно измеряемых компонент вектора состояния. Создан алгоритм поиска близкой к оптимальной стратегии в виде линейного регулятора с полиномиальными по времени коэффициентами. Алгоритм успешно применен к задаче оптимального управления двухзвенным механическим манипулятором. Такой манипулятор может эффективно использоваться на космических станциях, например, для перемещения грузов в безвоздушном пространстве.

Б01: 10.7868/80002338814010119

Введение. В предыдущих работах [1, 2] авторы исследовали численные и приближенно-аналитические алгоритмы решения задачи оптимального управления квазилинейными стохастическими системами диффузионного типа. Они обладают своими преимуществами и недостатками. Численные алгоритмы [1] дают возможность получить требуемый результат за сравнительно короткое время, однако при их использовании требуется хранить в памяти ЭВМ существенные объемы информации. В свою очередь приближенно-аналитические методы [2] нуждаются при расчетах в меньшем объеме памяти, но требуют больших временных затрат. Оба алгоритма не обладают достаточной надежностью. Несмотря на то, что улучшаемость этих алгоритмов доказана, они крайне чувствительны к ошибкам вычислений, и в некоторых случаях не удается добиться их устойчивой работы.

В данной статье излагается новый подход к решению указанной задачи. Управление предлагается искать в виде линейной по состоянию х функции с полиномиальными по времени коэф-

2 2

фициентами, например ы(г, х) = (ахг + Ьхг + с:)х + а2г + Ь2г + с2. Далее будем называть управление такого вида субоптимальным. В частном случае может быть найдено субоптимальное управление с постоянными по времени коэффициентами линейного регулятора, например ы(г, х) = с:х + с2. Следует отметить, что при численном или приближенно-аналитическом решении оптимальное управление также линейно по состоянию, но его коэффициенты явно зависят от времени достаточно произвольным образом.

На примере решаемой здесь прикладной задачи показано, что субоптимальное управление во многих случаях оказывается лишь незначительно хуже известного оптимального в смысле рассматриваемого критерия качества управления. Это позволяет говорить об указанном управлении, как о близком к оптимальному.

Для построения управления новой структуры применяются известный математический аппарат и новые результаты. В разд. 2 для удобства читателя приводятся результаты из [1, 3—5], используемые в данной работе. Новые результаты, связанные с синтезом субоптимального управления, представлены в разд. 3. С использованием этих результатов в разд. 4 построена близкая к оптимальной стратегия управления двухзвенным механическим манипулятором.

1. Постановка задачи. Процесс управления описывается системой уравнений Ито [6]

йх($) = ¡(г, х(г), ы(г, х(г)))dt + х(г), ы(г, х(г))^(г), х&) = х0, (1.1)

* Работа выполнена при финансовой поддержке РФФИ (грант № 13-08-01120).

т

где I е Т = [?0;tl\ — время; х = (хь ..., хп) — вектор состояния системы; w(0 — V-мерный стандартный винеровский процесс; и = (иь ..., ит)т е и с Лт — вектор управления. Функция /(?,х,и), где / = (/1, ..., /п)т, линейна по х, и и имеет вид

/ (?, х, и) = А{1 )х + ВЦ )и. (1.2)

В изучаемом здесь случае квазилинейной системы (1.1) столбцы gl(t,х,и), I = 1,у, матричной функции g(t, х, и) размера (п х V) также линейны по х, и и имеют вид

gl Ц, х, и) = С (1)(0х + ^(1 1($)и + С(1 )(t). (1.3)

Здесь А(г), ВЦ), О(1)(0, ^(1 )(t), С(1)(0 — матрицы размеров (п х п), (п х т), (п х п), (п х т), (п х 1) соответственно.

Введем в рассмотрение функцию управления t ^ «*(t) = иЦ,-) : Т ^ V с Вп'т, где V — множество, задающее информационные ограничения, которые состоят в том, что каждая компонента стратегии управления иЦ, х) зависит от своего априори назначаемого набора компонент вектора

состояния х, Вп,т — множество борелевских вектор-функций V : Яп ^ Л™. Указанные ограничения отражают возможности получения информации о состоянии. Для формального задания информационных ограничений сформируем набор вектор-функций иаЦ,х): Т х Яп ^ Ят , та т,

а = 1,п1, п1 п. Каждая вектор-функция иаЦ,х) состоит из компонент вектора управления иЦ,х), не зависящих от компоненты ха вектора состояния х. Если все компоненты функции иЦ, х) зависят от всех компонент вектора х, то указанные функции не вводятся и стратегия управления заданной структуры совпадает с обычной стратегией управления с полной обратной связью.

Пусть для рассматриваемого здесь процесса (1.1) плотность вероятности состояния р(?, х) е е х Яп) существует и удовлетворяет уравнению Фоккера—Планка—Колмогорова (ФПК) [6]

n n

^^ = -Z дтшx,u)p(t,x)]+х Z ттдт Jxu)Át>x)i a& = 1Z g« gfl' (L4)

U t , UX: UX:UX j 2

l = 1 ' l = 1 j = 1 ' J l = 1

с начальным условием

P(to, X) = Po(x). (l-5)

Через D обозначим множество допустимых процессов управления z = (p*(-), u*(-)), удовлетворяющих следующим условиям:

Al) управление u*(t) = u(t, ) : T ^ V суть управление с информационными ограничениями;

A2) при заданном управлении «*(•) функция p*(t) = p(t,-): T ^ Cp описывается плотностью вероятности p(t, x), являющейся решением уравнения (1.4) с начальным условием (1.5). Cp — множество дважды непрерывно дифференцируемых плотностей вероятности на пространстве R";

A3) начальная плотность p0(x) имеет математическое ожидание m0, ковариационную матрицу K0 и считается заданной;

A4) элементы матриц A(t), B(t), G Q)(t), F(\t), C Q)(t)

— ограниченные борелевские функции на

интервале T.

Для процесса z е D определим критерий качества управления

ti

J(z) = J J fc(t,x, u(t,x))p(t, x)dxdt + J Fc(x)p(tbx)dx : D ^ R, (1.6)

to Rn Rn

функции f (t, x, u) : T x R x

Rm ^ R1, Fc(x) : Rn ^ R1

которого имеют вид неотрицательных квадратичных форм

fc(t,x,u)=2xTD(t)x+„>)x+увш F(x)=i^, (1.7)

где D(t), S(t), E(t), Q — матрицы размеров (n x n), (m x n), (m x m), (n x n) соответственно, элементы D(t ), S (t), E (t ) — ограниченные борелевские функции на T. Здесь и далее матрицы квадратичных форм считаются симметрическими. Условия ограниченности и измеримости по Борелю, накладываемые на элементы матриц A(t ), B(t), G\t), F(I\t), C\t), D(t), S(t), E (t ), требуются для интегрируемости этих функций на T. Цель управления состоит в минимизации функционала (1.6) на множестве D.

2. Условия оптимальности. Для получения условий оптимальности будем использовать построения из [1, 3]. В целях строгости изложения уточним здесь формулировки некоторых из них.

Введем в рассмотрение класс Ф вектор-функций Ляпунова—Лагранжа [4, 5] ф = (ф°,ф\ф"1), которые будем искать в форме

q>°(t, q) = f у 0(t, x)—(x)dx, (2.1) J dx

r"

q>a(t, x, ua, q) = y a(t, x, ua ), a = 1, щ. (2.2)

Здесь yya — заданные функции, удовлетворяющие всем необходимым теоретико-функциональным требованиям [4], q — вероятностная мера, определенная в [4], dq/dx — производная Ра-дона—Никодима меры q по лебеговой мере. В рассматриваемом случае при фиксированном t e T выполняется равенство dq/dx = p(t, x). Следуя [1, 4], построим конструкции

n n n г. ^ __-л _ __л/

K(t, x, u, q) = y fi(t, x, и) — Щ x, q) + УУ a y (t, x, u) x, q) + fc(t, x, u, q),

, dx, , , dxidxi

i=1 ' i=1 j=1 ' J

4

H (t, x, u, q) = K (t, x, u, q)dq (x) + y ya(t, x, u a, q),

dx a=1 Ôxa (2.3)

B(t, v(), q) = d q>\t, q) + f È(t, x, v(x), q)dx, д t J

кп

О^) = | Гс(х^(х^х - Ц>\гь q).

к"

Здесь 2, — производная Фреше функции ф0 по q, определенная в [1].

Введем обозначения Т0, К" — множества нулевой меры Бореля из Ти Я" соответственно, д/дq — производная Фреше по мере q.

Определение 1. Процесс z = (Р*(),ы*()) е В, удовлетворяющий совместно с функциями Ф°, фа, а = 1, п1, вида (2.1), (2.2) условиям

д Bl(t, u*(t), q)

dq

= t e T\ T°,

q=p*(t) (2.4)

H(t, x, u(t, x), p*(t)) = minH(t, x, w, p*(t)), t e T\T°, x e R"\R°",

w eU

i G(q)

dq

= 0, (2.5)

q=p*{tl)

будем называть экстремалью.

Указанные условия могут быть эффективно использованы как эвристическое средство отыскания подозрительных на оптимальность процессов. Конкретизируем (2.3), введя в рассмотрение выражение

п п п ~

Н(г, х, ы) = У (г, х, ы)—у 0(г, х) + УУ ац (г, х, ы)—— у \г, х) + /с(г, х, ы), (2.6)

, дх, , , дхдх,

I = 1 ' I = 1 у = 1

для случая задания функции ф формулами (2.1), (2.2). Тогда условия (2.4), (2.5) могут быть записаны следующим образом:

—у V, х) + к(г,х, и(г,х)) = 0, г е Т\Т0, х е Я", (2.7)

дг

^0(?1, х) = ¥с(х), х е Я". (2.8)

Для стохастических систем общего вида (1.1) известна следующая теорема.

Теорема 1 [1]. Если процесс г = (р*(),и*(-)) е Б и функция у0(г,х) удовлетворяют условиям (2.7), (2.8), то справедливо равенство

J(z) = | У°(г0, х)р0(х)йх, (2.9)

Я"

где р0(х) = р(г0, х) — заданная начальная плотность распределения вектора состояния х.

При переходе к процессу г = (р(-), и(-)) е Б значение /(г) может быть найдено с применением формулы (4.4) из [1], используемой при доказательстве теоремы 1:

г

■Г(г) = | V0(?0,х)р0(х)ёх + II Ц^- V0(г,х) + к(г,х, и(г, х))

Я" ?0 Я"

р(г, х)йхй г. (2.10)

Необходимо сказать, что последнее соотношение записано в [1] неверно. Допущена опечатка, в формуле (4.4) следует вместо к (г,х, и (г,х)) использовать ду°(г, х)/д г + ка(г, х, иа (г, х)). Заметим, что в (2.10) функция у 0(г, х) фиксирована, т.е. при переходе к любому допустимому процессу вычисление значения критерия не требует пересчета у 0(г, х). Это полезное заме

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком