научная статья по теме ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ ЛИНЕЙНОЙ ДИСКРЕТНОЙ СИСТЕМОЙ ПО КРИТЕРИЮ ВЕРОЯТНОСТИ [ Автоматика. Вычислительная техника

Текст научной статьи на тему «ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ ЛИНЕЙНОЙ ДИСКРЕТНОЙ СИСТЕМОЙ ПО КРИТЕРИЮ ВЕРОЯТНОСТИ [»

Автоматика и телемеханика, № 10, 2014

Стохастические системы, системы массового обслуживания

© 2014 г. В.М. АЗАНОВ (azanov59@gmail.com) (Московский авиационный институт)

ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ ЛИНЕЙНОЙ ДИСКРЕТНОЙ СИСТЕМОЙ ПО КРИТЕРИЮ ВЕРОЯТНОСТИ1

Рассматривается задача оптимального управления линейной дискретной стохастической системой. Критерием оптимальности служит вероятность попадания первой координаты системы в заданную окрестность нуля за время, не превышающее заданную величину. Задача сводится к эквивалентной задаче стохастического оптимального управления с вероятностным терминальным критерием. Последняя аналитически решается методом динамического программирования. Приводятся достаточные условия, при которых найденное оптимальное управление оказывается оптимальным и по квантильному критерию.

1. Введение

Задачи оптимального управления по вероятностным критериям качества составляют предмет изучения специального раздела теории стохастического оптимального управления. К числу вероятностных критериев относятся функционал вероятности и функционал квантили. Функционал вероятности представляет собой вероятность непревышения некоторым точностным функционалом заданного допустимого уровня. Сам точностной функционал при этом характеризует точность системы управления, но зависит от траектории стохастической системы. Примером точностного функционала служит терминальный промах системы наведения. В постановке задачи оптимального управления с критерием качества в форме функционала вероятности обычно требуется этот функционал максимизировать.

Функционал квантили является, в некотором смысле, обратной характеристикой по отношению к функционалу вероятности. Физический смысл функционала квантили в том, что он, будучи верхней доверительной границей для точностного функционала, по сути характеризует гарантированную по вероятности точность системы управления. Задача оптимального управления с критерием в форме функционала квантили обычно трактуется как задача минимизации.

Задачи оптимального управления с вероятностными критериями исследовались в [1—4]. Случай дискретного времени рассмотрен в [1], где подробно

1 Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проекты №№ 12-08-00453а, 14-07-00089а).

исследованы задачи оптимального управления дискретными стохастическими системами с вероятностными критериями и терминальным точностным функционалом. Можно отметить также статью [5], в которой исследован вопрос об эквивалентности задач оптимального управления с функционалами вероятности и квантили.

В настоящей статье рассматривается задача оптимального управления с функционалом вероятности с нефиксированным, но ограниченным сверху моментом окончания. Это обстоятельство позволяет интерпретировать рассматриваемую задачу управления как задачу наведения. Рассматриваемая ниже постановка схожа с непрерывной задачей управления материальной точкой [3], однако в [3] на время окончания процесса управления никаких ограничений не накладывалось.

Рассмотрим задачу управления с учетом случайных воздействий в дискретном времени к = О, N + 1. Динамику системы опишем следующей системой рекуррентных уравнений

Здесь хк = (х\,... , хП)т - вектор состояния, хк € Яп, ик € Я1 - управление, Н - параметр, возникающий при дискретизации непрерывной системы, имеющий смысл длины шага дискретного времени, (к - непрерывные случайные величины, плотности распределений которых являются четными функциями. При этом (к не обязательно одинаково распределены. п ^ 2, N ^ п — 1. Начальные условия х1,... ,хП для системы (1) детерминированы.

Можно отметить, что структура (1) возникает при дискретизации линейной непрерывной системы, записанной в канонической форме управляемости, где случайная помеха моделирует ошибки в канале управления.

Введем в рассмотрение функционал вероятности

где Р - вероятность, р € Я1 - скалярный параметр, и(-) = (и0,... ) -управление. Стратегия управления на к-м шаге ищется как функция ик(хо, . . .,Хк).

Поставим задачу нахождения оптимального управления, максимизирующего вероятностный критерий оптимальности

2. Постановка задачи

(1)

/V»1 - ГУ) 1 I /у>2 Ъл

хк+1 = хк + хкН,

/у>2 - ГУ)2 I /у»3 Ъл

хк+1 = хк + хкН,

1хП+1 = хП + икН + (к.

(3)

Рф(и(-)) ^ тах.

Как уже отмечалось во введении, данную задачу можно интерпетировать как задачу наведения объекта в заданную окрестность нуля за время, не превышающее фиксированную величину. Ниже будет показано, что оптимальное управление в задаче (3) существует в классе функций Uk(ж&), зависящих только от текущего состояния С этой целью сведем поставленную задачу к эквивалентной задаче с фиксированным моментом окончания.

3. Эквивалентная задача с терминальным точностным функционалом

Для использования методологии [1] расширим фазовый вектор xк = = (xk,..., хП)Т и сведем задачу к эквивалентной задаче оптимального управления в пространстве более высокой размерности. Для этого введем новую координату ук, динамику которой будем описывать соотношением

(4) yk+1 = min{ук, Й + х|h|} ,

Уо = к = 0,N + 1. Отметим, что система (1), (4) является нелинейной. Запишем эквивалентную задачу с учетом введенных обозначений:

(5) P(ум+1 ^ <£) ^ max.

Ч)

Задача (5) относится к классу задач с фиксированным моментом окончания, поэтому решение исходной существует [1] в классе марковских стратегий Uk = Uk(xk). В [1] также обосновано, что для решения эквивалентной задачи (5) можно применить метод динамического программирования.

В соответствии с алгоритмом динамического программирования определим функцию выигрыша

W(x, у) = sup P(yN+1 ^ Hxk = х, yk = у). Для k = N + 1 имеем

(6) WS+i(x„+1,у*+1) = (! "р" ук+1 <

+ [0 при ум+1 >

Тогда для k = N функция выигрыша определяется в результате решения конечномерной задачи

WN(xn,ум) = mUNXM [W^+^xN+byN+^xN•

M[■] - математическое ожидание. В правой части последнего выражения аргументы функции W^+1(xn+1,yN+1) преобразуются в соответствии с (1), xn , yN фиксированы. С учетом (6) получим

WN(xn,УN) = max P (min{yN, |xN + xNh|} ^ .

N UN

Максимизируемая функция в правой части этого выражения не зависит от управления • Поэтому

(7)

т ^ ) \1 при min{yw, |xN + xNh|} < ^

WN(xNj = < „ . ( , ! , 2 ,п ^

N 0 при min{y2, |x2 + xNh|} > p.

Управление на этом шаге любое. Перейдем теперь к шагу k = N — 1. По аналогии с шагом k = N получаем

-1) = maxM [WN(xw)|xw-i,yw-i] =

= max P (min {min{yw-i, -i + xN-ih|}, -i + 2x^-ih + xN-ih2|} ^ =

UN-1

f 1 при min {min {yN-i, + xN-ih|}, |x2-i + 2xN-:Lh+xN-ih2|} ^p, =

|0 при min {min {yW-i, |x2-1 + xN, |ж^-1 +2x^-1h+xN-1h2^ >p

jl при min {y2-i, |x2-1 + x2-1h|, |x2-1 + 2xN-1h + x^-1h2|} ^p, |0 при min{-i, |x2-1 + xN-1h|, |xN-1 + 2x2-1h + xN-1h2^

Ввиду того, что управление вместе со случайной ошибкой содержатся только в соотношении для n-й координаты фазового вектора, управление будет любым на последних n — 1 шагах. Действуем таким образом до момента, когда управление со случайной ошибкой окажутся в выражении для функции выигрыша. Это наступит на шаге k = N — n + 1. Запишем функцию выигрыша на этом шаге.

WW-n+i(xN-n+i^N-n+1j =

= max M [W^-n+2 (xn-n+2,yN-n+2) |xn-ra+i,yw-n+i] =

uN-n + 1

(8)

max P min< -n+i, |xw-„+1 + xw-n+ih

UN-n+1 \

|xN-n+i + 2xN-„+ih + xN-„+ih2

n- 1

У! Cn-1^N-n+i

j=0

x

n- 1

У^ Сn^jv-^+I^ + h""uN-n+1 + hn-1{N-n+1

j=0

вывод (8) приведен в Приложении. Введем обозначения

Ufc(xfc,yfc) = min jyfc, |xk + hx||,...,

n- 1

n- 1

i+1

j=0

Vk (xfc, ufc) = ^ cnhixk+1 + hnufc.

j=0

С использованием введенных обозначений функция выигрыша на k = N — — n + 1 шаге примет вид

+1(xw-n+i) = max P( min] -n+i),

(9) ^ MN-n+1 V I

-ra+1(xN -ra+1,uN _n+1) + Cw-ra+i^"-1 | ^

Лемма 1. Пусть -n+1 имеет распределение, плотность которого является четной функцией. Тогда задача (9) эквивалентна по решению задаче

(10) iVv-n+^xw-n+bUw-n+Oi ^ min •

UN-n+1

Доказательство леммы 1 приведено в Приложении. Задача (10) является детерминированным эквивалентом задачи стохастического программирования (9). Построение детерминированных эквивалентов для задач стохастического программирования с вероятностными критериями отражено в [6, 7]. Оптимальное управление на N — n + 1-м шаге легко находится из (10):

1 n-1

^ xi+1 X 7>

(11) UN-n+1 - -J^ G%nh,

г=0

а функция выигрыша на этом шаге запишется в виде

-n+1(xN-n+1,yN-n+l) —

|l при Un-n+l(XN-n+1,yN-n+l) ^

\P(|{w-n+lhn-1| ^ при Un-n+l(XN-n+1,yN-n+l) >

Обозначим

Pfc^) — Phn-1| < p)

и запишем функцию выигрыша на шаге N — n, используя формулу полного математического ожидания:

-n -n) —

P( min{Un-n(XN-n,yN-n), -n(XN-n-n) + Cw-nhn-1|| ^ + + pw-n+l(^)(l — P( min{ Uw-n(xw-n,yw-n), |Vw-n(xw-n,uw-n) + + Cw-nhn-1^—max P(miniUw-n(xw-n,yw-n), |Vw-n(xw-n,«w-n) +

J UN-n L

-nhn-1^ ^ (l — pw-n+l(<^)) + PN-n+l(^>) •

Напомним, что 0 ^ pw-n+l(^) ^ 1- Тогда задача оптимизации на шаге k — — N — n примет вид

(12) P( miniUw-n(xw-n,yw-n), |Vw-n(xw-n,uw-n)+ £w-nhn-1|f ^Ы ^ max,

VI J У UN-n

= max

UN-n

и по аналогии с предыдущим шагом, используя лемму 1, запишем детерминированный эквивалент к (12)

|Vn-n,UN—n)| ^ min

UN-n

и оптимальное управление

1 n— 1

UN-n = -1-2Y,CnhlxN-n-

г=0

Функция выигрыша на шаге к = N — п определяется выражением

—п —п) =

(1, —п(хМ

—п —п

[рМ—п(^) + РМ—п+1(^)(1 — РМ—п(^)), —п(ЗД_п, УМ—п) >

Действуя таким образом, нетрудно заметить, что на каждом /г-м шаге, к = О, N — п + 1, приходится решать одинаковую оптимизационную задачу

Р( min {Ufc(xfc,yfc), |Vfc(xfc,ufc) + 4} ^ ^ max.

uk

Редукция таких оптимизационных задач к детерминированным эквивалентам

V(xfc,ufc)| ^ min

Uk

в соответствии с леммой 1 позволяет найти оптимальное управление на к-м шаге

n— 1

г=0

Обозначим

PT = Po(<P) + Pl(^)(1 - Ро(^)) + ••• + PN-n+l(^)(1 - PN-n(^)) ••• (1 - Po(^)), следовательно, функция выигрыша на шаге к = 0 запишется как

= ) 1, иоЫ <

Р0^, Uo(xo) > р.

<Ы =

Далее будем называть ее функцией оптимального выигрыша, поскольку в соответствии с методом динамического программирования

WT(xo) = max Р<Д«(-)).

О

Отметим, что W(N(xo) и Uo(xo) не зависят от

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком