научная статья по теме О СИНТЕЗЕ УПРАВЛЕНИЙ ПО РЕЗУЛЬТАТАМ ИЗМЕРЕНИЙ Математика

Текст научной статьи на тему «О СИНТЕЗЕ УПРАВЛЕНИЙ ПО РЕЗУЛЬТАТАМ ИЗМЕРЕНИЙ»

ПРИКЛАДНАЯ МАТЕМАТИКА И МЕХАНИКА

Том 68. Вып. 4, 2004

УДК 62-50

© 2004 г. A. Б. Куржанский О СИНТЕЗЕ УПРАВЛЕНИЙ ПО РЕЗУЛЬТАТАМ ИЗМЕРЕНИЙ

Рассматривается детерминированная задача о построении синтезированных стратегий управления по результатам доступных наблюдений в условиях неизвестных, но априорно ограниченных помех, при жестких ограничениях на неопределенные параметры. Предлагаемые решения опираются на методы динамического программирования и многозначного анализа и сформулированы в терминах гамильтонова формализма. Показано, что рассматриваемая задача может быть разделена на две - конечномерную задачу оценивания и бесконечномерную задачу управления.

Среди задач о синтезе управлений центральное место занимает изучение систем с неполной информацией. Оно направлено на построение наилучшего или более приемлемого в некотором смысле процесса, и объяснения того, насколько уровень неопределенности в его задании, "количество информации", известной априорно, а также сообщаемой по ходу управления, могут сказаться на значениях целевых функций или иных оценках его качества. Ведущая роль среди инициаторов этой тематики принадлежит H.H. Красовскому, предложившему как игровые, так и стохастические подходы [1-5]. Стохастическим постановкам подобных задач посвящена обширная литература, где, в частности, был предложен принцип разделения общего решения на независимые решения задач наблюдения и управления [6-9]. Новые интерпретации решений задач управления с неполной информацией предложены в рамках так называемой теории H^ [10-12].

В предлагаемой работе рассматривается детерминированная задача о построении синтезированных стратегий управления по результатам доступных наблюдений в условиях неизвестных, но априорно ограниченных помех, при жестких ограничениях на неопределенные параметры. Работа продолжает исследования автора [13-15].

1. Основная задача. Предварительная постановка. Приведем вначале постановку и общий подход к решению задачи синтеза управлений по результатам измерений (наблюдений).

Рассмотрим я-мерную систему

dx/dt = f 1 (t, x, u) + f2(t, x, v) (1.1)

где непрерывные по совокупности переменных функции fx(t, x, u), f2(t, x, и) таковы, что их сумма удовлетворяет стандартным условиям единственности и продолжаемости решения уравнения (1.1) на конечный промежуток времени [t0, tj при любом начальном условии x0 е R", а также при любых допустимых управлениях u(t) и возмущениях u(t), стесненных геометрическими (чебышевскими) ограничениями

u(t)е <Р(t), и(t)е а(t), x(t0)е Ж0 (1.2)

при всех t е [t0, t{] [5, 16]. Здесь ^(t), S(t) - многозначные функции со значениями во множестве компактов пространств Rp, R® соответственно, непрерывные в метрике Хаусдорфа, множество Ж0 - компакт. Пару {t0, будем называть "начальной позицией'' системы.

Будем также считать, что множества ^(t, x) = f1(t, x, &(t)), ^2(t, x) = f2(t, x, S(t)) -выпуклые компакты. Тогда, в силу указанных ранее свойств, многозначные функции ^j, будут непрерывны по Хаусдорфу по совокупности переменных.

Текущая информация о векторе х доставляется посредством наблюдений, полученных в силу уравнения измерений

у(г) = g(г, х) + ы (1.3)

где у(г) е - доступное измерение, ы(г) - неизвестное возмущение, информация о котором исчерпывается заданием ограничения

ы(г)е Щ(г), г е[г0, гх ] (1.4)

Функция g(г, х) предполагается непрерывной по совокупности переменных, свойства функции Щ(г) аналогичны свойствам ^(г), Э,(г).

Зная начальную позицию {г0, Ж0}, функции/1(г, х, и, и),/2(г, х, и, и), g(t, х), реализацию управления и[г] (г е [г0, т]), многозначные функции 2.(г), Щ(г) и поступившие по ходу процесса измерения ут(о) = у(т + о) (о е [г0 - т, 0]), можно построить информационное множество Ж(т, ут(-)) = Ж(т, ■) системы (1.1)-(1.4), совместимое с ее параметрами и с полученными измерениями. Таким образом, текущей позицией системы можно считать пару {т, Ж(т, )}. Использование информационных множеств и описание их свойств является предметом теории гарантированного оценивания [1, 13, 14, 17, 18].

Задача о синтезе управлений, подлежащая рассмотрению, будет состоять в том, чтобы найти такую стратегию управления и(т, Ж(т, )) (т е [г0, г:]), построенную по результатам наблюдений, которая для любой начальной позиции {г0, Ж0} приводила бы вектор х(г1) в предписанную окрестность заданного целевого множества - компакта Ж, невзирая на неизвестные возмущения. При этом класс допустимых стратегий °Ы = = {и(т, Ж(т, ))} должен будет обеспечивать существование и продолжаемость решений уравнения (дифференциального включения) (1.1) при и = и(т, Ж(т, )) (т е [г0, г:]).

Поскольку позиция {г0, Ж0} произвольна, полученное решение должно иметь силу и для любой текущей позиции, {т, Ж(т, )} (т е [г0, г:]), если принять последнюю позицию за исходную.

Таким образом, решение совокупной задачи будет состоять в сочетании процессов наблюдения и управления. Пусть на промежутке [г0, т) реализовались управление и*(г) и наблюдение у*(г). Данную задачу можно предварительно пояснить при помощи функционала:

У (г0, Ж0| и *( г), у *( г), г0 < г <т) = шшшах]-й2( х (г 0), Ж0) -

и ?(■) I

-1 й2 (у * (г) - g (г, х (г)), Щ( г)) йг -1 й2 (£( г), Щ( г)) йг + й2 (х (г х), Ж)

(1.5)

Здесь й2(х, Ж) = шт{(х - г, х - г)| г е Ж} - квадрат евклидова расстояния от точки х до множества Ж, х(г0), х(г1) - концы траектории х(г) системы (1.1), СО) = {х(г0), и(-), £(■)}, причем и = и(г) рассматривается на промежутке [г0, г:], а и = и(г, Ж(г, ■)) и £ = £(г) - на (т, г:]. Заметим, что на промежутке [г0, т], где наблюдение у*(г) известно, реализовавшаяся помеха наблюдения £*(г) = у*(г) - g(г, х(г)).

Функционал (1.5) следует промаксимизировать по £(•) и проминимизировать по и в классе стратегий, указанном далее.

Ниже, в разделах 3-5, будет сформулирована более строгая постановка задачи и ее интерпретация. Однако отметим, что уже из предварительной постановки можно заключить, что совокупная задача (задача Е - С) разбивается на две, а именно, на задачу Е - о гарантированном оценивании (вычислении текущей позиции системы) и задачу

т

0

C - о построении самих синтезированных управлений (функционалов от текущей позиции системы), осуществляющих предписанную цель управления.

2. Гарантированное оценивание состояния системы. Задачу E рассмотрим в двух вариантах - E и E0.

Задача E. Пусть задана система (1.1)-(1.2) и уравнение измерений (1.3)-(1.4). Пусть известны начальная позиция {t0, Ж0}, измеренные значения y* ( ), а также реализация управления u = u*(t) (t e [t0, т)). Требуется найти информационное множество Ж(т, ) состояний х(т) системы (1.1), совместимых со значениями y*(t) при ограничениях (1.1)-(1.4) и заданной реализацией u*(t).

"Информационное множество'' Ж[т] = Ж(т, ■) является гарантированной оценкой вектора х(т). Оно содержит неизвестный истинный вектор х(т) системы. В связи с этим, за текущее состояние совокупной системы с неполными измерениями уместно, при t > t0, принять пару {t, ЖИ}. (Эквивалентным определением текущего состояния системы может также служить пара {t, yt (■)} (yt (■) = y(t + о), о б [t0 - t, 0]).)

Для решения рассматриваемых здесь основных задач E и C данной статьи следует получить описание эволюции множества Ж[т] = Ж(т, ) во времени. Сделаем это путем решения следующей альтернативной задачи.

Задача E0. Пусть известны начальная позиция {t0, Ж0}, измеренные значения y* ( ), а также реализация управления u*(t) при t e [t0, т). Требуется найти

-V(т, х) = maxj-d2(х[10], Ж0) -

- J d2 (y * (t) - g(t, х), ШЦ)Щх [t0 ]e R", u(t) e â(t), t е[^,т]| (2.1)

t0

при условии х[т] = х, в силу системы (1.1).

Начальное условие для вычисления функции V(t, х) будет задаваться равенством V(t0, х) = 02(х, Ж).

Здесь символ х[(] = х (t, т, х) (t < т) означает попятную траекторию, выпущенную из точки {т, х} в силу системы (1.1).

Замечание 2.1. Если функционал (1.5) разбить на сумму двух частей: первую - заданную на [t0, т], и вторую, заданную на (т, tj], то функционал (2.1) будет представлять как раз первую часть, отражающую задачу оценивания (вычисление текущего состояния системы).

Функцию У(т, х) будем называть "информационным состоянием'' системы (1.1)—(1.4).

Лемма 2.1. Информационное множество Ж[т] является множеством уровня информационного состояния - функции И(т, х):

Ж[т] = {х : V(т, х)< 0} ) (2.2)

Отсюда следует, что в качестве позиции системы можно выбирать не только одну из пар {т, Ж[т]}, {т, yt(-)}, как указывалось ранее, но и пару {т, V(t, ■)}. Далее будем в основном пользоваться последним из этих вариантов, не отказываясь порой, с целью содержательного пояснения решения, от перехода к первым двум. Сказанное объясняется тем, что эволюцию позиции {т, V^t, )} удается описать в более известных терминах теории уравнений в частных производных.

Для функции V(t, х) введем дополнительное обозначение V(t, х) = V(t, х|V(t0, )), подчеркивая зависимость этой функции от начального условия V(t0, ).

Лемма 2.2. Справедливо свойство

V(т, х| V(10, ■ )) = V(т, х| V(t, ■ | V(t0, ■ ))), t0 < t < т (2.3)

Замечание 2.2. Формула (2.3) выражает "принцип оптимальности" для задачи гарантированного оценивания, взятой в форме Е0. Она отражает полугрупповое свойство отображения У(т, х\У(г0, •)).

Из формулы 2.3 вытекает "прямое" уравнение Гамильтона - Якоби - Беллмана (ГЯБ) в частных производных для функции V(г, х). Формальный вывод этого уравнения следует стандартным схемам теории динамического программирования [8, 21].

Приведем упомянутое уравнение. Имеем

д V -—' [Ц-, /1(г, х, и*(г)) + /2(г, х, и)] -

= -тах д г „

- й2 (у * (г) - £(г, х), Ш(г))|и(г)е 2,(г)|, г е [го,т] (2.4)

при граничном условии

V(г0, х) = й2(х, Ж0) (2.5)

Уравнение (2.4) при условии (2.5) может не иметь классического решения вследствие негладкости функции V(г, х). Тогда решение этого уравнения следует понимать в обобщенном смысле, например, как "вязкостное" [19-22] "минимаксное" [23]. В общем случае его можно определять через обобщенные производные, субдифференциалы Дини или эквивалентные понятия [24].

Теорема 2.1. Если, при и = и*(г), у = у*(г) (г е [г0,

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком