научная статья по теме ПОВЕРХНОСТИ ПЕРЕКЛЮЧЕНИЯ В ЛИНЕЙНЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ С ФИКСИРОВАННЫМ МОМЕНТОМ ОКОНЧАНИЯ Математика

Текст научной статьи на тему «ПОВЕРХНОСТИ ПЕРЕКЛЮЧЕНИЯ В ЛИНЕЙНЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ С ФИКСИРОВАННЫМ МОМЕНТОМ ОКОНЧАНИЯ»

ПРИКЛАДНАЯ МАТЕМАТИКА И МЕХАНИКА

Том 68. Вып. 4, 2004

УДК 62-50

© 2004 г. В. С. Пацко

ПОВЕРХНОСТИ ПЕРЕКЛЮЧЕНИЯ В ЛИНЕЙНЫХ ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ С ФИКСИРОВАННЫМ МОМЕНТОМ ОКОНЧАНИЯ

Рассматриваются антагонистические линейные дифференциальные игры с фиксированным моментом окончания и непрерывной терминальной функцией платы. Управляющее воздействие первого (минимизирующего) игрока предполагается скалярным и ограниченным по модулю. Векторное управление второго игрока стеснено геометрическим ограничением. Доказывается утверждение о достаточном условии, при выполнении которого оптимальное позиционное управление обратной связи первого игрока можно задать при помощи поверхности переключения, разделяющей пространство игры на две части, в каждой из которых действует свое крайнее значение управляющего воздействия. Предлагаемый способ управления является устойчивым по отношению к неточностям численного построения поверхности переключения.

1. Постановка задачи и формулировка основного результата. Предварительное описание задачи. Пусть линейная дифференциальная игра с фиксированным моментом окончания û описывается соотношениями

я t ) = B( 1]( t ) u ( t ) + С(1)С t )и( t )

y(t)e Rn, |u(t)|<ц, u(t)e Q(1); y(1)(y(û))

Условимся, что управляющее воздействие u(t) первого игрока является скалярным и ограниченным по модулю числом ц > 0. Множество Q(1), ограничивающее управляющее воздействие u(t) второго игрока, будем считать выпуклым компактом в конечномерном пространстве. Таким образом, B(1)(t) - вектор-столбец, а C(1)(t) - матрица соответствующих размеров. Функции B(1), С(1) предполагаем кусочно-непрерывными. Пусть у(1) : Rn ^ R - непрерывная функция платы. Первый игрок минимизирует значение Y(1)(y(û)), интересы второго игрока противоположны.

Игру (1.1) будем называть исходной. Относящиеся к ней обозначения снабжаются верхним индексом (1). Условимся, что начальные моменты t0 принадлежат промежутку T = [û1, û], где û1 < û. Пусть Z = T x Rn - пространство игры.

Допустимым программным управлением u() (и()) первого (второго) игрока назовем измеримую функцию времени t ^ u(t) (t ^ u(t)), удовлетворяющую при любом t ограничению |u(t)| < ц (u(t) б Q(1)). Обозначим через L(1) совокупность всех допустимых программных управлений и() второго игрока.

Следуя известному подходу [1], в качестве допустимых позиционных стратегий первого игрока рассмотрим произвольные функции (t, x) ^ U(t, x), определенные на множестве Z с числовыми значениями, ограниченными по модулю числом ц. Символом y(1)(-; t0, x0, U, A, u( )) обозначим пошаговое движение системы (1.1) из позиции (t0, x0), когда первый игрок применяет стратегию U в дискретной схеме управления [1] с шагом A > 0, а за второго игрока реализуется управление и( ) б L(1).

Положим

Г(г0, Хо, и, А) = 8цр у(1)С; ц, х0, и, А, и(■)))

Величина Г(1)(Г0, х0, и, А) имеет смысл гарантии, которую обеспечивает первому игроку стратегия и для начальной позиции (г0, х0) в дискретной схеме управления с шагом А. Наилучшая гарантия первого игрока для начальной позиции (г0, х0) определяется формулой

Г( 1)(г0, х0) = ттЖ~Г( 1)(г0, х0, и, А)

и а^о

где 1гт означает верхний предел. Было показано [1], что минимум по и достигается, т.е. существует оптимальная стратегия. При этом не исключается зависимость оптимальной стратегии первого игрока от начальной позиции (г0, х0).

Известно [1, 2], что наилучший гарантированный результат Г(1)(£0, х0) совпадает с симметрично определенным наилучшим гарантированным результатом второго игрока. Поэтому величину Г(1)(£0, х0) называют также значением функции цены в точке (г0, х0).

Ниже будет показано, что при некотором дополнительном условии в игре (1.1) существует универсальная оптимальная стратегия и* первого игрока, устойчивая по отношению к погрешностям ее численного задания.

Универсальность означает, что стратегия и* является оптимальной для всех начальных позиций (г0, х0) е 2. Подчеркнем, что речь идет об универсальности в "жестком'' смысле: рассматриваемые стратегии являются функциями лишь от аргументов г, х. В классе стратегий, зависящих дополнительно от некоторого "параметра точности'', существование оптимальных универсальных стратегий для широкого класса задач установлено ранее [3].

Универсальная оптимальная стратегия (г, х) ^ и*(г, х) будет определена при помощи ''поверхности переключения'' (ПП), разбивающей пространство игры 2 на две части: по одну сторону управление и принимает значение -ц, по другую +ц. На самой ПП оптимальное значение управления и можно брать любым из промежутка [-ц, ц].

Вопрос о существовании универсальных оптимальных стратегий в дифференциальных играх кратко обсуждался ([1], с. 48) и был заострен после статьи [4], в которой приведен пример игровой задачи, где универсальная оптимальная стратегия не существует. Было показано [5, 6], что для линейных дифференциальных игр вида (1.1) с выпуклой функцией платы существует универсальная оптимальная стратегия первого игрока и она может быть задана при помощи ПП. Устойчивость такой стратегии была обоснована [7] в предположении об ограниченности ''скорости вращения'' вектора В(1)(г).

Было установлено [8, 9], что если множество (О1 представляет собой отрезок (т.е. управляющее воздействие и является скалярным), то существует универсальная оптимальная стратегия второго (максимизирующего) игрока, и она также может быть задана при помощи ПП. Однако такая стратегия не обладает свойством устойчивости.

В данной работе усиливаются результаты статьи [7]: ослаблено условие выпуклости функции платы и снято предположение об ограниченности ''скорости вращения'' вектора

в(1)(г) . Так же, как и в [7], принята следующая схема рассуждений. Ориентируясь на компьютерные построения, подменяем исходную дифференциальную игру удобной аппроксимирующей игрой, для которой можем построить некоторую и-ста-бильную [1, 2] функцию или даже функцию цены игры. Обрабатывая такую функцию, получаем ПП. Применяем найденную ПП в исходной дифференциальной игре для задания универсальной стратегии первого игрока. Оцениваем гарантию первого игрока, которую он обеспечивает, используя построенную универсальную стратегию.

В качестве следствия из такой оценки получаем результат, касающийся универсальной оптимальной устойчивой стратегии в игре (1.1).

Сделаем замечание о записи динамики линейной дифференциальной игры в виде (1.1). Особенность этой записи состоит в том, что фазовая переменная не входит в правую часть. Пусть линейная дифференциальная игра с фиксированным моментом окончания Ф имеет вид

у( г) = А (г) у (г) + В( г )и (г) + С( г )и( г)

у(г)е Ят, \и(г)|<ц, и(г)е Й(1); у(у(Ф))

Предположим, что функция платы у определяется лишь значениями некоторых п координат, п < т, фазового вектора в момент окончания. Тогда переход к виду (1.1) осуществляется ([1], с. 160) при помощи стандартного преобразования у (г) = Хп, т(Ф, г)у(г), где Хп, т(Ф, г) - матрица п х т, составленная из соответствующих п строк фундаментальной матрицы Коши для системы у (г) = А(г)у(г). При этом

Б(1)(г) = Хп, т(Ф, г)В(г), С(1)(г) = Хп, „(Ф, г)С(г), у(1)(у(Ф)) = у(у(Ф))

Аппроксимирующая игра. Наряду с игрой (1.1) рассмотрим еще одну дифференциальную игру

у( г) = Б( 2)( г) и (г) + С(2)( г )и( г)

у(г)е Яп, |и(г)|<ц, и(г)е е(2); у(2)(у(Ф))

с фиксированным моментом окончания Ф. Игру (1.2) будем интерпретировать как удобную для компьютерных вычислений аппроксимацию игры (1.1). Здесь у(г) - фазовый вектор, функции Б(2) и С(2) кусочно-непрерывны. Ограничение скалярного управляющего воздействия первого игрока такое же, как в игре (1.1), множество - компакт в конечномерном пространстве. Предполагаем, что непрерывная функция платы у® : Яп ^ Я удовлетворяет условию Липшица с константой X и условию У2)(х) ^ <» при |х| ^ «>. Первый игрок минимизирует значение У2)(у(Ф)), второй максимизирует.

Принадлежность той или иной величины к аппроксимирующей игре подчеркивается верхним индексом (2). Допустимые программные управления и(), и() первого и второго игроков определим аналогично тому, как это сделано для игры (1.1). Обозначим через Ь(2) совокупность всех допустимых программных управлений и( ) второго игрока.

Будем считать, что в рамках аппроксимирующей игры (1.2) построена некоторая непрерывная и-стабильная функция V2 : Ъ ^ Я с краевым условием

У(2)(Ф, х) = у(2)(х), х е Яп

Согласно известному определению [1, 2], функцию У(2) называем и-стабильной, если для любой позиции (г*, х*) е Ъ по любому г* е (г*, Ф] и любому и( ) е Ь(2) найдется такое допустимое программное управление и() первого игрока, что для движения у(2)(г) = у(2)(г; г*, х*, и( ■ ), и( ■ )) выполнено неравенство

У(2)( г *, у(2)( г* ))< У (2)( г*, х*)

Предположим, что функция V2 удовлетворяет условию Липшица с константой X по аргументу х равномерно по г е Т. Если V2 - функция цены игры (1.2), то выполнение этого свойства вытекает из условия, наложенного на функцию у®.

Введем функцию B(3) : T ^ Rn, удовлетворяющую условию Липшица с константой ß. Содержательно B(3) можно трактовать как липшицево приближение к функциям B(1) и B(2). Обозначим

о = max| B(3)( t )|

t e T

Ниже используется понятие квазивыпуклости скалярной функции. Как обычно, это означает выпуклость ее множеств уровня (множеств Лебега).

Условие А. При любом t e T, для которого B(3)(t) Ф 0, сужение функции V(2)(t, ) на любую прямую в Rn, параллельную вектору B(3)(t), есть квазивыпуклая функция.

Замечание. Рассмотрим функцию, являющуюся сужением функции V*2)(t, ■) на некоторую прямую, параллельную вектору B(3)(t). Сформулированное условие означает требование нестрогой монотонности такой одномерной функции по обе стороны от точки ее глобального минимума.

Условие А выполнено, в частности, если при любом t e T является квазивыпуклой функция V(2)(t, ). В случае, когда V(2) - функция цены аппроксимирующей игры (1.2), для обеспечения квазивыпуклости функций V-2)(t, ), t e T достаточно потребовать квазивыпуклость функции платы у®.

Поверхность переключения. Многозначная функция U0. Для (t, x) e Z положим

d(t, x) = {z e Rn: z = x + aB(3)(t), а e R} Если

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком