научная статья по теме ДВА СЛАБЫХ ПРЕСЛЕДОВАТЕЛЯ В ИГРЕ ПРОТИВ ОДНОГО УБЕГАЮЩЕГО Автоматика. Вычислительная техника

Текст научной статьи на тему «ДВА СЛАБЫХ ПРЕСЛЕДОВАТЕЛЯ В ИГРЕ ПРОТИВ ОДНОГО УБЕГАЮЩЕГО»

Автоматика и телемеханика, № 10, 2014

© 2014 г. С.С. КУМКОВ, канд. физ.-мат. наук (sskumk@gmail.com), В.С. ПАЦКО, канд. физ.-мат. наук (patsko@imm.uran.ru) (Институт математики и механики им. Н.Н. Красовского УрО РАН, Екатеринбург, Уральский Федеральный университет, Екатеринбург), С. ЛЕ МЕНЕК, д-р философии (stephane.le-menec@mbda-systems.com) (Airbus Group / MBDA France, Париж, Франция)

ДВА СЛАБЫХ ПРЕСЛЕДОВАТЕЛЯ В ИГРЕ ПРОТИВ ОДНОГО УБЕГАЮЩЕГО1

Рассматривается антагонистическая дифференциальная игра, в которой первый игрок управляет действием двух догоняющих, цель которых — минимизация в заданный момент времени промаха относительно убегающего. Второй (максимизирующий) игрок отождествляется с убегающим. Исследуется случай, когда динамические возможности догоняющих уступают возможностям убегающего. Предложен квазиоптимальный способ управления первого игрока при помощи линий переключения. Приведены результаты моделирования.

1. Введение

В [1-3] рассмотрена модельная линейная задача преследования двумя догоняющими одного убегающего. Три инерционных объекта передвигаются по прямой. Управление каждого из них является скалярным и ограниченным по модулю. В назначенный заранее момент Т\ замеряется расстояние между первым преследователем и убегающим, в момент Т2 — между вторым преследователем и убегающим. Преследователи действуют координированно, их цель — минимизация платы, представляющей собой минимум из этих двух расстояний. Преследователей можно объединить в одного игрока, назовем его первым. Второго игрока отождествим с убегающим, он максимизирует значение платы. Содержательный прообраз задачи связан [1, 4] с задачей космического преследования, в которой момент Т\ (Т2) является моментом встречи первого (второго) преследователя с убегающим на номинальных траекториях. Авторами в [2, 3] выделены и численно исследованы качественно различные варианты решения.

Наиболее простым является случай «сильных» преследователей, когда оба преследователя превосходят убегающего по своим динамическим возможностям. Наиболее сложными являются случаи, когда динамическое преимущество по ходу процесса переходит от убегающего к преследователям или наоборот. Здесь, в частности, появляются множества уровня функции цены,

1 Работа поддержана программой Президиума РАН «Динамические системы и теория управления» при финансовой поддержке Уральского отделения РАН (грант № 12-П-1-1002), а также Российским фондом фундаментальных исследований (проекты №№ 12-01-00537 и 13-01-96055).

сечения по времени которых теряют односвязность, а с ростом обратного времени снова ее получают.

Принципиальным является вопрос о построении оптимальных (или квазиоптимальных) способов управления игроков по принципу обратной связи. Сложившаяся идеология теории дифференциальных игр предусматривает на этот счет либо хранение всей функции цены, либо ее быстрое вычисление в окрестности текущей позиции. При этом оптимальное управление строится с использованием того или иного варианта обобщенного градиента функции цены [5-10].

В линейных дифференциальных играх с выпуклой функцией платы возможен [11-13] более простой способ построения оптимального управления: при помощи линий и поверхностей переключения. Говоря о линиях или поверхностях переключения, подразумеваем разбиение фазового пространства в каждый момент времени на области, в каждой из которых управляющее воздействие принимает одно из своих крайних значений. При этом в памяти хранятся только границы этих областей без запоминания значений функции цены. В задаче с двумя преследователями и одним убегающим функция платы не является выпуклой, но авторы попытались в [2, 3] и здесь построить оптимальные (квазиоптимальные) стратегии игроков при помощи линий переключения. Для случая сильных преследователей соответствующие утверждения, связанные с обоснованием оптимальности, приведены в [2].

В данной статье рассматривается случай «слабых» преследователей. Считаем, что Т = Т2. Для этого случая формулируются и доказываются утверждения о квазиоптимальном способе управления первого игрока при помощи линий переключения. Способ устойчив по отношению к погрешностям численных построений и ошибкам измерения текущего фазового состояния системы. Случай слабых преследователей при Т = Т2 является несколько более сложным, и он не рассматривается.

Отметим, что к настоящему времени имеется много публикаций, посвященных исследованию задач группового преследования [14-25]. Эти задачи являются трудными в первую очередь из-за большой размерности фазового вектора и невыпуклости функции платы. Поэтому, как правило, в таких работах делаются весьма сильные предположения относительно динамики объектов (например, рассматриваются объекты с простыми движениями), их начальных состояний и т.д. В данной работе, где число объектов мало, авторы стараются получить точное решение без введения каких-либо существенных упрощений.

2. Постановка задачи

Преследователи Р\, Р2 и убегающий Е передвигаются по прямой линии. Динамика преследователей описывается соотношениями:

(1) % = ар-1, |«1| ^ '¿р2 = ар2, |«2| ^ ^2,

ар1 = («1 - ар1 )/1р1, ар1 (¿о) = 0; ар2 = («2 - ар2)/1р2, ар2 (¿о) = 0.

Здесь гр1 и гр2 — геометрические координаты преследователей; ар1 и ар2 — их ускорения, вызванные управлениями «1 и «2. Постоянные времени 1р1 и 1р2

определяют, насколько быстро отрабатывается управление. Динамика убегающего Е аналогична:

(2) ZE = aE, aE = (v - aE)/Ie, |v| ^ v, ae(to) = 0.

Для сравнения динамических возможностей можно ввести параметры [1, 4]

Пг = li/v, £ = Ie/Ipí, i = 1,2. В статье исследуется случай слабых преследователей, когда имеют место неравенства пг ^ 1, Пг£ ^ 1, i = 1,2, причем для каждого i хотя бы одно неравенство является строгим.

Зафиксируем момент T. В этот момент вычисляем промахи преследователей относительно убегающего:

(3) rPuE(T) = |ze(T) - zPl(T)|, tp2,e(T) = |ze(T) - zp2(T)|.

Предположим, что преследователи действуют согласованно. Объединяем их в одного игрока P, которого будем называть первым игроком. Игрок P распоряжается векторным управлением u = (ui,U2)T. Здесь и далее верхний индекс T — символ транспонирования. Убегающего считаем вторым игроком. В качестве функции платы возьмем минимум из промахов:

(4) р = min{rPi,E(T), гр2,е(T)}.

В каждый момент t оба игрока имеют точную информацию обо всех фазовых координатах zp1, Zp1, ap1, zp2, Zp2, ap2, ze, Ze, aE. Вектор, составленный из этих величин, обозначим z. Первый игрок выбирает свое управление обратной связи так, чтобы минимизировать значение платы р, второй игрок максимизирует плату.

Будем считать, что игра происходит на промежутке [í, T], где í < T. Пусть Y = [í, T] х R2 — пространство игры.

Следуя [6, 8], в качестве допустимых стратегий первого игрока рассмотрим произвольные функции (t,z) ^ U(t, z) с значениями в множестве {(ui,u2) : |u11 ^ |1, |u21 ^ |2}. Символом z(t0,x0,U, A,v(-)) обозначим пошаговое движение системы (1), (2) из позиции (to,Xo), когда первый игрок применяет стратегию U в дискретной схеме управления с шагом A > 0, а за второго игрока реализуется измеримое управление v(-) с значениями |v(t)| ^ v. Термин «дискретная схема» означает следующее. Выбирается сетка моментов ts с некоторым шагом A (начиная с момента to). Имея в момент ts положение z(ts) системы, первый игрок вычисляет свое управление u = = U(ts,z(ts)). Это управление держится постоянным до момента ts+i = = ts + A. В позиции (ts+i, z(ts+i)) вычисляется новое значение управляющего воздействия и т.д.

Положим

r(to,zo,U, A) = sup p(z(T;to,zo,U, A,v(-))).

Здесь супремум берется по всем измеримым функциям t ^ v(t), стесненным ограничением |v(t)| ^ v. Величина p(z(T)) есть значение платы (3), (4) в момент окончания T на движении z(■; to, zo, U, A, v(-)).

Величина Г(£о, zo, U, А) имеет смысл гарантии, которую обеспечивает первому игроку стратегия U для начальной позиции (to,Zo) в дискретной схеме управления с шагом А. Наилучшая гарантия первого игрока для начальной позиции (t0,z0) определяется формулой

r(ío, zo) = min lim T(to, zo, U, A), и A^o

где lim означает верхний предел. В [6, 8] показано, что минимум по допустимым стратегиям U достигается.

Известно, что наилучший гарантированный результат r(to,Zo) первого игрока совпадает с симметрично определенным наилучшим гарантированным результатом второго игрока. Поэтому величину r(to, Zo) называют также значением V(to,zo) функции цены в точке (to,zo).

В статье будет показано, как построить квазиоптимальную (т.е. близкую к оптимальной по гарантированному результату) стратегию первого игрока, пригодную для всех начальных позиций и устойчивую к погрешностям ее численного задания и к ошибкам измерения текущего фазового положения системы.

3. Переход к двумерной дифференциальной игре

Введем разностные геометрические координаты y1 = ze—zpl, y2 = ze—zp2. Перепишем уравнения движения (1), (2) и функцию платы (3), (4):

yi = aE - ap-t, У2 = aE - ap2,

ap- = (ui - ap-)/lp-, (ip2 = (u2 - ap2)/lp2,

(5)

(e = (v - Ie)/Ie, |U21 ^ ^2,

|ui| < ^1, |v| < v, ^ = min{|yi(T)|, |y2(T)|}.

Фазовыми переменными системы (5) являются y1, yy1, apt, y2, y2, ap2, (e; u1 и U2 — управления первого игрока; v — управление второго игрока. Функция платы ф зависит от координат y1 и y2 в момент T.

Стандартный подход к исследованию линейных дифференциальных игр с фиксированным моментом окончания и функцией платы, зависящей от некоторого набора целевых компонент фазового вектора в момент окончания, подразумевает переход к новым фазовым переменным (см., например, [6, 8]). Эти переменные трактуются как значения целевых компонент, прогнозируемые на момент окончания при нулевых управлениях игроков. В западных публикациях их часто называют zero effort miss coordinates [4, 26]. В рассматриваемом случае переходим к новым фазовым координатам X1 и X2, где Xi(t) — значение yi, прогнозируемое на момент окончания T, i = 1, 2. Формула для пересчета координат:

(6) Xi = yi + yiT - apilp.h(r/lpi) + (iel2Eh(r/lE), i = 1,2.

Здесь Xi, yi, yi, api и ie зависят от времени t; r = T - t. Функция h описывается

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком