ПРИКЛАДНАЯ МАТЕМАТИКА И МЕХАНИКА
Том 77. Вып. 5, 2013
УДК 62-50
© 2013 г. Г. И. Ибрагимов
ЗАДАЧA ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ, ПРИВОДИМАЯ К БЕСКОНЕЧНОЙ СИСТЕМЕ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ
Рассматривается игровая задача об оптимальном преследовании, приводимая к бесконечной системе дифференциальных уравнений с интегральными ограничениями по управлениям игроков. Цель преследующего — приведение системы в нулевое состояние, убегающий стремится воспрепятствовать этому. Показывается, что имеет место альтернатива по Н.Н. Красовскому: пространство состояний делится на две части так, что если начальное состояние лежит в одной части, то возможно завершение преследования, а если в другой части, то возможно убегание. Предлагаются конструктивные схемы построения оптимальных стратегий игроков, а также выводится явная формула для оптимального времени преследования.
1. Введение. В отличие от теории дифференциальных игр в конечномерных пространствах, получивших глубокое и всестороннее развитие, дифференциальные игры в системах с распределенными параметрами пока изучены недостаточно полно. Из исследований в этом направлении следует отметить результаты Дж.Л. Лионса [1] и Ю.С. Осипова [2]. Как известно, одним из эффективных методов изучения задач управления, описываемых параболическими и гиперболическими уравнениями, является метод декомпозиции, который позволяет свести исходную задачу к решению бесконечной системы обыкновенных дифференциальных уравнений [3—6].
Согласно методу, предложенному Ф.Л. Черноусько [5], задача управления в системах с распределенными параметрами заменяется задачей управления для бесконечной системы
ik = kZk + wk,zk(0) = Zkо, k = 1о<^2 ^к (11)
Zk, Zk о, Wk e U,
где wk — параметры управления, X k — собственные значения эллиптического оператора, соответствующего рассматриваемому уравнению.
С использованием этого метода были изучены [7—8] дифференциальные игры, описываемые параболическими уравнениями, сводящимися к системе
Z k = kZk - Uk + Uk, Zk (0) = Zk о, k = 1,2,... (О)
где
Zk, Uk, и k, Zk о e R, Z о = (Zio, Z20,...) * 0, 0 < Xi < X 2 < X k ^^
u = (ubu2,...) и и = (иьu2,...) — параметры управления преследующего и убегающего, и была решена задача оптимального преследования в игре с интегральными ограничениями по управлениям игроков [9].
Ниже рассматривается система (1.2) в предположении, что ХЬХ2,... — произвольные положительные числа.
2. Постановка задачи. Пусть Xк(к = 1,2,...) — произвольная последовательность положительных чисел, г — фиксированный параметр, рассматривается пространство
¡1 = {а = (аьа2,...): X^как < <»} со скалярным произведением
(а,в)г = X ^ к а кв к е ¡Г; 1|а|| = (X ^ к а к )
Здесь и всюду далее, если не оговорено иное, суммирование ведется по к от к = 1 до к = да.
2
Пусть I — произвольный отрезок времени, ¿(I, ¡г) — пространство, состоящее из последовательностей функций /(г) = (/Кг),/2(),...),г е I, с измеримыми координатами /к(г), удовлетворяющими неравенству
¥ (-)1 II (I х к [л'т )1/2 <®
2
Пусть С(1, ¡г+1) — пространство непрерывных функций, заданных на отрезке I со значе-
2
ниями г(г) = (г1(г),г2(г),...) в пространстве ¡г+1. Определение 1. Пусть
Ц.) = (^1(.),...) е ¿2(1,¡г),г0 = (¿10,г20,...) е ¡г+1
Функция г(г) = (г1(г),г2(г),...), г е I, называется решением системы (1.1) (соответствующим управлению Ц-)), если:
1) каждая ее координата гк(г) абсолютно непрерывна и почти всюду на отрезке I удовлетворяет соответствующему уравнению (1.1);
2) г(-) е С(1, ¡Г+1).
2 2
Известно [10], что если = (м'1(-), ^2(-),...) е Ь2(1, ¡г) и г0 е ¡г+1, то система (1) имеет единственное решение г(г) = (г1(г),г2(г),...), г е I, притом
г.к(г) = гк0е+ { (т)е ^к(гт, г е I, к = 1,2,...
0
Теперь определим дифференциальную игру, описываемую системой дифференциальных уравнений (1.2). Допустим, что и(-),и(-) б ¿(I, ¡1).
Определение 2. Функция «(•) = (м1(-),и2( ), •••) (соответственно и() = (и1(),и2( ),...)) удовлетворяющая условию ЦиО^ < р, (||I ^ о), называется управлением преследующего (убегающего), р и а — заданные положительные числа.
Определение 3. Функция У : I х ¡Г ^ ¡Г вида У(г, и) = ^0(г) + и, где ^0(-) = (^10(-), ^20(-), ...),
принадлежит классу ¿(I,¡1) и удовлетворяет условию Н'^О^ < р - а, называется стратегией преследователя.
Определение 4. Будем говорить, что стратегия У = У(г, и) гарантирует завершение
2
преследования, начинающегося из начального состояния г0 е ¡г+1, за время 9(У), если при любом управлении убегающего и(г), 0 < г < 9(У), для решения г(г) задачи Коши
(1.2) при u(t) = U(t, u(t)) выполняется равенство z(t ') = 0 при некотором t ' е [0,9((U)]. При этом число 9((U) называется гарантированным временем преследования.
Ясно, что любое число 9 ',9 ' > 9(U), также может рассматриваться как гарантированное время преследования, соответствующего стратегии U. Точную нижнюю грань чисел 9((U) обозначим через 9*((U).
Если 9*((U*) = inf 9*((U), то стратегию U* назовем оптимальной для преследующего, а
и
число 9* = 9*(U*) — минимаксным значением игры.
Для определения стратегии убегающего необходимо расширить систему (1.2), введя новые переменные p, q, удовлетворяющие соотношениям
p = -||u||2, p(0) = р2, q = -||и||2, q(0) = а2 (2.1)
Величины p(t) и q(t) выражают количество ресурсов управлений соответственно преследующего и убегающего, оставшихся к моменту времени t.
Определение 5. Пусть задано z0 е lr+1. Стратегией убегающего назовем функцию
V(t, z, p, q), V : I x l2+1 x [0, p2] x [0, g2] ^ l2 такую, что
1) для любого управления преследующего u = u(t), t e I, система (1.2), (2.1) при и = V(t, z(t), p(t), q(t)), имеет единственное решение;
2) выполняется неравенство ||V(-, z(-), p(), q(-))||I < a.
Определение 6. Будем говорить, что стратегия V гарантирует убегание на промежут-
2
ке [0,9(V)) из начального состояния z0 е lr+1, если при любом управлении преследующего u(t), t е I, окажется z(t) Ф 0 при всех t е [0,9(V)).
Пусть B*(V) — точная верхняя грань чисел 9(V), соответствующих стратегии V. Если 9*(V*) = sup 9*(V), то стратегию V* назовем оптимальной для убегающего, а число
V
9* = 9*(V*) — максиминным значением игры. Если В*(У) = B*(V), то это число называется оптимальным временем преследования.
Настоящая работа посвящена решению следующей задачи.
Задача. Найти совокупность всех начальных состояний z0 е ¡1+1, для которых существует стратегия, гарантирующая завершение преследования. Для таких начальных позиций найти оптимальное время преследования и построить оптимальные стратегии игроков.
3. Основные результаты. Имеет место следующее утверждение.
22 Теорема 1. Пусть p > а и z0 е lr+1. Если z0 е lr, то
1) уравнение
F(t) =f ZXrkRk(t)zk0 = (P - °)2; Rk(t) = 2Xk/(e2M -1) (3.1)
имеет единственный положительный корень t = 9;
2) число 0 — оптимальное время преследования.
Доказательство. Необходимое и достаточное условие сходимости ряда. Прежде всего мы изучим сходимость ряда F(t).
Лемма 1. Пусть z0 e l2+1. Тогда
1) если z0 e lr, то ряд F(t) сходится при любом фиксированном t > 0;
2
2) если этот ряд сходится хотя бы при одном значении t > 0, то г0 е 1Г ■
2
Доказательство. Пусть го е 1Г. Из неравенства (0 < 1/t, t > 0, следует
F(t) < G/t, G = Z 4г|с
2
Так как го s lr, то ряд G сходится. Следовательно, сходится и ряд F(t) при любом фиксированном t > о.
Обратно, предположим, что ряд F(t) сходится при некотором t = f > 0. Поскольку Rk(t') > 0, имеем неравенство
F(t') = F(t ')Xt+ F(t ')XtS1 > F(t ')XtS1
2t
из которого, так как Rfc(f) > 2/(e -1) при t' > 0, следует, что F(t) > 2GXk<i/(e2t'-1)
2
Поэтому ряд Gxk<i сходится. Сходимость же ряда Gxk>i вытекает из условия го s lr+i, поскольку
Zr. r 2 ^ х-1 1 r+1 2 ^ "V1 r+1 2
^kzk0 ^ L Kk zk00 ^ L ^k zk0
Xk >1 Xk >1
Тем самым доказано второе утверждение леммы.
Доказательство первой части теоремы. Сначала покажем, что уравнение (3.1) имеет единственный корень. С этой целью рассмотрим функцию F(t), t > 0. Согласно лемме 1 ряд F(f) сходится, а его сумма — функция убывающая, поскольку каждый член ряда обладает этим свойством.
Убедимся, что F(t) ^ 0 при t ^ да. В самом деле, пусть s — произвольное положительное число. Фиксируем t* > 0 и представим ряд F(t*) в виде суммы двух рядов:
N х
F(t*) = F1(t*) + F2(t*); F1(t*) = Z ^kRk(t*)zk0, Fi(t*) = £ xkRk(t*)zw
k=1 k=N+1
Число N выбирается так, чтобы сумма F2(t*) была меньше s/2. Так как Rk(t) ^ 0 при t ^ да для каждого к, то существует число T'(T' > t*), такое, что
F (t) < б/2, j = 1,2, t > T'
Поэтому, F(t) < e при t > Г'. Следовательно, F(t) ^ 0 при t ^ да.
С другой стороны, очевидно, F(t) ^ да при t ^ 0. Таким образом, уравнение (3.1) имеет единственный положительный корень t = 9. Доказательство второй части теоремы.
Задача преследования. Построим стратегию преследующего, гарантирующую завершение преследования на отрезке времени [0,9]. Пусть и(-) — произвольное управление убегающего. Стратегия будет действовать по формуле
Гии(0 + Uk(t),k = 1,2,..., t e [0,9] (3 2)
"k(t) = |o 0 >9 ' Uk0(t) = e 'Rk(9)Zk0 (3.2)
Допустимость построенной стратегии (3.2) следует из неравенства
l|u(-)||[0,S] ^ l|U0(-)||[0>S]+l|u(-)||[0JS]; %(•) = ("100, "200, ...) поскольку ||и(-)||[0;з] ^ о и в силу определения числа 9 ||U00||[0,S] = F (9) = р-о
Теперь покажем, что она гарантирует завершение преследования в момент времени 0. Действительно, поскольку
( I \
ЫО = е
-X к1
?-к0 - I(ик(5) - ик(5))еХ
к = 1,2,
1к О) = е
-ХкЗ
- | Як(9)е2Хк?.кФ
= е 1 к&&к0 - 2ко) = 0
Следовательно, г(9) = 0, что и требовалось.
Возможность убегания на промежутке времени [0,9). В предположении р > а рассмотрим задачу с точки зрения убегающего, когда преследующий действует произвольно.
Построение стратегии убегающего. Из соотношения (1) следует
Р(1) = Р2 ЧЮНад,
Ч(0 = ^2 ЧНОНм
Стратегию убегающего будем строить поэтапно. На первом этапе она будет действовать как программное управление
ик (I) = Як (9)-
-е к1ко,
к = 1,2,...
(3.3)
р-а
до тех пор, пока р(1) > ч(1), т.е. пока состояние (I, г, Р, Ч) находится в пределах области р > д. Отметим, что в начале игры это н
Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.