научная статья по теме ЗАДАЧА ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ, ПРИВОДИМАЯ К БЕСКОНЕЧНОЙ СИСТЕМЕ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ Математика

Текст научной статьи на тему «ЗАДАЧА ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ, ПРИВОДИМАЯ К БЕСКОНЕЧНОЙ СИСТЕМЕ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ»

ПРИКЛАДНАЯ МАТЕМАТИКА И МЕХАНИКА

Том 77. Вып. 5, 2013

УДК 62-50

© 2013 г. Г. И. Ибрагимов

ЗАДАЧA ОБ ОПТИМАЛЬНОМ ПРЕСЛЕДОВАНИИ, ПРИВОДИМАЯ К БЕСКОНЕЧНОЙ СИСТЕМЕ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ

Рассматривается игровая задача об оптимальном преследовании, приводимая к бесконечной системе дифференциальных уравнений с интегральными ограничениями по управлениям игроков. Цель преследующего — приведение системы в нулевое состояние, убегающий стремится воспрепятствовать этому. Показывается, что имеет место альтернатива по Н.Н. Красовскому: пространство состояний делится на две части так, что если начальное состояние лежит в одной части, то возможно завершение преследования, а если в другой части, то возможно убегание. Предлагаются конструктивные схемы построения оптимальных стратегий игроков, а также выводится явная формула для оптимального времени преследования.

1. Введение. В отличие от теории дифференциальных игр в конечномерных пространствах, получивших глубокое и всестороннее развитие, дифференциальные игры в системах с распределенными параметрами пока изучены недостаточно полно. Из исследований в этом направлении следует отметить результаты Дж.Л. Лионса [1] и Ю.С. Осипова [2]. Как известно, одним из эффективных методов изучения задач управления, описываемых параболическими и гиперболическими уравнениями, является метод декомпозиции, который позволяет свести исходную задачу к решению бесконечной системы обыкновенных дифференциальных уравнений [3—6].

Согласно методу, предложенному Ф.Л. Черноусько [5], задача управления в системах с распределенными параметрами заменяется задачей управления для бесконечной системы

ik = kZk + wk,zk(0) = Zkо, k = 1о<^2 ^к (11)

Zk, Zk о, Wk e U,

где wk — параметры управления, X k — собственные значения эллиптического оператора, соответствующего рассматриваемому уравнению.

С использованием этого метода были изучены [7—8] дифференциальные игры, описываемые параболическими уравнениями, сводящимися к системе

Z k = kZk - Uk + Uk, Zk (0) = Zk о, k = 1,2,... (О)

где

Zk, Uk, и k, Zk о e R, Z о = (Zio, Z20,...) * 0, 0 < Xi < X 2 < X k ^^

u = (ubu2,...) и и = (иьu2,...) — параметры управления преследующего и убегающего, и была решена задача оптимального преследования в игре с интегральными ограничениями по управлениям игроков [9].

Ниже рассматривается система (1.2) в предположении, что ХЬХ2,... — произвольные положительные числа.

2. Постановка задачи. Пусть Xк(к = 1,2,...) — произвольная последовательность положительных чисел, г — фиксированный параметр, рассматривается пространство

¡1 = {а = (аьа2,...): X^как < <»} со скалярным произведением

(а,в)г = X ^ к а кв к е ¡Г; 1|а|| = (X ^ к а к )

Здесь и всюду далее, если не оговорено иное, суммирование ведется по к от к = 1 до к = да.

2

Пусть I — произвольный отрезок времени, ¿(I, ¡г) — пространство, состоящее из последовательностей функций /(г) = (/Кг),/2(),...),г е I, с измеримыми координатами /к(г), удовлетворяющими неравенству

¥ (-)1 II (I х к [л'т )1/2 <®

2

Пусть С(1, ¡г+1) — пространство непрерывных функций, заданных на отрезке I со значе-

2

ниями г(г) = (г1(г),г2(г),...) в пространстве ¡г+1. Определение 1. Пусть

Ц.) = (^1(.),...) е ¿2(1,¡г),г0 = (¿10,г20,...) е ¡г+1

Функция г(г) = (г1(г),г2(г),...), г е I, называется решением системы (1.1) (соответствующим управлению Ц-)), если:

1) каждая ее координата гк(г) абсолютно непрерывна и почти всюду на отрезке I удовлетворяет соответствующему уравнению (1.1);

2) г(-) е С(1, ¡Г+1).

2 2

Известно [10], что если = (м'1(-), ^2(-),...) е Ь2(1, ¡г) и г0 е ¡г+1, то система (1) имеет единственное решение г(г) = (г1(г),г2(г),...), г е I, притом

г.к(г) = гк0е+ { (т)е ^к(гт, г е I, к = 1,2,...

0

Теперь определим дифференциальную игру, описываемую системой дифференциальных уравнений (1.2). Допустим, что и(-),и(-) б ¿(I, ¡1).

Определение 2. Функция «(•) = (м1(-),и2( ), •••) (соответственно и() = (и1(),и2( ),...)) удовлетворяющая условию ЦиО^ < р, (||I ^ о), называется управлением преследующего (убегающего), р и а — заданные положительные числа.

Определение 3. Функция У : I х ¡Г ^ ¡Г вида У(г, и) = ^0(г) + и, где ^0(-) = (^10(-), ^20(-), ...),

принадлежит классу ¿(I,¡1) и удовлетворяет условию Н'^О^ < р - а, называется стратегией преследователя.

Определение 4. Будем говорить, что стратегия У = У(г, и) гарантирует завершение

2

преследования, начинающегося из начального состояния г0 е ¡г+1, за время 9(У), если при любом управлении убегающего и(г), 0 < г < 9(У), для решения г(г) задачи Коши

(1.2) при u(t) = U(t, u(t)) выполняется равенство z(t ') = 0 при некотором t ' е [0,9((U)]. При этом число 9((U) называется гарантированным временем преследования.

Ясно, что любое число 9 ',9 ' > 9(U), также может рассматриваться как гарантированное время преследования, соответствующего стратегии U. Точную нижнюю грань чисел 9((U) обозначим через 9*((U).

Если 9*((U*) = inf 9*((U), то стратегию U* назовем оптимальной для преследующего, а

и

число 9* = 9*(U*) — минимаксным значением игры.

Для определения стратегии убегающего необходимо расширить систему (1.2), введя новые переменные p, q, удовлетворяющие соотношениям

p = -||u||2, p(0) = р2, q = -||и||2, q(0) = а2 (2.1)

Величины p(t) и q(t) выражают количество ресурсов управлений соответственно преследующего и убегающего, оставшихся к моменту времени t.

Определение 5. Пусть задано z0 е lr+1. Стратегией убегающего назовем функцию

V(t, z, p, q), V : I x l2+1 x [0, p2] x [0, g2] ^ l2 такую, что

1) для любого управления преследующего u = u(t), t e I, система (1.2), (2.1) при и = V(t, z(t), p(t), q(t)), имеет единственное решение;

2) выполняется неравенство ||V(-, z(-), p(), q(-))||I < a.

Определение 6. Будем говорить, что стратегия V гарантирует убегание на промежут-

2

ке [0,9(V)) из начального состояния z0 е lr+1, если при любом управлении преследующего u(t), t е I, окажется z(t) Ф 0 при всех t е [0,9(V)).

Пусть B*(V) — точная верхняя грань чисел 9(V), соответствующих стратегии V. Если 9*(V*) = sup 9*(V), то стратегию V* назовем оптимальной для убегающего, а число

V

9* = 9*(V*) — максиминным значением игры. Если В*(У) = B*(V), то это число называется оптимальным временем преследования.

Настоящая работа посвящена решению следующей задачи.

Задача. Найти совокупность всех начальных состояний z0 е ¡1+1, для которых существует стратегия, гарантирующая завершение преследования. Для таких начальных позиций найти оптимальное время преследования и построить оптимальные стратегии игроков.

3. Основные результаты. Имеет место следующее утверждение.

22 Теорема 1. Пусть p > а и z0 е lr+1. Если z0 е lr, то

1) уравнение

F(t) =f ZXrkRk(t)zk0 = (P - °)2; Rk(t) = 2Xk/(e2M -1) (3.1)

имеет единственный положительный корень t = 9;

2) число 0 — оптимальное время преследования.

Доказательство. Необходимое и достаточное условие сходимости ряда. Прежде всего мы изучим сходимость ряда F(t).

Лемма 1. Пусть z0 e l2+1. Тогда

1) если z0 e lr, то ряд F(t) сходится при любом фиксированном t > 0;

2

2) если этот ряд сходится хотя бы при одном значении t > 0, то г0 е 1Г ■

2

Доказательство. Пусть го е 1Г. Из неравенства (0 < 1/t, t > 0, следует

F(t) < G/t, G = Z 4г|с

2

Так как го s lr, то ряд G сходится. Следовательно, сходится и ряд F(t) при любом фиксированном t > о.

Обратно, предположим, что ряд F(t) сходится при некотором t = f > 0. Поскольку Rk(t') > 0, имеем неравенство

F(t') = F(t ')Xt+ F(t ')XtS1 > F(t ')XtS1

2t

из которого, так как Rfc(f) > 2/(e -1) при t' > 0, следует, что F(t) > 2GXk<i/(e2t'-1)

2

Поэтому ряд Gxk<i сходится. Сходимость же ряда Gxk>i вытекает из условия го s lr+i, поскольку

Zr. r 2 ^ х-1 1 r+1 2 ^ "V1 r+1 2

^kzk0 ^ L Kk zk00 ^ L ^k zk0

Xk >1 Xk >1

Тем самым доказано второе утверждение леммы.

Доказательство первой части теоремы. Сначала покажем, что уравнение (3.1) имеет единственный корень. С этой целью рассмотрим функцию F(t), t > 0. Согласно лемме 1 ряд F(f) сходится, а его сумма — функция убывающая, поскольку каждый член ряда обладает этим свойством.

Убедимся, что F(t) ^ 0 при t ^ да. В самом деле, пусть s — произвольное положительное число. Фиксируем t* > 0 и представим ряд F(t*) в виде суммы двух рядов:

N х

F(t*) = F1(t*) + F2(t*); F1(t*) = Z ^kRk(t*)zk0, Fi(t*) = £ xkRk(t*)zw

k=1 k=N+1

Число N выбирается так, чтобы сумма F2(t*) была меньше s/2. Так как Rk(t) ^ 0 при t ^ да для каждого к, то существует число T'(T' > t*), такое, что

F (t) < б/2, j = 1,2, t > T'

Поэтому, F(t) < e при t > Г'. Следовательно, F(t) ^ 0 при t ^ да.

С другой стороны, очевидно, F(t) ^ да при t ^ 0. Таким образом, уравнение (3.1) имеет единственный положительный корень t = 9. Доказательство второй части теоремы.

Задача преследования. Построим стратегию преследующего, гарантирующую завершение преследования на отрезке времени [0,9]. Пусть и(-) — произвольное управление убегающего. Стратегия будет действовать по формуле

Гии(0 + Uk(t),k = 1,2,..., t e [0,9] (3 2)

"k(t) = |o 0 >9 ' Uk0(t) = e 'Rk(9)Zk0 (3.2)

Допустимость построенной стратегии (3.2) следует из неравенства

l|u(-)||[0,S] ^ l|U0(-)||[0>S]+l|u(-)||[0JS]; %(•) = ("100, "200, ...) поскольку ||и(-)||[0;з] ^ о и в силу определения числа 9 ||U00||[0,S] = F (9) = р-о

Теперь покажем, что она гарантирует завершение преследования в момент времени 0. Действительно, поскольку

( I \

ЫО = е

-X к1

?-к0 - I(ик(5) - ик(5))еХ

к = 1,2,

1к О) = е

-ХкЗ

- | Як(9)е2Хк?.кФ

= е 1 к&&к0 - 2ко) = 0

Следовательно, г(9) = 0, что и требовалось.

Возможность убегания на промежутке времени [0,9). В предположении р > а рассмотрим задачу с точки зрения убегающего, когда преследующий действует произвольно.

Построение стратегии убегающего. Из соотношения (1) следует

Р(1) = Р2 ЧЮНад,

Ч(0 = ^2 ЧНОНм

Стратегию убегающего будем строить поэтапно. На первом этапе она будет действовать как программное управление

ик (I) = Як (9)-

-е к1ко,

к = 1,2,...

(3.3)

р-а

до тех пор, пока р(1) > ч(1), т.е. пока состояние (I, г, Р, Ч) находится в пределах области р > д. Отметим, что в начале игры это н

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком