научная статья по теме ЭФФЕКТИВНЫЙ СУБОПТИМАЛЬНЫЙ АЛГОРИТМ УПРАВЛЕНИЯ ИГРОКОМ-СОЮЗНИКОМ В КОНФЛИКТНОЙ ЗАДАЧЕ Кибернетика

Текст научной статьи на тему «ЭФФЕКТИВНЫЙ СУБОПТИМАЛЬНЫЙ АЛГОРИТМ УПРАВЛЕНИЯ ИГРОКОМ-СОЮЗНИКОМ В КОНФЛИКТНОЙ ЗАДАЧЕ»

ИЗВЕСТИЯ РАИ. ТЕОРИЯ И СИСТЕМЫ УПРАВЛЕНИЯ, 2007, № 1, с. 7-12

УПРАВЛЕНИЕ В СТОХАСТИЧЕСКИХ СИСТЕМАХ ^^^^^^ И В УСЛОВИЯХ НЕОПРЕДЕЛЕННОСТИ

УДК 62-50

ЭФФЕКТИВНЫЙ СУБОПТИМАЛЬНЫЙ АЛГОРИТМ УПРАВЛЕНИЯ ИГРОКОМ-СОЮЗНИКОМ В КОНФЛИКТНОЙ ЗАДАЧЕ

© 2007 г. И. В. Щербань

Ростов-на-Дону, Ростовский военный ин-т РВСН Поступила в редакцию 22.02.05 г., после доработки 06.04.06 г.

Рассмотрен подход, позволяющий сформировать субоптимальную стратегию игрока-союзника в нелинейной задаче позиционного управления с обратной связью, возможную для реализации в реальном времени управления объектами. При этом игроку-союзнику неизвестен точно будущий образ действий противника, а стратегия этого игрока выбирается из условия "наихудших" действий противника и физических возможностей своих и противника.

Введение. Значительный объем публикаций, посвященных решению конфликтных задач, указывает на существенные трудности учета всех известных концепций, однако в большинстве случаев подход, основанный на методах минимакса и использующий альтернативное локальное условие седловой точки, является наиболее распространенным [1-3]. При этом сложность системы уравнений Айзекса в частных производных во многих случаях не позволяет только на их основе решать стандартным путем ту или иную прикладную задачу, а поиски специализированных методов приводят к постоянному появлению новых построений, порождаемых другими трактовками дифференциальных игр.

В [4] представлен метод, не преследующий достижения глобального экстремума, а реализующий так называемый "лексикографический подход" и позволяющий в аналитическом виде определить оптимальную стратегию игрока-союзника на основе предварительного формирования наиболее вероятной стратегии противника. Недостатком такого подхода, сводящего игровую задачу к поиску управления объектом, описываемым квазилинейными дифференциальными уравнениями в частных производных, также является сложность его вычислительной реализации в бортовой ЦВМ в реальном масштабе времени управления многомерным объектом.

Ниже рассматривается методика формирования субоптимальной стратегии игрока-союзника в нелинейной задаче позиционного управления с обратной связью. Использование подобной методики приводит к достаточно простому алгоритму, удобному для реализации современными бортовыми ЦВМ в реальном времени управления объектами, в том числе в задачах, когда условие существования седловой точки дифференциальной игры не выполняется.

1. Постановка задачи. Приведем далее классическую постановку конфликтной задачи о преследовании разнотипных объектов [1, 2, 4, 5]. Характер задачи зависит от того, какую информацию о движении своем и противника имеет игрок. Выделим случай, когда игроку-союзнику ничего неизвестно о текущем состоянии противника, которому, в то же время, текущее состояние игрока-союзника известно точно. Примем, что союзнику точно известны начальный момент времени реализации игры, начальные условия функционирования свои и противника, а также физические возможности обоих игроков.

Введем У - «-мерное, 2 - га-мерное, и - г-мер-ное, Ж - ^-мерное евклидовы пространства с элементами у, z, и, м соответственно; t - время, t е Т = = tk\ - промежуток времени функционирования объектов, где моменты ^ и tk заданы; V1 - подмножество из Т х У х и, V2 - подмножество из Т х х 2 х Ж; сечения Vи V2при каждом фиксированном t е Т не пусты; у, и), z, м>) - «-мерная и га-мерная непрерывные нелинейные функции. Текущие состояния преследуемого объекта описываются фазовым вектором у(0, а объекта-преследователя - вектором z(t).

Множество пар функций [у(^, и(0] удовлетворяющих условиям: у^) непрерывна, кусочно-дифференцируема на Т; и(0 кусочно-непрерывна на Т, (и у(0, и(0) е V1;

^ = /у(^ у(и(0), у(^о) = уо, (1.1)

обозначим 01. Аналогично В2 - множество пар функций [г(0, м>^)], удовлетворяющих условиям: ^(0 непрерывна, кусочно-дифференцируема на Т; м>^) кусочно-непрерывна на Т, (^ z(t), м>^)) е V2;

^ = /г( ^ 2 (t), М (t)), 2 ( tо ) = ¿о. (1.2)

Целью объекта-преследователя г является минимизация конечного расстояния между противниками, а преследуемого объекта у - его максимизация. Поэтому векторы управлений и и ц> объектов должны одновременно обеспечивать оптимумы (максимум и минимум) некоторой заданной скалярной функции Q\y(tk), г(гк)], характеризующей это расстояние. Учитывая ограниченность расходуемых на управление ресурсов - интенсивностей управления

^ Г р

и2(г)йг и м>)(г)йг,

^ i =1 t01 = 1

поиск допустимых управляющих функций объектов в сформулированной задаче традиционно осуществляется из условия максимина [1, 5]

3 = тахтт

Q [ у (1к), г (гк )]

(1.3)

+

11[ (г) К1( г) w (г) - ит( г) К2 (г) и (г)] йг

= /( г, х (г), и (г), w (г)), (2.1)

йх = /у (г, у (г), и (г)) < /(г, г(г), w(г))

где х(г) - непрерывная кусочно-дифференцируемая, удовлетворяющая условиям

X (г 0) = |уо

хп

функция.

Таким образом, далее вместо множеств Вь В2 будем рассматривать множество В троек функций [х(г), и(г), w(t)], для которых всюду на Т выполняются дифференциальные соотношения (2.1). Предлагается использовать лексикографический подход к условной оптимизации [4, 6, 7]. Как известно, в двухуровневой иерархической системе синтез лексикографического оптимального управления игрока-союзника на множестве реализаций оптимальных стратегий игрока-противника обес-

печивает величину наилучшего гарантированного результата.

Обозначим проекцию множества В на множество всех функций и(г, х) через Ви, а сечение множества В при каждом фиксированном и - как Ви. Любой паре [х0, w(t)] при фиксированном и соответствует единственная траектория х(г) уравнения (2.1). Другими словами, множеством допустимых функций w е Ж порождается пучок (ансамбль) траекторий, а Ви(г) - сечение в каждый текущий момент времени г. Выделим на множестве Ви(г) фазовую точку, для которой функция w(t) обеспечивает условие

и, W) = т£ и, w). (2.2)

№ (г) е Ви( г)

Каждому элементу и множества Ви поставим в

соответствие множество Ви с Ви с элементами W . Тогда лексикографическая оптимальная синтезирующая функция и (г, х) отвечает условию [6]

и, W ) = 8ир и, w),

(2.3)

где

где К1(г), К2(0 - симметричные положительно определенные функции-матрицы соответствующих размерностей.

Предлагаемая задача антагонистической дифференциальной игры с дискриминацией игрока-союзника достаточно широко распространена на практике, например, при управлении высокоскоростными беспилотными летательными аппаратами военного назначения.

2. Решение задачи. Зададим множество X = У х 2 с элементами х и сформируем (п + т)-мерную функцию /

Ви = I и е и\3(и, w) = М и, w), Ви с Ви к

[ w е Ви

Следовательно, в каждый момент времени оптимальное управление игрока-союзника синтезируется на основе информации о текущем векторе х(7), формируемом в свою очередь при естественном условии, что противник осуществляет управление W (г) на основе собственных наблюдений за действиями игрока-союзника с целью его поражения. Лексикографические оптимальные функции и (г, х) и W (г), не требующие существования седловой точки и последовательно определяемые из условий (2.2), (2.3), в то же время соответсвуют и условию (1.3) [6].

Решение задачи сводится к следующему. Предварительно в текущий момент времени г необходимо, согласно условию (2.2), найти (п + т)-мерную вектор-функцию Ч(г), удовлетворяющую вместе с парой [х0, W (г)] системе

йх

йх = /(г, х(г), и(г), w(г),Ч(г)), х(го) = хо, (2.4)

йЧ = Э/т ( г, х(г), и(г), w(г), Ч(г)) йг дх

1(*) д Q1 Ч( ^) = - Т.

Ч г),

(2.5)

Н( г, х (г), и (г), w (г ),Ч( г)) = тахН(г, х(г), и(г), w(г), Ч(г)),

и

w

w

где

Н = -1 м"К1 М + X/;

м = К

о! /1

! д м

X:

функции д//дху (7, у = 1, п + га) определены и непрерывны всюду на Т хXх и х Ж, а затем из (2.3) найти и (^ х) для системы (2.4), (2.5).

Очевидно, что на основе традиционных методов выполнить второй этап (отыскать оптимальную функцию и для динамической системы канонических сопряженных уравнений (2.4), (2.5)) не представляется возможным. Для преодоления этой трудности далее поступим следующим образом. Вместо двухточечной краевой системы (2.4), (2.5), где

/(^ х(t), и(t), М(t), Х(t))= /(t, х(t), и(t), Х(t)),

будем использовать ее линейное приближение на основе инвариантного погружения [8]

ёх = /(^ х(t), и(t), Р(t), t),

ёР _ д/(t, х(t), и(t), Р(t))

дх

Р (t)

+ Р (t)

д/т ( t, х ( t) , и (t), Р ^) ) дх

(2.6)

(2.7)

% =

Р

х

(V)

размерности [(« + га) + (п + га)2] х 1, в котором вектор Р(^ образован из элементов матрицы Р по известному [9] правилу, а также и соответствующую ему систему дифференциальных уравнений:

" (t), и(t)) "2(t), и(t)) = "(t), и(t)),

ёРм / ё

(2.8)

где

"1 = /■ р2-== {¥/"+Р",д£

%(t) - (п + га) + (п + га)2-мерная функция удовлетворяющая условиям

%(tо) = у 2о Ро1т,

" - кусочно-непрерывная функция на Т х X и дифференцируемая по совокупности аргументов на Т х X везде, исключая конечное число сечений при постоянном t. Непосредственный вид функции "2 в каждом практическом случае может быть определен на основе известного математического аппарата исследования возмущений многомерных систем [9], развитого также в работах [10, 11].

Таким образом система канонических сопряженных уравнений преобразуется к единой векторной форме (2.8), позволяющей на базе традиционных подходов осуществить синтез оптимальной функции и (^ %). При этом необходимо учесть, что компоненты вектор-функции управления зависят от фазовых переменных субвектора х(0 обобщенного вектора %(0. Поэтому для исключения однозначно возникающей при решении задачи неизвестной частной производной ди/дх предполагается использовать традиционный прием разложения компонент вектора и(^ х) по некоторой заданной системе многомерных функций (степенных, ортогональных и т.д.) - {ах(х), а^х), ..., а/х)}, где число I членов ряда определяется, исходя из компромисса "точность - вычислительные затраты". Тогда, обозначив вектор известных функций выбранного ряда |ах а2 ... аг|т = А, представим аппроксимацию вектора и(^ х) в виде

и(t, х) = (I % А(х)т)и(t) = АЕ(х)и'(t), (2.9)

, . I II

где и = | и11 ... и11 и21

*21

.

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком