научная статья по теме АНАЛИТИЧЕСКОЕ РЕШЕНИЕ ЛИНЕЙНО-КВАДРАТИЧНОЙ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ПРИ НАЛИЧИИ ОГРАНИЧЕНИЙ НА ЗНАЧЕНИЯ УПРАВЛЕНИЯ Кибернетика

Текст научной статьи на тему «АНАЛИТИЧЕСКОЕ РЕШЕНИЕ ЛИНЕЙНО-КВАДРАТИЧНОЙ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ПРИ НАЛИЧИИ ОГРАНИЧЕНИЙ НА ЗНАЧЕНИЯ УПРАВЛЕНИЯ»

ИЗВЕСТИЯ РАН. ТЕОРИЯ И СИСТЕМЫ УПРАВЛЕНИЯ, 2014, № 1, с. 87-94

ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ

УДК 517.977.55

АНАЛИТИЧЕСКОЕ РЕШЕНИЕ ЛИНЕЙНО-КВАДРАТИЧНОЙ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ПРИ НАЛИЧИИ ОГРАНИЧЕНИЙ

НА ЗНАЧЕНИЯ УПРАВЛЕНИЯ* © 2014 г. Ш. А. Айпанов, З. Н. Мурзабеков

Рассматривается задача оптимального управления нестационарными линейными системами с закрепленными концами траекторий и квадратичным функционалом. Предлагается метод построения синтезирующего управления с учетом ограничений на значения управления. Задача решена с использованием множителей Лагранжа специального вида.

БО1: 10.7868/80002338813060024

Введение. В работах в области моделирования и автоматического управления можно найти различные примеры математической постановки и методы решения задач оптимального управления (ЗОУ) [1—4]. В простейших моделях систем автоматического управления рассматриваются так называемые линейно-квадратичные задачи (ЛК-задачи) с линейным объектом управления и с квадратичным функционалом. Впервые аналитическое решение ЛК-задачи без ограничений на управление и со свободными правыми концами траекторий было получено в работах А.М. Ле-това и Р.Е. Калмана [5, 6].

Многие ЗОУ рассматриваются в двух постановках. Согласно одной из них оптимальное управление ищется как функция времени и начального состояния системы (программное управление). Другая постановка задачи предполагает синтез оптимального управления с обратной связью, т.е. выбор входного сигнала в виде некоторой функции от текущего состояния управляемой системы и времени. В основе решения ЗОУ в первой постановке лежит принцип максимума Понтрягина [7] (решение сводится к соответствующей двухточечной краевой задаче), а решение задачи во второй постановке основано на методе динамического программирования (задача сводится к решению уравнения Беллмана [8]). Разработка различных способов построения алгоритмов управления, обладающих необходимыми для приложений свойствами, является актуальной задачей современных информационных технологий [9].

В данной работе рассматривается ЛК-задача с ограничениями на управление и закрепленными концами траекторий, когда требуется перевести систему из заданного начального состояния в желаемое конечное состояние за фиксированный интервал времени. Предлагается конструктивный алгоритм управления, основанный на принципе обратной связи с учетом ограничений на управление. ЗОУ для систем с закрепленными концами траекторий возникает, например, при исследовании динамики робототехнических и электроэнергетических систем, химических и ядерных реакторов, космических аппаратов [10, 11].

Данная статья явлется дальнейшим расширением результатов, полученных в [12, 13], на случай ЛК-задачи с ограничениями на управление.

1. Постановка задачи. Рассматривается система управления, описываемая дифференциальным уравнением вида

Казахстан, Алма-Ата, НИИ математики и механики КазНУ Поступила в редакцию 08.08.12 г., после доработки 10.07.13 г.

x(t) = A(t)x(t) + B(t)u(t), t0 < t < T,

(1.1)

с заданными начальным состоянием

x(tö) — x0

(1.2)

* Работа выполнена при финансовой поддержке Комитета науки МОН РК (грант № 0704/ГФ2).

и конечным состоянием

x(T) = 0, (1.3)

с ограничениями на значения управления

u(t) е U(t) = {u\ a(t) < u(t) < p(t)}, t0 < t < T. (1.4)

Здесь x(t) — я-вектор состояния объекта; u(t) — m-вектор кусочно-непрерывных управляющих воздействий; A(t), B(t) — матрицы размерностей (n х n), (n х m) соответственно (элементы этих матриц являются непрерывными функциями); a(t), p(t) — m-векторы, компоненты которых представляют собой кусочно-непрерывные функции. Динамика системы рассматривается в интервале времени [t0,T], где t0 и T — заранее заданные начальный и конечный моменты времени. Предполагается, что система (1.1) вполне управляема в момент времени t0. Целевой функционал имеет вид

T

J(u) = - jïx'(t)Q(t)x(t) + u'(t)R(t)u(t)]dt, (1.5)

2

t0

где Q(t) — положительно-полуопределенная (n x n)-матрица, R(t) — положительно-определенная (m x т)-матрица. Здесь и далее штрих (') означает операцию транспонирования.

Ставится задача: найти синтезирующее управление u = u(x, t), которое удовлетворяет ограничению (1.4) и переводит систему (1.1) из заданного начального состояния (1.2) в конечное состояние (1.3) (в начало координат) за фиксированный интервал времени [t0, T], минимизируя при этом функционал (1.5).

Задача (1.1)—(1.4) (без требования минимизации целевого функционала (1.5)) называется задачей управляемости. Такая задача не всегда имеет решение, поскольку из-за ограниченности управления мы можем, например, не успеть перевести систему из одного состояния в другое за заданное время. В дальнейшем предполагаем, что задача управляемости (1.1)—(1.4) разрешима, т.е. множество допустимых управлений не пусто. Это является необходимым условием разрешимости рассматриваемой ЗОУ (1.1)—(1.5).

Отметим, что в более общей постановке ЛК-задачи с закрепленными концами траекторий в отличие от (1.1)—(1.5) может рассматриваться объект управления, динамика которого описывается дифференциальным уравнением

x(t) = A(t)x(t) + B(t)u(t) + f(t), t0 < t < T

с конечным условием x(T) = xT, не обязательно совпадающим с началом координат, и с квадратичным целевым функционалом

т

1(и) = [11 х' (0б(0х(0 + х' (г)Р(г)и(г) +1 и' (г)Щ)и(г) + х '(г)р(г) + и' (ОКО + а(г) йг. •42 2

и,

Во избежание громоздких формул рассмотрим упрощенную постановку задачи, поскольку в указанном выше более общем случае задача может быть решена аналогичным образом.

2. Алгоритм решения задачи. Введем симметрическую (п х п)-матрицу К(г), удовлетворяющую дифференциальному уравнению Риккати

К(г) = -А '(г)К(г) - К(г)А(г) + К(№(г)К(г) - 0(г), К(Т) = Кт, (2.1)

где S(t) = Б(г)Я~1(г)В'(г). Обозначим через Ж((, Т) симметрическую (п х п)-матрицу вида

W (t,T) = j Ф& T)S (т)Ф '(t, т) d т.

Здесь Ф((, т) = Щ()@-\т) — матрица размерности (п х п); 0(0 — фундаментальная матрица решений дифференциального уравнения вида у(г) = А(г)у(г), где А (г) = А(г) - ^(г)К (г). Пусть п-вектор-функ-ция д(г) удовлетворяет дифференциальному уравнению

q(t) = -A(t) - S(t)K(t)]'q(t) + W l(t,T)B(t)^{x(t),t), q(t0) = q0, (2.2)

где

ф(х, t) = R_1(t)[X^x,t) - X2(x,t)], X^x,t) = R(t)max{0;a(t) - ®(x,t)}, (23)

X2(x, t) = R(t)max{0; ф, t) - p(t)}, ф, t) = -R~1(t)ff(t) [K(t)x + q(t) ].

Решение рассматриваемой ЗОУ (1.1)—(1.5) с использованием вышеуказанных обозначений может быть сформулировано в виде следующей теоремы.

Теорема. Пусть в интервале t0 < t < T матрица R(t) с неотрицательными элементами является положительно-определенной, а матрица Q(t ) — неотрицательно-определенной. Предположим также, что W0 = W(t0, T) > 0, система (1.1) вполне управляема в момент времени t0 и задача управляемости (1.1)—(1.4) имеет решение. Тогда:

1) оптимальная траектория движения системы x*(t), t0 < t < T в ЗОУ (1.1)—(1.5) удовлетворяет дифференциальному уравнению

x(t) = [A(t) - S(t)K(t)]x(t) + B(i)cp(x(i), t) - S(t)q(t), x(t0) = x0, (2.4)

где матрица K(t) и вектор q(t) определяются из (2.1) и (2.2) соответственно;

2) оптимальное управление имеет вид

u*(x(t),t) = ®(x*(t),t) + ф(х*(0,t), (t0 < t < T), (2.5)

где значения вектор-функций œ(x*(t), t) и q(x*(t), t) вычисляются по формуле (2.3).

В Приложении приведено доказательство теоремы на основе достаточных условий оптимальности динамических систем с закрепленными концами траекторий, полученных в [13] с использованием множителей Лагранжа специального вида, и показана возможность выбора вектора q0, обеспечивающего выполнение конечного условия (1.3).

Для нахождения оптимальной траектории движения системы и оптимального управления в ЗОУ (1.1)—(1.5) можно воспользоваться следующим алгоритмом.

Шаг 1. Проинтегрировать в интервале [t0, T] систему дифференциальных уравнений

K(t) = -A '(t)K(t) - K(t)A(t) + K(t)S(t)K(t) - Q(t), K (T ) = KT, (2.6)

W(t, T) = [A(t) - S(t)K(t)]W(t, T) + W(t, T) [A(t) - S(t)K(t)] ' - S(t), W(T, T) = 0, (2.7)

где KT — произвольная неотрицательно определенная симметрическая матрица. В результате интегрирования системы (2.6), (2.7) определяются матрицы K0 = K(t0), W0 = W(t0, T) и вычисляется вектор

q0 = W-1(t0, T)x0. (2.8)

Шаг 2. Проинтегрировать в интервале [t0, T] систему дифференциальных уравнений K(t) = -A '(t)K(t) - K(t)A(t) + K(t)S(t)K(t) - Q(t), K(t0) = K0,

W(t,T) = [A(t) - S(t)K(t)]W(t,T) + W(t,T)[A(t) - S (t )K (t )] '- S(t), W(t0,T) = W>, (2

x(t) = [A(t) - S (t )K(t )]x(t) + B(t)p(x(t), t) - S (t )q(t), x(t 0) = x0, .

q(t) = -A(t) - S(t)K(t)]'q(t) + WT)B(t)pp(x(t), t), q(^) = q0.

Полученное решение x(t) соответствует искомой оптимальной траектории движения системы x*(t), t0 < t < T. В процессе интегрирования вычисляются значения функций œ(x*(t), t), ^j(x*(i),t), X2(x*(t),t), 9(x*(t), t) по формуле (2.3) и, следовательно, можно найти значения оптимального управления u*(x(t), t), t0 < t < T, по формуле (2.5).

Отметим, что при a(t) < œ(x*(t),t) < p(i) имеем q(x*(t), t) = 0, поэтому при выполнении этих условий нет необходимости в вычислении обратной матрицы W ~l(t,T ) в правой части системы дифференциальных уравнений в (2.9). Кроме того, матрицы K (t) и W(t, T) в (2.6), (2.7), (2.9) являются симметрическими, поэтому для уменьшения объема вычислений при решении этих систем дифференциальных уравнений с помощью численных методов можно рассматривать только верхние треугольные части этих матриц (вместе с диагональными элементами).

Пример. Рассмотрим задачу оптимального управления: минимизировать функционал

T

J(u) = 1 1"[х2(0 + 2x2(0 + U 2(г)^ ^ П

2 и

к

при условиях

хх(1) = х2«), Ш = и(), к < г < Т; х^) = 2, Х2^с) = 1 х1(Т) = 0, х2(Т) = 0; -1 < и(г) < 1, (г0 < г < Т); г0 = 0, Т = 6.

Дифференциальное уравнение Риккати (2.6) для матрицы К (г) при задании конечного условия

'2 1

K (T) = ,

1 2

будет иметь решение K(t) = K(T), t0 < t < T. Искомое оптимальное управление записывается в виде (2.5), где

ю(х*, t) = -x* - 2x* - q2(t), ф(х*, t) = max{0; -1 - ю(х*, t)} - max{0; ю(х*, t) - 1}. Для рассматриваемой задачи имеем

W0 = W(t0,T) = f] = f 2482010.319 -2929586.246 0

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком