ИЗВЕСТИЯ РАН. ТЕОРИЯ И СИСТЕМЫ УПРАВЛЕНИЯ, 2014, № 1, с. 87-94
ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ
УДК 517.977.55
АНАЛИТИЧЕСКОЕ РЕШЕНИЕ ЛИНЕЙНО-КВАДРАТИЧНОЙ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ПРИ НАЛИЧИИ ОГРАНИЧЕНИЙ
НА ЗНАЧЕНИЯ УПРАВЛЕНИЯ* © 2014 г. Ш. А. Айпанов, З. Н. Мурзабеков
Рассматривается задача оптимального управления нестационарными линейными системами с закрепленными концами траекторий и квадратичным функционалом. Предлагается метод построения синтезирующего управления с учетом ограничений на значения управления. Задача решена с использованием множителей Лагранжа специального вида.
БО1: 10.7868/80002338813060024
Введение. В работах в области моделирования и автоматического управления можно найти различные примеры математической постановки и методы решения задач оптимального управления (ЗОУ) [1—4]. В простейших моделях систем автоматического управления рассматриваются так называемые линейно-квадратичные задачи (ЛК-задачи) с линейным объектом управления и с квадратичным функционалом. Впервые аналитическое решение ЛК-задачи без ограничений на управление и со свободными правыми концами траекторий было получено в работах А.М. Ле-това и Р.Е. Калмана [5, 6].
Многие ЗОУ рассматриваются в двух постановках. Согласно одной из них оптимальное управление ищется как функция времени и начального состояния системы (программное управление). Другая постановка задачи предполагает синтез оптимального управления с обратной связью, т.е. выбор входного сигнала в виде некоторой функции от текущего состояния управляемой системы и времени. В основе решения ЗОУ в первой постановке лежит принцип максимума Понтрягина [7] (решение сводится к соответствующей двухточечной краевой задаче), а решение задачи во второй постановке основано на методе динамического программирования (задача сводится к решению уравнения Беллмана [8]). Разработка различных способов построения алгоритмов управления, обладающих необходимыми для приложений свойствами, является актуальной задачей современных информационных технологий [9].
В данной работе рассматривается ЛК-задача с ограничениями на управление и закрепленными концами траекторий, когда требуется перевести систему из заданного начального состояния в желаемое конечное состояние за фиксированный интервал времени. Предлагается конструктивный алгоритм управления, основанный на принципе обратной связи с учетом ограничений на управление. ЗОУ для систем с закрепленными концами траекторий возникает, например, при исследовании динамики робототехнических и электроэнергетических систем, химических и ядерных реакторов, космических аппаратов [10, 11].
Данная статья явлется дальнейшим расширением результатов, полученных в [12, 13], на случай ЛК-задачи с ограничениями на управление.
1. Постановка задачи. Рассматривается система управления, описываемая дифференциальным уравнением вида
Казахстан, Алма-Ата, НИИ математики и механики КазНУ Поступила в редакцию 08.08.12 г., после доработки 10.07.13 г.
x(t) = A(t)x(t) + B(t)u(t), t0 < t < T,
(1.1)
с заданными начальным состоянием
x(tö) — x0
(1.2)
* Работа выполнена при финансовой поддержке Комитета науки МОН РК (грант № 0704/ГФ2).
и конечным состоянием
x(T) = 0, (1.3)
с ограничениями на значения управления
u(t) е U(t) = {u\ a(t) < u(t) < p(t)}, t0 < t < T. (1.4)
Здесь x(t) — я-вектор состояния объекта; u(t) — m-вектор кусочно-непрерывных управляющих воздействий; A(t), B(t) — матрицы размерностей (n х n), (n х m) соответственно (элементы этих матриц являются непрерывными функциями); a(t), p(t) — m-векторы, компоненты которых представляют собой кусочно-непрерывные функции. Динамика системы рассматривается в интервале времени [t0,T], где t0 и T — заранее заданные начальный и конечный моменты времени. Предполагается, что система (1.1) вполне управляема в момент времени t0. Целевой функционал имеет вид
T
J(u) = - jïx'(t)Q(t)x(t) + u'(t)R(t)u(t)]dt, (1.5)
2
t0
где Q(t) — положительно-полуопределенная (n x n)-матрица, R(t) — положительно-определенная (m x т)-матрица. Здесь и далее штрих (') означает операцию транспонирования.
Ставится задача: найти синтезирующее управление u = u(x, t), которое удовлетворяет ограничению (1.4) и переводит систему (1.1) из заданного начального состояния (1.2) в конечное состояние (1.3) (в начало координат) за фиксированный интервал времени [t0, T], минимизируя при этом функционал (1.5).
Задача (1.1)—(1.4) (без требования минимизации целевого функционала (1.5)) называется задачей управляемости. Такая задача не всегда имеет решение, поскольку из-за ограниченности управления мы можем, например, не успеть перевести систему из одного состояния в другое за заданное время. В дальнейшем предполагаем, что задача управляемости (1.1)—(1.4) разрешима, т.е. множество допустимых управлений не пусто. Это является необходимым условием разрешимости рассматриваемой ЗОУ (1.1)—(1.5).
Отметим, что в более общей постановке ЛК-задачи с закрепленными концами траекторий в отличие от (1.1)—(1.5) может рассматриваться объект управления, динамика которого описывается дифференциальным уравнением
x(t) = A(t)x(t) + B(t)u(t) + f(t), t0 < t < T
с конечным условием x(T) = xT, не обязательно совпадающим с началом координат, и с квадратичным целевым функционалом
т
1(и) = [11 х' (0б(0х(0 + х' (г)Р(г)и(г) +1 и' (г)Щ)и(г) + х '(г)р(г) + и' (ОКО + а(г) йг. •42 2
и,
Во избежание громоздких формул рассмотрим упрощенную постановку задачи, поскольку в указанном выше более общем случае задача может быть решена аналогичным образом.
2. Алгоритм решения задачи. Введем симметрическую (п х п)-матрицу К(г), удовлетворяющую дифференциальному уравнению Риккати
К(г) = -А '(г)К(г) - К(г)А(г) + К(№(г)К(г) - 0(г), К(Т) = Кт, (2.1)
где S(t) = Б(г)Я~1(г)В'(г). Обозначим через Ж((, Т) симметрическую (п х п)-матрицу вида
W (t,T) = j Ф& T)S (т)Ф '(t, т) d т.
Здесь Ф((, т) = Щ()@-\т) — матрица размерности (п х п); 0(0 — фундаментальная матрица решений дифференциального уравнения вида у(г) = А(г)у(г), где А (г) = А(г) - ^(г)К (г). Пусть п-вектор-функ-ция д(г) удовлетворяет дифференциальному уравнению
q(t) = -A(t) - S(t)K(t)]'q(t) + W l(t,T)B(t)^{x(t),t), q(t0) = q0, (2.2)
где
ф(х, t) = R_1(t)[X^x,t) - X2(x,t)], X^x,t) = R(t)max{0;a(t) - ®(x,t)}, (23)
X2(x, t) = R(t)max{0; ф, t) - p(t)}, ф, t) = -R~1(t)ff(t) [K(t)x + q(t) ].
Решение рассматриваемой ЗОУ (1.1)—(1.5) с использованием вышеуказанных обозначений может быть сформулировано в виде следующей теоремы.
Теорема. Пусть в интервале t0 < t < T матрица R(t) с неотрицательными элементами является положительно-определенной, а матрица Q(t ) — неотрицательно-определенной. Предположим также, что W0 = W(t0, T) > 0, система (1.1) вполне управляема в момент времени t0 и задача управляемости (1.1)—(1.4) имеет решение. Тогда:
1) оптимальная траектория движения системы x*(t), t0 < t < T в ЗОУ (1.1)—(1.5) удовлетворяет дифференциальному уравнению
x(t) = [A(t) - S(t)K(t)]x(t) + B(i)cp(x(i), t) - S(t)q(t), x(t0) = x0, (2.4)
где матрица K(t) и вектор q(t) определяются из (2.1) и (2.2) соответственно;
2) оптимальное управление имеет вид
u*(x(t),t) = ®(x*(t),t) + ф(х*(0,t), (t0 < t < T), (2.5)
где значения вектор-функций œ(x*(t), t) и q(x*(t), t) вычисляются по формуле (2.3).
В Приложении приведено доказательство теоремы на основе достаточных условий оптимальности динамических систем с закрепленными концами траекторий, полученных в [13] с использованием множителей Лагранжа специального вида, и показана возможность выбора вектора q0, обеспечивающего выполнение конечного условия (1.3).
Для нахождения оптимальной траектории движения системы и оптимального управления в ЗОУ (1.1)—(1.5) можно воспользоваться следующим алгоритмом.
Шаг 1. Проинтегрировать в интервале [t0, T] систему дифференциальных уравнений
K(t) = -A '(t)K(t) - K(t)A(t) + K(t)S(t)K(t) - Q(t), K (T ) = KT, (2.6)
W(t, T) = [A(t) - S(t)K(t)]W(t, T) + W(t, T) [A(t) - S(t)K(t)] ' - S(t), W(T, T) = 0, (2.7)
где KT — произвольная неотрицательно определенная симметрическая матрица. В результате интегрирования системы (2.6), (2.7) определяются матрицы K0 = K(t0), W0 = W(t0, T) и вычисляется вектор
q0 = W-1(t0, T)x0. (2.8)
Шаг 2. Проинтегрировать в интервале [t0, T] систему дифференциальных уравнений K(t) = -A '(t)K(t) - K(t)A(t) + K(t)S(t)K(t) - Q(t), K(t0) = K0,
W(t,T) = [A(t) - S(t)K(t)]W(t,T) + W(t,T)[A(t) - S (t )K (t )] '- S(t), W(t0,T) = W>, (2
x(t) = [A(t) - S (t )K(t )]x(t) + B(t)p(x(t), t) - S (t )q(t), x(t 0) = x0, .
q(t) = -A(t) - S(t)K(t)]'q(t) + WT)B(t)pp(x(t), t), q(^) = q0.
Полученное решение x(t) соответствует искомой оптимальной траектории движения системы x*(t), t0 < t < T. В процессе интегрирования вычисляются значения функций œ(x*(t), t), ^j(x*(i),t), X2(x*(t),t), 9(x*(t), t) по формуле (2.3) и, следовательно, можно найти значения оптимального управления u*(x(t), t), t0 < t < T, по формуле (2.5).
Отметим, что при a(t) < œ(x*(t),t) < p(i) имеем q(x*(t), t) = 0, поэтому при выполнении этих условий нет необходимости в вычислении обратной матрицы W ~l(t,T ) в правой части системы дифференциальных уравнений в (2.9). Кроме того, матрицы K (t) и W(t, T) в (2.6), (2.7), (2.9) являются симметрическими, поэтому для уменьшения объема вычислений при решении этих систем дифференциальных уравнений с помощью численных методов можно рассматривать только верхние треугольные части этих матриц (вместе с диагональными элементами).
Пример. Рассмотрим задачу оптимального управления: минимизировать функционал
T
J(u) = 1 1"[х2(0 + 2x2(0 + U 2(г)^ ^ П
2 и
к
при условиях
хх(1) = х2«), Ш = и(), к < г < Т; х^) = 2, Х2^с) = 1 х1(Т) = 0, х2(Т) = 0; -1 < и(г) < 1, (г0 < г < Т); г0 = 0, Т = 6.
Дифференциальное уравнение Риккати (2.6) для матрицы К (г) при задании конечного условия
'2 1
K (T) = ,
1 2
будет иметь решение K(t) = K(T), t0 < t < T. Искомое оптимальное управление записывается в виде (2.5), где
ю(х*, t) = -x* - 2x* - q2(t), ф(х*, t) = max{0; -1 - ю(х*, t)} - max{0; ю(х*, t) - 1}. Для рассматриваемой задачи имеем
W0 = W(t0,T) = f] = f 2482010.319 -2929586.246 0
Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.