ДОКЛАДЫ АКАДЕМИИ НАУК, 2013, том 452, № 3, с. 266-270
ТЕОРИЯ УПРАВЛЕНИЯ
УДК 517.977
АСИМПТОТИЧЕСКИ ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ФОРМЕ СИНТЕЗА ДЛЯ СИСТЕМЫ ЛИНЕЙНЫХ ОСЦИЛЛЯТОРОВ
© 2013 г. А. И. Овсеевич, А. К. Федоров
Представлено академиком Ф.Л. Черноусько 21.02.2013 г.
Поступило 25.03.2013 г.
БО1: 10.7868/80869565213280050
1. ВВЕДЕНИЕ
Одним из классических достижений теории управления является аналитическое решение задачи о быстрейшем успокоении линейного маятника. В данной работе мы рассматриваем следующую по сложности задачу успокоения произвольного числа линейных осцилляторов, связанных общим ограниченным управлением. По-видимому, в этом случае аналитическое построение оптимального синтеза невозможно, и даже нахождение численного решения — непростая задача. Мы ищем неоптимальное управление по обратной связи, приводящее систему в состояние равновесия. Полученное управление является асимптотически оптимальным: отношение времени приведения в нуль с помощью этого управления к минимально возможному близко к 1, если начальная энергия системы велика.
2. ПОСТАНОВКА ЗАДАЧИ
Уравнения движения управляемой системы N линейных осцилляторов с собственными частотами ю; следующие:
х = Ах + Бы,
X = (Х1, Уь ..
(
А =
0
хы Уы) 1
*
И
2Ы
0
0 1
-®ы 0
И,
|ы| < 1,
(1)
Б=
0 1
0 1;
(2)
Решение линейной задачи быстродействия полностью сводится к краевой задаче принципа максимума Понтрягина, отвечающей гамильто-
Институт проблем механики им. А.Ю. Ишлинского Российской Академии наук, Москва
ниану Н(х, у) = (Ах, у) + |Б*у| — 1 = тах{(Ах, у) + + (Бы, у) — 1}, где у е R2N — вектор сопряженных переменных (импульсов), а ы = 81§п( Б*у). В частности, знание импульса определяет управление.
Геометрически, принцип максимума состоит в том, что импульс (вектор сопряженных переменных) у в точке х представляет собой внутреннюю нормаль к области достижимости Э(Т(х)) (Т(х) — время достижения х исходя из нуля). Мы хотим использовать в качестве импульсов нормали к приближенной области достижимости.
Возможны и другие методы построения управления в форме синтеза, например, основанные на подходе Калмана к программному управлению линейными системами [1, 2].
3. ПРЕДЛАГАЕМЫЙ МЕТОД
В нашем методе последовательно применяются три стратегии. При больших энергиях в качестве импульсов используются нормали к приближенной области достижимости, близкой к истинной при больших временах движения [3, 4]. Найденное управление можно применять и при малых энергиях, но его квазиоптимальные свойства при этом теряются. Кроме того, это управление действует на систему примерно как сухое трение, поэтому в некоторых состояниях оно не дает возможности двигаться вообще. Возможны и другие нежелательные сценарии более общего характера: движение может происходить в окрестности предельного множества (аттрактора), не содержащего положения равновесия. Применение управления с уменьшенной верхней границей (2-й этап управления) позволяет отсрочить это нежелательное затягивание в аттрактор. Это позволяет системе дойти до достаточно малой окрестности нуля, где нужно переходить к заключительной стадии управления.
На последнем, третьем этапе используется подход к построению локального синтеза [5, 6], основанный на общих функциях Ляпунова. Этот
метод работает в некоторой достаточно малой окрестности нуля. Для того чтобы попасть в эту малую окрестность, нужно, чтобы она содержала внутри себя зоны затягивания в аттрактор предшествующего управления. Достигнутое на втором этапе управления уменьшение данной зоны оказывается достаточным для этой цели.
4. УПРАВЛЕНИЕ СИСТЕМОЙ ПРИ БОЛЬШИХ ЭНЕРГИЯХ
Один из основных результатов [3], примененный к нашей системе, состоит в следующем: область достижимости Э(7) имеет при T ^ да асимптотику вида TD, где Q. — некоторое фиксированное выпуклое тело. Точнее говоря, пусть импульс p записан в виде p = (p), где pi = (£,,-, n), i = 1, 2, ..., N, tii — переменная, двойственная к xi, П — переменная, двойственная к yi, и пусть zi =
= (n2 + ю-2 )1/2. В случае отсутствия резонансов
(нетривиальных соотношений уm, ю(- = 0, mi е Z)
опорная функция HT области достижимости D( T) имеет при T ^ да асимптотику вида
2п 2п n
У z, cos ф,
ht(p ) =
T
( 2 п)
N
J ... j
1
dq1 ... dqN + o ( T) =
Tx =
dp
(4)
Запишем фазовый вектор х в виде х = рф, где р > 0, а ф е ю = дО. В терминах уравнения (4) р = Т, а ф дИа(р)
ф = —. в этих координатах уравнения дви-
др
жения имеют вид
Р = -
1
I2,5
д x
ф = A ф + -I Вы + ф р'
д2' в
дх
(6)
Для функции р = р(х) также выполняется уравнение типа эйконала
Ha(p) = 1, Р = д2.
д х
= Оно "двойственно" к уравнению р'
|дН?] др J
(7)
= 1 по-
= Т£(г) + о( Т), (3)
а опорная функция выпуклого компакта О задается
2
главным членом ^(¿). При N = 1 ^(¿) = -|г1 , при
п
N = 2 функция ^ может быть выражена через эллиптические интегралы.
Идея нашего метода построения управления состоит в том, чтобы использовать в качестве приближения к области достижимости Э (Т) множество 70, а нормали к нему в качестве импульсов. Если фазовый вектор х лежит на границе множества 70, то
д Иа (р)
верхности ю. Уравнение (7) может быть использовано для усреднения правой части первого из равенств (6) по времени и лежит в основе доказательства следующего утверждения об асимптотической оптимальности управления (5).
Теорема 1. Рассмотрим эволюцию величины р под действием управления (5). Пусть М = шт{р(0), р(0, (}. Тогда при М^ +да имеем
р ( 0 ) - р ( г) г
= 1 + o (1).
(8)
При использовании любого другого допустимого управления
для некоторого импульса p = p(x). Отметим, что опорная функция Hn дифференцируема и уравнение (4) имеет ровно одно решение ввиду гладкости границы множества Q, установленной в [4]. Управление по обратной связи задается формулой
ы (х) = - sign (В, р (х)). (5)
4.1. Асимптотическая оптимальность управления (5)
Определим "полярную" систему координат (при N = 1 получим настоящую систему полярных координат на плоскости), в которой хорошо описывается движение под действием управления и.
Р(0ЬР(0< 1 + o (1). (9)
4.2. Сравнение с принципом максимума
К вопросу об асимптотической оптимальности управления (5) можно подойти также с помощью сравнения дифференциальных уравнений движения под действием этого управления с уравнениями принципа максимума Понтрягина. Для этого нужно понять как меняется импульср(х), фигурирующий в уравнении (5), со временем. Такое описание дается следующим уравнением:
р = - A *р + Вы, где
в = д-р в .
д х
(10)
Заметим, что если бы второго члена В и в последнем уравнении не было, то для у = —р оно совпадало бы с уравнением принципа максимума для
сопряженных переменных. Однако матрица
д 2 р д х2
является однородной функцией степени —1 от х, и потому упомянутый второй член имеет порядок
0
0
268
ОВСЕЕВИЧ, ФЕДОРОВ
величины О^при больших х, а следовательно,
при больших х мал. Заметим, что условие максимума ы = 81§п(Б, у) = —81§п(Б, р) для управления (5) выполнено. Можно показать, что гамильтониан Н(х, у) = 0 "в среднем". В самом деле, (Ах, у) =
= — [Ах, = 0, а среднее значение |Б*у| = |Б*р| V ЭхУ
близко к 1 при достаточно больших х согласно теореме 1.
Таким образом, для вектора (х, у), где у = — ^ ,
дх
при больших х уравнения принципа максимума с малой ошибкой выполняются "в среднем".
4.3. Эффективность управления (5) в ближней зоне
Согласно теореме 1, время движения от линии уровня р = М к линии уровня р = N под действием управления (5) асимптотически есть (М — N>(1 + + о(1)), если величины М, N и М — N очень велики. Покажем теперь, что верна неасимптотическая оценка: время движения Тесть О(М — Щ, если только М, N и М — N больше некоторой константы С(А, Б), зависящей исключительно от параметров нашей системы маятников. Соотношение (6) сводит требуемую оценку к неравенству
T< j|p| dt < Jj (p, B)\dt + 1 T. Выбирая константу i i
C = C(A, B) достаточно большой, получим, что T ^ J\ (p, B)|dt, а это есть неравенство (11) в дру-
I
гой записи. Таким образом имеем следующее утверждение.
Теорема 2. Пусть движение от линии уровня р = M к линии уровня р = N под действием управления (5) происходит в области р(х) > C(A, B) на интервале времени целой длины T, где C(A, B) — некоторая (достаточно большая) константа, зависящая исключительно от нашей управляемой системы маятников. Тогда T< c(M — N), где c = c(A, B) — некоторая положительная константа.
При переходе к уменьшенному управлению
uU(x) = Uu(x), U < 1, (12)
получаем следующий результат.
Тео р е ма 3. Пусть движение от линии уровня р = M к линии уровня р = N под действием управления (12) происходит в области р(х) > UC(A, B) на интервале времени целой длины T, где C(A, B) —
константа из теоремы 2. Тогда T < (M — N), где c = c(A, B) — другая константа из теоремы 2.
J|(p, B)|dt > cT,
(11)
где с = с(А, Б) — некоторая положительная константа. Для доказательства (11) воспользуемся важной леммой об устойчивой наблюдаемости автономных линейных систем.
Лемма 1. Пусть х = ах, у = рх — вполне наблюдаемая автономная линейная система. Тогда для решения I уравнения I = + /на интервале I целой длины Т > 1 выполнена априорная оценка
|| г| dt < || р г| ^ + || /\ dt (здесь < — символ Вино-
II I
градова).
Применим лемму к уравнению (10) с фазовым вектором р, наблюдением у = (р, Б) и правой частью/ = Б ы. Предположим, что на всем интервале времени I целой длины Т движение в силу системы х = Ах + Бы происходит в области р(г) > С. Тогда |/1 = О[ 1) на всем интервале. Кроме того, для
4.4. Особые движения
Согласно уравнениям (6) величина р при использовании управления (5) не возрастает, но может оставаться неизменной, если на некотором участке управляемого движения выполняется условие
б) = (р, Б) = 0. В частности, это условие долж-
дх ;
но выполняться на любом ю-предельном множестве (аттракторе), не содержащем положение равновесия.
Рассмотрим "двойственную" динамическую систему, описывающую движение вектора р = ^ (ф).
д х
~ д2р
Полагая Б = —-- Б, получим согласно формуле (10)
дх
p = - A*p + Bu, (p, B) = 0,
(13)
(p, AB)
Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.