научная статья по теме ЗАДАЧА ВЫВОДА И СОПРОВОЖДЕНИЯ НЕЛИНЕЙНОГО ОБЪЕКТА ПО ЗАДАННОЙ ТРАЕКТОРИИ Автоматика. Вычислительная техника

Текст научной статьи на тему «ЗАДАЧА ВЫВОДА И СОПРОВОЖДЕНИЯ НЕЛИНЕЙНОГО ОБЪЕКТА ПО ЗАДАННОЙ ТРАЕКТОРИИ»

Автоматика и телемеханика, № 1, 2015

Нелинейные системы

(g 2015 г. В.Н. АФАНАСЬЕВ, д-р техн. наук (afanval@mail.ru)

(Национальный исследовательский университет "Высшая школа экономики",

Москва)

ЗАДАЧА ВЫВОДА И СОПРОВОЖДЕНИЯ НЕЛИНЕЙНОГО ОБЪЕКТА ПО ЗАДАННОЙ ТРАЕКТОРИИ1

Проблема оптимального управления формулируется для класса нелинейных объектов, представимых в виде объектов с линейной структурой и параметрами, зависящими от состояния. Предполагается, что система подвергается неконтролируемым ограниченным возмущениям. Линейность структуры преобразованной нелинейной системы и квадратичный функционал качества позволяют при синтезе оптимального управления перейти от необходимости поиска решений уравнения Гамильтона - Яко-би - Айзекса к уравнению типа Риккати с параметрами, зависящими от состояния. Задача вывода и сопровождения по заданной траектории нелинейного объекта, находящегося под воздействием неконтролируемых возмущений, рассматривается в ключе дифференциальной игры. Приведенный пример иллюстрирует использование теоретических результатов статьи.

1. Введение

Как известно, наиболее полно решены задачи конструирования регуляторов для динамических систем, поведение которых описывается линейными дифференциальными уравнениями. В силу этого основные и популярные методы синтеза управляющих воздействий для нелинейных систем связаны с приемами линеаризации нелинейных уравнений с использованием рядов Тейлора, представления нелинейных уравнений в эквивалентной форме линейных уравнений, но с параметрами, зависящими от состояния, линеаризацией нелинейных систем обратной связью по состоянию или по выходу. В данной статье проблема оптимального управления формулируется для класса нелинейных объектов, представимых в виде объектов с линейной структурой и параметрами, зависящими от состояния (State Dependent Coefficients -SDC). Линейность структуры преобразованной нелинейной системы и квадратичный функционал качества позволяют при синтезе оптимального управления перейти от необходимости поиска решений уравнения Гамильтона -Якоби - Беллмана к уравнению типа Риккати с параметрами, зависящими от состояния (State Dependent Riccati Equation - SDRE). Это и составляет основу SDRE-метода синтеза оптимальных нелинейных систем управления.

Впервые, судя по ссылкам, встречающимся в публикациях по использованию метода SDRE в задачах проектирования регуляторов для нелинейных объектов, проблема управления нелинейными объектами при представлении

1 Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проект № 13-08-00665).

их в виде линейных моделей с параметрами, зависящими от состояния, и функционалами, матрицы штрафа которых также зависят от состояния объекта, была сформулирована в начале 60-х гг. ХХ в. [1]. С конца 90-х гг. этот метод привлекает все большее внимание ученых и практиков. К настоящему моменту опубликовано достаточно большое количество теоретических работ и примеров успешного использования ВБИЕ-метода при построении систем управления подвижными объектами, производственными и экологическими системами. Известны, например, решения задач управления искусственной человеческой поджелудочной железой, контроля положения космического корабля, управления химическим реактором и др. [2-8]. Вопросы разработки метода ББИЕ рассматривались в ряде докладов на 17-м (2008, Сеул, Корея) и 18-м (2011, Милан, Италия) конгрессах ИФАК. Несмотря на имеющиеся достаточно убедительные примеры применения ББИЕ-метода, остается множество проблем, связанных с ограничениями, накладываемыми на систему, с неоднозначностью преобразований исходной системы, с построением эффективных алгоритмов решений матричных уравнений Риккати с параметрами, зависящими от состояния, в темпе функционирования системы управления. Среди нерешенных проблем имеется задача вывода и сопровождения по заданной траектории нелинейного объекта, подвергающегося воздействию неконтролируемых возмущений.

Следует отметить, что синтез оптимального управления для линейных объектов в задаче слежения возможен только в случае заданного интервала времени управления. Для случая линейных инвариантных во времени систем решение задачи слежения за постоянной траекторией может быть получено как приближенное (субоптимальное) при неограниченно возрастающем времени переходного процесса [9].

В статье задача вывода и сопровождения по заданной траектории нелинейного объекта, подвергающегося воздействию неконтролируемых возмущений, рассматривается в ключе дифференциальной игры, что позволяет получить конструктивные решения в классе управлений с гарантирующим результатом.

Статья организована следующим образом. В разделе 2 содержится постановка задачи управления, осуществляется синтез оптимальных управлений с использованием ББИЕ-метода. В разделе 3 на основе анализа устойчивости системы определяются параметры регулятора. В разделе 4 представлены соображения по формированию мажорирующей модели нелинейной системы и осуществляется синтез гарантирующего управления. В разделе 5 помещен пример использования предлагаемого метода для построения гарантирующего управления спутником на желаемой траектории.

2. Нелинейный оптимальный регулятор

2.1. Постановка задачи

Рассмотрим детерминированную нелинейную систему

_) ж(£) = / (х) + (л(х)т(г) + д2(х)п(г), х(0) = хо,

( . ) У(1) = Ох(1).

Здесь x(t) € Rn - состояние системы; x € Пх, Xo € Qx - множество возможных начальных условий системы; y € Rm, m ^ n - выход системы; u € Rr -управление; w € Rk - возмущение; f (x), gi(x), g2(x) - непрерывные и действительные матрицы. Предполагается, что для всех x система (2.1) управляема и наблюдаема [10], t € R+. Кроме того будем полагать, что функции f (x), gi(x), g2(x) достаточно гладкие (Со) такие, чтобы через любые (0,xo) € € t х Qx проходило бы одно и только одно решение уравнения (2.1) x(t, 0,xo) и был бы единственным соответствующий выход системы y(t) = Cx(t, xo).

Предполагается, что неконтролируемое возмущение w(t) характеризуется следующими соотношениями: |w^(t)| ^ Oi(x(t)), i = 1,... ,k, t ^ 0, где Ci(x(t)) ^ 0 для всех x(t) € Пх. Эти условия запишем в виде

(2.2) |w(t)| ^ ^(x(t)), V t ^ 0.

Пусть z(t) € Rm есть "желаемая" траектория выхода системы y(t) и

(2.3) z(t) = G(t)z(t) + n(t), z(0) = zo,

где G(t) - действительная и непрерывная матрица, n(t) € Rm - процесс (детерминированный или стохастический), под воздействием которого происходит изменение "желаемой" траектории. Тогда рассогласование между выходом системы и желаемой траекторией будет

(2.4) e(t) = z(t) - y(t).

Рассматривая возмущение w(t) как действие некоторого игрока, противодействующего успешному выполнению задачи управления, сформулируем задачу в ключе дифференциальной игры двух игроков Gw и Gu.

Организация управлений u(t) и w(t) будет осуществляться с использованием принципа обратной связи по состоянию. Введем функционал качества дифференциальной игры

оо

(2.5) J{e,u,w) = ^ J {ет(t)Qe(t) + vT{t)Ru{t) - wT{t)Pw{t)} dt.

o

Здесь симметрическая матрица Q может быть, по крайней мере, положительно полуопределенной, симметрические матрицы R и P положительно определенные. Дополнительные требования к значениям параметров матриц R и P будут определены в третьем разделе статьи.

Таким образом, задача, рассматриваемая в работе, заключается в нахождении для объекта (2.1) управляющего воздействия u(t), минимизирующего функционал (2.5), при "противодействующем управлении w(t)".

2.2. Уравнение Гамильтона - Якоби - Айзекса

Решение задачи, поставленной в разделе 2.1, существует на множестве Qx, если существует непрерывная положительно определенная функция V : Qx — R+, определенная в виде

(2.6) V(е) = inf sup J(е, u, w),

ueu

где е(Ь) = г(Ь) — Ох(Ь), для всех х € допустимых управлений и € и и т € Ш. Предполагается, что функция V(е) непрерывно дифференцируема по х на В идеале значение назначаемой функции V есть стационарное решение задачи динамического программирования, связанное с дифференциальным уравнением в частных производных первого порядка Гамильтона - Якоби - Ай-зекса

HI

0,

где H - гамильтониан

(2.7)

f дУ{е) \ dx(t)

Н = inf sup <J ^ ^ <J [f(x) + gi(x)w(t) + g-2{x)u(t) ] +

+

2

\z(t) - Cx(t)]T Q \z(t) - Cx(t)] + uT(t)Ru(t) - wT(t)PwT(t)

Для задач, в которых £ € [0, то), дV(е)/&Ь = 0 и V(е) есть стационарное решение уравнения

inf sup { \ [f(x) + gi(x)w(t) + g2(x)u(t) ] +

(2.8)

+

\ dx(t)

\z(t) - Cx(t)]T Q \z(t) - Cx(t)! + uT(t)Ru(t) - wT(t)Pw(t)

0

с краевыми условиями V(0) = 0 [10], оптимальные управления w(t) и u(t) удовлетворяют условиям

^ = uT(t)R + ^Щд2(х) = о, d2H/du2 = R > 0. du dx(t)

Откуда

(2.9) w(t) = p-'gj(x) (, u(t) = -R-'g^x) (9V&V

V dx(t) J

где dV (e)/dx - решение уравнения

dx{t) J

(2.10)

^jfifW + \ ш - CxWT Q ш - +

i

2.3. Уравнение Риккати с параметрами, зависящими от состояния

В основе методологии ББИЕ лежит "расширенная линеаризация", называемая также как "параметризация системы коэффициентами, зависящими от состояния" (ББС-линеаризация) [7].

w

i

i

2

Предположение 1. Вектор-функция f (x) непрерывна по x € Пх и f (0) = 0.

Предположение 2. Матрицы gi(x), g2(x) непрерывны по x € Пх и gi(x) =0, g2(x) = 0, Vx.

При выполнении предположений 1 и 2 с использованием SDC-линеариза-ции исходная нелинейная система (1) может быть представлена [10] в виде системы

(211) x(t) = A(x)x(t) + gi(x)w(t)+ g2 (x)u(t), x(0) = xo,

( . ) y(t) = Cx(t),

которая имеет линейную структуру и A(x)x(t) = f (x). Отметим, что такое представление вектора f (x) не является уникальным.

Предположение 3. Система (2.11) является управляемой и наблюдаемой, т.е. выполняются следующие условия:

rank [gi(x) A(x)gi(x) A2(x)gi(x) ... An-i(x)gi(x) = n, rank [g2(x) A(x)g2(x) A2(x)g2(x) ... An-i(x)g2(x) = n,

rank

CT AT(x)CT (AT)T(x)CT ... (AT)n-:l (x)CT

= n, Vx € Пх.

Наличие свойств, сформулированных в предположении 3, является необходимым и достаточным условием для существования принципиальной возможности решения задачи управления динамической системой (2.11).

Уравнение Гамильтона - Якоби - Айзекса (2.10) с уче

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком