ИЗВЕСТИЯ РАН. ТЕОРИЯ И СИСТЕМЫ УПРАВЛЕНИЯ, 2014, № 5, с. 38-70
КОМПЬЮТЕРНЫЕ МЕТОДЫ
УДК 519.977
СИНТЕЗ ОПТИМАЛЬНЫХ ДИСКРЕТНЫХ СИСТЕМ АВТОМАТНОГО ТИПА ПРИ МГНОВЕННЫХ МНОГОКРАТНЫХ ПЕРЕКЛЮЧЕНИЯХ* © 2014 г. А. С. Бортаковский, А. А. Коновалова
Москва, МАИ (национальный исследовательский ун-т) Поступила в редакцию 14.04.14 г., после доработки 22.05.14 г.
Рассматривается дискретная система, моделирующая работу динамического автомата с памятью. В отличие от классической модели системы с дискретным временем, изменения состояний (переключения) которой происходят в заранее заданные моменты времени, изменения состояний системы автоматного типа могут быть в произвольные моменты времени. Более того, допускаются мгновенные многократные переключения. Выбор множества моментов времени, когда "срабатывает" автомат, а также числа переключений в каждый из этих моментов считается ресурсом управления и подлежит оптимизации. Доказаны достаточные условия оптимальности таких систем. Выведены уравнения для оптимального позиционного управления и функции цены (функции Беллмана). Разработан метод синтеза оптимального управления, который заключается в построении функции цены как нижней огибающей семейства вспомогательных функций (образующих). Применение этого метода демонстрируется на примерах.
DOI: 10.7868/S0002338814050047
Введение. Дискретная система автоматного типа (САТ) описывается рекуррентными уравнениями или включениями и служит математической моделью устройств управления в форме автомата с памятью. САТ является одной из составляющих в динамических системах с автоматной частью [1, 2], логико-динамических [3—7] и гибридных системах [8—13]. В отличие от классических моделей дискретных систем [14, 15], изменения состояний (переключения) которых происходят в заданные (тактовые) моменты времени, переключения САТ могут быть в произвольные, заранее не заданные моменты времени [16, 17]. Выбор тактовых моментов является одним из ресурсов управления и подлежит оптимизации.
В САТ так же, как в логико-динамических системах (ЛДС), возможны оптимальные процессы с мгновенными многократными переключениями [2]. К таким процессам сходятся минимизирующие последовательности, в которых тактовые моменты времени, не нарушая взаимного расположения, стремятся к одному предельному значению. Именно в этой предельной точке САТ совершает мгновенные многократные переключения. Как показывают примеры, такие процессы не являются исключениями, встречающимися только в специальных системах. Они возникают, например, в задачах управления линейными САТ с квадратичным критерием качества [18, 19]. Заметим, что в непрерывных [20], дискретных [14, 15], непрерывно-дискретных [21] и переключательных [4, 22—27] системах процессы с мгновенными многократными переключениями не возникают.
Мгновенные многократные воздействия необходимо учитывать в импульсных [28—30] и дискретно-непрерывных [31] системах, в которых траектории описываются дифференциальными уравнениями с мерой. Определяя решение такого дифференциального уравнения, многократные импульсные воздействия в один и тот же момент времени заменяются одним "суммарным" импульсом, интенсивность которого равна сумме воздействий всех импульсов. Совсем по-другому определяются траектории САТ в случае мгновенных многократных переключений в один и тот же момент времени. Отличия в определениях решения, видимо, связаны с тем, что используемые математические модели соответствуют объектам разной природы. Поясним это важное обстоятельство. Импульсные и дискретно-непрерывные системы часто применяются для описа-
* Работа выполнена при финансовой поддержке РФФИ (грант № 12-08-0464-а) и Минобрнауки РФ (задание № 1.1191.2014К).
ния динамики механических систем с ударами. С точки зрения механики два равных по интенсивности и противоположных по направлению импульсных воздействия на объект управления (например, два противоположных удара по твердому телу), произведенные последовательно практически в один и тот же момент времени (с бесконечно малой задержкой), полностью компенсируют друг друга. Механическая система "не заметит" такого двойного воздействия, поскольку ее траектория не изменится по сравнению с траекторией без этих ударов. Этому примеру в САТ соответствует процесс с двойным переключением: скачок из некоторого состояния в новое и обратно. Однако САТ применяется для описания информационных процессов, происходящих в контуре управления. С информационной точки зрения траектория с таким мгновенным двойным переключением состояния существенно отличается от траектории без переключений, поскольку было изменение сигнала. Например, включение и выключение сигнализации на охраняемом объекте вызывает определенную реакцию охраны, отличную от штатного режима работы, когда сигнализация не включалась. Другими словами, скачок САТ из данного состояния в другое состояние и обратно нельзя заменить сохранением данного состояния, как это происходит в механических системах. Поэтому в отличие от импульсных и дискретно-непрерывных систем в САТ рассматриваются траектории с мгновенными многократными переключениями.
Если зафиксировать тактовые моменты времени, то вместо САТ получим дискретную систему с мгновенными многократными переключениями. Такую систему можно использовать для приближенного решения задачи. Оптимальное для нее управление оказывается субоптимальным для САТ.
В статье рассматриваются задачи, в которых САТ в каждый тактовый момент времени совершает мгновенные многократные переключения, причем общее количество переключений конечно. Тактовые моменты времени, а также количество мгновенных переключений в каждый из них заранее не заданы и определяются в процессе оптимизации. Для таких задач на основе принципа расширения [32, 33] доказаны достаточные условия оптимальности. Показано, что функция цены (функции Беллмана) является нижней огибающей семейства образующих. Выведены уравнения для условной функции цены и соотношения для условного оптимального позиционного управления. Разработана методика построения функции цены как нижней огибающей последовательности вспомогательных функций (образующих). Применение этой методики демонстрируется на примерах.
1. Постановки задач. Тактовые моменты времени, в которые происходят изменения состояния (переключения) дискретной САТ, заранее не фиксированы. Поэтому функционирование САТ приходится рассматривать при непрерывном времени в отличие от дискретного времени, используемого в классических дискретных системах. Между тактовыми моментами времени САТ сохраняет свое состояние. Значит, ее траектории представляют собой кусочно-постоянные функции времени. Такие траектории будем называть траекториями с однократными переключениями.
Кроме траекторий с однократными переключениями будем рассматривать траектории с многократными переключениями в тактовый момент времени. Необходимость этого объясняется следующим обстоятельством. Поскольку моменты переключений состояния САТ заранее не фиксированы, то при оптимизации возможно появление минимизирующих последовательностей допустимых процессов, в которых несколько тактовых моментов времени сходятся к одному моменту. Значит, в этот момент времени система совершает несколько переключений сразу. Траектории таких процессов будем называть траекториями с многократными переключениями.
Рассмотрим разные постановки задач оптимального управления дискретными САТ, которые отличаются типом допустимых траекторий: с однократными или многократными переключениями в каждый тактовый момент времени, либо количеством переключений: с произвольным или ограниченным количеством переключений.
1.1. Процессы с однократными переключениями. Траектория дискретной САТ является непрерывной справа кусочно-постоянной функцией у : Т ^ Кт, определенной на промежутке Т = [?0, t1]. Точки разрыва функции у() образуют конечную возрастающую последовательность $1 = $ :(у( )) тактовых моментов времени, $1 с Т. В каждый тактовый момент времени состояние САТ изменяется, происходит переключение состояния, а функция у( ) имеет скачок. Такие траектории САТ будем называть траекториями с однократными переключениями (в тактовые моменты времени). Типовая траектория САТ с однократными переключениями в четырех тактовых моментах времени т1, т2, т 3, т4 изображена на рис. 1.
Рис. 1
Пусть поведение модели объекта управления описывается соотношениями
y(t) = g(t,y(t - 0), v(t)), (1.1)
v(t) e V(t,y(t - 0)), (1.2)
где y — вектор состояния системы, y e Y ^ Um; v — вектор управления, v e V с Uq; t — время, t e T = [t0, tj — промежуток времени функционирования системы, t0, t1 — заданные моменты начала и окончания процесса управления; g : T х Y х V ^ Um — вектор-функция, непрерывная справа по t вместе со своей частной производной gt, которая удовлетворяет при всех t, y условию
g((,y,o) = y, (1.3)
где o — некоторый нейтральный элемент, o s V. Многозначное отображение t ^ V(t, y) при любом фиксированном y s Y кусочно-непрерывно на Tпо включению и непрерывно справа почти при всех t е T.
Рекуррентное уравнение (1.1) описывает систему в форме автомата с памятью [3, 4]. Состояние y(t) формируется в зависимости от ее предшествующего состояния y(t - 0) и управляющего воздействия v(t). Из (1.3) следует, что при v(t) = o уравнение (1.1) принимает вид y(t) = y(t - 0), реализуя условие непрерывности слева траектории y() системы. Включение (1.2) ограничивает допустимые значения управления. Начальное состояние САТ задано:
y(t0 - 0) = y0. (1.4)
Здесь предполагается, что либо функция y(t) доопределена левым пределом y(t0 - 0), либо равенство (1.4) считается эквивалентной формой записи условия y(t0) = g(t0, y 0, v(t0)).
Множество допустимых процессов Э !(t0, y0) образуют пары функций (y(), v()), где y() — непрерывная справа кусочно-постоянная функция y : T ^ Y, точки разрыва которой образуют конечную возрастающую последовательность $1 = y(-)) тактовых моментов времени, $1 ^ T; v() — функция v : T ^ V, всюду на T\$1 равная нейтральному элементу (v(t) = o) и отличная от
него только на $ 1; причем пара функций (y(), v ()) всюду на T удовлетворяет
Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.