научная статья по теме ПОСТРОЕНИЕ САМООБУЧАЮЩИХСЯ НЕЧЕТКИХ КОНТРОЛЛЕРОВ ПО МЕТОДОЛОГИИ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ Кибернетика

Текст научной статьи на тему «ПОСТРОЕНИЕ САМООБУЧАЮЩИХСЯ НЕЧЕТКИХ КОНТРОЛЛЕРОВ ПО МЕТОДОЛОГИИ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ»

ИЗВЕСТИЯ РАИ. ТЕОРИЯ И СИСТЕМЫ УПРАВЛЕНИЯ, 2007, № 2, с. 94-100

== АДАПТИВНОЕ УПРАВЛЕНИЕ

УДК 519.7

ПОСТРОЕНИЕ САМООБУЧАЮЩИХСЯ НЕЧЕТКИХ КОНТРОЛЛЕРОВ ПО МЕТОДОЛОГИИ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ

© 2007 г. М. В. Караваев

Москва, Институт системного программирования РАН Поступила в редакцию 10.06.06 г.

Рассматривается метод построения адаптивных нечетких контроллеров по методологии автономного адаптивного управления. Знания в системе представляются в виде нечетких продукционных правил. Автоматическая генерация новых правил осуществляется путем кластеризации получаемых в процессе работы системы эмпирических данных методом вычетов. Адаптация системы происходит с применением вычисляемой для каждого правила специальной величины, "степени адекватности", которая задает вес правила в процессе управлении. Разработанный метод может использоваться для построения прикладных систем управления динамическими объектами. Экспериментально эта возможность показана на задачах балансировки перевернутым маятником и стабилизации углового движения космического аппарата.

Введение. С повышением сложности задач, решаемых современными системами управления, возрастает необходимость наделения систем способностями самообучения и адаптации к изменяющимся свойствам объекта управления и внешней среды. Одной из технологий, на основе которой строится большое число современных систем управления, и в тоже время, для которой механизмы самообучения и адаптации пока недостаточно проработаны, является нечеткая логика [1, 2]. Ряд методов, рассмотренных, например, в [3], решают задачу адаптации в определенных границах, однако не претендуют на полноту.

В работе рассматривается один из подходов к построению самообучающихся адаптивных нечетких контроллеров на основе метода автономного адаптивного управления (ААУ), развиваемого в ИСП РАН. Методология ААУ [4-5] позволяет строить адаптивные системы управления, решающие в комплексе задачи формирования и распознавания образов (ФРО), принятия решений, представления информации в базе знаний (БЗ), основываясь на концептуальной модели нервной системы живых организмов. Системы ААу имеют две целевые функции: обеспечение выживания объекта управления и накопление знаний о законах его взаимодействия со средой. Эти целевые функции задаются при помощи моделирования аппарата эмоций.

Раскроем ряд понятий, определения которых в различных научных школах и контекстах могут расходиться с определениями, используемыми автором.

Под автономностью будем понимать независимость системы управления от внешних источников знаний и учителя - автономная система по-

лучает знания только из своего собственного опыта взаимодействия со средой обитания. Под это определение не попадают ни нейроконтрол-леры, использующие знания, которые закладываются предварительно при помощи обучающей выборки, ни традиционные нечеткие контроллеры, законы управления в которые вводятся экспертами до начала работы.

Адаптивность предполагает способность системы корректировать свое поведение (алгоритм управления) в зависимости от изменений каких-либо внешних условий с целью максимизации целевой функции.

Исходя из требования автономности, разрабатываемая система должна обладать способностью к самообучению, т.е. к автоматическому нахождению нечетких правил, описывающих функциональные взаимосвязи вход-выход, в процессе своей работы. А учитывая требование адаптивности, система должна иметь возможность изменять правила в БЗ адекватно свойствам объекта управления и среды.

Для построения такого адаптивного самообучающегося нечеткого контроллера необходимо решить две задачи, не свойственные системам управления этого типа:

1) автоматическое создание нечетких правил управления, основанных на эмпирических данных, которые получают в режиме реального времени;

2) автоматическое уточнение правил в процессе управления в зависимости от изменений свойств объекта управления и среды.

Решение этих двух задач, а также разработка комбинированной структуры нечеткого контроллера и системы ААУ и составляет суть данной работы.

Метод построения адаптивных нечетких контроллеров может использоваться для создания прикладных систем управления динамическими объектами.

1. Постановка задачи. Пусть в среде, близкой к стационарной, находится объект управления (ОУ) с управляющей системой (УС) на борту. Для наблюдения за параметрами ОУ и среды УС имеет N входных переменных, связанных с датчиками, а для воздействия на среду и объект - М выходных переменных, связанных с исполнительными механизмами. Датчики отображают значения некоторых параметров среды и ОУ во множества значений входных переменных х1, х2, ..., хN УС. Множества значений выходных переменных УС обозначим у1, у2, ..., уМ. В общем случае все эти множества бесконечны, но имеют верхнюю и нижнюю границы. Тогда входные и выходные множества УС будут равны соответственно декартовым произведениям:

X = X] х х2 х ... х хы и У = у 1 ху2 х ... хум. (1.1)

Первая целевая функция УС (обеспечение выживания ОУ в среде) в соответствии с методологией ААУ задается при помощи априорно заложенного множества S = {^1, s2, ..., sp} оценок состояний ОУ (которое дискретно, полностью упорядочено и состоит из конечного числа элементов), отношения порядка S: s1 < s2 < ... < sP и определенной на подмножестве X множества X функции Е(х), ставящей каждому элементу X в соответствие один элемент множества S (здесь использование подмножества X основано на том, что не все датчики измеряют параметры среды и ОУ, непосредственно влияющие на выживание ОУ).

Например, если на входных полюсах системы установились значения, отображающиеся на элемент s1 множества S, который обозначает минимальную оценку, то о состоянии ОУ в этот момент времени можно сказать как о критическом (в нем ОУ близок к разрушению). Если же отображение в какой-то момент времени происходит на элемент sP, то целевая функция управления достигнута. В некоторых случаях состояние sP должно быть недостижимо, так как в противном случае УС теряет мотивацию к действиям (к этим случаям не относятся, например, системы стабилизации).

Пусть закон управления в системе задается набором нечетких правил управления вида (1.2), отличающегося от традиционных правил, которые используются в нечетких контроллерах:

О)-1 & Л) 0[/Е (0[), (1.2)

^-1 -1

где О, и Л}- - нечеткие подмножества множеств X и Y, которые в терминах методологии ААУ описывают образы исходной ситуации со-

вершенного действия на некотором такте работы системы, й'к - нечеткое подмножество множества X, характеризующее результирующую ситуацию на следующем такте, а E( O'k) - значение целевой функции (оценка образа результата).

Основными задачами нечеткой системы управления, решение которых необходимо найти в работе, помимо традиционных фаззификации, логического вывода и дефаззификации, являются: генерация правил управления, входных и выходных функций принадлежности, а также метод коррекции правил в соответствии с изменениями свойств ОУ и среды.

2. Генерация правил. Правила вида (1.2) генерируются системой автоматически с использованием кластеризации эмпирических данных методом вычетов (subtractive method) [2], являющимся модификацией распространенного метода "гор" (mountain method). Оба эти метода определяют центры кластеров, основываясь на вычислении для каждой точки ее потенциала ("плотности" точек, окружающих ее). За центр первого кластера выбирается точка с наибольшим потенциалом, после чего ее потенциал инициализируется нулем, а потенциалы других точек уменьшаются на величину, обратно пропорциональную евклидову расстоянию от выбранного центра кластера. После этого за центр следующего кластера принимается другая точка с максимальным потенциалом и т.д. Критерием останова обычно служит необходимое количество центров кластеров или разница между потенциалами двух последующих центров (если она превышает заранее заданный порог, процесс продолжается, в противном случае - прекращается).

Разница между этими двумя методами заключается только в том, что в методе вычетов в качестве центров предполагаемых кластеров выступают непосредственно входные точки, вместо узлов сетки в методе "гор", чем устраняется главный недостаток этого метода - экспоненциальный рост времени работы алгоритма от размерности входных данных. Время работы алгоритма по методу вычетов зависит лишь от количества входных векторов, причем эта связь линейная.

Входными данными для процедуры кластеризации является история управления, записанная в виде

{t t Г t t

x1, x2, •••> XNi J {y1, У2, •••> Умi J

(2.1)

s t + 1 t + 1 t + 1 , { xi , x2 , •.. , XN i •■■,

tt где Xj - значение i-й входной переменной, а yt -

значение i-й выходной переменной в момент времени t.

Для генерации однотактовых правил управления используются значения входных и выход-

Р 0

1 Ш1П и

Р Р Р шах Р

Рис. 1. Пример задания функций принадлежности.

ных переменных ^го такта и входных параметров ^ + 1)-го такта, которые задают координаты одной точки в N + М + ^-мерном пространстве.

На вход процедуры кластеризации поступает набор точек и максимальный размер кластера R, устанавливаемый априорно, а на выходе процедуры получается набор центров кластеров. Далее для каждого центра кластера происходит поиск точек, отстоящих от него на евклидово расстояние, не превышающее R. Если таких точек обнаружено две или больше, то из этого набора образуется кластер, описываемый при помощи набора функций принадлежности, из которых составляется правило, заносимое в БЗ. В системе используются трапецеидальные функции принадлежности, ввиду их несложной вычислимости, что важно для систем реального времени. Внешний вид функций изображен на рис. 1, а определение их параметров осуществляется по набору точек кластера в соответствии со следующими принципами.

Пусть R - максимальный размер кластера, сг -координата его ¡-й точки кластера, I = 1, ..., Ь, сш-координата центра кластера, а Ь - количество точек в кластере (Ь > 2), причем они отсортированы по возрастанию значений их координат. Тогда координаты вершин трапеции, задающей функцию принадлеж

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком