5 Оптимальное управление дискретными динамическими системами

Существует два типа детерминированных управляемых процессов (детерминированных систем)

(1)    - детерминированная система

 - управление (некоторая функция от дискретного времени, которая входит в разностное уравнение динамической системы)

Стохастическая управляемая система

(2)  , где  - шум(может быть белым ),
а может быть и небелым, например, описываться скользящим средним ().

 Критерий оптимального управления

Пусть модель (1) или (2) генерирует случайный процесс :

           -  управляемый процесс с дискретным временем, т.е. процесс должен развиваться таким образом, чтобы минимизировать некоторую функцию риска, тогда управление называется оптимальным.

        Математически это выглядит так :

       ,
где   f(?) - выпуклая функция
При движении ракеты по некоторой траектории из точки А в точку В траектория должна быть такой, чтобы минимизировать энергетические затраты на управление.

Пример 2

Метод динамического программирования 

 Имеется детерминированная система :

 Принцип Бэлмана - состоит в том, что оптимальное управ ление ищется с конца в начало (из будущего в прошлое).
 Задача решается в обратном направлении.

Аналитическое решение задачи по Бэлману

Предположим, что мы отправились из и прошли траекторию:
 . И предположим, что за ‘k’ шагов управление выбрали. Принцип динамического программирования основывается на том, что любой кусок траектории оптимального управления является оптимальным.

 Допустим, что начиная от шага (k+1) до ‘n’ в формуле (4) оптимальное управление уже выбрано.

Формула (6) называется уравнением Бэлмана (уравнение динамического программирования)

Выводы: (из уравнения (6))

Уравнение (6) позволяет в реккурентной форме вывычислить управление, шаг за шагом, от точки N  до 1 (из будущего в прошлое) получить минимизацию (6) на каждом шаге. Получить . Значения управления фактически получаются методом перебора. Оптимальная траектория ) неизвестна до самого последнего шага.
Если задача имеет большую размерность, то  сложность при вычислении очень большая. Если  вводить динамические системы (т.е. модели), то можно значительно упростить метод нахождения оптимального управления. Т.е. получить управление в замкнутом виде (в виде некоторой формулы).

Синтез оптимального управления для марковских динамических систем.

(1)          ;    ;   ; где -

        - управление;  - шум динамической системы.
Управление должно менять  - траекторию, и изменять ее так, чтобы минимизировать средний критерий  качества,  причем управляется динамическая система не по всем координатам.
 - управляемый случайный процесс.
Динамическая система, сама как таковая, не наблюдается, а наблюдается j()(нелинейно преобразованная фазовая переменная) с шумом. В этом случае говорят, что динамическая система ненаблюдаема напрямую. Для того, чтобы сделать ее наблюдаемой необходимо использовать теорию нелинейной  фильтрации (см. предыдущие лекции).
В этом случае получаем оценку нелинейной динамической системы в условиях линеаризации по Тейлору :

(2)      

Синтез оптимального управления используя (2) проведем применив квадратичный критерий качества, причем управление динамической системой будем вести к некоторому эталону, т.е. задано :  , i=1,2...n

                Критерий оптимизации

(3)    ;
где || - норма, .
Риск складывается из двух слагаемых :

1-е слагаемое : Это есть квадрат отклонения траектории от эталона. Оно должно быть минимизировано с учетом формулы (2).
2-е слагаемое : Это есть сумма с квадратом самого управления (некоторая сила) должны быть минимизированны (так должно быть всегда)

Минимизация (3) - это достаточно сложная задача вариационного исчисления (просто взять здесь производную по ‘u’ не удается).

Для минимизации (3) используем уравнение Бэлмана :

(4)  
 

В формуле (4) минимизируя шаг за шагом получим :

(5)     ;     где  - матрица

Выводы : (к формуле (5)) 
Оптимальное управление (5) реализуется с использованием линейной оценки динамической системы, и это управление вставляется в формулу :
  
Если упростить критерий и привести его к виду (3’):
(3’)           
    
то минимизация дает оптимальное управление эталона:

(6)                    
Оптимальное управление пропорционально разности между экстраполированной оценкой и эталоном, т.о. получим :
(7)                
Оценка (7) подставляется в (6). Со временем, при минимизации в этом случае сама оценка  устремляется к эталону.

Пример синтеза динамической системы управления частотой генератора

Общая постановка :

Пусть имеется некоторая эталонная траектория
(1)              , где  - шум
Если эталон защищен, то его фильтруют.
Имеется управляемая динамическая система :

Управляемая динамическая система - фаза генератора или траектория, которая должна подстроиться под эталон.  

(2)         ; шума  часто нет, поэтому  им пренебрегают. Пусть
(3)          
Рассмотрим более сложную модель фазы рассматриваемого генератора.

 

(4)         
Считаем, что в (1),(3) уход фазы очень медленный,т.е.
 . Используя нелинейную функцию оценка эталона:

(4’)        
В (4) решение уравнения относительно  имеет вид :
(5)          ;     с<1.
Выше было доказано, используя уравнение Бэлмана, что :
(6)                    

Структурная схема реализации оптимального управления подстройки частоты к эталону

На выходе - частота подстраиваемого генератора.

Подстраиваемый генератор имеет следующий вид:
                  
 - изменяется по закону (4), управляющая функция воздействует /вырабатывающаяся на прошлом шаге (i-1)/ она  должна подстраивать генератор так, чтобы она стремилась к эталону.
Для этого : имеется устройство управления, которое воздействует на контур подстраиваемого генератора так, чтобы (путем воздействия на варикап) ; a = с, тогда     .
Управляемая система с обратной связью: если есть отклонение фазы на , (т.е. отклонение частоты) (), тогда решающее усторойство дает оценку . Это приведет к  тому, что  отклонится, напряжение подается на устройство управления, которое ликвидирует приращение. (правое кольцо называется - кольцо ФАПЧ).

Постановка задачи

Определение : Следящим измерителем называется система, осуществляющая оценку некоторого параметра (который является случайным процессом) в следящем режиме.

  Параметр может иметь следующий физический смысл :

а) Угловые координаты некоторого летательного аппарата, которые изменяются во времени.
б) Изменение во времени доплеровской частоты.      
в) Дальность до объекта.

Пример : летательный аппарат

На выходе - частота подстраиваемого генератора.

Подстраиваемый генератор имеет следующий вид:
                  
 - изменяется по закону (4), управляющая функция воздействует /вырабатывающаяся на прошлом шаге (i-1)/ она  должна подстраивать генератор так, чтобы она стремилась к эталону.

Для этого : имеется устройство управления, которое воздействует на контур подстраиваемого генератора так, чтобы
(путем воздействия на варикап) ; a = с, тогда     .

Управляемая система с обратной связью: если есть отклонение фазы на , (т.е. отклонение частоты) (), тогда решающее устройство дает оценку . Это приведет к  тому, что  отклонится, напряжение подается на устройство управления, которое ликвидирует приращение. (правое кольцо называется - кольцо ФАПЧ).