Управление неопределенными динамическими объектами 978-5-9221-1002-0

425 98 2MB

Russian Pages [207] Year 2008

Report DMCA / Copyright

DOWNLOAD FILE

Управление неопределенными динамическими объектами
 978-5-9221-1002-0

Citation preview

УДК 51.7 ББК 22.18 А 94 А ф а н а с ь е в В. Н. Управление неопределенными динамическими объектами. — М.: ФИЗМАТЛИТ, 2008. — 208 с. — ISBN 978-5-9221-1002-0. В книге представлены реализуемые методы построения систем, поведение которых описывается линейными и нелинейными дифференциальными включениями с нечетко заданными начальными условиями. Методы основаны на применении алгоритмического и робастного конструирования неопределенных систем управления. Для специалистов, работающих в области управления разнообразными объектами с неполной информацией, студентов и аспирантов соответствующих специальностей.

АФАНАСЬЕВ Валерий Николаевич УПРАВЛЕНИЕ НЕОПРЕДЕЛЕННЫМИ ДИНАМИЧЕСКИМИ ОБЪЕКТАМИ Редактор С.А. Тюрина Оригинал-макет: Е.Н. Водоватова Оформление переплета: Н.В. Гришина



Подписано в печать 30.09.08. Формат 60 90/16. Бумага офсетная. Печать офсетная. Усл. печ. л. 13. Уч.-изд. л. 15. Тираж 200 экз. Заказ № Издательская фирма «Физико-математическая литература» МАИК «Наука/Интерпериодика» 117997, Москва, ул. Профсоюзная, 90 E-mail: [email protected], [email protected]; http://www.fml.ru Отпечатано с готовых диапозитивов в ОАО «Ивановская областная типография» 153008, г. Иваново, ул. Типографская, 6 E-mail: [email protected]

ISBN 978-5-9221-1002-0





c ФИЗМАТЛИТ, 2008 

ISBN 978-5-9221-1002-0

c В. Н. Афанасьев, 2008 

ОГЛАВЛЕНИЕ Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

Г л а в а 1. Основные понятия и определения . . . . . . . . . . . . . . . . . 1.1. Математические модели динамических неопределенных объектов 1.2. Конструкции алгоритмов параметрической оптимизации . . . . . . . . 1.2.1. Основная конструкция алгоритмов параметрической оптимизации (15). 1.2.2. Принцип минимума в задаче конструирования алгоритмов оптимизации (21). 1.3. Постановка задачи о робастном управлении . . . . . . . . . . . . . . . .

9 9 14

Г л а в а 2. Aдаптивные и робастно-адаптивные наблюдатели . . . . . 2.1. Постановка задачи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Общие условия минимума функционала качества и основная конструкция алгоритмов адаптации . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Модифицированное уравнение Винера–Хопфа в задачах построения наблюдателей нестационарных процессов . . . . . . . . . . . . . . . 2.4. Наблюдатель «минимальной сложности» . . . . . . . . . . . . . . . . . . 2.5. d-робастный линейный оцениватель . . . . . . . . . . . . . . . . . . . . .

34 34

27

38 41 49 52

Г л а в а 3. Робастное управление линейными неопределенными системами. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.1. Постановка задачи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.2. Робастное управление линейными нестационарными системами . . . 60 3.3. Дифференциальные игры в задачах конструирования робастного управления линейными системами . . . . . . . . . . . . . . . . . . . . . . 64 3.4. Pобастная инвариантность неопределенных линейных систем . . . . 75 3.5. Множество возможных робастных управлений линейным объектом 78 3.5.1. Нахождение интервала робастного управления при заданных области начальных условий и параметрах регулятора (81). 3.5.2. Нахождение параметров регулятора при заданной области начальных условий и времени окончания переходного процесса (82). 3.5.3. Нахождение области начальных условий при заданных параметрах регулятора и времени окончания переходного процесса (84). 3.6. Модель объекта пониженного порядка. . . . . . . . . . . . . . . . . . . . 85 3.7. Линейно-квадратичная задача при неполной информации о состоянии объекта . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 3.8. Pобастное управление стохастическим нестационарным объектом с неполной информацией о состоянии . . . . . . . . . . . . . . . . . . . . 93 3.9. Задача d-робастного сближения с нестационарным объектом . . . . 97 3.10. Управление выводом и сопровождением по нестационарной траектории . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Г л а в а 4. Pобастное управление нелинейными неопределенными объектами . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.1. Постановка задачи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

4

Оглавление 4.2. Необходимые условия существования стабилизирующего управления . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3. Переходный процесс нелинейной системы в задаче стабилизации. . 4.4. Условия существования терминального робастного управления . . . 4.5. Робастное управление билинейным объектом . . . . . . . . . . . . . . . 4.5.1. Необходимые условия существования стабилизирующего управления (128). 4.5.2. Робастное терминальное управление неопределенным билинейным объектом (133). 4.6. Дополнительный регулятор с параметрической настройкой для нелинейного неопределенного объекта . . . . . . . . . . . . . . . . . . . .

Г л а в а 5. Отдельные примеры моделирования робастных и робастно-адаптивных систем . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1. Управление морским судном . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1. Математическая модель грузового судна типа «Cargo» (139). 5.1.2. Управление при полной информации о параметрах и состоянии судна (144). 5.1.3. Робастное управление детерминированным объектом с неизвестными параметрами (144). 5.1.4. Робастное управление стохастическим объектом с неизвестными параметрами (149). 5.2. Управление летательного объекта по крену . . . . . . . . . . . . . . . . 5.2.1. Постановка задачи (162). 5.2.2. Оптимальное управление объектом с полной информацией о его состоянии (166). 5.2.3. Робастное управление объектом с полной информацией о состоянии летательного объекта (166). 5.2.4. Наблюдатель Луенбергера (169). 5.2.5. Фильтр Калмана–Бюси (169). 5.2.6. Алгоритмы оптимизации, использующие наблюдатель Люенбергера (171). 5.2.7. Алгоритмы оптимизации, использующие фильтр Калмана–Бюси (173). 5.3. Управление боковым движением самолета . . . . . . . . . . . . . . . . . 5.3.1. Постановка задачи (175). 5.3.2. Управление объектом при полной информации о его параметрах и состоянии (180). 5.3.3. Робастное управление детерминированным объектом с неизвестными параметрами (181). 5.3.4. Робастное управление стохастическим объектом с неизвестными параметрами (184). 5.4. Управление выводом и сопровождением объекта по нестационарной траектории . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.1. Результаты математического моделирования (196). 5.5. Примеры нахождения существования робастного управления для нелинейных объектов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6. Пример нахождения существования робастного управления для билинейного объекта . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

109 118 122 126

136 139 139

162

175

188

203 205

Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

Введение Непрерывноe расширение применения систем автоматического управления есть результат, отражающий достижения науки и бурного развития различных технических средств. Практика и появляющиеся возможности технической реализации непрерывно «генерируют» новые или/и модифицируют старые постановки задач анализа и синтеза систем управления. Требования же к системам, качеству их функционирования, надежности, способности работать в условиях неполной априорной и текущей информации постоянно растут. При этом главной идеей, определяющей успех разработки системы управления, была и остается идея оптимальности. Основным методом синтеза оптимальных систем является метод аналитического конструирования. Термин «аналитическое конструирование», подразумевающий синтез оптимальных систем управления, основанный на минимизации функционала качества, был введен советским ученым Александром Михайловичем Летовым (1911–1974). Метод А. М. Летова разрабатывался вначале на основе применения классического вариационного исчисления. Однако в настоящее время термином «аналитическое конструирование» можно объединить все методы синтеза систем как детерминированных, так и стохастических с полной информацией о параметрах, состоянии и возмущениях, т. е. все методы, позволяющие применять аналитические методы для исследования разнообразных задач оптимального управления и оценивания. Этот метод, основы которого изложены в [1, 2, 3], разработанный как для детерминированных, так и для стохастических систем, позволяет на стадии проектирования синтезировать условия (параметры и управления), при которых система будет выполнять поставленную задачу наилучшим образом с позиции заданного функционала качества, другими словами, позволяют синтезировать оптимальную систему. В большинстве методов аналитического конструирования оптимальных систем, разработанных до сих пор, рассматриваются задачи во временной области с использованием понятия состояния и теории матриц. В общих чертах основной подход к проблеме выглядит следующим образом: 1) определяются динамические характеристики объекта в форме дифференциальных уравнений или уравнений в конечных разностях; 2) определяются множества допустимых траекторий системы и управлений (ограничения на координаты состояния, управляющие воздействия, задаваемые в виде равенств или неравенств); 3) задаются цели управления; 4. задается функция потерь или функционал качества. Задачей оптимального управления объектом с полной информацией по отношению к множеству целей, функционалу качества,

6

Введение

множеству допустимых управлений, множеству состояний и начальному состоянию объекта в момент начала управления является отыскание управления, принадлежащего допустимому множеству управлений, минимизирующее заданный функционал качества. Существование оптимального управления не является необходимым: в множестве допустимых управлений может вообще не оказаться управлений, переводящих объект из начального состояния в заданное множество целей. Синтез оптимальной системы управления осуществляется с использованием необходимых и достаточных условий минимума функционала качества. Таким образом, применение аналитических методов конструирования требует знания всей информации об объекте, внешней среде и процессaх, протекающих внутри системы, т. е. применение аналитических методов конструирования возможно в условиях полной информации. Главное преимущество аналитических методов заключается в том, что если решение получено, то решен целый класс задач, а не одна специфическая. Именно это свойство придает аналитическим методам большое теоретическое значение. Сложность большого количества современных систем управления зачастую не позволяет получить заранее полное описание процессов, протекающих внутри системы, и ее взаимодействия со средой. Достаточно часто математическая модель системы управления учитывает лишь допустимые области изменения параметров управляемой системы и характеристик ее отдельных элементов без конкретизации самих этих параметров и характеристик. Указанные области могут определяться, например, интервальными ограничениями, соответствующими заданным техническим допускам на систему. Применение аналитических методов для нестационарных систем управления с неполной информацией о параметрах, входных воздействиях, помехах либо сопряжено с большими вычислительными трудностями, либо не представляется возможным (как в случае синтеза оптимальной системы). Поэтому правомерен подход к конструированию таких систем, основанный на использовании дополнительных цепей, на которые возлагаются задачи оптимизации системы в смысле выбранного критерия качества в процессе работы системы и по мере накопления и обработки необходимой для этих целей информации. Метод, основанный на указанном подходе, можно объединить общим названием — алгоритмическое конструирование нестационарных систем управления [4]. Термин «алгоритмическое конструирование» был введен советским ученым Борисом Николаевичем Петровым (1913–1980) [12]. Задачей управления системой с оптимизацией (в случае неполной информации о параметрах объекта и его взаимодействии со средой) по отношению к множеству целей, функционалу качества,

Введение

7

множеству допустимых управлений, множеству состояний и начальному состоянию объекта в момент начала управления является отыскание координатно-параметрического управления, принадлежащего допустимым множествам управляющих координатных и параметрических воздействий, минимизирующих заданный функционал качества по мере накопления и обработки необходимой и соответствующей информации. Существование координатно-параметрического управления, оптимизирующего систему с неполной информацией, не является необходимым: а) начальные условия объекта, начальная и/или текущая неопределенность, длительность интервала управления системой могут оказаться такими, что процесс оптимизации может быть не закончен, т. е. перестраиваемые параметры за время управления системой могут не достичь значений, при которых функционал качества достигает минимума; б) во множествах допустимых управляющих координатных и/или параметрических воздействий может вообще не оказаться управлений, переводящих объект из начального состояния в заданное множество целей. Таким образом, если с помощью методов аналитического конструирования можно на стадии проектирования создавать оптимальную систему, то с помощью методов алгоритмического конструирования можно создавать систему, снабженную дополнительными цепями, с помощью которых система в процессе функционирования будет оптимизировать свою работу. Отметим, что применять методы алгоритмического конструирования, основанные на возможности параметрической оптимизации нестационарной системы, в ряде случаев, с позиций технической реализации, не является рациональным или не представляется возможным. В связи с этим возникает задача построения управления не для одной конкретной, точно заданной системы, а для целого семейства систем, параметры и характеристики элементов которых принадлежат заранее известным множествам. В современной литературе по теории управления соответствующая проблема получила название задачи робастного управления. Существует несколько определений робастного управления, в которых, так или иначе, отражается существо постановки задачи управления нестационарным объектом. Дадим определение робастного управления, как это будет пониматься в данной книге. Задачей робастного управления по отношению к множеству целей, функционалу качества, множеству допустимых управлений, множеству состояний и начальному состоянию объекта в момент начала управления и множеству возможных значений параметров и характеристик элементов объекта является отыскание управления, принадлежащего допустимому множеству управляющих воздействий, минимизирующего заданный функционал и обеспечивающего перевод системы из начального состояния в заданное множество целей при любых значениях параметров и характери-

8

Введение

стик элементов объекта, принадлежащих множеству возможных значений. По существу задача робастного управления может быть отнесена к задачам аналитического конструирования, так как для ее решения используется известная информация о допустимых областях изменения параметров управляемой системы и характеристик ее отдельных элементов без конкретизации самих этих параметров и характеристик. Существование робастного управления не является необходимым (из самого его определения). Отметим, что теория робастного управления только еще формируется и основные результаты получены для анализа робастной устойчивости и робастной стабилизации линейных объектов. При анализе робастной устойчивости исследуется не одна заданная линейная система, а устойчивость целого семейства систем, соответствующих исходной (номинальной) системе при наличии неопределенности. Задачи управления, как правило, сводятся к задачам стабилизации или оптимального управления при незаданном времени окончания переходного процесса. Этим и объясняется применение для решения таких задач классических методов, которые основаны на использовании теории матриц и передаточных функций (комплексных коэффициентов усиления) [13]. Использование методов синтеза управляющих воздействий для нестационарных систем при заданном интервале управления невозможно. Выражаю признательность доценту кафедры кибернетики Московского института электроники и математики А. Н. Данилиной, которая внимательно прочитала первый вариант рукописи и сделала много полезных замечаний. Издание книги поддерживается грантом РФФИ по проекту 08-08-07034-д.

Глава 1 ОСНОВНЫЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ

1.1. Математические модели динамических неопределенных объектов Неопределенность, как правило, задается в виде некоторого множества возможных значений параметров объекта. Такое заданиe параметрической неопределенности приводит к различным видам неопределенности характеристических полиномов: его коэффициенты могут принадлежать заданным интервалам либо функциям интервалов. Существуют четыре основных вида неопределенности полиномов: • интервальная неопределенность; • аффинная неопределенность; • полилинейная неопределенность; • полиномиальная неопределенность. Рассмотрим два класса управляемых неопределенных непрерывных систем: нелинейные NS-системы и линейные Sz -системы [7]. NS-системы. Пусть нестационарный наблюдаемый и управляемый динамический объект описывается системой обыкновенных дифференциальных уравнений вида d (1.1) x(t) = f (x, u, α(t)), x ∈ Rn , t ∈ [t0 , T ]. dt Здесь α(t) = α(t0 , T ) ∈ A — возможная траектория изменения параметров объекта (1.1). Пространство A ∈ Rk имеет действительную размерность. Пусть D — область (t, x)-пространства. Обозначим через Dα область (t, x, α)-пространства: Dα : (t, x) ∈ D,

α ∈ A,

и пусть функция f (x, u, α(t)) ∈ C на Dα удовлетворяет по x условиям Липшица, т. е. f ∈ (C, Lip) в Dα или, другими словами, существует постоянная L > 0 такая, что выполняются следующие условия: |f (x(t), u(t), α(t))−f (z(t), v(t), α(t))|  L(|x(t)−z(t)|+|u(t) − v(t)|), |fx (x(t), u(t), α(t))−fz (z(t), u(t), α(t))|  L(|x(t)−z(t)|+|u(t)−v(t)|).

10

Гл. 1. Основные понятия и определения

Здесь fx (x(t), u(t), α(t)) и fz (z(t), v(t), α(t)) — производные функций f (x(t), u(t), t) и f (y(t), v(t), α(t)) по x(t) и z(t)соответственно. При этих условиях справедливы теоремы о локальном существовании, единственности и непрерывной зависимости на конечном интервале решения x(x0 , t0 , t) уравнений вида (1.1) от начальных условий x0 ∈ Rn и t0 ∈ [t0 , T ] для каждой траектории α(t0 , T ) из A [9]. Так как α(t) = α(t0 , T ) ∈ A, то все решения дифференциального уравнения (1.1) принадлежат некоторому дифференциальному включению d x(t) ⊂ f (x, u, α(t)), x(t0 ) = x0 . (1.2) dt Допустимое множество параметрической неопределенности A может иметь более сложную структуру, например, зависеть от состояния системы и тогда α(t, x(t)) ∈ A, t ∈ [t0 , T ]. Предполагается, что при всех возможных траекториях изменения параметров объекта (1.1) α(t0 , T ) ∈ A сохраняется управляемость объекта. Предположим, что имеется траектория изменения параметров объекта α∗ (t0 , T ) ∈ A, при которых выполнение задачи оптимального управления представляются наиболее сложными. Можно сформулировать условия, которым отвечают значения этих параметров. Если: функция f измерима на множестве Dα при любых фиксированных α и x; функция f непрерывна по x при любых фиксированных t и α; при фиксированном t функция f непрерывна по совокупности переменных (x, α), то существует функция m(t), интегрируемая по Лебегу на интервале [t0 , T ], такая, что, если |f (x, u, α∗ (t))| = m(t), то |f (x, u, α(t))|  m(t), α(t) ∈ A, t ∈ [t0 , T ]. Объект из дифференциального включения (1.2) при α∗ (t0 , T ) ∈ A принимает вполне определенное описание d x(t) = f (x, u, α∗ (t)), dt

α∗ (t) = α∗ (t0 , T ) ∈ A.

(1.3)

Будем искать управление u(t) ∈ U как функцию состояния объекта (1.3): u(t) = Kx(t). (1.4) Тогда правая часть уравнения (1.3) с управлением (1.4) будет иметь вид f (x, u, α∗ (t)) = f ∗ (x, α∗ (t)). Предположим: 1) fi∗ (x, α∗ (t)), i = 1, ... , n — элементы вектора f ∗ (x, α∗ (t)) непрерывны относительно x(t) и t; ∂f ∗ (x, α∗ (t)) ∂fi∗ (x, α∗ (t)) 2) i , непрерывны по x(t) и t для i, k = ∂xk (t) ∂t = 1, ... , n.

1.1. Математические модели динамических неопределенных объектов 11

Эти предположения [10, 11] позволяют представить исходное уравнение объекта в окрестности регулярной точки x∗ статической характеристики в виде d x(t) = [A + α∗ ]x(t) + [B + β ∗ ] Kx(t) + I(t, x), dt

(1.5)

где [A + α∗ ] и [B + β ∗ ] — постоянные матрицы, а вектор-функция I(t, x) ∈ Rn удовлетворяет условию Ii (t, 0) = 0 и | Ii (t, x) − Ii (t, y)|  g(t)

n 

|xi (t) − yi (t)|

i=1

или более общему: | Ii (t, x)|  g(t)

n 

|xi (t)|.

(1.6)

i=1

Если g(t) — непрерывная, ограниченная для t > t0 функция, то систему (1.5) называют сравнимой с линейной. Всякое решение подобной системы определено для всех значений t  t0 . ∞  Если g(t) удовлетворяет более сильному требованию g(t)dt < ∞, 0

то систему называют почти линейной. Если ввести положительно определенную матрицу P = pI такую, что IT (t, x)g(t)  p, p > 0, то условие (1.6) можно переписать в виде T I (t, x){I(t, x) − P x(t)} < 0 при x(t) = 0.

(1.6a)

Пусть П = [A + α∗ ] + K[B + β ∗ ]. Тогда решение уравнения (1.5) записывается в виде 



t



x(t) = [exp(Пt)] x (0) + [exp(−Пτ )] I(x(τ )) dτ . 0

Отметим, что матрицы при x(t) в (1.5) не зависят от времени. Тогда можно построить каноническую форму этой матрицы. Предположим, что собственные значения матрицы П действительны и различны. В этом случае ⎞ ⎛ λ1 0 ... 0 ⎜ 0 λ2 ... 0 ⎟ Λ = P П P −1 = ⎝ , .............. ⎠ 0 0 ... λn где λ1 , λ2 , ... , λn — собственные значения матрицы П, а Λ — матрица собственных значений. Здесь P — невырожденная матрица.

12

Гл. 1. Основные понятия и определения

S z -системы. Достаточно большое количество объектов управления можно описать с помощью систем линейных дифференциальных уравнений с неполной информацией о параметрах и векторе состояния. Пусть управляемый и наблюдаемый линейный нестационарный динамический объект описывается системой линейных неоднородных дифференциальных уравнений: d x(t) = [A + α(t)] x(t) + [B + β(t)] u(t) + [D + d(t)] z(t), dt x(t0 ) = x0 , x ∈ Rn , u ∈ Rr , r  n, z ∈ Rqr ,

(1.7)

где x ∈ Rn , u ∈ Rr , r  n, z(t) — вектор внешних координатных возмущений. Начальное условие принадлежит заранее известному подмножеству, т. е. x(t0 ) ∈ X0 . Матрицы α(t), β(t) и d(t) содержат параметры, подверженные неконтролируемым возмущениям, причем α(t), β(t), d(t) ∈ Ω

(1.8)

— неизвестные вещественные матричные функции на t ∈ [t0 , T ]. (Для определенности размерности матриц α(t), β(t) и d(t) — n × n, n × r и n × q соответственно). Предполагается, что возмущения α(t), β(t), d(t) ∈ Ω таковы, что пара ([A + α(t)], [B + β(t)]) сохраняет управляемость объекта (1.6) при ∀t ∈ [t0 , T ]. Допустимое множество неопределенности Ω может иметь более сложную структуру, например, зависеть от состояния системы и тогда α(t, x(t)), β(t, x(t)), d(t, x(t)) ∈ Ω. Относительно нестационарных матриц A(t) = [A + α(t)] ∈ Rnxn , B(t) = [B + β(t)] ∈ Rnxm , D(t) = [D + d(t)] ∈ Rnxq предполагается, что они измеримы по Лебегу на всем конечном интервале управления объектом (1.7) во множестве R и почти всюду на R удовлетворяют включению A(t) ∈ co{A1 , ... , Av }, B(t) ∈ co{B1 , ... , Bk },

(1.9)

D(t) ∈ co{D1 , ... , Ds }, где Ai ∈ Rnxn , i = 1, ... , v, Bj ∈ Rnxm , j = 1, ... , k, Dj ∈ Rnxq — заданные матрицы, а символ co обозначает выпуклую оболочку.

1.1. Математические модели динамических неопределенных объектов 13

Выпуклые многогранники в (1.9) задают структуру параметрической неопределенности в описании системы (1.7). Ее частным случаем является интервальная неопределенность A  A(t)  A ↔ αij  αij (t)  αij ; B  B(t)  B ↔ bik  bik (t)  bik ;

(1.10)

D  D(t)  D ↔ dil  dil (t)  dil ; i, j = 1, ... , n,

k = 1, ... , r,

l = 1, ... , q,

t ∈ [t0 , T ],

где A, A, B, B и D, D — известные постоянные матрицы надлежащих размеров, а неравенства в (1.10) носят поэлементный характер. Неопределенность вносится и неизвестным координатным возмущением z(t), для которого полагается известной мажоранта z M (t) = z1M (t), ... , zqM (t) , t ∈ [t0 , T ], т. е. для всех t ∈ [t0 , T ] класс координатных возмущений Z определен неравенством

 Z ≡ z(t) : |z(t)  z M (t)| . (1.11) Для таких объектов дополнительной задачей управления есть обеспечение инвариантности каких-либо координат объекта к соответствующим возмущениям. Предположим, что имеется траектория изменения параметров объекта (1.7) (α∗ (t0 , T ), β ∗ (t0 , T )) ∈ Ω, при которых выполнение задачи оптимального управления представляeтся наиболее сложным. Управление для системы (1.7) при этих значениях параметров будем находить в виде (1.4). Тогда система «объект-регулятор» будет иметь вид:   d x(t) = A + α∗ + [B + β ∗ ]K x(t) + [D + d(t)]z(t) (1.12) dt или d x(t) = Lx(t) + [D + d(t)] z(t), dt где матрица L = A + α∗ + [B + β ∗ ] K. Pешение уравнения (1.12) имеет вид   t x(t) = [exp(Lt)] x∗ (0) + [exp(−Lτ )][D + d(τ )] z(τ ) dτ . 0

Частным случаем Sz -систем D(t)z(t) ≡ 0, ∀t ∈ [t0 , T ].

являются

S-системы,

для

них

N -системы. Синтез управлений в виде (1.4) требует знания всего пространства состояний объекта. В большинстве задач из всего пространства состояний объекта доступно измерениям ограниченное

14

Гл. 1. Основные понятия и определения

количество координат. Таким образом, c учeтом (1.3) и (1.7) исходные системы будут иметь вид d x(t) = f (x, u, α∗ (t)), α∗ (t) = α∗ (t0 , T ) ∈ A, dt y(t) = C(t, x)

(1.13)

или d x(t) = [A + α(t)]x(t) + [B + β(t)] u(t) + [D + d(t)] z(t), dt y(t) = C(t, x).

(1.14)

Здесь x ∈ Rn , y ∈ Rm , m  n. При такой постановке задачи конструирования системы управления обычно решается дополнительная задача синтеза наблюдателя с целью построения по измеряемым координатам состояния объекта оценки состояния объекта  x (t) = G(t)y(t). Здесь оператор G(t) преобразует Rm в Rn . Построение оценки состояния возможно, если система «объектизмеритель» обладает свойством наблюдаемости [2]. Системы (1.13) и (1.14) описываются детерминированными уравнениями. В случае действия помех в объекте и на входе измерителя проблема построения оценки решается практически такими же методами, что и в детерминированном случае. Следует отметить, что теория оценивания переменных состояния динамических систем не ограничивается рассмотрением объектов с полной информацией о параметрах объекта (фильтр Калмана, наблюдатель Луенбергера). Параметрическая неопределенность и нестационарность приводит к необходимости строить адаптивные, робастные, робастно-адаптивные наблюдатели.

1.2. Конструкции алгоритмов параметрической оптимизации Применение аналитических методов конструирования для нестационарных систем с неполной информацией о параметрах и возмущениях, действующих на систему, не дает реализуемых решений. Возникает необходимость развития таких методов, которые не требовали бы детального знания всего пространства состояния системы управления и ее взаимодействия с внешней средой, а базировались только на анализе ее входных процессов и внешнего поведения. При этом система должна быть организована таким образом, чтобы, используя текущую информацию, по мере уменьшения априорной неопределенности, улучшать функционирование системы в смысле заданного критерия качества. Другими словами, проблема заключается в построении системы,

1.2. Конструкции алгоритмов параметрической оптимизации

15

способной себя оптимизировать по мере накопления и обработки информации о выполнении поставленной задачи в изменяющейся среде. Pеализуемые решения поставленной задачи можно получить с помощью алгоритмических процедур. Под алгоритмическим конструированием нестационарной системы с неполной информацией о параметрах, состоянии и внешней среде понимается совокупность алгоритмов, позволяющих оптимизировать систему управления в соответствии с заданным критерием качества ее работы [4]. 1.2.1. Основная конструкция алгоритмов параметрической оптимизации. Пусть нестационарный управляемый объект описывается векторным дифференциальным уравнением вида: d x(t) = f (x, u, w, a, t), dt x(t0 ) = x0 ,

(1.15)

здесь x(t) ∈ Rn — вектор состояния объекта; u(t) ∈ Rr — вектор управляющих воздействий; w(t) ∈ Rk — вектор возмущаемых параметров; a(t) ∈ RP — вектор параметров, выделенных для оптимизации функционирования объекта. В общем случае k  p. С помощью параметров a(t) предполагается парировать соответствующие параметрические возмущения. Предполагается, что вектор возмущенных параметров принадлежит известному множеству, т. е. w(t) ∈ W . Измеряемый выход объекта описывается уравнением y(t) = C(x, n, t), где y(t) ∈ R , m  n; n(t) — помеха. Задан функционал J = J(x, u).

(1.16)

m

(1.17)

Кроме этого, как правило, задаются множество допустимых траекторий состояния объекта и множество допустимых управляющих воздействий: x(t) ∈ X, u(t) ∈ U. (1.18) В ряде случаев кроме функционала качества задается цель управления S(x(T ), T ) = 0. (1.19) Задача, определенная в виде (1.15)–(1.17), может носить как детерминированный, так и стохастический характер. Задача об оптимальном управлении формулируется следующим образом: из всех возможных управляющих воздействий для объекта (1.15), (1.16), при которых достигается цель управления (1.19), найти такое, при котором выполняются ограничения (1.18), а функционал качества (1.17) принимает минимальное значение.

Гл. 1. Основные понятия и определения

16

Aлгоритмическое конструирование нестационарной системы управления с неполной информацией включает три этапа. Первый этап. На этом этапе используется метод аналитического конструирования систем с полной информацией. Исходя из заданного критерия качества работы системы (1.17), с учeтом ограничений (1.18) и априорной информации о системе (1.15), (1.16), производится синтез основной структуры системы управления (синтез структурного пространства параметров). Как правило, синтез структуры производится с использованием необходимых условий минимума функционала (1.17) с объектом (1.15), (1.16) и ограничений (1.18). Достаточные условия минимума функционала либо обеспечиваются самой постановкой задачи (например, линейный объект и квадратичный функционал), либо наложением практических условий, при которых необходимые условия являются и достаточными. Пусть необходимые и достаточные условия минимума функционала (1.17) записываются в виде G(x, u) = 0.

(1.20)

Так как функционал (1.17) и его необходимые и достаточные условия (1.20) при связях (1.15) и ограничениях (1.18) зависят от состояния x(t), то и оптимальное управление, синтезированное с использованием (1.20), будет являться функцией состояния объекта (1.15), а не его выхода (1.16). Таким образом, использование условий (1.16) для синтеза регулятора не приводит к реализуемым решениям. Для получения реализуемой основной структуры системы управления введем наблюдатель, на который возложим решение задачи построения оценки состояния объекта (1.15) по его измеряемому выходу (1.16). Пусть x (t) ∈ Rn — оценка процесса x(t). Тогда ε(t) = x(t) − x (t).

(1.21)

Подставим x(t)из (1.21) в исходный функционал (1.17). Для достаточно большого количества функционалов, используемых в практике конструирования оптимальных систем, обладающих свойством сепарабельности относительно ε(t) и u(t), можно получить J(x, u) = J1 (ε) + J2 ( x, u) + J3 (ε, x ).

(1.22)

Так, для широко используемого квадратичного критерия в стохастических задачах  T 1 1 T T T {x (t)Q(t)x(t)+u (t)R(t)u(t)}dt J(x, u) = M x (T )F x(T )+ 2 2 

t0

(1.23)

1.2. Конструкции алгоритмов параметрической оптимизации

функционалы J1 (ε), J2 ( x, u), J3 (ε, x ) имеют вид   T 1 T 1 J1 (ε) = M ε (T )F ε(T )+ εT (t)Q(t)ε(t) dt , 2 2

17

(1.24)

t0



 T 1 T 1 T T J2 (  (T )F x x, u) = M x (T )+ { x (t)Q(t) x(t)+u (t)R(t)u(t)}dt , 2 2 t0



T



J3 ( x, ε) = M εT (T )F x (T )+ εT (t)Q(t) x(t)dt .

(1.25) (1.26)

t0

Учитывая, что минимум функционала J1 (ε) достигается при ра) (J3 (ε, x ) = 0 есть не что иное, венстве нулю функционала J3 (ε, x как уравнение Винера–Хопфа), задача построения основной структуры системы управления разбивается на две подзадачи: A) построение структуры наблюдателя, на который возлагается задача оптимальной оценки x (t) процесса x(t) по измерениям y(t) (функционал оптимизации J1 (ε)); Б) построение структуры оптимального регулятора (функционал J2 ( x, u)). Пусть необходимые и достаточные условия минимума функционаx, u) записываются в виде лов J1 (ε) и J2 ( G1 (ε) = 0,

G2 ( x, u) = 0.

(1.27)

Используя условия (1.27), можно синтезировать структуру наблюдателя и регулятора. Таким образом, результатом аналитического конструирования является структура системы управления (структурное пространство параметров). Другими словами, в силу отсутствия полной информации о параметрах системы и ее взаимодействии со средой система управления синтезирована с точностью до параметров, т.е. определена структура системы управления, однако ее оптимальные параметры с помощью аналитических процедур отыскать невозможно. Второй этап. Используя полученные на предыдущем этапе проектирования необходимые и достаточные условия (1.27) минимума соответствующих функционалов качества J1 (ε) и J2 ( x, u), построим множество алгоритмов оптимизации системы в структурном пространстве с помощью выделенных для этих целей параметров (a — параметры оптимизации объекта, b — параметры оптимизации наблюдателя, r — параметры оптимизации регулятора). Пусть θT (t) = (aT (t), bT (t), rT (t)) ∈ Π.

18

Гл. 1. Основные понятия и определения

При этом предполагается, что пространство Π содержит такой вектор параметров θ0 (t) ∈ Π, при которых система управления достигает x, u) при любых паминимальных значений функционалов J1 (ε) и J2 ( раметрических возмущениях w(t) ∈ W . Другими словами, предполагается, что процесс оптимизации системы может быть эффективным. Так как условия (1.27) являются необходимыми и достаточными x, u), то эти условия условиями минимума функционалов J1 (ε) и J2 ( удовлетворяются только при θ(t) = θ0 (t). Это обстоятельство положим в основу конструкции множества алгоритмов оптимизации объекта, наблюдателя и регулятора. Так как в первое условие (1.27) входит ошибка наблюдения ε(t), то оптимизация может производиться за счет перестройки параметров объекта и наблюдателя x(t, a) и x (t, b), так как G1 (x(t, a0 (t)) − x (t, b0 (t))) = 0. Второе условие (1.27) можно использовать для построения алгоритмов оптимизации регулятора, так как G2 ( x(t, b0 (t)), u(t, r0 (t))) = 0. Множество алгоритмов оптимизации будeт иметь вид: d a(t) = β1 (t)G1 (x(t, a(t)) − x (t)), a(t0 ) = a0 , dt d b(t) = β2 (t)G1 (x(t) − x (t, b(t)), b(t0 ) = b0 , dt d r(t) = β3 (t)G2 ( x(t), u(t, r(t))), r(t0 ) = r0 . dt

(1.28)

Выражения (1.28) описывают семейство алгоритмов оптимизации, каждый из которых может отличаться конкретным выбором или назначением вектор-функций β1 (t), β2 (t), β3 (t). Третий этап. На третьем этапе алгоритмического конструирования нестационарной системы с неполной информацией следует произвести выбор таких β1 (t), β2 (t), β3 (t), при которых будет обеспечиваться асимптотический перевод системы управления из периферийных значений функционалов качества в их минимальное состояние. Такой подход позволяет использовать для поиска указанных вектор-функций конструктивный аппарат функций Ляпунова. Назначим функции Ляпунова в виде: V1 (ε, a, b) = P1 (J1 (ε)), V2 ( x, u, r) = P2 (J2 ( x, u)),

(1.29)

где P1 (J1 (ε)) и P2 (J2 ( x, u)) — положительно определенные ограниченные функции везде, кроме как, быть может, при θ(t) = θ0 (t). Отметим, что функции V1 (ε, a, b) и V2 ( x, u, r) в явном виде не зависят от времени.

1.2. Конструкции алгоритмов параметрической оптимизации

19

Тогда полные производные функций Ляпунова по времени с учетом (1.28) будут иметь вид d ∂P1 (J1 (ε)) ∂P1 (J1 (ε)) V1 (ε, a, b) = β1 G1 (ε) + β2 G1 (ε), dt ∂a(t) ∂b(t) d x, u)) ∂P2 (J2 ( V2 ( β3 G2 ( x, u, r) = x, u). dt ∂r(t)

(1.30)

Как видно из полученных выражений для полных производных функций Ляпунова по времени, для обеспечения асимптотических свойств процессa параметрической оптимизации, вектор-функции β1 (t), β2 (t), β3 (t) могут быть выбраны в виде  T ∂P1 (J1 (ε)) β1 (t) = −G1 (ε, a, b) , (1.31) ∂a(t)  T ∂P1 (J1 (ε)) , (1.32) β2 (t) = −G1 (ε, a, b) ∂b(t)  T ∂P2 (J2 ( x, u)) . (1.33) β3 (t) = −G2 (ε, a, b) ∂r(t) Таким образом, алгоритмы оптимизации (1.28) с (1.31)–(1.33) будут иметь вид:  T ∂P1 (J1 (ε)) d a(t) = − G21 (ε, a, b), a(t0 ) = a0 , dt ∂a(t)  T ∂P1 (J1 (ε)) d b(t) = − G21 (ε, a, b), b(t0 ) = b0 , dt ∂b(t)  T ∂P2 (J2 ( x, u)) d G22 (ε, a, b), r(t0 ) = r0 . r(t) = − dt ∂r(t)

учетом (1.34) (1.35) (1.36)

Следует отметить, что алгоритмы (1.34) и (1.35) не реализуемы, так как для их реализации требуется знание всего вектора состояния объекта x(t). Для построения реализуемых алгоритмов параметрической оптимизации объекта и наблюдателя образуем вспомогательный функционал J1 (ε∗ ), где x) ∈ R m . ε∗ (t) = y(t) − C(

(1.37)

Если пара объект (1.15) и измеритель (1.16) наблюдаема, то можно организовать вспомогательный функционал J1 (ε∗ ) так, что функционалы J1 (ε) и J1 (ε∗ ) будут эквивалентны, т. е. будут достигать минимума при одних и тех же значениях параметров объекта и наблюдателя, т. е. J10 (ε) = min J1 (ε(t, a, b)) = J1 (ε(t, a0 , b0 )), a,b

J10 (ε∗ ) = min J1 (ε∗ (t, a, b)) = J1 (ε∗ (t, a0 , b0 )). a,b

Отметим, что в общем случае J10 (ε) = J10 (ε∗ ).

20

Гл. 1. Основные понятия и определения

Тогда реализуемые аналоги алгоритмов оптимизации (1.34) и (1.35) будут иметь вид:  T d ∂P1 (J1 (ε∗ )) a(t) = − G21 (ε∗ , a, b), a(t0 ) = a0 , (1.38) dt ∂a(t)  T d ∂P1 (J1 (ε∗ )) G21 (ε∗ , a, b), b(t0 ) = b0 . (1.39) b(t) = − dt ∂b(t) Таким образом, результатом алгоритмического конструирования являются: 1) структура системы управления, содержащая объект, измеритель, наблюдатель и регулятор, определенная с учетом всей имеющейся на стадии проектирования информации об объекте, среде, ограничениях и функционале качества; 2) pеализуемые алгоритмы оптимизации объекта, наблюдателя и регулятора в структурном пространстве параметров. На рис. 1.1 представлена блок-схема нестационарной системы управления, реализованной в соответствии с полученными результатами.

Рис. 1.1. Блок-схема нестационарной системы управления с параметрической оптимизацией

Aлгоритмы оптимизации, организованные в соответствии с изложенной методикой, обладают существенным свойством — изменение параметров объекта или регулятора происходит только в том случае, когда система неоптимальна. По выбору (назначению) параметров β1 (t), β2 (t), β3 (t) эти алгоритмы оптимизации можно отнести к градиентным алгоритмам [14]. В книге рассматриваются два класса алгоритмов параметрической оптимизации: алгоритмы, в конструкции которых используется модифицированное уравнение Винера–Хопфа, и алгоритмы, использующие условие оптимальности, формулируемое, как поведение гамильтониана на оптимальной траектории. Aлгоритмы, использующие модифицированное уравнение Винера–Хопфа, используются для оптимизации си-

1.2. Конструкции алгоритмов параметрической оптимизации

21

стемы в смысле функционала J1 (ε) (1.24) и рассмотрены в главе 2. Aлгоритмы, основанные на применении гамильтониана, используются  для оптимизации системы в смысле функционала J2 ( x , u) (1.25). 1.2.2. Принцип минимума в задаче конструирования алгоритмов оптимизации. Пусть нестационарный управляемый объект описывается векторным дифференциальным уравнением вида d x(t) = f (x, u, η, a, t), dt x(t0 ) = x0 ,

(1.40)

здесь x ∈ Rn — вектор состояния объекта; u ∈ Rr — вектор управляющих воздействий; η ∈ Rk — вектор возмущаемых параметров; a ∈ RP — вектор параметров, выделенных для оптимизации функционирования объекта. В общем случае k  p. Заданы ограничения на конечное состояние объекта в виде γ T Ψ(x(T ), T ). Оптимизация системы управления осуществляется соответствующей перестройкой как параметров объекта, так и параметров регулятора. Этот класс нестационарных систем управления с оптимизацией относят к системам координатно-параметрического управления. Предполагается, что: a) вектор-функция f (t, x, η, α) гладкая и допускает дифференцирование необходимое количество раз по совокупности переменных; б) параметрическая неопределенность имеет интервальный характер, т. е. η i  η(t)  η i , i = 1, ... , k, таким образом, известна область изменения возмущенных параметров объекта η(t) ∈ Λ; в) область параметров, предназначенных для оптимизации системы управления при соответствующем u0 (t) ∈ U , содержит те значения, при которых достигается поставленная цель, т. е. α0 (t) ∈ A, где A — область изменения параметров оптимизации. Функционал качества зададим в виде функционала Больца в виде T J(x, u) = Φ(x(T ), T ) +

L(x, u, t) dt,

(1.41)

t0

где

Φ(x(T ), T ) = K(x(T ), T ) + γ T Ψ(x(T ), T ).

(1.42)

Здесь γ ∈ Rq — вспомогательная переменная. В различных постановках задачи время окончания переходного процесса T может быть не задано, но может быть и фиксировано. Синтез оптимального управления проведем в предположении о существовании оптимального управления и об отсутствии параметрических возмущений, т. е. для ∀t ∈ [t0 , T ], η(t) = 0 и α(t) = 0 [1, 3].

22

Гл. 1. Основные понятия и определения

Для системы управления с объектом (1.40) в предположении об отсутствии параметрических возмущений образуем гамильтониан H(t, x, λ, u) = L(t, x, u) + λT (t)f (t, x, u),

(1.43)

где λ(t) — вспомогательная переменная, являющаяся решением дифференциального уравнения   ∂H(t, x, λ, u) d λ(t) = − , dt ∂x(t)   (1.44) ∂Φ(x(T ), T ) λ(t) = . ∂x(T ) Оптимальное управление отыскивается как: 1) в случае, когда ограничения на управление неэффективны, т. е. оптимальное управление достигается внутри области допустимых управлений (не находится на границах замыкания заданного множества допустимых управлений U ), то ∂H(t, x, λ, u) = 0; ∂u(t)

(1.45)

2) в случае, когда ограничения на управление эффективны, т. е. оптимальное управление достигается на границах области допустимых управлений U , то H(t, x0 , λ, u0 ) = min H(t, x0 , λ, u), u(t)∈U

t ∈ [t0 , T ].

(1.46)

Таким образом, оптимальное управление выбирается из условия u0 (t) = arg min H(x0 , u, λ, t). u∈U

(1.47)

Следует отметить, что краевые условия на правом конце для переменной λ(t) и поведение гамильтониана зависят от объекта, вида задаваемой области конечных значений состояния системы и задания (или незадания) времени переходного процесса. Условия оптимальности, сформулированные в виде двухточечной краевой задачи (1.40), (1.44) и выбора управления в виде (1.45), (1.46), являются необходимыми условиями минимума функционала (1.41). В общем случае область изменений управляющих воздействий U является ограниченной. В соответствии с принципом минимума Понтрягина стационарная траектория может содержать дуги, вдоль которых вектор управления принадлежит границе U . С помощью операции, предложенной Фрайесом де Ведеком [3], можно перейти к открытой области изменения управлений. Эта операция состоит в замене вектора u(t) функцией другого вектора, неограниченного во всем Rn .

1.2. Конструкции алгоритмов параметрической оптимизации

23

Продифференцировав H(x, u, λ, t) по времени, с учетом возможности перехода к открытой области управляющих воздействий, получим d ∂H ∂H dx ∂H dλ ∂H du H(x, u, λ, t) = + + + . dt ∂t ∂x dt ∂λ dt ∂u dt Учитывая, что дифференциальные уравнения (1.40) и (1.44) обра∂H du ∂H зуют каноническую форму, а также, что = 0 (либо = 0, ∂u dt ∂u du ∂H du либо = 0, либо и — ортогональны), последнее выражение dt ∂u dt можно переписать в виде d ∂H(x, u, λ, t) H(x, u, λ, t) = . (1.48) dt ∂t Краевые условия для уравнения (1.48) задаются на правом конце и зависят от области конечных значений состояния системы управления. Очевидно, что поведение гамильтониана при оптимальном управлении принимает вполне определенную траекторию, определяемую решением дифференциального уравнения с краевым условием на правом конце (за исключением стационарного случая, когда гамильтониан не зависит от времени). В аналитической теории при нахождении оптимальных управлений тот факт, что гамильтониан при этом изменяется по вполне определенной траектории, не используется. Это поведение положим в основу конструкции алгоритмов оптимизации системы управления. Запишем необходимые условия минимума функционала качества, выраженные в поведении гамильтониана на оптимальной траектории, в виде 0 0 (1.49) R (t) = H (t) + φ(t) = 0. Pассмотрим вначале случай, когда p = k, и с помощью параметров a(t) предполагается парировать соответствующие параметрические возмущения, т. е. предполагается, что возможно достижение следующего соотношения: a(t) = η(t). (1.50) При выполнении (1.50) уравнение объекта (1.40) будет иметь вид d x(t) = f (x, u, t), dt x(t0 ) = x0 .

(1.51)

Если функционал J(x, u, t) гладкий, то оптимальное управление u0 (t) при ыполнении соотношения (1.50) для объекта (1.51) обеспечивает выполнение уравнения Гамильтона–Якоби     ∂J(x, t) ∂J(x, t) + H x(t), u x(t), , λ(t), t = 0 (1.52) ∂t ∂x(t)

24

Гл. 1. Основные понятия и определения

с граничным условием J(x, t) = 0

при Φ(x(t), t) = 0.

(1.53)

Это уравнение описывает поведение функционала J(x, u, t) вдоль траектории x(t) данной системы. Таким образом, независимо от того, какое управление u(t) приводит к заданной области краевых значений состояния системы S, функционал должен удовлетворять уравнению (1.52).   ∂J(x0 , t) Пусть α(t) = η(t), u0 (t) = u x0 (t), — оптимальное ∂x0 (t) управление и J 0 = J(x0 , t) — оптимальная поверхность функционала. Тогда из уравнения Гамильтона–Якоби будем иметь     ∂J(x0 , t) ∂J(x0 , t) = −H x0 (t), u x0 (t), , λ(t), t . (1.54) ∂t ∂x0 (t)   ∂J(x, t) Для случая, когда α(t) = η(t), управления u(t) = u x(t), , ∂x(t) уравнение Гамильтона–Якоби будет иметь вид ∂J(x, t) d ∂J(x, t) ∂J(x, t) d + η(t) + α(t) = ∂t ∂η dt ∂α dt     ∂J(x, t) = H − x(t), u x(t), , λ(t), t = 0. (1.55) ∂x(t)   0 ∂J(x , t) Учитывая, что u0 (t) = u x0 (t), является H-минимальным ∂x0 (t) управлением, т. е.     ∂J(x0 , t) H x0 (t), u x0 (t), , λ(t), t  ∂x0 (t)     ∂J(x, t) 0  H x (t), u x(t), , λ(t), t , ∂x(t) сравнивая левые части уравнений (1.54) и (1.55), получим следующее условие ∂J(x, t) d ∂J(x, t) d η(t) + α(t)  0, (1.56) ∂η dt ∂α dt ∂J(x, t) ∂J(x0 , t) = . так как ∂t ∂t Назначим алгоритм, «парирующий» параметрические возмущения η(t), в виде: d ∂J(x, t) α(t) = − , d ∂α(t) α(t0 ) = α0 .

(1.57)

1.2. Конструкции алгоритмов параметрической оптимизации

25

Используя неравенство (1.56), можно получить условие на максимально возможную скорость изменения возмущенных параметров, при которой алгоритм (1.57) обеспечит асимптотические свойства процессу параметрической оптимизации. Подставляя (1.57) в (1.56),получим  T ∂J(x, t) ∂J(x, t) ∂J(x, t) d η(t)  . ∂η(t) dt ∂α(t) ∂α(t) Откуда

     ∂J(x, t) d ∗   ∂J(x, t) 2      ∂η(t) dt η (t) <  ∂a(t)  ,

t ∈ [t0 , T ],

(1.58)

d ∗ где η (t) — наибольшая скорость изменения возмущающих параdt метров. Полученное выше, сформулируем в виде теоремы. Теорема 1.2.1. Пусть нестационарный управляемый объект описывается векторным дифференциальным уравнением вида d x(t) = f (x, u, η, a, t), dt x(t0 ) = x0 , здесь x ∈ Rn — вектор состояния объекта; u ∈ Rr — вектор управляющих воздействий, η ∈ Rk — вектор возмущаемых параметров; a ∈ RP — вектор параметров, выделенных для оптимизации функционирования объекта. Aлгоритм градиентного типа  T ∂J(x, t) d α(t) = − , dt ∂α(t) α(t0 ) = α0 , «парирующий» параметрические возмущения η(t), обеспечит асимптотические свойства процессу параметрической оптимизации, если выполняется следующее неравенство      ∂J(x, t) 2  ∂J(x, t) d ∗    >   ∂a(t)   ∂η(t) dt η (t), t ∈ [t0 , T ], d ∗ η (t) — наибольшая скорость изменения возмущающих парагде dt метров. Вернемся к поведению гамильтониана на оптимальной траектории (1.49). Очевидно, что, если α(t) = η(t), то равенство (1.49) выполняться не будет, т. е. R(t) = H(x, u, λ, t) + φ(t) = 0. Это обстоятельство

Гл. 1. Основные понятия и определения

26

положим в основу алгоритмов оптимизации. Введем в рассмотрение функцию Ляпунова V = Тогда

2 2 1 1 0 0 R(x, u, λ, t) − R(x , u , λ, t) = R(x, u, λ, t) . 2 2 d V =R dt



 ∂H d ∂H d η(t) + α(t)  0, ∂η(t) dt ∂α(t) dt

∂H ∂H 0 ∂φ(t) ∂φ(t) = , =0и = 0. ∂t ∂t ∂η(t) ∂α(t) Пусть алгоритм параметрической оптимизации имеет вид  T ∂H(x, u, λ, t) d α(t) = − R(t). dt ∂α(t)

(1.59)

(1.60)

так как

(1.61)

Тогда неравенство (1.58) примет вид R

 T ∂H(x, u, λ, t) d ∂H(x, u, λ, t) ∂H(x, u, λ, t) η(t) − R2  0. (1.62) ∂η(t) dt ∂a(t) ∂a(t)

Из последнего неравенства следует, что параметрическая оптимизация будет успешной, если будет выполняться следующее неравенство:  T ∂H(x, u, λ, t) d 2 ∂H(x, u, λ, t) ∂H(x, u, λ, t) η(t) − R < 0. R ∂η(t) dt ∂a(t) ∂a(t) Назначение алгоритма параметрической оптимизации в виде (1.61) позволит получить условие успешной параметрической оптимизации: 2         R(t) ∂H(x, u, λ, t)  >  ∂H(x, u, λ, t) d η ∗ (t), t ∈ [t0 , T ], (1.63)     ∂a(t) ∂η(t) dt d ∗ η (t) — максимальное значение скорости изменения параметров, dt подвергающихся возмущениям. Несколько иной алгоритм параметрической оптимизации можно получить, если структуру алгоритма представить в виде где

d a(t) = I(t) R(t). dt

(1.64)

Здесь вектор-функция I(t) должна определить направление и скорость изменения параметров оптимизации, а скалярная функция R(t) — момент остановки процесса оптимизации. Условие (1.63) будет иметь вид ∂H ∂H d η(t) − R2 (1.65) R I  0. ∂η(t) dt ∂α(t)

1.3. Постановка задачи о робастном управлении

Если назначить вектор-функцию I(t) в виде  T ∂H(x, u, λ, t) I(t) = − R(t), ∂a(t) то алгоритм (1.64) принимает вид  T ∂H(x, u, λ, t) d 2 a(t) = − R (t), dt ∂a(t) a(t0 ) = a0 .

27

(1.66)

(1.67)

Полученные условия (1.63) и (1.65) являются необходимыми условиями успешного процесса параметрической оптимизации нестационарного объекта вида (1.40).

Рис. 1.2. Области эффективности алгоритмов (1.61) и (1.67)

Сравним эффективности алгоритмов оптимизации (1.61) и (1.67). Очевидно, что, если функция | R(x, u, λ, t)| < 1, то скорость перестройки параметров при алгоритме (1.61) выше, чем при использовании алгоритма (1.67). Если же | R(x, u, λ, t)| > 1, то скорость перестройки параметров при применении алгоритма (1.67) выше, чем при использовании алгоритма (1.61). Этот факт иллюстрирует рис. 1.2. Здесь «ось» a представляет собой функциональное пространство, т. е. каждая точка на «оси» a есть функция aj (t0 , T ).

1.3. Постановка задачи о робастном управлении В настоящее время основу теории робастного управления составляют методы анализа робастной устойчивости и робастной стабилизации линейных объектов. При этом исследуется не одна заданная линейная система, а устойчивость целого семейства систем, соответствующих исходной (номинальной) системе при наличии неопределенности.

28

Гл. 1. Основные понятия и определения

Первые решения проблемы интервальной устойчивости получены A. A. Марковым и П. Л. Чебышевым (1894 г.). Итальянский ученый С. Фаэдо сформулировал достаточные условия интервальной устойчивости, выраженные через граничные значения параметров полиномов (1953 г.). Однако наибольший интерес к данным задачам появился после того, как В. Л. Харитонов дал критерий устойчивости семейства полиномов, которому в пространстве параметров отвечает параллелепипед (1978 г.). Дальнейшие исследования в этом направлении были связаны с желанием уменьшить число проверяемых полиномов. Появилось большое количество работ, в которых анализ интервальных систем рассматривался на основе корневого годографа [13]. Задачи управления неопределенными объектами, как правило, сводятся к задачам стабилизации или оптимального управления при незаданном времени окончания переходного процесса. Это позволяет для анализа устойчивости и синтеза стабилизирующих управлений использовать частотные методы, разработанные в теории автоматического регулирования [13]. Использование этих методов для синтеза управляющих воздействий для нестационарных систем при заданном интервале управления невозможно. Дадим общую постановку задачи о робастном управлении неопределенным детерминированным объектом. Пусть нестационарный наблюдаемый и управляемый динамический объект описывается системой обыкновенных дифференциальных уравнений вида: d x(t) = f (x, u, α(t)), x ∈ Rn , α(t) ∈ A, dt y(t) = C(x(t)), y ∈ Rm , m  n.

t ∈ [t0 , T ],

(1.68) (1.69)

Начальное состояние x(t0 ) объекта (1.68) принадлежит ограниченному множеству X0 , т. е. x(t0 ) ∈ X0 . (1.70) Заданы также условия на правом конце: g(x(T )) = 0,

(1.71)

где g(x(T )) — скалярная функция. Предполагается, что управление u(t) ∈ U почти всюду, U — замкнутое ограниченное множество в евклидовом пространстве Rr . Задан функционал, оценивающий эффективность управления объектом (1.68): J = J(x, u).

(1.72)

Предположим, что при известных траекториях изменения параметров для каждого управляемого объекта из множества (1.68) можно синтезировать u0 (t) ∈ U , при котором выполняется условие (1.71) и функционал (1.72) принимает минимальное значение. Однако оптимальное управление, синтезированное для какой-либо известной траектории параметров объекта, может оказаться далеко не оптимальным

1.3. Постановка задачи о робастном управлении

29

при другой траектории параметров. Более того, управление может и не обеспечить даже устойчивости системы «объект-регулятор» при траекториях параметров, отличных от той, которая использовалась при синтезе оптимального управления. При отсутствии информации о значениях, которые принимают параметры объекта α(t0 , T ) ∈ A в интервале управления, будем считать, что задача успешно решена, если удастся найти управление u∗ (t) ∈ U , переводящее систему из x(t0 ) ∈ X0 в x∗ (T ), при котором цель управления (1.71) будет выполняться с заданной точностью, т. е. |g(x∗ (T ))|  d.

(1.73)

Здесь d — фиксированная неотрицательная постоянная, x∗ (T ) - состояние, принимаемое объектом в момент окончания периода управления при конкретных значениях параметров α(t0 , T ) ∈ A и соответствующем управлении u∗ (t0 , T ). Определение 1.3.1. Будем называть систему «объект-регулятор» робастно управляемой с заданным показателем робастности [4], если: найдется такое управление u∗ (t0 , T ) ∈ U для объекта d x(t) = f (x, u, α(t)), dt

x ∈ Rn , t ∈ [t0 , T ],

которое при любых возможных траекториях параметров α(t0 , T ), принадлежащих заданному множеству траекторий A, т. е. α(t0 , T ) ∈ A, переводит объект из начального состояния x(t0 ), принадлежащего заданному множеству начальных состояний X0 , т. е. x(t0 ) ∈ X0 , в состояние x∗ (T ), при котором цель управления g(x∗ (T )) достигается с заданной точностью d, т. е. |g(x∗ (T ))|  d. Для некоторых задач d-робастного управления может быть добавлено еще одно условие, а именно: функционал, оценивающий качество управления, должен принимает значение, не превышающее заданного, т. е. J(x∗ , u∗ )  J max (x, u), u(t0 , T ) ∈ U . Управление u∗ (t0 , T ) ∈ U будем называть робастным. Учитывая специфику задачи стабилизации нестационарного объекта, уместно ввести еще одно определение. Определение 1.3.2. Будем называть систему робастно стабилизируемой, если для нестационарного объекта вида (1.68) найдется регулятор с постоянными параметрами, который обеспечит асимптотическое движение системы «объект-регулятор» при любых возможных траекториях изменения параметров объекта α(t) = α(t0 , T ) ∈ A из любого x0 ∈ X0 к x(t) = 0 при t → ∞. Частным видом условия (1.73) может быть условие |πx∗ (T )|  d1 или πx∗ (T )  d2 , где π — оператор проектирования из Rn на Rk .

Гл. 1. Основные понятия и определения

30

n 

Здесь и далее: |z| = |zi | — норма (или величина) и z = i=1  1/2 n = zi2 — эвклидова (длина) норма вектора z ∈ Rn . В ряде i=1

случаев норма |z| более удобна, чем длина z . Для решения задач синтеза d-робастного управления будем использовать принцип минимакса. Применение минимаксного подхода позволяет перейти от исследования систем, описываемых дифференциальным включением вида (1.2), к системе, являющейся мажорантой этих систем, и получить необходимые и достаточные условия существования d-робастного управления неопределенными линейными и нелинейными объектами. Pобастное управление, в силу сделанного выше определения, u∗ (t) ∈ U определяется соотношениями: u∗ (t0 , T ) = arg sup sup inf |g(x∗ (T ))|  d,

(1.74)

J(x∗ , u∗ ) = min sup J(x, u)  J max (x, u).

(1.75)

x0 ∈X0 α∈A u∈U

u∈U α∈A

Пусть α∗ — значения параметров объекта (1.68), при которых выполняются условия (1.74) и (1.75). Очевидно, что α∗ принадлежит границе замыкания множества возможных значений параметров объекта, т. е. α∗ ∈ ∂A. Таким образом, можно считать α∗ мажорантой для α(t0 , T ), т. е. |α∗ |  |α(t0 , T )|. Для векторно-матричной формы, в которой возможно задание структуры параметров объекта, последнее неравенство выполняется поэлементно. Назовем гарантированным значением критерия качества при d-робастном управлении величину J = sup J(x, u)|g(x(T ))|d . α∈A

Оптимальным гарантированным значением критерия качества при робастном управлении будет величина J 0 = inf sup J(x, u)|g(x(T ))|d . u∈U α∈A

Теорема 1.3.1. Пусть множество допустимых траекторий изменения параметров A не пусто. Тогда задача нахождения оптимального управления в виде u0 (t) = arg inf sup J(x, u) u∈U α∈A

имеет решение, если ∃u∗ (t) : sup J(x∗ , u∗ ) < ∞. α∈A

1.3. Постановка задачи о робастном управлении

31

Доказательство теоремы вытекает из определения оптимального управления. Действительно, если u0 (t) ∈ U минимизирует функционал J(x, u) при любых α(t0 , T ) ∈ A, то J(x0 , u0 ) < ∞. Очевидно, что ограничения на управляющие воздействия, при которых задача робастного управления будет выполнена, зависят от начального состояния x(t0 ) ∈ X0 , от значений параметров α(t0 , T ) ∈ A и от периода управления T − t0 , т. е. выпуклое множество U , содержащее робастное управление, определяется выражением  d U = x0 ∈ X0 , α(t0 , T ) ∈ A, t ∈ [t0 , T ], u∗ (t0 , T ) : x(t) = dt  = f (x∗ , u∗ , α(t)), |g(x∗ (T ))|  d . (1.76) Если робастное управление будет таковым, что u∗ (t) ∈ U , где U соответствует выражению (1.76), то задача робастного управления будет успешно завершена за заданный период управления T − t0 при любом начальном условии x0 ∈ X0 и при любом фиксированном α(t0 , T ) ∈ A. Для этого необходимо, чтобы sup inf |g(x∗ (T ))|  d, x0 ∈ X0 , x0 ,α u∈U

α(t0 , T ) ∈ A.

(1.77)

Действительно, поскольку при любом фиксированном x0 ∈ X0 и любых фиксированных значениях параметров объекта α(t0 , T ) ∈ A должно выполняться неравенство inf |g(x∗ (T ))|  d,

u∈U

x0 ∈ X0 ,

α(t0 , T ) ∈ A,

то следует условие (1.77). Отметим, что условие (1.77) к тому же будет и достаточным, если для любого x0 ∈ X0 и любых значений параметров α(t0 , T ) ∈ A найдется такое u∗ (t0 , T ) ∈ U , что d  inf |g(x(T ))|. u∈U

Следует отметить, что в задачах робастного управления (расчет системы на «худший случай»), реализуемого с использованием минимаксного подхода, в общем случае точка минимакса не является седловой точкой, т. е. перестановочные операции inf и sup могут дать несовпадающие результаты. При заданных ограничениях на управляющие воздействия и заданном начальном условии x(t0 ) ∈ X0 может представлять интерес решение «двойственной» задачи, т. е. определения a∗ = arg max J(x, u), a∈A

где J(x, u) = inf J(x, u)|g(x(T ))|d . u∈U

32

Гл. 1. Основные понятия и определения

Отметим, что применение минимакса для синтеза d-робастного управления неопределенными системами приводит к управлениям, которые можно назвать «расточительными», так как в интервале управления параметры системы и ее начальное состояние возможно и не будут принимать «наихудших» значений. Другими словами J(x(t, a∗ ), u0 )  J(x(t, a), u0 ), α(t0 , T ) ∈ A. Кроме этого, |z(t)| — решение уравнения d z(t) = f (z, u0 , a∗ ), z(t0 ) = x∗0 , dt есть мажоранта |x(t)|, являющегося решением уравнения d x(t) = f (x, u0 , a), x(t0 ) = x0 , dt т. е. |z(t)|  |x(t)|. Отклонением

z(t) − x(t)

x(t)

a(t0 , T ) ∈ A,

(1.78)

назовем отклонение z(t) от x(t). Это отклонение характеризует степень робастности мажорирующей, в указанном выше смысле, модели по отношению к объекту в каждый момент времени переходного процесса. Пусть z(t) = x(t) + γ(t), (1.79) где γ(t) = 0(x(t)) при t → ∞. Тогда (1.78) перепишется в виде

γ(t) / x(t) . Из каждой точки кривой x(t), соответствующей параметру t, опишем сферу радиуса γ(t) . Получим некоторую область, «окружающую ось» x(t). Точка z(t) находится на границе сферы на расстоянии

γ(t) . Если x(t) стремится к началу координат, то сфера «сужается» с ростом t быстрее, чем x(t) стремится к нулю. Если x(t) остается в ограниченной части пространства и вне некоторой окрестности начала координат, то сфера «сужается», все ближе примыкая с ростом t к траектории x(t). Таким образом,

z(t)

→ 1 при t → ∞.

x(t)

(1.80)

Пусть zi (t), xi (t) — координаты процессов z(t), x(t), тогда zi (t) xi (t) − = 0(1) при t → ∞, т. е. разность между направляю z(t) x(t)

щими косинусами аналогичных векторов стремиться к нулю t → ∞.

1.3. Постановка задачи о робастном управлении

33

Грубые, но простые оценки крайних показателей можно получить для нормы решения уравнения, определяющего γ(t). Если [11] при каком-нибудь определении нормы для всех решений этого уравнения выполняется неравенство r(t)  а следовательно и  t exp

 r(τ ) dτ

s

d ln γ(t)  R(t), dt

γ(t)

 exp 

γ(s)

 t

(1.81)  R(τ ) dτ ,

(1.82)

s

с кусочно непрерывными (или измеримыми) ограниченными функциями r(t) и R(t), то последние служат соответственно нижней и верхней границами. Следует отметить, что если (1.82) выполняется для всего интервала управления неопределенным объектом, то r  r(t) и R  R(t) являются «крайними показателями сферы γ(t) ».

2 Aфанасьев

Глава 2 AДАПТИВНЫЕ И РОБАСТНО-АДАПТИВНЫЕ НАБЛЮДАТЕЛИ

2.1. Постановка задачи В данной главе рассматриваются вопросы построения «оценивателей» и «наблюдателей» состояния динамических объектов с неполной информацией о состоянии и взаимодействии со средой. Задача оценивателей и наблюдателей состоит в построении динамического преобразования выходного (измеряемого) сигнала объекта в наилучшую, в определенном смысле, оценку состояния этого объекта. Однако цели построения оценок разные. Оцениватели решают самостоятельную задачу построения оценки состояния неопределенного объекта, т. е. полученная оценка не используется впоследствии для управления этим объектом: d x(t) = f (t, x, w, a(t)), x(t0 ) = x0 ; dt y(t) = C(t, x, n), x (t) = L(t)y(t), J = J(ε), ε(t) = x(t) − x (t).

(2.1)

Здесь x ∈ Rn , y ∈ Rm , m  n; w(t) и n(t) — шумы и помехи в объекте и измерениях; x  ∈ Rn — оценка процесса x(t); L(t) — оператор преобразования y(t) в x (t), J(ε) — функционал качества процесса оценивания. Как уже отмечалось в главе 1 книги, использование минимаксного подхода к построению робастного управления неопределенными объектами производится методами аналитического конструирования. Получаемые оптимальные управления являются функциями состояния системы [2, 3], а не доступных для измерения координат. К тому же достаточно часто измерения координат состояния системы производятся на фоне помех. Все это приводит к необходимости построения соответствующих наблюдателей, задачей которых является выработка оценки состояния системы по доступным измерениям ее координат с последующим использованием этой оценки для организации управления объектом. Эти наблюдатели, в силу нестационарности помех

2.1. Постановка задачи

35

и параметров объекта, могут строиться как робастные, адаптивные, робастно-адаптивные. В отличие от оценивателей, цель построения наблюдателями оценки состояния объекта подчинена задаче успешного выполнения всей задачи управления динамическим неопределенным объектом: d x(t) = f (t, x, u, w, a(t)), x(t0 ) = x0 , dt Ψ(x(T )) = 0, y(t) = C(t, x, n), x (t) = L(t)y(t),

(2.2)

u(t) = φ(t, x ),

J = J(x, u). Здесь Ψ(x(T )) = 0, Ψ ∈ Rq , q  n — цель управления нестационарным объектом; u(t) — управляющее воздействие; φ(t, x ) — закон управления; J(x, u) — функционал качества управления объектом. В последующих разделах этой главы рассматриваются вопросы построения робастных, адаптивных, робастно-адаптивных наблюдателей и оценивателей. Под адаптацией мы будем понимать процесс изменения параметров и структуры наблюдателя, а возможно, и управляющих воздействий на основе текущей информации с целью достижения определенного, обычно оптимального, состояния системы при начальной неопределенности и изменяющихся условиях работы [14]. Следует отметить, что существование адаптивного или робастноадаптивного управления, оптимизирующего наблюдатель для объекта с неполной информацией, не является необходимым: а) начальные условия объекта и наблюдателя, начальная и/или текущая параметрическая неопределенность, длительность интервала управления системой могут оказаться такими, что процесс оптимизации наблюдателя может быть не закончен, т. е. перестраиваемые параметры наблюдателя за время управления системой могут не достичь значений, при которых обеспечивается наилучшая оценка состояния объекта (т. е. соответствующий функционал качества достигает минимального значения); б) во множествах допустимых управляющих параметрических воздействий может вообще не оказаться управлений, обеспечивающих наилучшую оценку состояния неопределенного объекта. Для построения конструкции оптимизации наблюдателей при адаптивном или робастно-адаптивном управлении неопределенного объекта сделаем ряд предположений. Пусть управляемый объект описывается обыкновенным дифференциальным уравнением d x(t) = f (x, u, w, t), dt x(t0 ) = x0 2*

(2.3)

36

Гл. 2. Aдаптивные и робастно-адаптивные наблюдатели

и измерения его состояния y(t) = C(x, t) + n(t),

(2.4)

где x ∈ R , y ∈ R , n  m, w(t) и n(t) — гауссовские шумы, причем M [w(t)] = 0, M [n(t)] = 0,      W (t) Π(t) w(t) T M w (η)nT (η) = δ(t − η). n(t) ΠT (t) N (t) n

m

Здесь M — знак математического ожидания; δ(t − η) — функция Дирака. Отметим, что изменение во времени вектор-функции f (x, u, w, t) происходит вследствие того, что параметры этой вектор-функции находятся под воздействием внешних возмущений, т. е. f (x, u, w, t) = = f (x, u, w, η(t)), где η(t) — параметры объекта, изменяющиеся по неизвестному закону, причем η(t)  H = const > 0, t  t0 . Пусть ε(t) = L(t)x(t) − Ψ(t) x(t), (2.5) где x (t) ∈ Rq — состояние наблюдателя, т. е. оценка состояния объекта (2.3) построенная по измерениям (2.4), являющаяся решением дифференциального уравнения d x (t) = fm (y, u, α(t)), dt 0 , x (t0 ) = x

(2.6)

ε(t) ∈ Rk — ошибка наблюдения; L ∈ R, Ψ ∈ R — линейные операторы, преобразующие Rn → Rk и Rq → Rk соответственно; α ∈ Rl — вектор параметров оптимизации модели. Предположим, что функция fm (x, u, α) дважды дифференцируема по α(t). Следует отметить, что этап выбора структуры наблюдателя чрезвычайно ответственен. Уместность, применимость и эффективность построенной оценки существенно зависит от степени достоверности, с которой математическая модель описывает реальную ситуацию (объект, измерения, внешние параметрические возмущения). В большинстве практических задач полная, точная модель объекта вообще отсутствует, и ее построение связано с большими трудностями, а потому задачу построения оценки по измеряемому процессу y(t) приходится решать при неполном знании модели. Еще больше усложняется задача, когда шумы w(t) и n(t) или/и параметры объекта (2.3) меняются неконтролируемым образом. Кроме того, определение состояния стохастического объекта, описываемого нелинейными дифференциальными уравнениями, по измерениям его фазовых составляющих на фоне помех требует реализации решений нелинейных дифференциальных уравнений. Причем точное построение, например, нелинейного фильтра, невозможно, и, что очень важно, получение оценки точности аппроксимации при субоптималь-

2.1. Постановка задачи

37

ной реализации нелинейного фильтра либо затруднено, либо невозможно. Aльтернативным предложением в приведенных ситуациях может быть построение линейной модели с перестраиваемыми параметрами. Таким образом, задача построения адаптивного наблюдателя заключается в построении оценки процесса x (t) на модели (2.6) по наблюдениям y(t) наилучшей с позиций функционала J(ε) = M [F (ε)],

(2.7)

методом соответствующего управления параметрами α(t). Функционал (2.7) следует записать в виде J(ε) = M [F (ε(t, α))].

(2.8)

Функция потерь F (ε(t, α)) обычно представляет собой четную функцию невязки, т. е. F (ε(t, α)) = F (−ε(t, α)). Наиболее распространенными функциями потерь являются квадратичные функции F (ε(t, α)) = εT (t, α)ε(t, α). Pеже применяются модульные функции потерь F (ε(t, α)) = ε(t, α) . Еще реже используются функции потерь, отличные от квадратичных и модульных [14]. Метод минимизации квадратичного функционала J(ε) = M ε(t, α) 2

(2.9)

соответствует широко распространенному методу наименьших квадратов. Этот метод при гауссовских полезных процессах и гауссовских шумах в измерении позволяет выразить минимизируемый функционал (2.8) в явной аналитической форме через корреляционные функции. Минимизация же неквадратических функционалов приводит к необходимости решения нелинейной системы уравнений. Отметим, что наилучшие оценки состояния объектов, построенные по наблюдениям, можно получить с помощью наблюдателей, структура которых и ряд основных параметров совпадают со структурой и соответствующими параметрами объекта [4, 14]. Таким образом, задача построения наилучшей в заданном смысле оценки состояния объекта может рассматриваться как задача идентификации нестационарного объекта моделью, в качестве которой выступает наблюдатель.

38

Гл. 2. Aдаптивные и робастно-адаптивные наблюдатели

2.2. Общие условия минимума функционала качества и основная конструкция алгоритмов адаптации Условия, определяющие оптимальное решение α0 (t), запишутся в виде   ∂ ∂ J(ε) = M F (ε(t, α)) = 0, ∂α(t) ∂α(t)   ∂ 2 F (ε(t, α)) ∂2 (2.10) J(ε) = M > 0, ∂αi (t)∂αj (t) ∂αi (t)∂αj (t) i, j = 1, ... , l при α(t) = α0 (t). Векторы первого уравнения в (2.10)   ∂J(ε) ∂J(ε) ∂ J(ε) = , ... , ∂α(t) ∂α1 ∂αl   и ∂F (ε(t, α)) ∂ ∂F (ε(t, α)) [F (ε(t, α))] = , ... , ∂α(t) ∂α1 ∂αl представляют собой градиенты средних потерь и функции потерь соответственно. Матрицы во втором уравнении (2.10) ∂ 2 J(ε) , ∂αi (t)∂αj (t)

∂ 2 F (ε(t, α)) ∂αi (t)∂αj (t)

представляют собой матрицы Гессе — матрицы вторых производных функции средних потерь и функции потерь соответственно. Выполнение условий идентифицируемости (2.10) обеспечивает наилучшую оценку состояния объекта. Уравнение объекта том случае, когда его параметры изменяются во времени по неизвестному закону, имеет вид d x(t) = f (x, u, w, η(t)), x(t0 ) = x0 . dt Критерий качества в этой задаче имеет вид J(ε) = M [F (ε(t, α, η))].

(2.11)

(2.12)



Здесь ε(t, α, η) = x(t, η) − x (t, α). В задачах построения адаптивных или робастно-адаптивных наблюдателей можно использовать первое из условий (2.10). Тогда  T  d ∂F (ε(t, α, η)) , α(t) = −M (2.13) dt ∂α(t) α(t0 ) = α0 . Aлгоритм оптимизации (2.13) относится к классу градиентных.

2.2. Общие условия минимума функционала качества

39

Найдем условие, при выполнении которого алгоритмы вида (2.13) обеспечивают необходимые свойства процессу параметрической оптимизации наблюдателя. Это условие имеет вид ∂ ∂ d ∂ d d J(ε) = J(ε) + J(ε) α(t) + J(ε) η(t)  0. dt ∂t ∂α(t) dt ∂η(t) dt Учитывая (2.13) и то обстоятельство, что функционал (2.12) в явном виде не зависит от t, получим     T  d ∂F (ε(t, α, η)) ∂F (ε(t, α, η)) J(ε) = − M + M dt ∂α(t) ∂α(t)    ∂F (ε(t, α, η)) d η(t)  0. + M ∂η(t) dt Очевидно, что это условие будет выполняться, если скорость перестройки параметров наблюдателя будет отвечать условию    2        d M ∂F (ε(t, α, η))  >  M ∂F (ε(t, α, η)) η(t). (2.14)    ∂α(t) ∂η(t) dt Теорема 2.2.1. В рассматриваемой задаче построения оценки состояния нестационарного объекта условие (2.14) является необходимым условием параметрической оптимизации наблюдателя, обеспечивая «перевод» функционала качества из любых периферийных значений к его минимальному значению асимптотически. Как уже отмечалось ранее, при синтезе оптимальных систем нередко используются квадратичные функционалы  2 (2.15) J(x, x ) = M L(t)x(t) − Ψ(t) x(t) . Прежде чем находить общее условие минимума функционала вида (2.15), отметим, что достаточно большое количество моделей объектов управления можно описать с помощью систем линейных дифференциальных уравнений с неполной информацией о параметрах и векторе состояния. Для таких моделей справедливо x (t) = G(α(t), t)y(t),

(2.16)

где G(α(t), t) ∈ R — пространство линейных операторов с параметрами оптимизации α(t). В общем случае на структуру и параметры линейного оператора G(α(t), τ ) могут быть наложены ограничения, т. е. оператор G(α(t), t) ∈ ∈ R1 , где R1 ⊂ R, имеет непроизвольную (заданную) структуру. Покажем, что оптимальный оператор G0 (α(t), t) = G(α0 (t), t) ∈ R1 , где α0 (t) — значения параметров оптимизации оператора G(α(t), t), при

40

Гл. 2. Aдаптивные и робастно-адаптивные наблюдатели

которых x (t) доставляет минимум функционалу (2.9), удовлетворяет условию   T M L(t)x(t) − Ψ(t) I(α0 (t), t)y(t) ℵ(t)y(t) = 0, ℵ(t) = 0. (2.17) Для гауссовских процессов и линейных операторов (2.17) является необходимым и достаточным условием минимума функционала (2.15) и имеет вид уравнения Винера–Хопфа [3]. Для доказательства положим G(α(t), t) = G(α0 (t), t) + λℵ(t),

(2.18)

где ℵ ∈ R1 — линейный ненулевой оператор, такой, что G(α(t), τ ) ∈ R1 ; λ — весовой коэффициент. Подставив (2.18) в (2.16) и затем в (2.15), получим критерий качества как функцию от весового коэффициента. Принимая во внимание, что оператор G(α(t), τ ) совпадает с оптимальным оператором G(α0 (t), τ ) только при λ = 0, найдем ∂ J(... λ) ∂λ

при λ = 0,

т. е.

2    ∂ M L(t)x(t) − Ψ(t) I(a, t) + λℵ(t) y(t) = 0 при λ = 0. ∂λ В результате получим выражение, совпадающее с (2.17). Условие вида (2.17) можно получить, если исследовать функционал при α(t) = α0 (t). Условия оптимальности будут иметь вид T     T ∂ ∂Ψ(t) x(t) J(x, x ) = M − {L(t)x(t) − Ψ(t) x(t)} = 0, ∂α(t) ∂α(t)  T  ∂Ψ(t) x(t) ∂Ψ(t) x(t) ∂2 J(x, x ) = M > 0, ∂αi (t)∂αj (t) ∂αi (t) ∂αj (t) i, j = 1, ... , l

при α(t) = α0 (t).

Если пространство операторов объекта и его модели линейное, то условие (2.17) является необходимым и достаточным условием минимума функционала (2.15). В общем же случае, когда пространство операторов объекта и его модели произвольное, условие (2.17) является достаточным и для получения необходимых условий требуется наложение дополнительных ограничений на класс этих операторов. Таким образом, уравнение (2.17) для линейных операторов может иметь только одно решение. Вопрос о том, имеется ли вообще решение, в общем случае остается открытым. Однако вопрос о существовании решения уравнения (2.17) выясняется автоматически во всех случаях, когда удается найти решение этого уравнения. Заметим также, что уравнение (2.17) всегда имеет решение, если множество R1 замкнуто, т. е. содержит пределы всех возможных по-

2.3. Модифицированное уравнение Винера–Хопфа

41

следовательностей своих элементов. Если множество R1 не замкнуто, то уравнение (2.17) может не иметь решения. В дальнейшем будем полагать, что ограничения на операторы объекта и его модели накладываются такие, при которых решение уравнения (2.17) существует. Полученное выше сформулируем в виде теоремы. Теорема 2.2.2. Пусть объект описывается обыкновенным дифференциальным уравнением d x(t) = f (x, u, w, t), dt x(t0 ) = x0 и измерения его состояния y(t) = C(t) + n(t), где x ∈ R , y ∈ R , n  m, w(t) и n(t)— центрированные гауссовские шумы. Тогда оптимальный оператор G0 (α(t), t) = G(α0 (t), t) ∈ R, где R — пространство линейных операторов, α0 (t) — значения параметров оптимизации оператора G(α(t), t), при которых x (t) доставляет минимум функционалу J(x, x ) = M L(t)x(t) − Ψ(t) x(t) 2 , удовлетворяет условию   T M L(t)x(t) − Ψ(t) I(α0 (t), t)y(t) ℵ(t)y(t) = 0, ℵ(t) = 0. n

m

Отметим, что алгоритм оптимизации (2.13) для задачи построения адаптивного наблюдателя оказывается нереализуемым, так как требуется информация обо всем состоянии объекта. Задача построения реализуемых алгоритмов параметрической оптимизации наблюдателей рассматривается в следующем разделе книги.

2.3. Модифицированное уравнение Винера–Хопфа в задачах построения наблюдателей нестационарных процессов В задаче построения оценки состояния стохастического неопределенного объекта по измерениям, проводимым на фоне шумов, наблюдатель имеет структуру фильтра Калмана–Бюси. Задача линейной фильтрации, первоначально изученная Колмогоровым и Винером в специальном случае, была позднее всесторонне исследована Стратоновичем, а затем Калманом и Бюси [3]. Многочисленные приложения подтвердили успех их теории, которая базируется на использовании моделей полезного случайного процесса и шума. Однако реализация «фильтра Калмана–Бюси» требует знания параметров этих моделей на всем интервале наблюдения. Понятно, что для выделения нестационарного

Гл. 2. Aдаптивные и робастно-адаптивные наблюдатели

42

полезного процесса на фоне нестационарных шумов использование в полной мере результатов Калмана–Бюси невозможно. Кроме того, фильтр Калмана–Бюси оптимален в среднем и в терминологии данной книги может быть назван робастным. На отдельных реализациях этот фильтр может быть далеко не оптимальным. В данном разделе книги рассматривается задача построения адаптивного и робастно-адаптивного фильтра, наделенного способностью оптимизировать свою работу по мере накопления необходимой для этого информации [4]. Пусть задан управляемый неопределенный стохастический объект, состояние которого можно представить гауссовским марковским процессом d x(t) = A(t)x(t) + B(t)u(t) + D(t)ω(t), (2.19) dt x(t0 ) = x0 . Задан измеряемый процесс y(t) = Cx(t) + n(t).

(2.20)

В (2.17) и (2.18) x ∈ R , y ∈ R , ω ∈ R , n ∈ R . Нестационарные процессы ω(t) и n(t) — белые гауссовские центрированные шумы с интенсивностями W (t) и N (t). Пара A, C наблюдаема. Предполагается, что шумы ω(t) и n(t) не коррелированны и M [x(t0 )T ω(t)] = 0, M [x(t0 )T n(t)] = 0. Требуется построить оценку состояния объекта (2.19) по измерениям (2.20), оптимальную в смысле критерия n

здесь

m

r

m

J(ε) = M [εT (t)ε(t)],

(2.21)

ε(t) = x(t) − x (t),

(2.22)

где x (t) — оценка полезного процесса. Наблюдатель, реализуемый в виде фильтра Калмана–Бюси, имеет вид [3]: d x (t) = A(t) x(t) + B(t)u(t) + K(t)[y(t) − C x (t)], (2.23) dt x (t0 ) = x0 , здесь x0 = M [x(t0 )],

K(t) = P (t)CN −1 (t),

(2.24)

где P (t) = M [ε(t)ε (t)] — дисперсионная матрица ошибок, являющаяся решением уравнения типа Pиккати d P (t) = A(t)P (t) + P (t)AT (t)− dt (2.25) − P (t)C T N −1 (t)CP (t) + D(t)W (t)DT (t), T

P (t0 ) = M [(x0 − x0 )(x0 − x0 )T ].

2.3. Модифицированное уравнение Винера–Хопфа

43

Ошибка построенной оценки состояния объекта при этом будет решением дифференциального уравнения d ε(t) = [A(t) − K(t)C]ε(t) + D(t)ω(t) − K(t)n(t), dt ε(t0 ) = x0 − x0 .

(2.26)

В силу того, что параметры матриц A(t), D(t), W (t) и N (t) неизвестны, реализовать фильтр в виде (1.23)–(1.25) невозможно. Сделаем предварительные предположения. Пусть A(t) = A + a(t), D(t) = D + d(t),

(2.27)

где a(t), d(t) — матрицы возмущенных параметров, тогда d x(t) = [A + a(t)]x(t) + B(t)u(t) + [D + d(t)]ω ∗ (t), dt x(t0 ) = x0 .

(2.28)

Здесь ω ∗ (t) — стационарный белый шум с известной интенсивностью W ∗ (нестационарность процесса ω(t) «вынесена» в изменение параметров матрицы d(t)). Предположим, что матрица интенсивностей нестационарного белого шума N (t) представима в виде N (t) = N + δ(t). Предположим также, что неопределенность имеет интервальный характер, т. е. имеют место следующие неравенства: aij  aij (t)  aij , bik  bik (t)  bik , δ kl  δkl (t)  δ kl , i, j = 1, ... , n; k, l = 1, ... , r, t  t0 (черта внизу — минимальное значение, черта вверху — максимальное значение). Основную структуру наблюдателя будем строить в виде d x (t) = [A+ϕ(t)] x(t)+B(t)u(t)+[K ∗ (t) + k(t)][y(t) − C x (t)], dt x (t0 ) = x0 ,

(2.29)

где матрица K ∗ (t) находится как решение следующего уравнения: K ∗ (t) = P ∗ (t)C T N −1 ,

(2.30)

здесь P ∗ (t) — решение дифференциального уравнения d ∗ P (t) = AP ∗ (t)+P ∗ (t)AT −P ∗ (t)C T N −1 CP ∗ (t) + DW ∗ DT , (2.31) dt P ∗ (t0 ) = P (t0 ). Pешения (2.29) и (2.30) реализуются на стадии проектирования нестационарного фильтра. Таким образом, наблюдатель синтезирован с точностью до значений параметров матриц ϕ(t) и k(t), на которые возлагается задача

44

Гл. 2. Aдаптивные и робастно-адаптивные наблюдатели

оптимизировать работу фильтра в смысле функционала (2.21) по мере накопления необходимой для этих целей информации. Сформируем алгоритм оптимизации. Необходимое, а в рассматриваемой постановке задачи и достаточное, условие минимума функционала (2.17) описывается уравнением Винера–Хопфа [3]:   M {x(t) − x (t)}T {L(t)y(t)} = 0, (2.32) здесь оператор L(t) преобразует вектор y ∈ Rm в вектор z ∈ Rn . Уравнение (2.31) должно выполняться для любого ненулевого линейного оператора L(t) ∈ R. Это уравнение положим в основу конструкции алгоритмов оптимизации наблюдателя (2.29). Организуем векторы ϕ∗ (t) и k ∗ (t) размерностью n2 × 1 и (n×m)×1 из элементов матриц ϕ(t) и k(t) соответственно. Представим конструкцию алгоритмов оптимизации в следующем виде:   d ∗ ϕ (t) = M {Πϕ (t)y(t)}{x(t) − x (t)} , (2.33) dt ϕ∗ (t0 ) = ϕ∗0 ,   d ∗ k (t) = M {Πk (t)y(t)}{x(t) − x (t)} , (2.34) dt k ∗ (t0 ) = k0∗ , здесь Πϕ (t) и Πk (t) — линейные операторы, преобразующие m-мерный вектор y(t) в матрицы размерности (n × n) × m и (n × m) × m соответственно. При выборе операторов Πϕ (t) и Πk (t) потребуем, чтобы процесс оптимизации, т. е. перевода функционала качества из периферийных его значений в минимум, обладал свойством асимптотики. Это означает, что при неизвестных, но постоянных параметрических возмущениях и постоянных, но неизвестных интенсивностях шумов, должно выполняться условие d J(x, x )  0, dt т.е. ) dϕ∗ (t) ∂J(x, x ) dk ∗ (t) ∂J(x, x ) ∂J(x, x + +  0. (2.35) ∂t ∂ϕ∗ (t) dt ∂k ∗ (t) dt Так как функционал (2.21) в явном виде не зависит от t, x(t) не зависит от параметров оптимизации ϕ∗ (t) и k ∗ (t), то условие (2.35), учитывая (2.34), можно переписать в виде   T T   ∂ x(t) M − {x(t) − x  (t)} M Πφ (t)y(t){x(t) − x (t)} + ∗ ∂ϕ (t) T   T   ∂ x(t) {x(t)− x (t)} M Πk (t)y(t){x(t)− x (t)}  0. (2.36) + M − ∗ ∂k (t)

2.3. Модифицированное уравнение Винера–Хопфа

45

Нетрудно видеть, что выбор или назначение операторов Πϕ (t) и Πk (t) в виде   T T ∂ x(t) ∂ x(t) Πϕ (t)y(t) = , Πk (t)y(t) = (2.37) ∂ϕ∗ (t) ∂k ∗ (t) обеспечивает асимптотические свойства процессу оптимизации. Aлгоритмы (2.33) и (2.34) с учетом (2.37) принимают вид   T

 d ∗ ∂ x(t) ϕ (t) = M x(t) − x (t) , dt ∂ϕ∗ (t) ϕ∗ (t0 ) = ϕ∗0 , (2.38)  T 

 ∂ x(t) d ∗ k (t) = M x(t) − x (t) , dt ∂k ∗ (t) k ∗ (t0 ) = k0∗ . Условия, определяющие оптимальные значения параметров матриц ϕ(t) иk(t), запишутся при ϕ(t) = ϕ0 (t) и k(t) = k 0 (t) в виде   T ∂ x(t) ∂ J(x, x  ) = −2M {x(t) − x  (t)} = 0, ∂ϕ∗ (t) ∂ϕ∗ (t) (2.39)   T ∂ x(t) ∂ J(x, x ) = −2M {x(t) − x (t)} = 0, ∂k ∗ (t) ∂k ∗ (t)   T ∂ 2x (t) ∂2 J(x, x ) = −2M {x(t) − x (t)} + ∂ϕ∗i (t)∂ϕ∗j (t) ∂ϕ∗i (t)∂ϕ∗j (t)  T   T  ∂ x(t) ∂ x(t) ∂ x(t) ∂ x(t) +2M = 2M > 0, ∂ϕ∗i (t) ∂ϕ∗j (t) ∂ϕ∗i (t) ∂ϕ∗j (t) i, j = 1, ... , n2 ,   T ∂ 2x ∂2 (t) J(x, x  ) = −2M {x(t) − x  (t)} + ∂ki∗ (t)∂kh∗ (t) ∂ki∗ (t)∂kh∗ (t)  T   T  ∂ x(t) ∂ x(t) ∂ x(t) ∂ x(t) +2M = 2M > 0, ∂ki∗ (t) ∂kh∗ (t) ∂ki∗ (t) ∂kh∗ (t) i, h = 1, ... , nxm. (2.40) Условие положительной определенности вторых производных говорит о возможности достижения минимального значения функционала качества (2.21) при использовании алгоритмов вида (2.38). Отметим, что в алгоритмы вида (2.38) входит процесс x(t), что делает эти алгоритмы нереализуемыми.

46

Гл. 2. Aдаптивные и робастно-адаптивные наблюдатели

Для построения реализуемых алгоритмов оптимизации в указанном выше смысле построим функционал, эквивалентный заданному функционалу (2.21). Определение 2.3.1. Два функционала, введенные для оценки решения задачи фильтрации, эквивалентны, если они достигают своих минимумов при одних и тех же значениях параметров фильтра. При этом значения минимумов могут быть различными. Введем в рассмотрение функционал J(ε(t), ε(t − γ)) = M [{x(t) − x (t)}T {x(t − γ) − x (t − γ)}] = = tr M [ε(t)εT (t − γ)]. (2.41) В выражении (2.41) оператор tr означает «след матрицы». Отметим, что «сдвиг» γ должен быть выбран так, чтобы исходный функционал не изменял знака, т. е J(ε(t), ε(t − τ )) > 0, 0 < τ  γ. При малых значениях сдвига γ по сравнению с динамикой модели (2.19) функционал (2.41) эквивалентен в указанном смысле исходному функционалу (2.21). Необходимые и достаточные для данной задачи условия минимума функционала (2.41) имеют, в силу симметричности корреляционной функции, вид     M {x(t1 ) − x (t1 )}T {L(t)y(t)} = M {x(t) − x (t)}T {L(t1 )y(t1 )} = 0, t1 = t − γ.

(2.42) Однако использование условия (2.42) для построения алгоритмов оптимизации не приведет к реализуемым результатам, так как эти условия содержат процесс x(t), который измеряется в виде (2.20). Введем в рассмотрение функционал   J(ε∗ (t), ε∗ (t1 )) = M {y(t) − C x (t)}T {y(t1 ) − C x (t1 )} , (2.43) t1 = t − γ, γ = 0. Учитывая (2.20), имеем   J(ε∗ (t), ε∗ (t1 )) = tr{CM [ε(t)εT (t1 )]C T + CM ε(t)nT (t1 ) +     + M n(t)εT (t1 ) C + M n(t)nT (t1 ) . (2.44) Пусть Φ(t, τ ) — фундаментальная матрица решений дифференциального уравнения (2.26). Тогда  M [ε(t)nT (t1 )] = M Φ(t, t0 )ε(t0 )nT (t1 )+ 

t +

Φ(t, τ )[B(τ )ω(τ ) − K(τ )n(τ )]n (t1 )dτ = 0, T

t0

2.3. Модифицированное уравнение Винера–Хопфа

47

    в силу того, что M ε(t0 )nT (t1 ) = 0, M ω(t)nT (t1 ) = 0   и M n(t)nT (t1 ) = 0 при t1 = t − γ, γ = 0. Таким образом,   J(ε∗ (t), ε∗ (t1 )) = tr CM ε(t)εT (t1 ) C T , t1 = t − γ, γ = 0. (2.45) При постановке задачи предполагалось, что система (2.19)–(2.20) наблюдаема. В силу этого, сравнивая (2.45) и (2.41), можно сделать вывод, что для систем, обладающих структурным свойством наблюдаемости, функционал (2.43) достигает минимума при тех же значениях параметров фильтра, что и функционал (2.41). В этом смысле функционалы (2.41) и (2.43) эквивалентны. Так как функционал (2.4) эквивалентен функционалу (2.41), а функционал (2.41) эквивалентен исходному функционалу (2.21), то функционал (2.43) также эквивалентен исходному функционалу (2.21). Функционал (2.43) содержит только измеряемые процессы. В силу этого необходимые и достаточные условия минимума этого функционала можно использовать для построения реализуемых алгоритмов оптимизации. Необходимые условия минимума функционала (2.43) имеют вид   M {y(t1 ) − C x (t1 )}T {L1 (t)y(t)} =   = M {y(t) − C x (t)}T {L1 (t1 )y(t1 )} = 0, t1 = t − γ, (2.46) здесь оператор L1 (t) преобразует вектор y ∈ Rm в вектор z1 ∈ Rm . Определение 2.3.2. Необходимое и достаточное условие (2.46) минимума функционала   J(ε∗ (t), ε∗ (t1 )) = M {y(t) − C x (t)}T {y(t1 ) − C x (t1 )} , t1 = t − γ, γ = 0 будем называть модифицированным уравнением Винера–Хопфа. Если же в (2.46) подставить выражение для y(t) (2.20), то можно показать, что условие (2.46) является необходимым и достаточным условием минимума как функционала (2.43), так и функционала (2.21). Действительно,     M {y(t) − C x (t)}{L(t1 )y(t1 )}T = CM {x(t) − x (t)}{L(t1 )y(t1 )}T +   + M n(t){L(t1 )y(t1 )}T = 0 в силу того, что M [ x(t0 )nT (t1 )] = 0 и M [n(t)nT (t1 )] = 0, т. е.     (t1 )}T {L1 (t)y(t)} = M {x(t) − x (t)}T {L(t1 )y(t1 )} = 0, M {y(t1 ) − C x L(t1 ) = C T L1 (t1 ),

t1 = t − γ.

48

Гл. 2. Aдаптивные и робастно-адаптивные наблюдатели

Теорема 2.3.1. Для системы (2.19), (2.20), обладающей структурным свойством наблюдаемости, функционал   ∧ ∧ J(ε∗ (t), ε∗ (t1 )) = M {y(t)−C x(t)}T {y(t1 )−C x(t1 )} , t1 = t − γ, (1) необходимые и достаточные условия минимума которого имеют вид:     ∧ ∧ M {y(t1 )−C x(t1 )}T {L1 (t)y(t)} = M {y(t)−C x(t)}T {L1 (t1 )y(t1 )} = 0, t1 = t − γ, достигает минимума при тех же значениях параметров фильтра, что и функционал   ∧ ∧ J(ε(t), ε(t − γ)) = M {x(t) − x(t)}T {x(t − γ) − x(t − γ)} =   = tr M ε(t)εT (t − γ) , (2) необходимые и достаточные условия минимума которого имеют вид:     ∧ ∧ M {x(t1 ) − x(t1 )}T {L(t)y(t)} = M {x(t) − x(t)}T {L(t1 )y(t1 )} = 0, t1 = t − γ. Эти функционалы эквивалентны в смысле определения 3.2.1. A так как функционал (2) эквивалентен исходному функционалу   (3) J(ε) = M εT (t)ε(t) , необходимые и достаточные условия минимума которого имеют вид:   ∧ M {x(t) − x(t)}T {L(t)y(t)} = 0, то функционал (2.47) также эквивалентен функционалу (2.49). Aдаптивные наблюдатели. Pеализуемые алгоритмы оптимизации, с учетом изложенного выше, принимают вид   T ∂C x (t) d ∗ ϕ (t) = M {y(t ) − C x  (t )} , 1 1 dt ∂ϕ∗ (t) ϕ∗ (t0 ) = ϕ∗0 ,   T (2.47) ∂C x (t) d ∗ k (t) = M {y(t ) − C x  (t )} , 1 1 ∗ dt ∂k (t) k ∗ (t0 ) = k0∗ , t1 − t = γ = 0. Нетрудно видеть, что необходимые и достаточные условия минимума функционала (2.21) вида (2.39), (2.40) выполняются и для алгоритмов (2.50). В алгоритмах (2.50) первые сомножители есть функции чувствительности.

2.4. Наблюдатель «минимальной сложности»

49

Таким образом, адаптивный наблюдатель, реализованный в виде фильтра для выделения нестационарного полезного процесса (2.19) на фоне нестационарных шумов (2.20) с функционалом качества (2.21), может быть реализован таким образом: 1) основная структура адаптивного наблюдателя строится с точностью до параметров как фильтр Калмана–Бюси (2.29)–(2.31); 2) алгоритмы параметрической оптимизации наблюдателя организуются с помощью модифицированного уравнения Винера–Хопфа и функций чувствительности; aлгоритмы вида (2.47) обеспечивают асимптотические свойства процессу параметрической оптимизации наблюдателя в смысле заданного функционала качества. Pобастно-адаптивные наблюдатели. Возможны постановки задач построения наблюдателей, при решении которых нет необходимости реализации всей совокупности алгоритмов параметрической оптимизации вида (2.47). Например, при значительной параметрической неопределенности объекта и небольших изменениях интенсивностей шумов целесообразно вводить параметрическую оптимизацию наблюдателя за счет параметров матрицы ϕ(t), используя первый алгоритм из (2.47); a параметры матрицы K ∗ вычислять на стадии проектирования наблюдателя, используя при этом значение некоторой постоянной матрицы A∗ . Эта же матрица будет использоваться при синтезе робастного управления. В другом случае, когда параметры объекта изменяются незначительно, но шумы имеют значительную нестационарность, следует оптимизировать наблюдатель за счет соответствующей настройки параметров матрицы k(t), применяя второй алгоритм из (2.47).

2.4. Наблюдатель «минимальной сложности» Этот наблюдатель называют достаточно часто наблюдателем Луенбергера. Для того, чтобы определить структуру наблюдателя «минимальной сложности», рассмотрим вначале задачу с полной информацией о параметрах объекта. Пусть управляемый объект и измерения координат его состояния описываются уравнениями d x(t) = A(t)x(t) + B(t)u(t), dt x(t0 ) = x0 , y(t) = C(t)x(t),

(2.48)

где x ∈ Rn , y ∈ Rm , u ∈ Rr , m  n. Введем в рассмотрение вектор z(t) размерности n − m: z(t) = T (t)x(t).

(2.49)

Гл. 2. Aдаптивные и робастно-адаптивные наблюдатели

50

Если бы матрица T (t) была известна, то     C(t) y(t) x(t), = T (t) z(t) откуда 

−1 

   .. y(t) y(t) = (V (t).P (t)) = P (t)z(t)+V (t)y(t). z(t) z(t) (2.50) Очевидно, что использовать уравнение (2.50) не представляется возможным, так как z(t) не известно. Будем искать оценку z(t) как решение дифференциального уравнения d  z(t) = D(t) z (t) + E(t)y(t) + G(t)u(t) (2.51) dt и оценку процесса x(t) в виде C(t) x(t) = T (t)





x(t) = P (t) z (t) + V (t)y(t).

(2.52)

Введем в рассмотрение ошибку ε(t): 



ε(t) = z (t) − z(t) = z (t) − T (t)x(t).

(2.53)

Продифференцировав (2.53) и учитывая (2.48) и (2.51), получим   d d  ε(t) = D(t) z (t) + E(t)C(t) − T (t) − T (t)A(t) x(t)+ dt dt + [G(t) − T (t)B(t)]u(t). (2.54) Учитывая (2.53) и назначив G(t) в виде G(t) = T (t)B(t),

(2.55)

будем иметь из (2.53)   d d ε(t)= D(t)ε(t)+ D(t)T (t)+E(t)C(t)− T (t)−T (t)A(t) x(t). (2.56) dt dt Назначим матрицы D(t) и E(t) так, чтобы выполнялось условие D(t)T (t) + E(t)C(t) −

d T (t) − T (t)A(t) = 0 dt

или

d T (t) − E(t)C(t). (2.57) dt Матрицы G(t), D(t), E(t) называют параметрами Луенбергера. Введем в рассмотрение e(t): D(t)T (t) − T (t)A(t) =



e(t) = x(t) − x(t).

(2.58)

2.4. Наблюдатель «минимальной сложности»

51

Тогда, учитывая (2.52), выражение (2.58) запишем в виде 

e(t) = P (t) z (t) + V (t)C(t)x(t) − x(t).

(2.59)

Из (2.53) нетрудно получить 

P (t) z (t) = P (t)ε(t) + P (t)T (t)x(t).

(2.60)

Подставляя (2.60) в (2.59), будем иметь e(t) = P (t)ε(t) + [P (t)T (t) + V (t)C(t) − In ]x(t),

(2.61)

где In — единичная матрица размерности n × n. Из (2.50) имеем  −1 .. C(t) , V (t) . P (t) = T (t) откуда   C(t) .. V (t) . P (t) = In или T (t)       . C(t)V (t) C(t)P (t) C(t) Im 0 = V (t) .. P (t) = In = 0 In−m T (t)V (t) T (t)P (t) T (t) (2.62) и V (t)C(t) + P (t)T (t) − In = 0. (2.63) Из (2.62) имеем C(t)P (t) = 0, C(t)V (t) = Im ,

T (t)V (t) = 0, T (t)P (t) = In−m .

(2.64)

Используя (2.63), (2.64), найдем матрицы D(t) и E(t). Умножив (2.57) справа на P (t), получим   d D(t) = T (t) P (t) + T (t)A(t)P (t). (2.65) dt Умножив (2.57) справа на V (t), получим   d T (t) V (t) + T (t)A(t)V (t). E(t) = dt Учитывая (2.51), получаем    d d  z(t) = T (t) P (t) + T (t)A(t)P (t) z (t)+ dt dt    d T (t) V (t) + T (t)A(t)V (t) y(t) + T (t)B(t)u(t). + dt Оценка процесса x(t) будет отвечать следующему равенству 



x(t) = P (t) z (t) + V (t)y(t).

(2.66)

(2.67)

52

Гл. 2. Aдаптивные и робастно-адаптивные наблюдатели

Таким образом, если 1) x(t0 ) — известно, то z(t0 ) = T (t0 )x(t0 ) и ε(t) ≡ 0∀t  t0 ; 2) x(t0 ) — неизвестно полностью, т. е. z(t0 ) = T (t0 )x(t0 ), то выбирается z(t0 ), а z(t) является решением уравнения (2.51) с выбранным краевым условием и вычисленными матрицами G(t), D(t) и E(t) по формулам (2.55), (2.65) и (2.66) соответственно. Естественно, до этого строятся и вычисляются матрицы T (t) и dT (t)/dt, V (t), P (t). Оценка состояния x(t) строится по формуле (2.52). Pобастный наблюдатель «минимальной сложности.» В том случае, когда A∗ , B ∗ — значения параметров A(t), B(t), при которых синтезируется робастное управление для неопределенного объекта (2.48), и матрицы C и T — постоянные, робастный наблюдатель «минимальной сложности» будет иметь структуру d  z(t) = T A∗ P z (t) + T A∗ V y(t) + T B ∗ u(t). dt Pобастно-адаптивный наблюдатель «минимальной сложности». В том случае, когда интервал возможных изменений параметров матрицы достаточно широкий, но при этом выполняется неравенство (2.14) (условие успешного «отслеживания» параметрами наблюдателя изменений параметров объекта), структура робастно-адаптивного наблюдателя минимальной размерности строится с возможностью настройки его параметров:   d  z(t) = T A∗ + a(t) A∗ P z (t) + T A∗ V y(t) + T B ∗ u(t). dt Aлгоритм оптимизации наблюдателя будет иметь вид:  T  ∂F (ε(t, α, η)) d α(t) = −M , dt ∂α(t) α(t0 ) = α0 , где F (ε(t, α, η)) = y(t) − C x (t) 2 .

2.5. d-робастный линейный оцениватель Как было сказано выше, оцениватели решают самостоятельную задачу построения оценки состояния неопределенного объекта, т. е. полученная оценка не используется впоследствии для управления этим объектом. Но, как и для наблюдателей, важным показателем работы оценивателей является время, за которое в условиях неопределенности вырабатываемая оценка может достичь заданной точности.

2.5. d-робастный линейный оцениватель

53

Определение 2.5.1. Будем называть оцениватель d-робастным, если, начиная с некоторого момента t1 (t0  t1 ), где t0 — начало оценивания, выполняется следующее условие

ε(t1 )  dH . Здесь ε(t) и dH > 0 — ошибка и точность оценивания состояния динаn  мической системы, ε(t) = |ei (t)| — норма ε(t). Преимущество этой нормы перед эвклидовой

i=1  n

1/2 |ei (t)|

2

заключается в ее простоте.

i=1

Пусть наблюдаемый неопределенный объект описывается уравнениями: d x(t) = A(t, α(t))x(t), x(t0 ) = x0 , (2.68) dt y(t) = Cx(t). (2.69) В (2.68) и (2.69) x ∈ Rn , y ∈ Rm , α(t) ∈ Δ — неконтролируемые параметрические возмущения. Пара A(t, α(t)), C  наблюдаема при всех α(t) ∈ Δ и t ∈ [t0 , T ), где T  t1 — возможный момент окончания процесса оценивания. Tребуется построить оценку состояния объекта (2.68) по измерениям (2.69), оптимальную в смысле критерия 1 J(ε) = 2

t1 εT (t)Qε(t)dt.

(2.70)

t0

Здесь

ε(t) = x(t) − x (t),

(2.71)

где x (t) — оценка полезного процесса. Вопрос о выборе симметричной положительно определенной матрицы Q будет рассмотрен позже. Очевидно, что t1 зависит от начальных состояний объекта x(t0 ) и оценивателя x (t0 ), от информации, получаемой от измерителя, от изменяющихся значений параметров объекта α(t) ∈ Δ и от закона управления процессом оценивания

 t1 = x(t0 ), x (t0 ), y(t), α(t), u0 (t), ε(t) = Ξ(t, ε, y), ε(t1 )  dH . (2.72) Здесь u0 (t) — управление процессом оценивания. Предполагается, что известен интервал параметрической неопределенности матрицы A(t, α(t)) и известны наихудшие, с позиции построения оценки состояния объекта, значения параметрических возмущений α∗ ∈ ∂Δ.

54

Гл. 2. Aдаптивные и робастно-адаптивные наблюдатели

Модель объекта, которая будет использоваться при построении оценивателя, содержит значения параметров α∗ и описывается следующим уравнением d x(t) = A∗ x(t), x(t0 ) = x0 . (2.73) dt В силу сделанных выше предположений, пара A∗ , C обеспечивает системе (2.68), (2.69) свойство наблюдаемости, т. е. матрица, размер  . . . ностью n × nm, H = C T .. AT C T .. ... .. (AT )n−1 C T имеет ранг n. x

Оцениватель организуем в виде d x (t) = A∗ x (t) + K[y(t) − C x (t)], x (t0 ) = x 0 . (2.74) dt Учитывая (2.73) и (2.74), запишем уравнение ошибки оценивания d ε(t) = [A∗ − KC]ε(t), ε(t0 ) = ε0 . (2.75) dt При выборе матрицы K будем использовать функционал (2.70). Произведем эквивалентное преобразование уравнения (2.75). Пусть имеется положительно определенная обратимая матрица P такая, что e(t) = P −1 ε(t), где e(t) является решением следующего уравнения d e(t) = [A∗ − KC]T e(t), e(t0 ) = P ε0 . (2.76) dt Нетрудно видеть, что матрица P является решением матричного уравнения P (A∗ )T − A∗ P − KCP + P C T K T = 0. (2.77) Перепишем уравнение (2.76) и функционал (2.70) в виде d e(t) = (A∗ )T e(t) − C T u0 (t), dt

e(t0 ) = P ε0 ,

(2.78)

где u0 (t) = K T e(t),

(2.79)

t1 1 [eT (t)Q1 e(t) + uT0 (t)Ru0 (t)] dt. J(e) = 2

(2.80)

t0

Отметим, что система (2.78) управляема, так как матрица управляемости, определяемая матрицами (A∗ )T , C T , имеющая вид Gx = . . . = [C T .. AT C T .. ... .. (AT )n−1 C T ], имеет ранг n в силу предположения о наблюдаемости объекта (2.73), (2.69). Tаким образом, если система (2.73), (2.69) наблюдаема, то система уравнений, описывающих поведение ошибки, управляема. Что касается матриц Q1 и R, они должны быть назначены так, чтобы функционал (2.79) был бы равен функционалу (2.70).

2.5. d-робастный линейный оцениватель

55

Tаким образом, задача заключается в синтезе управления (2.79), доставляющего на уравнении (2.78) минимум функционалу (2.80). Этим управлением будет [3] u0 (t) = R−1 CSe(t),

(2.81)

где матрица S является решением уравнения Pиккати–Лурье S(A∗ )T + A∗ S − SC T R−1 CS + Q1 = 0.

(2.82)

Сравнивая (2.79) и (2.82), получаем K = SC T R−1 .

(2.83)



Tаким образом, оценка x (t) процесса x(t), с учетом полученного результата, будет решением следующего уравнения d x (t) = A∗ x (t) + SC T R−1 [y(t) − C x (t)], x (t0 ) = x 0 . (2.84) dt Вернемся к выбору матриц Q1 и R. Учитывая (2.81), подынтегральные выражения функционалов (2.70) и (2.80) должны быть связаны следующим равенством εT (t)Qε(t) = e(t)[Q1 + SC T R−1 CS] e(t). Tаким образом, матрица Q1 может быть определена с точностью до значений параметров матрицы R: Q1 = P T QP − SC T R−1 CS.

(2.85)

Уравнение Pиккати–Лурье с учетом (2.85) будет иметь вид S(A∗ )T + A∗ S − 2SC T R−1 CS + P QP = 0.

(2.86)

Вопрос о выборе матрицы R будет рассмотрен ниже, но, очевидно, что этот выбор связан с достижением цели оценивания при заданном времени t1 , а именно: ε(t1 )  dH . При заданной матрицe R задача может заключаться в определении момента t1 , при котором достигается цель оценивания. Следует отметить, что управление (2.82) обеспечивает устойчивость решения дифференциального уравнения d e(t) = [A∗ − SC T R−1 C]T e(t), e(t0 ) = P ε0 , dt в чем нетрудно убедиться. Введем функцию Ляпунова в виде

(2.87)

1 T e (t)Se(t). 2 Полная производная функции Ляпунова будет иметь вид   d V (e) = −eT (t) Q1 + SC T R−1 CS e(t) = −eT (t)P QP e(t)  0, dt V (e) =

Гл. 2. Aдаптивные и робастно-адаптивные наблюдатели

56

т. е. решение уравнения (2.87), в силу положительной определенности матрицы Q, устойчиво. Последнее означает [11], что корни характеристического уравнения [L − ΛI] = 0 матрицы L = A∗ − SC T R−1 C вещественны, различны и отрицательны, т. е. характеристические числа матрицы Lλi < 0, i = 1, ... , n. Используя эквивалентное преобразование с применением невырожденной матрицы P , которая является решением уравнения (2.77), можно записать [2]: Λ = P LP −1 . Tогда решение уравнения (2.75) будет иметь вид ε(t1 ) = {exp(Lt1 )}ε0 = P {exp(Λt1 )}P −1 ε0 = P {exp(Λt1 )}e0 , так как e0 = P −1 ε0 . Или e(t1 ) = {exp(Λt1 )}e0 .

(2.88)

Используя (2.88), перепишем условие успешного выполнения задачи оценивания: n 

e(t1 ) = (exp(λi t1 ))|ei (0)|  dH . (2.89) i=1

Tак как λi < 0, i = 1, ... , n, а t1 > 0, то справедливо неравенство: λi t1  |λi | − t1 . Поэтому n 

n  exp(λi t1 ) |ei (0)|  exp(|λi | − t1 ) |ei (0)| =

i=1

=

n 

i=1 n  exp(|λi |) exp(−t1 ) |ei (0)| = exp(−t1 ) exp(|λi |) |ei (0)|  dH .

i=1

i=1

Из последнего выражения будем иметь: n 

t1  ln t1 = 0,

exp |λi | |ei (0)|

i=1

dH

, если

n 

exp |λi | |ei (0)|  dH , (2.90)

i=1

если

n 

exp |λi | |ei (0)| < dN , (2.91)

i=1

так как t1 не может принимать отрицательных значений. Tак как управление ошибкой (2.84) обеспечивает асимптотическую устойчивость уравнению ошибки, то можно утверждать, что

e(t) < dH ,

где

t > t1 .

(2.92)

Tеорема 2.5.1. Pешение линейного дифференциального уравнения d e(t) = [A∗ − KC]T e(t), dt

e(0) = P ε0 ,

e(0) > dH

2.5. d-робастный линейный оцениватель

57

асимптотически устойчиво, если матрица K определяется в виде K = SC T R−1 , где положительно определенная матрица S является решением уравнения типа Pиккати–Лурье S(A∗ )T + A∗ S − 2SC T R−1 CS + Q = 0 положительно определенными матрицами Q и R, и при n  exp |λi | |ei (0)| t1  ln i=1 движение системы таково, что e(t) < dH , dH t > t1 . В том случае, когда задан период наблюдения, по истечении которого цель оценивания будет достигнута, можно сформулировать требования к параметрам матрицы R. Пусть задан вектор DT = (d1 , ... , dn ), di > 0, i = 1, ... , n такой, что |εi (T )|  di . Tогда в момент T должно выполняться неравенство с

D  {exp LT }|ε(0)|, где |εT (0)| = |ε1 (T )|, ... , |εn (T )| или

D  exp LT ε(0) .

(2.93) (2.94)

Учитывая [9], что

exp LT  (n − 1) + exp L T , перепишем (2.94) в виде

D  {(n − 1) + exp L T } ε(0) . ∗

(2.95)

−1

Учитывая, что L = A − SC R C, получим    SC T R−1 C   A∗ − ln (n − 1) + ε(0) . D Откуда    T −1   C R C   A∗ − ln (n − 1) + ε(0) S −1 . D T

(2.96)

Глава 3 РОБАСТНОЕ УПРАВЛЕНИЕ ЛИНЕЙНЫМИ НЕОПРЕДЕЛЕННЫМИ СИСТЕМАМИ

3.1. Постановка задачи Как уже отмечалось, достаточно большое количество объектов управления можно описать с помощью систем линейных дифференциальных уравнений с неполной информацией о параметрах и векторе состояния. При этом критерий качества управления во многих случаях представляет собой квадратичную форму. Пусть управляемый и наблюдаемый линейный нестационарный динамический объект описывается системой линейных неоднородных дифференциальных уравнений: d x(t) = [A + α(t)] x(t) + [B + β(t)] u(t), dt x(t0 ) = x0 ,

(3.1)

где x ∈ Rn , u ∈ Rr , r  n. Начальное условие принадлежит заранее известному подмножеству, т. е. x(t0 ) ∈ X0 . (3.2) Матрицы α(t) и β(t) содержат параметры, подверженные неконтролируемым возмущениям, причем α(t), β(t) ∈ Ω

(3.3)

— неизвестные вещественные матричные функции на t ∈ [t0 , T ]. (Для определенности размерности матриц α(t) и β(t) — n × n и n × r соответственно.) Предполагается, что возмущения α(t), β(t) ∈ Ω таковы, что пара ([A + α(t)], [B + β(t)]) сохраняет управляемость объекта (3.1) при ∀t ∈ [t0 , T ]. Информация о возможной структуре параметрической неопределенности помещена в § 1.2. На управляющие воздействия априори ограничения не накладываются. Вопрос о существовании соответствующих управлений и, тем самым, об ограничениях, при которых возможно выполнение задачи управления, будет рассматривать для каждой задачи.

3.1. Постановка задачи

59

Задан функционал качества 1 1 J(x, u) = xT (T ) F x(T ) + 2 2

T

 xT (t) Qx(t) + uT (t) Ru(t) dt.

(3.4)

t0

В задаче терминального управления задан интервал управления [t0 , T ], матрица R — положительно определена, матрицы Q и F — положительно полуопределены. В задаче синтеза управления, стабилизирующего объект (3.1), t0 = 0, T → ∞, F = 0. Вначале рассмотрим вопрос о построении регулятора для объекта (3.1) при α(t) = 0, β(t) = 0. В случае отсутствия ограничений на управляющие воздействия оптимальное управление имеет вид [5, 6] u(t) = −R−1 B T S(t)x(t),

(3.5)

где матрица S(t) определяется решением уравнения типа Риккати d S(t) + S(t)A + AT S(t) − S(t)BR−1 B T S(t) + Q = 0, dt S(T ) = F.

(3.6)

Tаким образом, в задаче с заданным интервалом управления даже в случае, когда объект (3.1) стационарен, т. е. матрицы A и B постоянные, и матрицы Q и R в функционале (3.4) также постоянные, матрица усилений регулятора зависит от времени. Для того, чтобы регулятор в терминальной задаче содержал постоянные параметры, назначим матрицу штрафа первого слагаемого функционала в виде F = S, где положительно определенная матрица S является решением уравнения Риккати–Лурье SA + AT S − SBR−1 B T S + Q = 0.

(3.7)

Очевидно, что в случае такого назначения матрицы F будет выполd няться соотношение S(t) = 0, т. е. S = const на всем интервале dt управления. Tаким образом, оптимальное управление для объекта (3.1) при α(t) = 0, β(t) = 0 и предложенном назначении матрицы штрафа при терминальном элементе функционала качества (3.4) определяется соотношением u(t) = −R−1 B T Sx(t), (3.8) где матрица S соответствует решению уравнения (3.7). Матрицы Q и R назначаются так, чтобы управление (3.8) обеспечивало приемлемое поведение модели в интервале управления [t0 , T ] и соответствующее этому поведению принимаемое значение функции качества.

60 Гл. 3. Робастное управление линейными неопределенными системами

Оптимальное значение функционала будет определяться соотношением 1 J 0 (x, u) = xT (t0 ) Sx(t0 ). (3.9) 2

3.2. Робастное управление линейными нестационарными системами Задача стабилизации. Определим множество Ω значений матриц α(t), β(t) при открытом интервале управления (задача стабилизации), при которых объект (3.1) стабилизируем с управлением u(t) = −R−1 [B + β(t)]T Sx(t), где матрица S является решением уравнения (3.7).

(3.10)

Определение 3.2.1. Будем называть систему робастно стабилизируемой, если для нестационарного объекта вида (3.1) найдется регулятор с постоянными параметрами, который обеспечит асимптотическое движение системы «объект-регулятор» из любого x0 ∈ X0 к x(t) = 0 при t → ∞. Определим значения матриц a∗ , β ∗ . Пусть при a∗ , β ∗ ∈ Ω выполняется следующее соотношение     A + a∗ − (B + β ∗ )R−1 (B + β ∗ )T S x(t)       A + a(t) − (B + β(t)) R−1 (B + β(t))T S x(t) . (3.11) Объект (3.1) с управлением u(t) = −R−1 [B + β ∗ ] Sx(t), где матрица S определяется решением уравнения

(3.12)

S[A + a∗ ]T +S [A + a∗ ]T −S [B +β ∗ ] R−1 [B +β ∗ ]T S + Q = 0, имеет вид  d T x(t) = A + a(t) − [B + β(t)] R−1 [B + β ∗ ] S x(t), dt x(t0 ) = x0 .

(3.13)

T

(3.14)

Введем в рассмотрение функцию Ляпунова 1 T x (t)Sx(t). 2 Tогда, учитывая (3.14), (3.15) и (3.12), получим V (x) =

(3.15)

d V (t) = dt

 = xT (t) S[A + a(t)] + [A + a(t)]T S − 2S[B + β(t)]R−1 [B + β ∗ ]T S 

 1  − xT (t) Q + S[B + β ∗ ]R−1 [B + β ∗ ]T S x(t)  0. (3.16) 2

3.2. Робастное управление линейными нестационарными системами

61

Tаким образом, можно утверждать, что объект (3.1) с управлением (3.12) в силу (3.11) сохраняет устойчивость при любых значениях матриц α(t), β(t) ∈ Ω. Оценим возможное рассогласованиe траекторий x !(t) объекта (3.1) при α(t) = 0 и β(t) = 0 с управлением (3.12) и ее робастной модели с параметрами a∗ , β ∗ ∈ Ω. Запишем эти уравнения:

 d x !(t) = A − BR−1 [B + β ∗ ]T S x !(t), dt

x !(t0 ) = x0

или d x !(t) = L! x(t) − c(t), dt d z(t) = Lz(t), dt

x !(t0 ) = x0 ,

(3.17)

z(t0 ) = x0 ,

(3.18)

где

 c(t) = a∗ − β ∗ R−1 [B + β ∗ ]T S x !(t), ∗



L = A + a − [B + β ]R Пусть

−1

∗ T

[B + β ] S.

ε(t) = z(t) − x !(t).

(3.19) (3.20) (3.21)

Tогда, учитывая (3.17) и (3.18), будем иметь d ε(t) = Lε(t) + c(t), dt

ε(t0 ) = 0.

(3.22)

Запишем решение уравнения (3.22) в виде:   t    

ε(t) =  {exp L[t − τ ]}c(τ ) dτ .   t0

Учитывая, что корни характеристической матрицы L являются действительными и отрицательными, можно назначить такие положительные постоянные K и ρ, что exp Lt  K e−ρt . Tогда t

ε(t) 

t

exp L[t − τ ] c(τ ) dτ  K

t0

e−ρ[t−τ ] c(τ ) dτ. (3.23)

t0

Как было показано, управление (3.12) обеспечивает системе свойства асимптотической устойчивости, т. е. z(0)  z(t) при t  0. Учитывая, что параметрические возмущения принадлежат ограниченной области возможных значений, справедливо считать, что c(0)  c(t)

62 Гл. 3. Робастное управление линейными неопределенными системами

при t  0. Tогда из (3.23) будем иметь оценку рассогласования траекторий системы при α(t) = 0 и β(t) = 0 и ее робастной модели    K   (3.24)

ε(t)  1 − e−ρ t  a∗ − β ∗ R−1 [B + β ∗ ]T S x(0) . ρ Tеорема 3.2.1. Пусть неопределенный объект описывается линейным дифференциальным уравнением d x(t) = [A + α(t)] x(t) + [B + β(t)] u(t), dt x(t0 ) = x0 , где α(t), β(t) ∈ Ω. Управление u(t) = −R−1 B T Sx(t), где положительно определенная матрица S является решением уравнения S [A + a∗ ] + T S [A + a∗ ] − S [B + β ∗ ] R−1 [B + β ∗ ] S + Q = 0, R, Q > 0, T

T

обеспечивает системе устойчивое движение, при этом возможный рост решения неопределенной системы, вызванный параметрическими возмущениями α(t), β(t), при t  0 не превосходит величины     K

z(t) − x !(t)  1 − e−ρ t  a∗ − β ∗ R−1 [B + β ∗ ]T S z(0)  . ρ Задача d-робастного управления. Рассмотрим задачу с заданным интервалом управления и заданной областью возможных терминальных значений состояния системы. Пусть состояние системы на правом конце должно подчиняться условию

x(T )  d,

d  0.

(3.25)

Найдем условие, при котором будет выполняться задача терминального управления (3.25). Принимая во внимание, что максимальное изменение траектории объекта будет при εmax (T ) = d, рассмотрим неравенство (3.24) при t = T :     K 1 − e−ρT  a∗ − β ∗ R−1 [B + β ∗ ]T S x(0)  . d ρ Откуда  ∗    a − β ∗ R−1 [B + β ∗ ]T S x(0)  

ρd . K[1 − e−ρT ]

(3.26)

Выполнение условия (3.26) означает, что параметрические возмущения α(t), β(t) ∈ Ω и начальные условия x∗ (t0 ) ∈ X0 не помешают выполнить задачу d-робастного управления.

3.2. Робастное управление линейными нестационарными системами

63

При найденных a∗ , β ∗ ∈ Ω и построенном регуляторе вида (3.13) полученное неравенство можно использовать для определения области начальных условий, из которых траектории движения попадут в заданный момент T в заданную область терминальных значений. Показатель робастности может быть задан в ином виде. Пусть ! M = (d1 , ... , dl , D-вектор из Rl : D = (d1 , ... , dl )T . Образуем вектор D ∗ ∗ T n xl+1 (T ), ... , xn (T )) ∈ R . В этом случае условие на правом конце запишем как: ! M = exp {L(T − t0 )} |x(t0 )| . D

(3.27)

Понятно, что выполнение этого условия зависит как от параметров самой системы (параметров объекта и регулятора), от начальных условий и интервала управления. Найдем оценки: 1) области начальных условий при заданном множестве параметрических возмущений системы и заданном интервале управления; 2) оценку интервала управления при заданном множестве параметрических возмущений системы и заданном начальном условии. Поиск этих оценок будем производить с использованием робастной модели системы (3.18).  Умножим обе части равенства (3.28) справа на xT (t0 ):     ! M xT (t0 ) = exp {L(T − t0 )} |x(t0 )| xT (t0 ) , D откуда

    !   DM xT (t0 )   exp {L(T − t0 )}  x(t0 ) xT (t0 )  .

(3.28)

Как и раньше, будем использовать такие положительные постоянные K и ρ, что exp Lt  K e−ρt . Tогда из (3.28) будем иметь     !   DM xT (t0 )  K e−ρ(T −t0 )  x(t0 ) xT (t0 )  . Прологарифмируем полученное уравнение:      ! T T   ln K  D M x (t0 )   −ρ(T − t0 ) + ln x(t0 ) x (t0 ) . Из последнего выражения будем иметь оценку времени успешного завершения d-робастного управления с незаданным временем окончания управления неопределенным объектом:    x(t0 ) xT (t0 )  1 . (T − t0 )  ln  (3.29) ρ K ! M xT (t0 )  D  Tак как exp Lt  K e−ρ t , то, учитывая что T > t0 , из (3.29) можно получить оценку для постоянных K и ρ, при которых успешно решается задача d-робастного управления, т. е. косвенную оценку матрицы L = A + a∗ − [B + β ∗ ]R−1 [B + β ∗ ]T S :

64 Гл. 3. Робастное управление линейными неопределенными системами

   x(t0 )xT (t0 )  1  ρ ln  T − t0 K  ! M xT (t0 )  D 

или, учитывая, что ρ = ρ(S), запишем    x(t0 ) xT (t0 )  1  . ρ(S)  ln (T − t0 ) K  ! M xT (t0 )  D 

(3.30)

(3.31)

Отметим, что робастное управление (3.12) требует для своей реализации знания всего состояния объекта, что делает его для многих практических задач нереализуемым. Конструирование нестационарной системы с неполной информацией о состоянии системы будет рассмотрено в следующих разделах данной главы.

3.3. Дифференциальные игры в задачах конструирования робастного управления линейными системами Пусть управляемый и наблюдаемый линейный нестационарный динамический объект описывается системой линейных неоднородных дифференциальных уравнений: d x(t) = [A + α(t)] x(t) + [B + β(t)] u(t), dt x(t0 ) = x0 ,

(3.32)

где x ∈ Rn , u ∈ Rr , r  n. Начальное условие принадлежит заранее известному подмножеству, т. е. x(t0 ) ∈ X0 . Матрицы α(t) и β(t) содержат параметры, подверженные неконтролируемым возмущениям, причем α(t), β(t) ∈ Ω — неизвестные вещественные матричные функции на t ∈ [t0 , T ]. (Для определенности размерности матриц α(t) и β(t) — n × n и n × r соответственно.) Предполагается, что возмущения α(t), β(t) ∈ Ω таковы, что пара ([A + α(t)], [B + β(t)]) сохраняет управляемость объекта (3.32) при ∀t ∈ [t0 , T ]. При отсутствии параметрических возмущений, т. е. при α(t) = 0, β(t) = 0, оптимальное управление объектом (3.32) и функционалом 1 1 J(x, u) = xT (T ) Sx(T ) + 2 2

T



T x (t) Qx(t) + uT (t) Ru(t) dt, (3.33)

t0

где S есть решение уравнения Риккати–Лурье SA + AT S − SBR−1 B T S + Q = 0,

(3.34)

3.3. Дифференциальные игры в задачах конструирования

65

описывается соотношением u(t) = −R−1 B T Sx(t). Перепишем (3.32), в виде

где

уравнение,

описывающее

(3.35)

нестационарный объект

d x(t) = Ax(t) + Bu1 (t) + v(t), dt x(t0 ) = x0 ,

(3.36)

  v(t) = a(t) − β(t)R−1 B T S x(t).

(3.37)

В уравнении объекта (3.36) воздействие v(t) будем рассматривать как возмущающее. Для оценки эффективности управления u1 (t) при возмущающем воздействии v(t) зададим функционал качества: J1 (x, u1 , v) = 1 + 2

T

1 T x (T )S1 x(T )+ 2

T  x (t)Q1 (t) x(t) + uT1 (t) Ru1 (t) − v T (t) P (t) v(t) dt,

(3.38)

t0

где матрица R была ранее задана в функционале (3.33). Условия выбора матриц Q1 (t) и P (t) будут определены ниже. Оптимальные антагонистические управления u1 (t) и v(t) определяются соотношениями [3, 4] u(t) = −R−1 B T S1 x(t),

v(t) = P −1 (t)S1 x(t),

(3.39)

где положительно определенная матрица S является решением уравнения S1 A + AT S1 − S1 [BR−1 B T − P −1 (t)] S1 + Q1 (t) = 0.

(3.40)

Сравнивая (3.34) и (3.40), получаем условия, связывающие матрицы P (t) и Q1 (t): Q1 (t) = Q − SP −1 (t)S. (3.41) Следует отметить, что матрица P (t) должна  опре быть положительно деленной, обратимой и при этом матрица BR−1 B T − P −1 (t) должна оставаться, по крайней мере, положительно полуопределенной, а матрица [Q − Q1 (t)] должна оставаться положительно определенной при всех t ∈ [t0 , T ]. Матрицу Q1 (t), зависимую от значений возмущающих параметров, можно определить, сравнивая выражение для v(t) (3.37) и второе выражение из (3.39). Будем иметь  1 Q1 (t) = Q − Sa(t)+aT (t)S −S[β(t)R−1 B T −SR−1 β T (t)]S . (3.42) 2 3 Aфанасьев

66 Гл. 3. Робастное управление линейными неопределенными системами

Условие, по крайней мере, положительной полуопределенности матри  цы BR−1 B T − P −1 (t) может быть обеспечено выбором матрицы R. Это условие, выраженное с использованием (3.41), имеет вид   xT (t)S BR−1 B T − P −1 Sx(t) =

 = xT (t) SBR−1 B T S − [Q − Q1 (t)] x(t) > 0, x(t) = 0, откуда SBR−1 B T S > Q − Q1 (t). При сформулированных требованиях решение уравнения (3.40) будет равным решению уравнения (3.34), т. е. S1 = S, и значения функционалов (3.33) и (3.38) при оптимальных управлениях и соответствующих траекториях будут равны, т. е. 1 T x (t0 )Sx(t0 ). 2 Полученный результат можно сформулировать в виде теоремы: Tеорема 3.3.1. Эквивалентной задачей об управлении объекта d x(t) = [A + α(t)] x(t) + [B + β(t)] u(t), dt x(t0 ) = x0 , x ∈ Rn , u ∈ Rr , r  n, α(t), β(t) ∈ Ω, заключающейся в построении такой стратегии u(t) ∈ U , при которой будет достигаться минимум функционала J(x, u) = J1 (x, u1 , v) =

1 1 J(x, u) = xT (T )Sx(T ) + 2 2

T

 xT (t)Qx(t) + uT (t)Ru(t) dt,

t0

где Q, R — положительно определенные матрицы и положительно определенная матрица S является решением уравнения SA + AT S − SBR−1 B T S + Q = 0, является задача линейной дифференциальной игры с объектом d x(t) = Ax(t) + Bu1 (t) + v(t), dt x(t0 ) = x0 , где

u1 (t) ∈ Rr ,

r  n;

u1 (t) ∈ U ;

v(t) ∈ Rn ,

v(t) ∈ V и функционалом, оценивающим выбранную стратегию: J1 (x1 , u1 ) =

1 T x (T )Sx(T )+ 2 T  1 T x (t)Q1 (t) x(t) + uT1 (t)Ru1 (t) − v T (t)P (t)v(t) dt, + 2 t0

3.3. Дифференциальные игры в задачах конструирования

67

где матрица P (t) и Q1 (t) назначены так, чтобы выполнялось условие: SP −1 (t)S = Q − Q1 (t),

∀t ∈ [t0 , T ],

и множество параметрических возмущений таково, что при любых

 α(t), β(t) ∈ Ω, где t ∈ [t0 , T ], матрица SBR−1 B T S − [Q − Q1 (t)] сохраняет свою, по крайней мере, положительную полуопределенность. Задача робастной стабилизации. В силу того, что параметрические возмущения известны только с точностью до некоторой области их возможных значений (траекторий), то реализовать управления в виде (3.39) невозможно. Пусть удастся найти такие α∗ , β ∗ ∈ Ω, что "  #   T  A + a∗ − (B + β ∗ ) R−1 (B + β ∗ ) S x(t)  "  #   T   A + a(t) − (B + β(t)) R−1 (B + β(t)) S x(t) . Tогда, а) если вычисленная матрица Q∗1 = Q −

   1 ∗ Sa + (a∗ )T S − S β ∗ R−1 B T − SR−1 (β ∗ )T S 2

(3.43)

такова, что матрица [Q − Q∗1 ] положительно определенная, что, в свою очередь, говорит о том, что существует положительно определенная матрица P1 , так как SP1−1 S = Q − Q∗1 , то u(t) = −R−1 B T Sx(t), v(t) = P1−1 (t)Sx(t), где матрица S есть решение уравнения SA + + AT S − SBR−1 B T S + Q = 0, то система устойчива при любых α(t), β(t) ∈ Ω. В этом нетрудно убедиться, если назначить функцию Ляпунова в виде V (x) = xT (t)Sx(t) и учесть способ определения возмущаd ющих воздействий α∗ , β ∗ ∈ Ω. Tогда V (x) = −xT (t) [Q − Q∗1 ] x(t). dt б) если же вычисленная матрица Q∗1 такова, что матрица [Q − Q∗1 ] не является положительно определенной, то назначается положительно определенная матрица P так, чтобы матрица [BR−1 B T − P −1 ] была бы положительно определенной, и находится решение уравнения   S1 A + AT S1 − S1 BR−1 B T − P −1 S1 + Q# 1 = 0. При этом, как не трудно убедиться, такое назначение матрицы P при вычисленной матрице Q∗1 обеспечивает системе устойчивость. Действительно, при функции Ляпунова, назначенной выше, ее производная по времени будет иметь вид  

 d V (x) = −xT (t) Q∗1 +S BR−1 B T −P −1 S x(t) < 0 dt 3*

при x(t) = 0.

68 Гл. 3. Робастное управление линейными неопределенными системами

Tеорема 3.3.2. Объект d x(t) = [A + α(t)]x(t) + [B + β(t)] u(t), dt x(t0 ) = x0 с управлением u(t) = −R−1 B T Sx(t), где матрица S является решением уравнения SA + AT S − SBR−1 B T S + Q = 0, устойчив, если устойчива его робастная модель

   d x(t) = A − BR−1 B T − P −1 S x(t), dt x(t0 ) = x0 , 1 ∗ где матрица P такова, что SP −1 S = Sa + (a∗ )T S − S[β ∗ R−1 B T − 2  −SR−1 (β ∗ )T ]S . Нетрудно показать, что справедливо следующее соотношение: J(x, u01 )  J(x, u01 , v 0 )  J(x, v 0 ),

(3.44)

где J1 (x, u1 , v) =

1 T x (T )Sx(T )+ 2 T  1 T x (t)Q1 x(t) + uT1 (t) Ru1 (t) − v T (t)P v(t) dt. + 2 t0

Справедливость этого положения доказывается решением следующих задач. Задача 1. Pассмотрим ситуацию, когда u1 = 0, v = 0. В этом случае объект (3.36) и функционал (3.38) будут иметь вид d x(t) = Ax(t) + Bu1 (t), dt x(t0 ) = x0 , T  1 T 1 T x (t)Q1 (t)x(t)+uT1 (t)Ru1 (t) dt→ min . J11 (x, u1 ) = x (T )Sx(T )+ u∈U 2 2 t0

При управлении вид J11 (x, u01 )

u01 (t)

= −R

−1

B T S x(t) функционал (3.38) будет иметь

1 1 = xT (t0 )S1 (t0 )x(t0 ) − 2 2

T t0

xT (t)SP −1 (t)Sx(t) dt.

(3.45)

3.3. Дифференциальные игры в задачах конструирования

69

Задача 2. Pассмотрим ситуацию, когда u1 = 0, v = 0. В этом случае объект (3.36) и функционал (3.38) будут иметь вид d x(t) = Ax(t) + v(t), dt x(t0 ) = x0 , T  1 T 1 T J12 (x, v)= x (T )Sx(T )+ x (t)Q1 (t)x(t)−v T (t)P (t)v(t) dt→ max . v∈V 2 2 t0

При управлении v 0 (t) = P (t)−1 S x(t) функционал будет иметь вид 1 1 J12 (x1 , v ) = xT (t0 )S x(t0 ) + 2 2

T

0

xT (t)SBR−1 B T Sx(t)dt.

(3.46)

t0

Задача 3. В ситуации, когда u1 = 0, v = 0 объект описывается уравнением (3.36) и функционал имеет вид J13 (x1 , u1 ) = 1 + 2

T

1 T x (T )Sx(T )+ 2

T  x (t)Q1 (t) x(t) + uT1 (t) Ru1 (t) − v T (t)P (t)v(t) dt → min max . u∈U v∈V

t0

При управлениях u01 (t) = −R−1 B T S x(t) и v 0 (t) = P (t)−1 S x(t) принимает значение 1 J12 (x1 , u1 , v 0 ) = xT (t0 )S x(t0 ). (3.47) 2 Сравнивая (3.45), (3.46) и (3.47), получаем соотношение (3.44). Задача d-робастного управления. Pассмотрим теперь задачу d-робастного управления. Условие на правом конце зададим в виде

π x(T )  d.

(3.48)

Здесь π — оператор проектирования из Rn на Rq , а d — фиксированная неотрицательная постоянная. Очевидно, что в общем случае время T − t0 должно зависеть от начального состояния x(t0 ) и параметров системы. Для того, чтобы можно было завершить игру за время T − t0 , необходимо, чтобы sup inf π x1 (T )  d. (3.49) v(t) u1 (t)

70 Гл. 3. Робастное управление линейными неопределенными системами

Действительно, поскольку игра должна быть завершена независимо от возмущений v(t), при любом фиксированном v(t0 , T ) должно выполняться неравенство (3.50) inf π x1 (T )  d, u1 (t)

а отсюда следует условие (3.48). Условие (3.48) является достаточным, если для любого v(t) найдется такое управление uj (t) ∈ U , что

π xu (T ) = inf π x1 (T ) , u1 (t)

здесь xu (T ) — значение xj (T ), достигаемое при конкретном управлении uj (t) ∈ U , где t ∈ [t0 , T ]. Как уже отмечалось, в задачах робастного управления (расчет системы на «худший случай»), реализуемого с использованием минимаксного подхода, в общем случае точка минимакса не является седловой точкой, т. е. перестановочные операции inf и sup могут дать несовпадающие результаты. Однако минимакс обладает свойством, которым не обладает седло, а именно, если минимакс существует, то по определению функционал J(x1 , u1 , v) гарантированно имеет максимум по v(t) для каждого uj (t) ∈ U , а не только для оптимального управления, как это гарантируется определением седловой точки. Отметим, что для робастного минимаксного управления справедливо следующее соотношение: inf π x1 (T )  sup π x1 (T ) .

u1 (t)

(3.51)

v(t)

Найдем условия, при которых игра будет завершена в момент T . Пусть Φ(t) — фундаментальная матрица решений уравнения d x(t) = A x(t) + B u1 (t) + v(t), dt x(t0 ) = x0 , т. е.

d Φ(t) = AΦ(t), Φ(0) = I, где I — единичная матрица. Tогда dt

 T  

π x(T ) = πΦ(T − t0 )x(t0 ) + π Φ(T − s)Bu1 (s) ds+ t0

  + π Φ(T − s)v(s)ds   d. (3.52) T

t0

3.3. Дифференциальные игры в задачах конструирования

71

Множества U и V ограниченные. Ограниченность множества U , в силу постановки задачи о робастном управлении, следует из ограниченности множества V . Поэтому покажем, что множество

 V = v(t) ∈ Rn+r : v(t) = {α(t)x1 (t)+β(t)u1 (t)} , x1 (t0 ) = x0 , u1 (t) ∈ U (3.53) ограниченное. Пусть α∗ , β ∗ ∈ Ω такие, что     A + a∗ − (B + β ∗ )R−1 (B + β ∗ )T S x(t)       A + a (t) − (B + β(t))R−1 (B + β(t))T S x(t) и xmax = max |x(t)|; ∀t ∈ [t0 , T ]. Tогда % $

v(t) = v(t), v(t) = α2 (t)x(t) + β 2 (t)u1 (t)  %  Ω∗ x2max + u2max = const = C, где Ω∗ = {a∗ , β ∗ }. Tаким образом, множество V воздействий v(t), где t ∈ [t0 , T ], ограничено. В силу ограниченности множества V множество U также ограничено. Предположим, что множества U и V выпуклы. Обозначим через Θ u1 множество ⎧ T ⎫ ⎨  ⎬ Θ u1 = π Φ(T − s)Bu1 (t) ds : u1 (t) ∈ U почти всюду . ⎩ ⎭ t0

Аналогично положим ⎧ T ⎫ ⎨  ⎬ Θ v = π Φ(T − s) v(s)ds : v(t) ∈ V почти всюду . ⎩ ⎭ t0

Оба множества ограничены и выпуклы. Более того, они замкнуты. Действительно, пусть T ∗ z = π Φ(T − s)Bu∗1 (s) ds, t0

а так как множество U ограничено, то можно выбрать последовательность {u∗1 (t)} ∈ U , слабо сходящуюся в L2 (t0 , T ) к некоторому элементу u01 (t) (также принадлежащему U почти всюду) и ∗

T

z = lim z = π Φ(T − s)Bu01 (s) ds. 0

t0

Аналогично можно убедиться в замкнутости множества Θ v.

72 Гл. 3. Робастное управление линейными неопределенными системами

Сформулируем необходимые и достаточные условия возможности завершения игры за время T − t0 . Пусть e ∈ Rk — произвольный единичный вектор. Tеорема 3.3.3. Для того чтобы можно было завершить игру к моменту T , начиная из состояния x(t0 ) в момент t0 , необходимо и достаточно, чтобы для любого единичного вектора E ∈ Rk выполнялось неравенство      T T         d∗ − e, π Φ(T −t0 )x(t0 )+ Φ(T −s)Bu1 (s) ds   e, π Φ(T −s)v(s) ds.     t0

t0

(3.54) Здесь d∗ — фиксированная неотрицательная величина. Из (3.54) следует, что при отсутствии параметрических возмущений (v(t) = 0, t ∈ [t0 , T ]) управление u1 (t) должно быть таким, что    T      e, π Φ(T − t0 )x(t0 ) + Φ(T − s)Bu1 (s) ds  < d∗ .   t0

Условие (3.54) перепишем в виде: ϕ(e, T )  d∗ .

(3.55)

Необходимость. Предположим, что игру можно завершить за время T − t0 , но при этом условие (3.55) не выполняется. Это означает, что для некоторого единичного вектора e ϕ(e, T ) > d∗ , т. е. множество V содержит такое v ∗ (t), t ∈ [t0 , T ], что  ⎫ ⎧  T ⎬ ⎨  ∗ ∗  d <  e, π Φ(T − t0 )x(t0 ) + Φ(T − s)[Bu1 (s) − v (s)] ds  ⎭ ⎩  t0

при любом допустимом управлении u1 (t), t ∈ [t0 , T ], а это противоречит сделанному предположению, что игру можно завершить за время T − t0 . Достаточность. Докажем, что условие (3.53) достаточно, для того чтобы игру можно было завершить за время T − t0 . Предположим, что это не так. Это предположение означает, что можно найти такое v ∗ (t) ∈ V , t ∈ [t0 , T ], что множество T

T

t0

t0

πΦ(T − t0 )x(t0 ) + π Φ(T − s)Bu1 (s) ds + π Φ(T − s)v ∗ (s) ds

3.3. Дифференциальные игры в задачах конструирования

73

ни при каком допустимом управлении u1 (t) ∈ U , t ∈ [t0 , T ] не пересекается с областью S(d), представляющей собой шар радиуса d с центром в начале координат пространства Rk . Tогда с шаром S(d) не пересекается и замкнутое выпуклое множество T πΦ(T − t0 ) x(t0 ) + π Φ(T − s)Bu1 (s) ds + Θ v. t0

Это значит, что расстояние между этими множествами строго больше нуля и, следовательно, они сильно отделимы. Другими словами, найдется такой единичный вектор e ∈ Rk , что inf e, π x1 (T ) > sup e, π x1 (T ) = d∗ ,

u1 (t)

v(t)

откуда ϕ(e, T ) > d∗ ,что противоречит условию (3.55). Множество U , которое содержит управляющие воздействия, при которых игра будет завершена за время T − t0 при любых наперед заданных множествах начальных условий и возмущений параметров, свяжем с определением значения матрицы R функционала (3.30). Пусть α∗ , β ∗ ∈ Ω, определенные ранее. Tогда, учитывая (3.32) и (3.35),     d x(t) = A − BR−1 B T S ∗ x(t) + α∗ − β ∗ R−1 B T S ∗ x(t), dt x(t0 ) = x0 ,

(3.56)

где положительно определенная матрица S ∗ является решением уравнения Pиккати–Лурье   S1 A + AT S1 − S1 BR−1 B T − P −1 S1 + Q# 1 = 0. Pешение уравнения (3.56), записанное в форме Коши, будет иметь вид T x(T ) = Ψ(T − t0 )x(t0 ) +



t0

  Ψ(T − s) α∗ − β ∗ R−1 B T S1 x(s) ds. (3.57)

 Здесь Ψ(T − s) = exp A − BR−1 B T S1 (T − s), s ∈ [t0 , T ]. Пусть η T = eT π. Запишем условие d-робастной стабилизации (3.55) с учетом (3.57):    T     ∗   η, Ψ(T − t0 )x(t0 ) + Ψ(T − s) α − β ∗ R−1 B T S1 x(s) ds   d,   t0

74 Гл. 3. Робастное управление линейными неопределенными системами

откуда   T      ∗   ∗ −1 T d−|η, {Ψ(T −t0 )x(t0 )}|  η, Ψ(T −s) α −β R B S1 x(s) ds .   t0

(3.58) При отсутствии параметрических возмущений (α(t) = 0, β(t) = 0, t ∈ [t0 , T ]) управление должно быть таким, что |η, {Ψ(T − t0 )x(t0 )}| < d.

(3.59)

Применяя к правой части неравенства (3.58) неравенство Коши–Буняковского–Шварца [10], получаем:      d − η T exp A − BR−1 B T S ∗ (T − t0 ) x(t0 )   T  

     η T exp [A − BR−1 B T S ∗ ](T − s)  ×   t0  ∗   ∗ −1 T ∗   × [α − β R B S ] x(s) ds. (3.60)  Очевидно, что условие d-робастной стабилизации будет выполняться, если значения матриц параметрических возмущений α∗ и β ∗ таковы, что правая часть неравенства (3.60) при фиксированной матрице R и вычисленной матрице S1 принимает максимальное значение. Из структуры неравенства (3.60) видно, что граничные значения ∗ ∗ ∈ Ω должны обеспечивать максимальное параметров матриц  ∗α , β∗ −1 значение нормы  [α − β R B T S ∗ ] x(s). Выполнение условия d-робастной стабилизации зависит не только от значений параметрических возмущений, но и от начального состояния системы x(t0 ) и интервала управления T − t0 . Если при выполнении условия (3.59) условие (3.60) не выполняется, то это означает, что ограничения на управления, сформулированные в виде назначения матрицы R, настолько «жесткие», а возможные параметрические возмущения и начальные условия x(t0 ) настолько велики, что поставленная задача при этих условиях неразрешима. В этом случае при определенных α∗ , β ∗ ∈ Ω и заданных начальных условиях x(t0 ) ∈ X0 следует вернуться к функционалу качества и внести, если это допускает постановка задачи, изменения в значения матриц Q и R (что повлечет изменение матрицы S1 ) так, чтобы удовлетворялось условие (3.60). Если при постановке задачи было заданы: a) критическое значение функционала качества J max (x, u), которое не должно быть превышено, б) область допустимых управляющих воздействий U ,

3.4. Pобастная инвариантность неопределенных линейных систем

75

то условие (3.60) можно использовать для нахождения положительно определенной матрицы S1 , при которой эти условия выполняются при заданном интервале управления, заданных границах параметрических возмущений, заданной точности выполняемой задачи управления и затем проверить: выполняются ли условия: 1 T R−1 [B + β ∗ ]T S1 x(t0 ) ∈ U. (3.61) x (t0 )S1 x(t0 )  J max (x, u), 2

3.4. Pобастная инвариантность неопределенных линейных систем Как уже говорилось в первой главе книги, дополнительную неопределенность вносит координатное возмущение D(t) z(t). Пусть модель объекта, построенная с использованием матрицы «наихудших» параметров, имеет вид d x(t) = A∗ x(t) + B(t)u(t) + Kσ(t) + D(t)z(t), (3.62) dt x(t0 ) = x0 , x ∈ Rn , u ∈ Rr , z ∈ Rp , n > p, r > p. В уравнении объекта u(t) — управление, обеспечивающее заданное качество переходного процесса всей системы, σ(t) — управление, обеспечивающее независимость ряда координат системы от возмущений D(t) z(t). Задан функционал качества: 1 1 J(x, u) = xT (T ) Sx(T ) + 2 2

T

T  x (t) Qx(t) + uT (t)Ru(t) dt,

(3.63)

t0

где положительно определенная матрица S является решением уравнения типа Pиккати–Лурье SA + AT S − SBR−1 B T S + Q = 0.

(3.64)

Напомним, что такое назначение весовой матрицы в первом слагаемом функционала (3.63) позволяет синтезировать регулятор, который будет содержать постоянные параметры при заданном времени процесса управления. Синтез основного управления u(t) произведем при D(t)z(t) = 0, Kσ(t) = 0. Оптимальное управление, синтезированное на модели: d x(t) = A∗ x(t) + B(t)u(t), dt x(t0 ) = x0 , имеет вид [2, 3]

u(t) = −R−1 B T Sx(t),

(3.65)

76 Гл. 3. Робастное управление линейными неопределенными системами

где положительно определенная матрица S является решением уравнения SA∗ + (A∗ )T S − SBR−1 B T S + Q = 0. Запишем объект (3.62) с управлением (3.65): d x(t) = [A∗ − BR−1 B T S]x(t) + Kσ(t) + D(t)z(t), dt x(t0 ) = x0 .

(3.66)

Синтезируем управление σ(t) таким образом, чтобы n − p компонент вектора состояния объекта (3.66) не подвергались возмущениям D(t) z(t). Пусть L = A∗ − BR−1 B T S. (3.67) Tогда из (3.66) будем иметь d x1 (t) = L11 x1 (t) + L12 x2 (t) + K1 σ(t), (3.68) dt d x2 (t) = L21 x1 (t) + L22 x2 (t) + K2 σ(t) + Dz(t), (3.69) dt где x1 ∈ Rn−p , x2 ∈ Rp σ1 ∈ Rr−p , σ2 ∈ Rp ,       L11 L12 Q11 0 R11 0 L= , Q= , R= . 0 Q22 0 R22 L21 L22 Введем дополнительный функционал T 1 T 1 {[L12 x2 (t)+ J = x1 (T )F11 x1 (T ) + 2 2 ∗

0

+ K1 σ(t)]T R11 [L12 x2 (t) + K1 σ(t)] + xT1 (t)Q11 x1 (t)} dt.

(3.70)

Введем гамильтониан H1 =

1 [L12 x2 (t) + K1 σ(t)]T R11 [L12 x2 (t) + K1 σ(t)]+ 2 

 + xT1 (t)Q11 x1 (t) + λT (t) L11 x1 (t) + L12 x2 (t) + K1 σ(t) . (3.71)

Вспомогательная переменная λ(t) определяется уравнением d λ(t) = −LT11 λ(t) − Q11 x1 (t), λ(T ) = F11 x1 (T ). dt Управление σ(t) — точка стационарности гамильтониана: ∂H1 = 0, ∂σ(t) Откуда

(3.72)

K1T R11 L12 x2 (t) + K1T R11 K1 σ(t) + K1T λ(t) = 0.

σ(t) = −[K1T R11 K1 ]−1 K1T [R11 L12 x2 (t) + λ(t)].

(3.73)

3.4. Pобастная инвариантность неопределенных линейных систем

Tогда

−1 λ(t)]. K1 σ(t) = −[L12 x2 (t) + R11

77

(3.74)

Будем искать λ(t) в виде λ(t) = M (t)x1 (t). Учитывая (3.68), (3.74) и (3.72), получим d −1 M (t) + M L11 + LT11 M − M R11 M + Q11 = 0, M (T ) = F11 . (3.75) dt Для того, чтобы управлениe вида (3.69) не зависело от t, назначим F11 = M , где M — положительно определенная матрица решения уравнения −1 M L11 + LT11 M − M R11 M + Q11 = 0. (3.76) Tогда

−1 K1 σ(t) = −[R11 M x1 (t) + L12 x2 (t)],

и уравнение (3.68) примет вид d −1 x1 (t) = [L11 − R11 M ]x1 (t). (3.77) dt Tаким образом, координата x1 (t) ∈ Rn−p в случае, когда матрица A∗ совпадает с реальными значениями возмущений [A + a(t)], не зависит от возмущений D(t)z(t). Естественно, такое совпадение практически не возможно. Pассмотрим влияниe несовпадения значений параметров реального объекта и его модели, содержащей матрицу A∗ . Пусть a — матрица возможных максимальных рассогласований   aij = aij (t) − a∗ij  и неопределенность, вносимая неизвестными координатными возмущениями, имеет известную мажоранту: |D(t)z(t)|  Z,  d11 (t)z1 (t) + ... + d1P (t)zP (t), ... , dP 1 (t)z1 (t) + ...  + dP P (t)zP (t)  (z M , ... , z M ), 1

ziM

> 0,

P

(3.78)

i = 1, ... , p.

Tогда рассогласование между решениями уравнения модели и реального объекта будет определяться соотношением ε(t) = x∗ (t) − x(t).

(3.79)

Учитывая (3.77) и (3.69), будем иметь d ε(t) = aε(t) + Z, dt Используя преобразование подобия

ε(0) = 0.

ε(t) = P −1 e(t), можем записать: d e(t) = P −1 aP e(t) + P −1 Z, e(0) = 0. dt

(3.80)

(3.81)

78 Гл. 3. Робастное управление линейными неопределенными системами

Tак как P aP −1 = Λ [7], то T e(T ) = {exp(ΛT )} {exp(−Λ t)} ηdt,

(3.82)

0

где η = P −1 Z. Запишем решение уравнения (3.82): e(T ) = {exp(ΛT )}Λ−1 [I − {exp(−ΛT )}] η или, учитывая свойство коммутативности матриц {exp(ΛT )} и Λ−1 , получим e(T ) = Λ−1 [{exp (ΛT )} − I] η. Откуда, учитывая, что матрица a cодержит параметры наибольших рассогласований между параметрами модели A∗ и реальными параметрическими возмущениями матрицы A(t), получаем оценку для максимального влияния внешнего воздействия D(t)z(t) на координату x1 (t) в заданный момент T :  n      1 e(T )   (3.83) [exp(λi T ) − 1] ηi .  λi i=1

   n 1   Tак как λi < 0, то при T → ∞, e(T ) →  ηi . λi  i=1

В том случае,  n когда  норма ошибки превосходит установленный  1  допуск, т. е.  ηi  > d, следует вернуться к уравнению (3.63) λi  i=1

и изменить назначение весовой матрицы Q и/или матрицы R, что приведет к необходимости решения уравнения типа Pиккати– Лурье (3.64).

3.5. Множество возможных робастных управлений линейным объектом Пусть задан объект в виде d x(t) = [A + α(t)] x(t), dt y(t) = Cx(t).

x(t0 ) = x0 ,

(3.84) (3.85)

Здесь x ∈ Rn , y ∈ Rm , m  n; [A + α(t)] и C — действительные матрицы. Относительно матрицы α(t), содержащей параметры, подвергающиеся внешним возмущениям, сохраняются предположения, сделанные в предыдущих разделах данной главы. Tаким образом, далее

3.5. Множество возможных робастных управлений линейным объектом 79

будем рассматривать матрицу A∗ = A + a∗ , содержащую постоянные элементы, при которых выполняется соотношение

[A + α∗ ] x(t)  [A + α(t)] x(t) .

(3.86)

Предположим, что пара A, C наблюдаема при любых A(t) = A + α(t), т. е. и при A∗ = A + a∗ . Условие наблюдаемости записывается в виде: rank HX = n, где   HX = C T C T (A∗ )T C T ((A∗ )T )2 ... C T ((A∗ )T )n−1 . (3.87) Управляемую систему представим в виде d x(t) = A∗ x(t) + Bu(t), x(t0 ) = x0 . (3.88) dt Управляемость системы (3.88) определяется парой A∗ , B, т. е. rank GX = n, где   GX = B BA∗ B{A∗ )2 ... B{A∗ )n−1 . (3.89) Найдем параметры матрицы B, при которых система (3.88) будет асимптотически устойчива. Введем в рассмотрение эквивалентную систему. Пусть x(t) = P −1 z(t). Tогда d z(t) = (A∗ )T z(t) + C T B T z(t), z(t0 ) = P x(t0 ). dt Обратимая матрица P удовлетворяет уравнению

(3.90)

P [(A∗ )T + C T B T ]P = A∗ + BC. Пусть

γ(t) = B T z(t).

(3.91)

Tогда

d z(t) = (A∗ )T z(t) + C T γ(t), z(t0 ) = P x(t0 ). (3.92) dt , ∗ T Tуправляема, т. е. rank GZ = n, где Предположим, что пара (A ) , C   T C T (A∗ )T C T ((A∗ )T )2 ... C T ((A∗ )T )n−1 . (3.93) GZ = C

Сравнивая (3.93) и (3.87), делаем вывод, что требование наблюдаемости для системы (3.84), (3.85) эквивалентно требованию управляемости эквивалентной системы (3.92), так как HX = GZ . Для поиска управляющих воздействий, обеспечивающих стабилизацию системы (3.92), введем функционал ∞   1 T J(z, γ) = (3.94) z (t)Qz(t) + γ T (t)γ(t) dt. 2 0

Здесь Q — положительно определенная матрица.

80 Гл. 3. Робастное управление линейными неопределенными системами

Очевидно [2, 3], что оптимальное управление объектом (3.92) определяется соотношением γ(t) = −CSz(t),

(3.95)

где положительно определенная матрица S является решением уравнения Pиккати–Лурье S(A∗ )T + A∗ S − SC T CS + Q = 0.

(3.96)

Tак как матрица Q — положительно определенная, то множество S положительно определенных матриц S, т. е. S ∈ S, при которых регулятор (3.95) обеспечит асимптотическую устойчивость объекта (3.92), будет определяться неравенством S(A∗ )T + A∗ S − SC T CS < 0.

(3.97)

Для проверки устойчивости системы (3.92), (3.95) с матрицей S ∈ S введем функцию Ляпунова V (z) =

1 T z (t)Sz(t). 2

Tогда

d V (z) = −z T (t)[SC T CS]z(t)  0, dt так как матрица SC T CS, по крайней мере, положительно определена. Сравнивая (3.95) с (3.91), получаем B = −SC T .

(3.98)

Tаким образом, система (3.88) с учетом (3.98) будет иметь вид d x(t) = A∗ x(t) − SC T y(t), x(t0 ) = x0 . dt

(3.99)

Tеорема 3.5.1. Пусть S — множество положительно определенных матриц S, удовлетворяющих неравенству S(A∗ )T + A∗ S − SC T CS < 0, где A и C — действительные матрицы размерности n × n и n × m, n  m соответственно образуют наблюдаемую пару A, C. Tогда линейная система d x(t) = A∗ x(t) − SC T y(t), x(t0 ) = x0 , dt y(t) = Cx(t) асимптотически устойчива при всех S ∈ S. Отметим, что если задана положительно определенная матрица Q, то решение уравнения S(A∗ )T + A∗ S − SC T CS + Q = 0 при

Q1 < Q будет таким, что положительно определенные матрицы S

3.5. Множество возможных робастных управлений линейным объектом 81

и S1 будут связаны соотношением S1 < S ∈ S. Кроме того, достаточно часто в задачах управления стационарными объектами матрицу веса в первом подынтегральном слагаемом функционала качества назначают в виде Q = γC T C, где γ > 0. Tогда, если γ1 > γ2 , то S1 > S2 . 3.5.1. Нахождение интервала робастного управления при заданных области начальных условий и параметрах регулятора. Pассмотрим проблему d-робастности объекта (3.99). Очевидно, что для этого необходимо получить усиленные условия выбора матрицы S. Управляемый объект (3.99) имеет вид d x(t) = [A∗ − SC T C]x(t), x(t0 ) = x0 . (3.100) dt Предположим, что в назначенный момент T > 0 должно выполняться условие |x(T )|  D. (3.101) Здесь |x(T )| — вектор, состоящий из модулей |xi (T )|; D — вектор, составленный из di > 0, i = 1, ... , n. Tаким образом, условие (3.101) должно выполняться поэлементно. Pешение однородного уравнения (3.100) записывается в виде

 |x(T )| = exp[A − SC T C] T |x(0)|  D. (3.102) Умножим (3.102) справа на x(0):

 |x(T )xT (0)| = exp[A∗ − SC T C] T x(0)xT (0)  D|xT (0)|.

(3.103)

Из (3.103) будем иметь        exp[A∗ − SC T C] T  x(0)xT (0)  DT x(0) . ∗

(3.104)

Учитывая, что корни характеристической матрицы A − SC C действительные и отрицательные, можно положительные  отыскать такие  постоянные K и ρ, что K e−ρT   exp[A∗ − SC T C] T . Tогда     K e−ρT x(0)xT (0)  DT x(0) . Прологарифмировав последнее выражение, получим    x(0)xT (0)  . ρT  ln K DT x(0)

T

(3.105)

Неравенство (3.105) можно использовать для получения оценки длительности интервала d-робастного управления при заданных начальных условиях системы. Tак как ρ = ρ(S), назначив K = n, где n — размерность системы, запишем (3.105) в виде    x(0)xT (0)  1 T  ln . (3.106) ρ(S) n DT x(0)

82 Гл. 3. Робастное управление линейными неопределенными системами

Если же задан интервал управления, то можно определить требования к области начальных условий: траектории, которые начинаются из этой области, в момент окончания управления заканчиваются в заданной   области d:  x(0)xT (0)  ln  ρT. (3.107) n DT x(0)

Tеорема 3.5.2. Пусть S∗ ∈ S — множество положительно определенных матриц S, при

 которых корни характеристической матрицы exp[A∗ − SC T C] T действительные и отрицательные, и имеются положительные постоянные K и ρ, такие, что K e−ρT    ∗ T    exp[A − SC C] T . Tогда, если выполняется неравенство    x(0)xT (0)  1 , ρ(S)  ln T K DT x(0)

то линейная система d x(t) = A∗ x(t) − SC T y(t), x(t0 ) = x0 dt d-робастна при всех S ∈ S∗ . Cледствие. Используя (3.104), можно оценить начальные условия и период управления    x(0)xT (0)  1 T  ln , ρ(S) K DT x(0)

при которых будет выполняться условие |x(T )|  D. 3.5.2. Нахождение параметров регулятора при заданной области начальных условий и времени окончания переходного процесса. Пусть задано значение функционала, характеризующее желаемое качество переходных процессов и затрачиваемые на это ресурсы: 1 T x (t0 )Smax x(t0 ). (3.108) 2 Очевидно, что весовая матрица в первом подынтегральном слагаемом функционала качества может быть определена, как J(x, u) =

Qmax = Smax BR−1 B T Smax − Smax A∗ − (A∗ )T Smax .

(3.109)

Значения Smax и Qmax определяют правые границы множеств возможных значений параметров регулятора и весовой матрицы Q. Для отыскания левой границы рассмотрим условие d-робастности, выполняемое на границе замыкания области D, т. е. |x(T )| = D.

(3.110)

3.5. Множество возможных робастных управлений линейным объектом 83

Пусть q  Qmax . Tогда справедливо следующее неравенство SA∗ + (A∗ )T S − SBR−1 B T S + q  0.

(3.111)

Возможные траектории объекта будут определяться следующим дифференциальным включением

Обозначим

x(t) ˙ ⊂ [A∗ − BR−1 B T S]x(t), x(t0 ) = x0 .

(3.112)

L = A∗ − BR−1 B T S.

(3.113)

Для системы (3.112) семейство решений записываeтся в виде |x(T )| ⊂ eLT |x(t0 )|.

(3.114)

Умножим (3.114) слева на x(T ):

  x(T )xT (T ) ⊂ eLT x(t0 )xT (T ) .

(3.115)

Для всех x(t0 ) из области начальных условий, на границе которой выполняется условие (3.110), должно выполняться условие |x(T )|  D.

(3.116)

C учeтом (3.110) и (3.115) получаем:   DDT  eLT x(t0 )DT  или

      DDT    eLT   x(t0 )DT  .

Откуда

    DDT   Ke−ρT x(t0 )DT  .

Прологарифмировав последнее, получим    DDT  . ρT  ln K x(t0 )D

  Tогда  DDT  1 ρ(S)  ln . T K x(t0 )D

Очевидно, что при |x(T )| = D   eLT x(t0 )DT  − DDT = 0,

(3.117)

(3.118)

(3.119)

где матрица содержит матрицу Smin L = A∗ − Smin C T C, которая соответствует решению уравнения Smin A + AT Smin − Smin BR−1 B T Smin + Qmin = 0,

(3.120)

84 Гл. 3. Робастное управление линейными неопределенными системами

В этом случае из уравнения (3.120) можно найти Qmin : Qmin = Smin BR−1 B T Smin − Smin A − AT Smin .

(3.117)

Полученные результаты можно обобщить в виде теоремы. Tеорема 3.5.3. Линейная система вида   x(t) ˙ = A∗ − BR−1 B T S x(t), x(t0 ) = x0 d-робастно управляема, если матрица S отвечает условию Smin  S  Smax . 3.5.3. Нахождение области начальных условий при заданных параметрах регулятора и времени окончания переходного процесса. Пусть задан регулятор, содержащий постоянные параметры — уже известную матрицу усилений S, требуется определить область начальных условий X0 такую, что для всех траекторий, начинающихся из данной области, то есть для ∀x0 ∈ X0 , выполняется условие |x(T )|  D. Pассматриваемый объект имеет вид:   x(t) ˙ = A∗ − BR−1 B T S x(t), (3.121) x(t0 ) = x0 . Обозначим

L∗ = A∗ − BR−1 B T Smax .

(3.122)

Tогда решение уравнения (3.121) будет иметь вид |x(T )| = D = exp {L∗ T } |x∗max (0)|. Из последнего условия будем иметь |x∗max (0)| = exp {−L∗ T } D.

(3.123)

Tаким образом, область возможных значений начальных условий, при которых успешно выполняется задача d-робастного управления при заданном времени окончания переходного процесса, будет определяться соотношением:

 − exp −L A∗ − BR−1 B T Smin T D  |x(0)| 

  exp −L A∗ − BR−1 B T Smax T D. (3.124) Tеорема 3.5.4. Пусть задан регулятор, содержащий постоянные параметры — известную матрицу Smax , и задан момент времени T . Tогда для линейной системы   x(t) ˙ = A∗ − BR−1 B T Smax x(t), x(t0 ) = x0

3.6. Модель объекта пониженного порядка

85

будет выполняться условие |x(T )|  D, для всех траекторий, начинающихся из области X0 , определяемой соотношением: 

− exp −L A∗ − BR−1 B T Smin T D  |x(0)| 

  exp −L A∗ − BR−1 B T Smax T D.

3.6. Модель объекта пониженного порядка В ряде задач управления динамическим объектом требуется построить для его описания математическую модель пониженного порядка. Пусть полное математическое описание объекта, построенное, как это делалось в предыдущих разделах главы, с использованием матрицы «наихудших» параметров, имеет вид d x(t) = A∗ x(t) + Bu(t), dt x(t0 ) = x0 .

(3.125)

Cинтез управления для объекта (3.122) осуществляется с использованием функционала качества: 1 1 J(x, u) = xT (T )Sx( T ) + 2 2

T

 xT (t) Qx( t) + uT (t)Ru(t) dt. (3.126)

t0

Оптимальное управление имеет вид [2, 3] u(t) = −R−1 B T Sx(t),

(3.127)

где положительно определенная матрица S является решением уравнения SA∗ + (A∗ )T S − SBR−1 B T S + Q = 0. Запишем объект (3.125) с управлением (3.127): d x(t) = [A∗ − BR−1 B T S]x(t), dt x(t0 ) = x0 . Пусть xT (t) = (xT1 (t) xT2 (t)), где x1 ∈ Rm , x2 ∈ Rn−m ,  ∗  L11 L∗12 ∗ ∗ −1 T ∗ L = L = A − BR B S, . L∗21 L∗22

(3.128)

(3.129)

Tогда d x1 (t) = L∗11 x1 (t) + L∗12 x2 (t), dt d x2 (t) = L∗21 x1 (t) + L∗22 x2 (t). dt

(3.130) (3.131)

86 Гл. 3. Робастное управление линейными неопределенными системами

Пусть измеряется x2 (t): y(t) = Cx(t) = x2 (t).

(3.132)

В выражениях (3.125), (3.127) и (3.132) x ∈ R , u ∈ R , y ∈ R , n > m. Tребуется построить z1 (t) по наблюдениям y(t). Построим модель пониженного порядка объекта (3.131) в виде n

r

m

d z(t) = L∗11 z(t) + σ(t), dt z(t0 ) = 0,

(3.133)

здесь z ∈ Rm , вектор σ(t) играет роль управления, с помощью которого предполагается приблизить z(t) к x1 (t). Пусть ε(t) = x1 (t) − z(t). Tогда, учитывая (3.131) и (3.133), уравнение для ошибки будет иметь вид d ε(t) = L∗11 ε(t) + L∗12 x2 (t) − σ(t), dt ε(t0 ) = 0.

(3.134)

Для синтеза управления σ(t) введем дополнительный функционал 1 T ε (T )F ε(T )+ 2 T 1 {[L∗12 x2 (t) − σ(t)]T R[L∗12 x2 (t) − σ(t)] + εT (t)Qε(t)} dt. + 2

J∗ =

(3.135)

0

Образуем гамильтониан: H=

1 {[L∗12 x2 (t) − σ(t)]T R[L∗12 x2 (t) − σ(t)] + εT (t)Qε(t)}+ 2 + λT (t){L∗11 ε(t) + L∗12 x2 (t) − σ(t)}.

(3.136)

Вспомогательная переменная λ(t) определяется уравнением d λ(t) = −(L∗11 )T λ(t) − Qε(t), dt

λ(T ) = F ε(T ).

(3.137)

Определим управление σ(t) [2, 3]: ∂H = 0, ∂σ(t) Откуда

−RL∗12 x2 (t) + Rσ(t) − λ(t) = 0.

σ(t) = R−1 λ(t) + L∗12 x2 (t).

(3.138)

3.6. Модель объекта пониженного порядка

87

Будем искать, как λ(t) = M (t)ε(t). Учитывая (3.134), (3.137) и (3.138), получим d M (t) + M L∗11 + (L∗11 )T M − M R−1 M + Q = 0, M (T ) = F. (3.139) dt Для того чтобы управлениe вида (3.138) не зависело от t, можно назначить F = M , где M — положительно определенная матрица решения уравнения M L∗11 + (L∗11 )T M − M R−1 M + Q = 0. (3.140) Tогда

σ(t) = R−1 M ε(t) + L∗12 x2 (t)],

и уравнение (3.133) примет вид d z(t) = L∗11 z(t) + R−1 M ε(t) + L∗12 x2 (t), dt z(t0 ) = 0.

(3.141)

Уравнение ошибки принимает вид d ε(t) = [L∗11 − R−1 M ] ε(t), dt ε(0) = 0.

(3.142)

Нетрудно видеть, что при точном измерении состояния x2 (t) и «совпадении» значений параметров матриц L11 с L∗11 , ошибка будет равна нулю, т. е. ε(t0 ) = 0 (при этом учитывалось то обстоятельство, что при вычислении матрицы M из всех четырех матриц L используется только матрица L∗11 ). Найдем значение влияния параметрических возмущений матрицы L11 (t) на ошибку представления x1 (t). Пусть измерения x2 (t) производятся с ошибкой, т. е. y(t) = x2 (t) + θ(t),

(3.143)

где M | θ1 (t), ... , θm (t) |  (θ1M , ... , θm ), θiM > 0,

i = 1, ... , m,

(3.144)

и l11 — матрица возможных максимальных параметрических рассогласований l11 = max | L11 (t) − L∗11 |. Tогда рассогласование между решениями уравнений модели пониженной размерности и реального объекта будет определяться соотношением ε(t) = x1 (t) − z ∗ (t). (3.145) Учитывая (3.134) и (3.141), будем иметь d ε(t) = l11 ε(t) + Θ, dt где Θ = L∗12 θM .

ε(0) = 0,

(3.146)

88 Гл. 3. Робастное управление линейными неопределенными системами

Используя преобразование подобия ε(t) = P −1 e(t), можем записать: d e(t) = P −1 l11 P e(t) + P −1 Θ, dt Tак как P l11 P −1 = Λ [7], то

(3.147) e(0) = 0.

T e(T ) = {exp(ΛT )} {exp(−Λt)} η dt,

(3.148)

0

где η = P −1 Θ. Запишем решение уравнения (3.148): e(T ) = {exp(ΛT )}Λ−1 [I − {exp(−ΛT )}] η или, учитывая свойство коммутативности матриц {exp(ΛT )} и Λ−1 , получим e(T ) = Λ−1 [{exp(ΛT )} − I] η. Откуда, учитывая, что матрица l11 содержит параметры наибольших рассогласований между параметрами модели L∗11 и реальными параметрическими возмущениями матрицы L11 (t), имеем   n   1  (3.149) [exp(λi T ) − 1] ηi .

e(T )   λi i=1    n 1  Tак как λi < 0, то при T → ∞, e(T ) →  ηi . В том слуλi i=1

чае,  норма ошибки превосходит установленный допуск, т. е.  n когда  1   ηi  > d, следует вернуться к уравнению (3.140) и изменить  λi  i=1

назначение весовой матрицы Q.

3.7. Линейно-квадратичная задача при неполной информации о состоянии объекта Управляемый и наблюдаемый линейный нестационарный динамический объект описывается системой линейных неоднородных дифференциальных уравнений: d x(t) = [A + α(t)] x(t) + [B + β(t)] u(t), dt x(t0 ) = x0 , где x ∈ Rn , u ∈ Rr , r  n.

(3.150)

3.7. Линейно-квадратичная задача при неполной информации

89

Относительно ограничений на управление, начального условия x(t0 ) и матриц α(t) и β(t), содержащих параметрические возмущения, сохраняются предположения, сделанные в предыдущем разделе. Измеритель состояния объекта (3.150) описывается уравнением y(t) = Cx(t),

y ∈ Rm ,

m  n.

(3.151)

Задача управления объектом (3.150), как и в § 3.3, заключается в построении такой стратегии u(t) ∈ U , при которой минимизируется функционал 1 1 J(x, u) = xT (T )Sx(T ) + 2 2

T

 xT (t)Qx(t) + uT (t)Ru(t) dt, (3.152)

t0

где положительно определенная матрица S определяется из решения уравнения Pиккати–Лурье SA + AT S − SBR−1 B T S + Q = 0, заданные матрицы Q, R положительно определены, интервал управления [t0 , T ] задан, и при этом в момент времени T будет выполняться следующее условие: I([t0 , T ], x(t0 )) =

max

x∈R(T ,x0 )

| η, x(T )|  d,

(3.153)

где I([t0 , T ], x(t0 )) обозначает множество достижимости системы (3.150) из начальной точки x(t0 ) ∈ Rn за время T − t0 ; η ∈ Rn — единичный вектор; d — фиксированная положительная величина. В данной постановке задачи реализовать управление как функцию состояния объекта не представляется возможным. Pассмотрим эквивалентную объекту (3.150) минимаксную модель d x(t) = Ax(t) + Bu(t) + N v(t), dt x(t0 ) = x0 , где

u1 (t) ∈ Rr ,

v(t) ∈ Rr ,

u1 (t) ∈ U ,

(3.154)

v(t) ∈ V ;

и функционал J1 (x, v, u) = 1 + 2

T

1 T x (T )Sx1 (T )+ 2 1

T  x1 (t)Q1 (t)x1 (t) + uT1 (t)Ru1 (t) − v T (t)P (t)v(t) dt.

(3.155)

t0

Будем полагать, что матрицы A, B, N такие, что пара (A, B ∗ ), где B = (B, N ) — управляема. ∗

90 Гл. 3. Робастное управление линейными неопределенными системами

Pеализуемое решение будем искать на основе построения наблюдателя, задача которого состоит в «выработке» оценки x (t) состояния объекта (3.154) по измерениям (3.151). Представим x (t) в виде x (t) = (t, τ ) y(τ ),

(3.156)

где (t, τ ) — линейный оператор в Rn . Обозначим: ε(t) = x(t) − x (t).

(3.157)

Tогда, подставляя x(t) из (3.154) в функционал (3.155), будем иметь: J1 (x, u, v) = J1 (ε) + J2 ( x, u, v) + J3 (ε, x ), (3.158) где 1 1 J1 (ε) = εT (T )S(T ) + 2 2

T εT (t)Q1 (t)ε(t)dt,

(3.159)

t0

1 T  x (T )S x(T )+ 2 T 1 T  + x (t)Q1 (t) x(t) + uT1 (t)Ru1 (t) − v T (t)P (t)v(t) dt, 2

J2 (x, u) =

t0

(3.160)

T J3 (ε, x ) = ε (t)S x(T ) +

εT (t)Q1 (t) x(t) dt.

T

(3.161)

t0

Здесь матрицы Q1 (t) и P (t) определяются так, чтобы выполнялись соотношения (§ 3.2): Q1 (t) = Q − q(t), T

N P

−1

(t)N = [B +β(t)]R

−1

t ∈ [t0 , T ];

[B +β(t)] −BR−1 B T −S −1 αT (t)−α(t)S −1 , T

t ∈ [t0 , T ]. Pассмотрим функционал (3.159). Найдем условия выбора оператора (t, τ ), при котором ε(t) минимизирует функционал (3.159). Пусть (t, τ ) = o (t, τ ) + μr(t, τ ), (3.162) где o (t, τ ) ∈ Rn — линейный оператор, при котором обеспечивается минимум рассматриваемого функционала; r(t, τ ) ∈ Rn , μ — коэффициент Лагранжа.

r(t, τ ) = 0;

3.7. Линейно-квадратичная задача при неполной информации

91

При этом J1 (ε) = J1 (... , μ). Произведем следующую операцию:  ∂J1 (... , μ)  = 0. В результате получим:  ∂μ μ=0 T εT (t)F x (T ) +

εT (t)Q∗ x (t) dt = 0.

(3.163)

t0

Cравнивая (3.161) и (3.163), приходим к выводу, что при «оптимальном» операторе o (t, τ ) ∈ Rn справедливо следующее равенство: x, u, v). J o (x, u, v) = J1o (ε) + J2o (

(3.164)

Будем искать x (t) как решение следующего дифференциального уравнения: ˙ x(t) = M (t) x(t) + K(t)y(t) + Bu(t) + N v(t), 0 , x (t0 ) = x

(3.165)

где матрицы M (t) и K(t) подлежат нахождению. Вычитая (3.165) из (3.154) и учитывая (3.151), будем иметь ε(t) ˙ = [A − K(t)C] x(t) − M (t) x(t), ε(t0 ) = ε0 = x0 − x 0 .

(3.166)

Выберем матрицу M (t) в виде M (t) = A − K(t)C

(3.167)

ε(t) ˙ = Aε(t) − K(t)Cε(t), 0 . ε(t0 ) = ε0 = x0 − x

(3.168)

и перепишем (3.166):

Применим к (3.168) эквивалентное преобразование. Пусть Π — такая матрица преобразования с постоянными коэффициентами, что e(t) = Π−1 ε(t), Π−1 существует и верно: Π−1 G Π = GT . Отметим, что такое преобразование не меняет геометрического смысла (видa траекторий) решений дифференциального уравнения. Tогда уравнение (3.168) и функционал (3.159) примут вид e(t) ˙ = AT e(t) − C T K T (t) e(t), e(t0 ) = e0 . 1 1 J1 (ε) = eT (T )S e(T ) + 2 2

(3.169)

T eT (t)Q1 (t) e(t) dt, t0

(3.170)

92 Гл. 3. Робастное управление линейными неопределенными системами

Введем в рассмотрение функцию γ(t) = K T (t) e(t)

(3.171)

и представим подынтегральную часть функционала (3.170) в виде eT (t)Q1 (t) e(t) = eT (t)Q∗1 e(t) + γ T (t)R1∗ γ(t),

(3.172)

где условия выбора Q∗1 , R1∗ будут определены ниже. Tогда систему (3.169) с учетом (3.171) и функционал (3.170) можно переписать в следующем виде: e(t) ˙ = AT e(t) − C T γ(t), e(t0 ) = e0 ; 1 1 J1 (ε) = eT (T ) ΠT SΠe(T ) + 2 2

T

(3.173)

T  e (t)Q∗1 (t) e(t) + γ T (t)R1∗ γ(t) dt.

t0

(3.174) Cистема (3.173) и функционал (3.174) представляют собой стандартную линейно-квадратичную задачу, ее решение будет иметь вид [2] γ(t) = (R1∗ )−1 CL(t)e(t),

(3.175)

где L(t) является решением матричного уравнения Pиккати: −1 ˙ L(t) + AT L(t) + L(t)A − L(t)C T (R1∗ ) CL(t) + Q∗1 = 0,

L(T ) = ΠT SΠ.

(3.176)

Cравнивая (3.171) и (3.175), получим: −1

K(t) = L(t)C T (R1∗ )

.

(3.177)

Подставим (3.175) в (3.172). Будем иметь: Q1 (t) = Q∗1 (t) + L(t)C T (R1∗ )−1 CL(t).

(3.178)

Подставляя Q∗1 из (3.178) в (3.176), получим: ( ˙ L(t) + AT L(t) + L(t)A − 2L(t)C T (R1∗ )−1 CL(t) + Q1 t) = 0,

L(T ) = ΠT SΠ.

(3.179)

Pеализуемый регулятор u∗ (t) и оценку вектора возмущений будем строить в виде x(t), u∗ (t) = −R−1 B T S ∗ (t) ∗

v (t) = P

−1



N S (t) x(t). T

(3.180) (3.181)

Tаким образом, система управления, содержащая наблюдатель, будет иметь вид:

3.8. Pобастное управление стохастическим нестационарным объектом 93

объект: x(t) ˙ = [A + α(t)]x(t) − [B + β(t)]R−1 B T S ∗ (t) x(t), x(t0 ) = x0 ;

(3.182)

измеритель состояния объекта: y(t) = Cx(t);

(3.183)

робастный наблюдатель:

˙ x(t) = A + α∗ − [(B + β ∗ )R−1 (B + β ∗ )T − N P −1 N T ]S ∗ (t)−  (3.184) (t) + L(t)C T (R1∗ )−1 y(t), − L(t)C T (R1∗ )−1 C x x (t0 ) = x 0 . Матрицы S ∗ (t) и L(t) определяются решениями уравнений типа Pиккати–Лурье: (A + α∗ )T S ∗ (t) + S ∗ (t)(A + α∗ )− − S ∗ (t)[(B + β ∗ )R−1 (B + β ∗ )T − N P −1 N T ]S ∗ (t) + Q = 0, ∗ T



(A+α ) L(t)+L(t)(A+α )−2L(t)C

T

−1 (R1∗ )

CL(t)+Q∗1 = 0.

(3.185) (3.186)

Вернемся к вопросу назначения матриц R1∗ и Q∗1 . Перепишем соотношение (3.178) в виде Q∗1 = Q∗ − L(t)C T (R1∗ )−1 CL(t).

(3.187)

Из этого соотношения можно видеть, что, вообще говоря, необходимо выбирать только матрицу R1∗ , так как тогда матрица Q∗1 вычисляется с помощью простого вычитания. В общем случае матрица R1∗ выбирается с помощью численного моделирования таким образом, чтобы переходные процессы в наблюдателе проходили значительно быстрее, чем во всей системе управления.

3.8. Pобастное управление стохастическим нестационарным объектом с неполной информацией о состоянии Нестационарный объект с неполной информацией о параметрах описывается линейным стохастическим дифференциальным уравнением d x(t) = [A + α(t)]x(t) + [B + β(t)] u(t) + ω(t), dt x(t0 ) = x0 ,

(3.188)

где α(t), β(t) ∈ Ω — матрицы параметров, подвергающихся неконтролируемым возмущениям.

94 Гл. 3. Робастное управление линейными неопределенными системами

Cостояние объекта (3.188) измеряется на фоне шумов: y(t) = Cx(t) + n(t).

(3.189)

В (3.188) и (3.189) x ∈ Rn ,

y ∈ Rm ,

M [w(t)] = 0,

M [w(t)wT (τ )] = W (t)δ(t − τ ), M [x(t0 )] = x0 ,

M [n(t)] = 0,

M [w(t)nT (τ )] = 0,

M [n(t)nT (τ )] = N (t)δ(t − τ ),

M [x(t0 )ω T (t)] = 0,

M [x(t0 )nT (t)] = 0.

Предполагается, что нестационарные белые шумы имеют следующие интенсивности: W (t) = W + w(t),

N (t) = N + n(t).

(3.190)

Задан функционал качества   T

T  1 T ∗ T J(x, u) = M x (T )S x(T )+ x (t)Q x(t)+u (t)R u(t) dt , 2 t0

(3.191) где Q, R, S ∗ — положительно определенные матрицы соответствующих размерностей, интервал управления T − t0 задан. Задана цель управления: Xii (T )  di ,

i = 1, l,

l  n,

(3.192)

где X(T ) = M [x(T )x (T )], di > 0. Tребуется построить регулятор с постоянной матрицей усиления, при котором достигается цель управления (3.192) и минимизируется функционал (3.191). Пусть α∗ , β ∗ , x∗0 , W ∗ , N ∗ ∈ ∂Ω∗ таковы, что T

|[A + α∗ ] x(t) + [B + β ∗ ] u(t) + ω ∗ (t)|   |[A + α(t)] x(t) + [B + β(t)] u(t) + ω(t)| , т. е. это «наихудшие» значения параметров объекта, оценки его начального состояния и интенсивности шумов, при которых достигается цель управления. Определим матрицу S ∗ как решение уравнения типа Pиккати–Лурье S ∗ [A+α∗ ] + [A+α∗ ]T S ∗ −S ∗ [B +β ∗ ]R−1 [B +β ∗ ]T S ∗ + Q = 0. (3.193) Tакое назначение весовой матрицы штрафа при первом слагаемом позволяет построить робастный регулятор, т. е. регулятор с постоянными параметрами при заданном интервале управления T − t0 . В соответствии с теоремой разделения, задача конструирования системы управления разбивается на две подзадачи:

3.8. Pобастное управление стохастическим нестационарным объектом 95

1) построение наблюдателя с функционалом качества:   T 1 T ∗ T J1 (ε) = M ε (T )S ε(T ) + ε (t)Q ε(t) dt , 2 t0 

где ε(t) = x(t) − x(t); 2) построение регулятора с функционалом качества:   T  1  T T  ∗ T J2 ( x, u) = M x (T )S x(T ) + x (t)Q x(t) + u (t)R u(t) dt . 2 t0

Построим робастный наблюдатель (робастный фильтр Калмана): " # d   x(t) = [A + α∗ ] x(t) + [B + β ∗ ] u(t) + K y(t) − C x(t) , dt (3.194)  x(t0 ) = x∗0 , где K = P ∗ C T (N ∗ )−1 , (3.195) [A+α∗ ] P ∗ +P ∗ [A+α∗ ]T −P ∗ [B +β ∗ ] (N ∗ )−1 [B +β ∗ ] P ∗ +W ∗ = 0. (3.196) Pобастный регулятор будет иметь вид: u(t) = −R−1 [B + β ∗ ] S ∗ x(t). T



(3.197)

Объединим уравнения, описывающие объект и наблюдатель, в уравнение: ⎛ d ⎞   x(t) −[B + β(t)]R−1 [B + β ∗ ]S ∗ ⎝ dt ⎠ = A + α(t) × d KC A + α∗ − [B + β ∗ ]R−1 [B + β ∗ ]S ∗ − KC x(t)    ∗  dt x(t) ω (t) , ×  + Kn∗ (t) x(t)     x(t0 ) x0 . =  x∗0 x(t0 ) (3.198) Введем обозначения:

. / T z T (t) = xT (t) x (t) .

(3.199)

Tогда уравнение (3.198) при «наихудших» значениях параметров объекта, оценки его начального состояния и интенсивности шумов примет вид: d ∗ z (t) = A∗ z ∗ (t) + ξ ∗ (t), (3.200) dt z ∗ (t0 ) = z0∗ ,

96 Гл. 3. Робастное управление линейными неопределенными системами

где



A + α∗ −[B + β ∗ ]R−1 [B + β ∗ ]S ∗ A = KC A + α∗ − [B + β ∗ ]R−1 [B + β ∗ ]S ∗ − KC   ∗  (t) ξ ∗ (t) = . Kn∗ (t) ∗

 , (3.201)

Найдем второй момент процесса z ∗ (t). Определим: μ(t) = M [z(t)z T (t)].

(3.202)

Tогда уравнение для вторых моментов будет иметь вид: d ∗ T μ (t) = A∗ μ∗ (t) + μ∗ (t) (A∗ ) + Ξ∗ , dt μ∗ (t0 ) = μ0 ,  ∗  W 0 ∗ где Ξ = . 0 KN ∗ K T Запишем решение уравнения (3.203):

(3.203)

μ∗ (T ) = {exp [A∗ (T − t0 )]} μ0 {exp [A∗ (T − t0 )]} + T T + {exp [A∗ (T − τ )]} Ξ∗ {exp [A∗ (T − τ )]} dτ , T

t0

откуда   μ∗ (T ) = {exp[A∗ (T − t0 )]} μ0 − A∗ Ξ∗ (A∗ )T {exp[A∗ (T − t0 )]}T + + A∗ Ξ∗ (A∗ )T . (3.204) Отметим, что уравнение (3.204) содержит параметры системы, начальные условия и интенсивности шумов, значения которых находятся на границе возможных возмущающих воздействий. Tак как матрица вторых моментов μ∗ (T ) содержит матрицу X ∗ (T ), то будет выполняться следующее равенство: Xii∗ (T ) = μ∗ii (T ) = dii ,

i = 1, l.

(3.205)

Для получения каждого из l интересующих нас диагональных элементов матрицы μ∗ (T ) необходимо умножить обе части уравнения (3.204) слева на ηi ∈ R2n и справа на ηiT , где ηi = (0, ... , 0, 1, 0, ... , 0). 0 12 3 0 12 3 i−1 2n−i После осуществления этой процедуры получаем Xii = η T μ∗ (T )η = η T {exp[A∗ (T − t0 )]} [μ0 − A∗ Ξ∗ (A∗ )T ]× × {exp[A∗ (T − t0 )]} η + η T A∗ Ξ∗ (A∗ )T η. T

3.9. Задача d-робастного сближения с нестационарным объектом

97

Учитывая (3.192), запишем условие успешного выполнения задачи робастного управления стохастическим объектом (3.188), (3.189):   di − η T A∗ Ξ∗ (A∗ )T η  η T {exp[A∗ (T − t0 )]} μ0 − A∗ Ξ∗ (A∗ )T × × {exp[A∗ (T − t0 )]}T η.

(3.206)

Полученное соотношение (3.206) следует использовать для определения границы ∂Ω∗ множества Ω возможных значений α(t), β(t), x0 , W (t), N (t). Учитывая способ построения процесса z(t), при котором выполня ется соотношение z(t)  (x(t), x(t)) , можно утверждать, что если для мажорирующего процесса z(t) выполняется условие (3.206), то объект (3.188), (3.189) d-робастно стабилизируем управлением (3.197) при всех α(t), β(t), x0 , W (t), N (t) ∈ Ω, x(t0 ) ∈ X0 . Отметим, что выполнение условия (3.206) в определяющей степени зависит от значений параметров фильтра и регулятора. Замечание. Из (3.206) видно, что изменение интенсивности шума в измерении состояния объекта, существенно влияет на качество оцениваемого процесса. При значительных изменениях интенсивности шума в измерениях следует ввести цепи оптимизации наблюдателя по параметрам матрицы K(t). Tогда наблюдатель будет иметь вид " # d   x(t) = [A+α∗ ] x(t)+[B +β ∗ ] u(t)+[K +k(t)] y(t)−C x(t) , dt (3.207)  x(t0 ) = x∗0 , где изменение значений параметров матрицы k(t) будет производиться с помощью алгоритма, основанного на использовании модифицированного уравнения Винера–Хопфа (глава 2):   T ∂C x (t) d k(t) = M {y(t1 ) − C x (t1 )} , t − t1 = γ = 0, (3.208) dt ∂k(t) k(t0 ) = k0 .

3.9. Задача d-робастного сближения с нестационарным объектом Пусть задана линейная управляемая система d x(t) = Ax(t) + Bu(t), dt x(t0 ) = x0 ,

(3.209)

y(t) = Cx(t),

(3.210)

где x ∈ Rn , u ∈ Rr , y ∈ Rm . 4 Aфанасьев

98 Гл. 3. Робастное управление линейными неопределенными системами

Tраектория объекта, с которым должна сблизиться система (3.209), описывается дифференциальным уравнением d z(t) = [G + g(t)] z(t) + w(t), (3.211) dt где z(t) ∈ Rm . Измерения траектории объекта производятся на фоне помех: γ(t) = z(t) + n(t). (3.212) В (3.210) и (3.211) w(t) и n(t) — «белые» шумы с характеристиками: M [w(t)] = 0,

M [n(t)] = 0,

M [w(t)w (τ )] = W (t)δ(t − τ ), T

M [w(t)nT (τ )] = 0,

M [n(t)nT (τ )] = N (t)δ(t − τ ).

(3.213)

Уравнение объекта (3.211) известно с точностью до некоторого множества Ω возможных значений параметров матрицы g(t), т. е. g(t) ∈ Ω. Известна область Z0 возможных начальных значений траектории z(t0 ), т. е. z(t0 ) ∈ Z0 . Задача управления объектом (3.209), (3.210) заключается в его сближении с объектом (3.211) за время не большее, чем заданное. Другими словами, требуется построить такое управление, которое в момент времени t∗ ∈ [t0 , T ], где T − t0 — возможный интервал времени управления, обеспечит выполнение условия η T P (t∗ ) η  d.

(3.214)

Здесь

   T  P (t∗ ) = M {y(t∗ ) − z(t∗ )} {y(t∗ ) − z(t∗ )} = M e(t∗ ) eT (t∗ ) . (3.215) Задан функционал, оценивающий эффективность управления:   T

 1 eT (t)Q e(t) + uT (t)R u(t) dt , (3.216) J(e, u)= M eT (T )S e(T ) + 2 t0

где моменты времени t0 и T заданы, матрицы Q и R положительно определены, а положительно определенная матрица S определяется решением уравнения Pиккати–Лурье SA + AT S − SBR−1 B T S + Q = 0.

(3.217)

Задание матрицы S в виде решения (3.217) обеспечивает постоянство параметров регулятора во всем интервале управления. Вначале рассмотрим случай, когда шумы в объекте и измерениях его состояния отсутствуют, т. е. w(t) = 0, n(t) = 0. Оптимальное управление при полной информации о параметрах объекта (3.211) и при отсутствии помех в измерении имеет вид [2] u(t) = −R−1 B T [Sx(t) − H(t)z(t)],

(3.218)

3.9. Задача d-робастного сближения с нестационарным объектом

99

где матрица H(t) определяется решением дифференциального уравнения d H(t) + H(t)[G + g(t)] + [AT − SBR−1 B T ] H(t) + C T Q = 0, (3.219) dt H(T ) = C T S. Уравнение рассогласования траекторий системы (3.208), (3.209) и объекта (3.210) имеет вид d e(t) = C[A−BR−1 B T S]x(t)−[G+g(t)−CBR−1B T H(t)]z(t)−w(t), dt e(t0 ) = Cx(t0 ) − z(t0 ). (3.220) Матрицы в функционале (3.216) назначены так, что при отсутствии вариаций параметров объекта (3.211), т. е. при g(t) = 0, t ∈ [t0 , T ] и отсутствии шумов выполняется следующее условие  T  η e(T ) < d. При g(t) = 0, t ∈ [t0 , T ] и отсутствии шумов условие выполнения задачи имеет вид   T   T η e(t0 ) + C [A − CBR−1 B T S]x(τ ) dτ −  t0  T   − [G + g(t) − CBR−1 B T H(τ )]z(τ ) dτ   d  t0

или

 T     T  −1 T d +  η [G + g(t) − CBR B H(τ )] z(τ )dτ     t0   T     T −1 T  η {e(t0 ) + C[A − CBR B S]x(τ ) dτ . (3.221)   t0



Если g — значение матрицы g(t) ∈ Ω, принадлежащее границе множества Ω, т. е. g ∗ ∈ ∂Ω, и e∗ (t0 ) — максимальное рассогласование траекторий в начальный момент t0 , то при g(t) = g ∗ и e(t0 ) = e∗ (t0 ) должно выполняться условие  T     T  d +  η [G + g ∗ − CBR−1 B T H(τ )] z(τ ) dτ  =   t0    T    T  = η e(t0 ) + C[A − CBR−1 B T S]x(τ ) dτ , (3.222)   t0

4*

100 Гл. 3. Робастное управление линейными неопределенными системами

где матрица H ∗ (t) находится как решение уравнения d ∗ H (t) + H ∗ (t)[G + g ∗ ] + [AT − SBR−1 B T ] H ∗ (t) + C T Q = 0, dt H ∗ (T ) = C T S, (3.223) и

d ∗ z (t) = [G + g ∗ ]z ∗ (t), dt z ∗ (t0 ) = ∂Z0 .

(3.224)

Здесь ∂Z0 граница значений начальных условий объекта. Условие (3.222) показывает, каковы предельные параметрические вариации в уравнении (3.211) траектории объекта при максимально возможных начальных рассогласованиях траекторий системы и объекта и отсутствии помехи в измерениях. Задача будет выполнена при заданных матрицах штрафа в функционале (3.216). Tаким образом, оптимальное управление синтезируется при максимальных отклонениях начальных условий и максимально возможных вариациях параметров уравнения траектории объекта. При этом будет выполняться уравнение (3.222). Tак как период управления значительно больше постоянных времени объекта, то в задачe сближения системы (3.209), (3.210) с объектом (3.211) может использоваться функционал без первого слагаемого, т. е. 1 J(e, u) = M 2

T

 eT (t)Q e(t) + uT (t) Ru(t) dt.

t0

В этом случае матрица H ∗ будет содержать постоянные элементы и определяться решением алгебраического уравнения H ∗ [G + g ∗ ] + [AT − SBR−1 B T ] H ∗ + C T Q = 0. Управление для системы будет иметь вид u(t) = −R−1 B T [Sx(t) − H ∗ z(t)].

(3.225)

Tак как измерения траектории объекта производятся на фоне помех, то управление (3.224) оказывается нереализуемым. Для построения реализуемого управления следует использовать оценку z(t) траектории объекта (3.211), которую следует искать в виде решения следующего уравнения [4] d z(t) = [G +  g(t)] z (t) + [K + k(t)] [γ(t) − z(t)], dt z(t0 ) = 0,

(3.226)

3.10. Управление выводом и сопровождением по траектории

101

где матрица K вычисляется по формуле: K = P ∗ (N ∗ )−1 .

(3.227)

Здесь положительно определенная матрица P ∗ является решением уравнения: (3.228) GP ∗ + GT P ∗ − P ∗ (N ∗ )−1 P ∗ + W ∗ = 0, где W ∗ , N ∗ — известные интенсивности процессов w(t) и n(t) соответственно. Изменения интенсивностей этих процессов учитывается алгоритмами перестройки параметров фильтра, т. е. параметров матриц g(t) и k(t). Эти алгоритмы организуются с помощью алгоритмов, в основу которых положено модифицированное уравнение Винера–Хопфа (глава 2):   T d ∂ z (t)  a(t) = M {γ(t) − z(t)} , dt ∂ a(t) (3.229) . T /  T T  a(t0 ) = 0,  a (t) = g (t) k (t) . Tак как система (3.209), (3.210) описывается детерминированными уравнениями, то при построении наблюдателя для системы, вырабатывающего оценку процесса x (t) по измерениям y(t), можно использовать наблюдатель минимальной размерности (наблюдатель Луенбергера), т. е. находить n − m оценок состояния системы (3.209). Управление (3.225) с учетом построенных оценок состояния системы и объекта будет иметь вид: u(t) = −R−1 B T [S x(t) − K(t) z (t)].

(3.230)

3.10. Управление выводом и сопровождением по нестационарной траектории Задана линейна управляемая система d x(t) = A(t)x(t) + Bu(t), dt x(t0 ) = x0 ,

(3.231)

где A(t) = A + a(t), a(t) ∈ Ω, x ∈ Rn ; u ∈ Rr . Пусть вектор z(t) — желаемый выход системы, z ∈ Rn ; d z(t) = G(t)z(t), dt z(t0 ) = z0 , z ∈ Rn .

(3.232)

Цель управления заключается в выводе объекта (3.231) в момент T1 > t0 с заданной точностью на траекторию системы (3.232) и его

102 Гл. 3. Робастное управление линейными неопределенными системами

дальнейшим сопровождении с этой же точностью до момента T > T1 . Введем ошибку, характеризующую отклонение траекторий, e(t) = x(t) − z(t).

(3.233)

Tогда можно формализовать понятие цели управления: |η, e(T1 )|  d,

здесь T1  t,

d > 0,

(3.234)

где d — оценка точности выполнения задачи вывода и сопровождения. Пусть G(t) = A + g(t), g(t) ∈ Ω, тогда d e(t) = Ae(t) + Bu(t) + [a(t)x(t) − g(t)z(t)] , dt e(t0 ) = x0 − z0 . Пусть

(3.235)

N (t)v(t) = a(t)x(t) − g(t)z(t),

(3.236)

d e(t) = Ae(t) + Bu(t) + N (t)v(t), dt e(t0 ) = x0 − z0 .

(3.237)

тогда

Введем функционал качества  T  1 T e (T )F e(T ) + eT (t)Qe(t) + uT (t)Ru(t)− J(e, u, v) = 2 t0

  − v (t)P v(t) dt , T

(3.238)

где матрицы Q и F положительно полуопределенные, матрицы R и P положительно определенные, u(t) не ограничено, T задано. Оптимальные управления определяются соотношениями [1, 2]: u(t) = −R−1 (t)B T (t)K(t)e(t), v(t) = −P

−1

(t)N (t)K(t)e(t), T

(3.239) (3.240)

где K(t) есть решение уравнения ˙ K(t) + K(t)A + AT K(t) − K(t)[BR−1 B T − N P −1 N T ]K(t) + Q = 0, K(T ) = F. (3.241) Учитывая (3.236), имеем v(t) = N −1 [a(t)x(t) − g(t)z(t)].

(3.242)

3.10. Управление выводом и сопровождением по траектории

103

Сравнивая (3.240) и (3.242), получим v(t) = −P −1 (t)N T (t)K(t)e(t) = N −1 [a(t)x(t) − g(t)z(t)].

(3.243)

Тогда (3.237) будет иметь вид d e(t) = [A − BR−1 B T K(t)]e(t) + [a(t)x(t) − g(t)z(t)], dt e(t0 ) = e0 .

(3.244)

Пусть a∗ , g ∗ ∈ Ω таковы, что   [A − BR−1 B T K ∗ ]e(t) + [a∗ x(t) − g ∗ z(t)]     [A − BR−1 B T K(t)]e(t) + [a(t)x(t) − g(t)z(t)] ,

(3.245)

где положительно определенная матрица K ∗ есть решение уравнения Pиккати–Лурье K ∗ A + AT K ∗ − K ∗ [BR−1 B T − N P −1 N T ]K ∗ + Q = 0.

(3.246)

Отметим, что матрица P должна быть такова, чтобы матрица [BR−1 B T − N P −1 N T ] была бы положительно определенной. Уравнение (3.244) с «наихудшими» значениями параметров, определяемыми соотношением (3.245), имеет вид d e(t) = [A − BR−1 B T K ∗ ]e(t) + [a ∗ (t)x(t) − g ∗ (t)z(t)], dt e(t0 ) = e0 .

(3.247)

Пусть Φ(t, τ ) — фундаментальная матрица решений уравнения (3.247), тогда T 1

e(T1 ) = Φ(T1 , t0 )e(t0 ) +

Φ(T1 , τ ) [a∗ x(τ ) − g ∗ z(τ )] dτ.

t0

Tаким образом, с учетом (3.244) условие успешного выполнения задачи вывода объекта на заданную траекторию с заданной точностью будет иметь вид    T 1   T   η e(T1 ) = η T Φ(T1 , t0 )e(t0 ) + Φ(T1 , τ ) [a∗ x(τ ) − g ∗ z(τ )] dτ   d.   t0

Из последнего выражения получим   T1       T  Φ(T1 , τ ) [a∗ x(τ )−g ∗ z(τ )] dτ   d+ η T Φ(T1 , t0 )e(t0 ) . (3.248) η   t0

104 Гл. 3. Робастное управление линейными неопределенными системами

Учитывая, что Φ(T1 − τ ) = {exp[A − BR−1 B T K ∗ ]}[T1 − τ ],

(3.249)

  T1   

 ∗  T  −1 T ∗ ∗ exp[A − BR B K ](T1 − τ ) [a x(τ ) − g z(τ )] dτ   η   t0    d + η T exp[A − BR−1 B T K ∗ ](T1 − t0 ) e(t0 ) . (3.250) Это есть условие выбора матрицы R, котороe обеспечит успешноe d-робастноe терминальноe управлениe.

Глава 4 PОБАСТНОЕ УПРАВЛЕНИЕ НЕЛИНЕЙНЫМИ НЕОПРЕДЕЛЕННЫМИ ОБЪЕКТАМИ

4.1. Постановка задачи Объект управления. Пусть нелинейный нестационарный управляемый объект описывается векторным дифференциальным включением d x(t) ⊂ f (x, u, α(t)), x(t0 ) = x0 , x ∈ Rn , t ∈ [t0 , T ]. (4.1) dt Здесь • α(t) = α(t0 , T ) ∈ Ω или α(t, x(t)) ∈ Ω, t ∈ [t0 , T ]A ∈ Rk ; • D — область (t, x)-пространства; • Dα — область (t, x, α)-пространства, Dα : (t, x) ∈ D, α ∈ Ω; • f ∈ (C, Lip) в Dα . Определим одну из возможных траекторий α∗ (t) = α∗ (t0 , T ) ∈ Ω изменения параметров объекта (4.1): если • f измерима на множестве Dα при любых фиксированных α и x; • f непрерывна по x при любых фиксированных t и α; • при фиксированном t функция f непрерывна по совокупности переменных (x, α), то существует функция m(t), интегрируемая по Лебегу на интервале [t0 , T ], такая, что если |f (x, u, α∗ (t))| = m(t), то |f (x, u, α(t))|  m(t),

α(t) ∈ Ω,

t ∈ [t0 , T ].

(4.2)

Tаким образом, траекторию изменения параметров объекта α∗ (t) = = α∗ (t0 , T ) ∈ Ω можно назвать «наихудшей». Объект при α∗ (t0 , T ) ∈ Ω принимает вполне определенное описание d x(t) = f (x, u, α∗ (t)), α∗ (t) = α∗ (t0 , T ) ∈ Ω. (4.3) dt Будем искать управление u(t) ∈ U как функцию состояния объекта (4.3): u(t) = Kx(t). (4.4) Tогда правая часть уравнения (4.3) с управлением (4.4) будет иметь вид f (x, u, α∗ (t)) = f ∗ (x, α∗ (t)).

106 Гл. 4. Pобастное управление нелинейными неопределенными объектами

Предположим: 1) fi∗ (x, α∗ (t)), i = 1, ... , n — элементы вектора f ∗ (x, α∗ (t)) непрерывны относительно x(t) и t; ∂f ∗ (x, α∗ (t)) ∂fi∗ (x, α∗ (t)) 2) i , непрерывны по x(t) и t для ∂xk (t) ∂t i, k = 1, ... , n. Эти предположения [11] позволяют представить исходное уравнение объекта в окрестности регулярной точки x∗ статической характеристики в виде d x(t) = [A + α∗ ] x(t) + [B + β ∗ ] Kx(t) + I (t, x), dt

(4.5)

где [A + α∗ ] и [B + β ∗ ] — постоянные матрицы; I (t, x) ∈ Rn удовлетворяет условию Ii (t, 0) = 0 и |Ii (t, x) − Ii (t, y)|  g(t)

n 

|xi (t) − yi (t)|

i=1

или более общему: |Ii (t, x)|  g(t)

n 

|xi (t)|.

(4.6)

i=1

Если g(t) — непрерывная, ограниченная для t > t0 , то всякое решение подобной системы определено для всех значений t  t0 . Предположим, что существует некоторая положительно определенная матрица P такая, что T I (t, x) {I (t, x) − P x(t)} < 0

при x(t) = 0.

(4.7)

Это предположение обеспечивает почти линейным системам вида (4.5) с действительными отрицательными корнями характеристического уравнения выполнения условия устойчивости по Ляпунову [11]. Пусть начальное состояние объекта принадлежит области замыкания множества начальных состояний x∗0 ∈ ∂X0 , при которых условия выполнения поставленной задачи являются «наихудшими». Tогда, при условии успешного выполнения задачи управления, матрицы α(x, t), β(x, t) и вектор I (x, t) будут иметь интервальный характер неопределенности. Пусть в Ω-множестве возможных траекторий α(x, t) и β(x, t), т. е. α(x, t), β(x, t) ∈ Ω, имеются α∗ , β ∗ — «наихудшие» значения параметров матриц, лежащих на границе замыкания множества возможных значений параметрических возмущений и начальных состояний, т. е. α∗ , β ∗ ∈ ∂Ω, при которых удается выполнить поставленную задачу

4.1. Постановка задачи

107

управления объектом d z(t) = [A + α∗ ] z(t) + [B1 + β ∗ ] Kz(t) + I (z, a∗ , β ∗ ), z(t0 ) = x∗0 ∈ X0 . dt (4.8) Очевидно, что решение уравнения (4.8) при успешном выполнении задачи управления будет являться мажорантой для всех возможных решений уравнения (4.5) при α(x, t), β(x, t) ∈ Ω, т. е.    [A + α∗ ] x(t) + [B1 + β ∗ ] Kx(t) + I (x, a∗ , β ∗ )  [A + α(x, t)] x(t)+  + [B1 + β(x, t)] Kx(t) + I (x, a (x, t), β(x, t)) . (4.9) Задача управления и синтез закона управления. Cинтез закона управления для объектов из множества (4.1) с заданным условием на правом конце  T  η x(T )  d > 0 (4.10) будем осуществлять с использованием линейной модели d zM (t) = [A + α∗ ]zM (t) + [B1 + β ∗ ] uM (t), dt zM (t0 ) = x∗0 ∈ X0

(4.11)

и функционала   T

T  1 T T z (T )F zM (T ) + zM (t)Q zM (t) + uM (t)RuM (t) dt , J(z, u) = 2 M 0

(4.12) где T — время окончания переходного процесса — задано. Если назначить матрицу F в первом слагаемом функционала (4.12) в виде F = S, где положительно определенная матрица S есть решение уравнения Pиккати–Лурье S [A+α∗ ]+[A+α∗ ] S −S [B1 +β ∗ ] R−1 [B1 +β ∗ ] S + Q = 0, T

T

(4.13)

то оптимальное управление для модели (4.11) с функционалом (4.12) будет иметь вид [3] u∗ (t) = −R−1 [B1 + β ∗ ] SzM (t).

(4.14)

Отметим, что в этом случае матрица S(t) = const, t ∈ [0, T ]. Если принять, что a  α(t0 , T )  a и β  β(t, T )  β и, учитывая, что положительно определенная матрица S, являющаяся решением уравнений (4.12), принимает наибольшие значения, обеспечивая этим отрицательность значений корней характеристического уравнения системы, при a ∈ ∂Ω и β ∈ ∂Ω, то «наихудшими» значениями матриц параметрических возмущений будут α∗ = a и β ∗ = β.

108 Гл. 4. Pобастное управление нелинейными неопределенными объектами

Нетрудно убедиться, что синтезированное управление (4.13) обеспечивает отрицательность вещественных частей корней характеристического уравнения системы первого приближения

где

d zM (t) = ΠzM (t), dt

(4.15)

Π = A + α∗ − [B1 + β ∗ ] R−1 [B1 + β ∗ ]T S,

(4.16)

что является необходимым и достаточным условием ее асимптотической устойчивости [10]. Учитывая (4.4), используем структуру управления (4.13) для построения управления объектом (4.8): u(t) = −R−1 [B1 + β ∗ ] Sz(t).

(4.17)

Tогда система (4.8) будет иметь вид d z(t) = Πz(t) + I (z, t), z(t0 ) = x∗0 . (4.18) dt В последующем изложении результатов анализа нелинейных систем вида (4.18) будет использоваться теорема о преобразовании матриц [2, 15]. Cогласно этой теореме можно найти такую постоянную обратимую матрицу P , что Π = P ΛP −1 , где диагональная матрица Λ — матрица собственных значений матрицы Π. Подстановка z1 (t) = P z(t) дает d z1 (t) = Λz1 (t) + I∗ (z1 , t), z1 (t0 ) = P x∗0 , (4.19) dt где I∗ (z1 , t) = P I (z1 , t). Важно, что функция I∗ (z1 , t) удовлетворяет тем же условиям, что и I (z, t) [5]. Умножая обе части уравнения (4.15) слева на матрицу P −1 , получим эквивалентную запись исходного уравнения (4.14) d z(t) = P −1 ΛP z(t) + I (z, t), z(t0 ) = x∗0 . (4.20) dt Если собственные значения матрицы Π λ1 , λ2 , ... , λn — действительные различные числа, то z(t) = P

−1

{exp Λ(t−t0 )} P z(t0 )+P

−1

t {exp Λ(t−τ )} P I (z, τ )dτ. t0

(4.21) Cледует отметить, что использование регулятора вида (4.14), синтезированного на линейной модели (4.11), для нелинейного объекта (4.8) не изменяет качественной картины расположения траекторий системы (4.18) в начале координат [11].

4.2. Условия существования стабилизирующего управления

109

В последующих разделах главы будут получены условия, при которых управление (4.17) будет обеспечивать стабилизацию и d-робастное управление неопределенным объектом (4.7).

4.2. Необходимые условия существования стабилизирующего управления Найдем необходимые условия существования стабилизирующего управления вида (4.17) для объекта (4.8). Отметим, что при сделанных предположениях о нелинейной вектор-функции I (z, t) рассматриваемый объект с управлением вида (4.17) имеет устойчивое состояние покоя при z = 0. Cледующий результат Перрона дает простой пример асимптотической устойчивости для решений z(t), начинающихся вблизи точки покоя. Tеорема 4.2.1. Пусть дана система d z(t) = Πz(t) + I (z, t), dt где Π — действительная постоянная матрица, все характеристические корни которой имеют отрицательные действительные части. Пусть вектор I (z, t) действителен, непрерывен для малых |z(t)| и t  0 и I (z, t) = 0(|z|) (|z| → 0) равномерно по t, t  0. Tогда решение, равное тождественно нулю, асимптотически устойчиво. Условия, что матрица Π и вектор I (z, t) действительны и что I (z, t) непрерывен, могут быть заменены любыми другими условиями, обеспечивающими локальное существование решения исходной системы при малых |z(t)| и t  0 [9]. Для рассматриваемой неопределенной системы справедлива следующая теорема. Tеорема 4.2.2. Pешение x = 0 является устойчивым решением уравнения d x(t) = [A+α(x, t)] x(t)+[B1 +β(x, t)] Kx(t) + I (x, a(x, t), β(x, t)), dt x(t0 ) ∈ X, α(x, t), β(x, t) ∈ Ω, если решение z = 0 является устойчивым решением уравнения d z(t) = [A + α∗ ] z(t) + [B1 + β ∗ ] Kz(t) + I (z, a∗ , β ∗ ), dt z(t0 ) = x(t0 ), и

110 Гл. 4. Pобастное управление нелинейными неопределенными объектами

а) α∗ , β ∗ ∈ Ω таковы, что |[A + α∗ ] x(t) + [B1 + β ∗ ] Kx(t) + I (x, a∗ , β ∗ )|   |[A + α(x, t)] x(t) + [B1 + β(x, t)] Kx(t) + I (x, a(x, t), β(x, t))| , б) K = −R−1 [B1 + β ∗ ] S, где S [A+α∗ ]+[A+α∗ ] S −S [B1 +β ∗ ] R−1 [B1 +β ∗ ] S +Q = 0, Q, R > 0; T

T

в) I (z, a∗ , β ∗ ) = 0 при x(0) = 0; г) существует положительно определенная матрица P такая, что IT (z, a∗ , β ∗ ) {I (z, a∗ , β ∗ ) − P z(t)} < 0 при z(t) = 0. Доказательство теоремы основывается на способе определения функции z(t) (4.9), как мажоранты процесса x(t), синтезе оптимального управления по первому приближению и теоремы 4.2.1. Tеперь, когда показано, что при выбранном управлении вида (4.17) неопределенная система имеет «точку покоя», найдем условия асимптотической устойчивости при произвольных |z(t0 )| = |z(0)| = 0. Другими словами, найдем условия асимптотического перехода системы (4.18) из заданного начального состояния в состояние покоя. Очевидно, что эти условия должны предъявить дополнительные требования к нелинейной вектор-функции I (z, a∗ , β ∗ , t) = I (z, t). Pешение уравнения (4.18) имеет вид   T z(T ) = [exp(ΠT )] z(0) + [exp(−Πτ )] I (z, τ ) dτ ,

(4.22)

0

Из уравнения (4.22) следует, что    T    

z(T ) =  [exp(ΠT )] z(0) + [exp(−Πτ )] I (z, τ ) dτ .   0

Если управление (4.17) стабилизирует объект (4.8), то при T → ∞ должно выполняться условие:   T     z(0) + {exp(−Πτ )} I(z, τ ) dτ  → 0 при T → ∞   0

или   T      z(0) −  {exp(−Πτ )} I(z, τ ) dτ   → 0 при T → ∞.   0

4.2. Условия существования стабилизирующего управления

111

Tак как первое слагаемое имеет конечное значение, то и второе слагаемое при управлении стабилизирующем объект, должно иметь конечное значение при T → ∞. Учитывая, что  T  T     (4.23)  {exp(−Πτ )} I (z, τ ) dτ   {exp(−Πτ )} I (z, τ ) dτ ,   0

0

последнее выполняется в том случае, если подынтегральное выражение в правой части неравенства (4.23) будет убывать. Потребуем, чтобы положительно определенное подынтегральное выражение убывало монотонно. Отметим, что запас устойчивости, определяемый выполнением этого требования, сужает область возможных значений начальных условий, при которых сохраняется устойчивость системы. Вполне уместно более узкий класс систем, в котором выполняется предъявляемое требование, отнести к системам, обладающим свойством «сверхустойчивости» («сверхстабилизируемым») [13]. Найдем условия, которые определят это свойство. Pассмотрим правую часть неравенства (4.23). Tак как действительные части характеристических корней матрицы Π отрицательны, то существуют постоянные K и ρ, такие, что exp Πt  K e−ρt , t  0. Tогда t

{exp Π(t − τ )} I (z, τ ) dτ  K e 0

−ρt

t eρτ I (z, τ ) dτ. 0

Если начальные условия системы таковы, что z(t) → 0 при t → ∞, т. е. система устойчива, то I(z, 0) > I(z, t) , t > 0. Cледовательно, t t −ρt

{exp Π(t − τ )} I (z, τ ) dτ  K e eρτ I (z, τ ) dτ 0

0

или t

{exp Π(t − τ )} I (z, τ ) dτ 

  1 K I(z, 0) 1 − e−ρt . ρ

0

Что касается подынтегрального выражения, то условие сверхустойчивости в том понимании, которое было введено выше, имеет вид:

{exp Πt} I (z, t)  K e−ρt I (z, t) .

(4.24)

При этом рост интегральной составляющей решения уравнения (4.22) не превосходит некоторого вполне определенного значения, т. е. t

{exp(−Πτ )} I (z, τ ) dτ  0

  1 K I (z, 0) 1 − e−ρt . ρ

(4.25)

112 Гл. 4. Pобастное управление нелинейными неопределенными объектами

Определение 4.2.1. Назовем систему d z(t) = Πz(t) + I (z, t), z ∈ Rn , dt у которой действительные части характеристических корней матрицы Π отрицательны, сверхустойчивой, если выполняется условие t

{exp Π(t − τ )} I (z, τ ) dτ  K e 0

−ρt

t eρτ I (z, τ ) dτ ,

t  0,

0

где постоянные K и ρ такие, что exp Πt  K e−ρt , t  0. Учитывая, что матрица Π — действительная постоянная матрица, все характеристические корни λi , i = 1, 2, ... , n которой отрицательны, можно определить постоянные K и ρ через характеристики системы, а именно в виде: K = n, где n — порядок системы, и ρ = ϕ(μ, μ), где μ есть max (R λi ) = −μ < 0 и μ есть min (R λi ) = −μ < 0. Вернемся к условию (4.23). Оно будет выполняться, если производная по времени от положительно определенной формы

{exp(−Πt)} I (z, t)) > 0,

x = 0

(4.26)

будет отрицательной, т. е. условие монотонного убывания подынтегрального выражения (4.23) имеет вид     d I (z, t)   , z = 0. (4.27)

Π {exp[−Πt]} I (z, t) >  {exp[−Πt]}   dt В начальный момент при t0 = 0 неравенство (4.27) принимает вид    d I (z, t)   , z(t) = 0 при t = 0,

Π I (z, t) >  (4.28)   dt или, учитывая, что Π I (z, t)  Π I (z, t) ,    d I (z, t)     dt  < Π , z(t) = 0 при t = 0.

I (z, t)

(4.29)

Из неравенств (4.28), (4.29), определяющих условия монотонной асимптотической сходимости подынтегрального выражения в правой части неравенства (4.23), при заданной матрице Π и известной нелинейности I (x, t) можно определить условия для начального состояния объекта, при которых стабилизирующее управление вида (4.17) будет существовать. Используя свойство единственности решений рассматриваемых дифференциальных уравнений, сформулируем следующее утверждение:

4.2. Условия существования стабилизирующего управления

113

Утверждение 4.2.1. Неравенство     d I (z, t)   

Π {exp[−Πt]} I (z, t)   {exp[−Πt]}  dt выполняется в любой момент переходного процесса системы d z(t) = Πz(t) + I (z, t), dt если оно выполнялось для начальных условий z(t0 ) ∈ X0 . Действительно, пусть z(t) траектория эволюции модели объекта (4.8), находящегося под воздействием управления (4.17), переводящего объект из начального состояния z(t0 ) = x(0) в область заданных терминальных значений Ψ(z, T ). Tогда любое промежуточное значение состояния объекта в момент 0 < t1  T можно рассматривать как начальное состояние объекта z(t1 ), находящегося под воздействием управления (4.17) и переводящего объект из состояния z(t1 ) в заданную область терминальных значений Ψ(z, T ). Для этого момента будет справедливо неравенство    d I (z, t)   , z(t) = 0 при t = t1 . 

Π I (z, t) >   dt Tолько при z = 0, в силу того, что I(0, t) = 0, будет выполняться     d I (z, t)   , z = 0.

Π {exp[−Πt]} I (z, t) =  {exp[−Πt]}  dt Отметим, что матрица Π = A + α∗ − [B1 + β ∗ ] R−1 [B1 + β ∗ ] S, содержащая постоянные параметры, зависит от ряда параметров, существенным из которых для выполнения условий задачи стабилизации системы (4.18) является положительно определенная матрица S, которая является решением уравнения (4.13). Можно сказать, что S = S(Q, R). Назначая соответствующим образом матрицы Q и R, при заданном начальном состоянии объекта z(0) и известной нелинейной функции I (z, t) можно получить решение уравнения (4.18) таким, что будет выполняться при z(t) = 0, t  0 условие     d I (z, t)    ∗ ∗ −1 ∗ T   {exp[−Λt]}   dt Назначая g(t) в виде

g(t) = {exp[−Λt]} I∗ (z1 , t) , будем иметь

g(t) 

n 

{exp[−λi t]} |I∗ (z1 , t)| .

i=1

Tогда условие монотонного убывания нормы подынтегральной функции решения дифференциального уравнения (4.19) будет иметь вид   n   d ∗ ∗ ∗ exp [−λi t] − λi Ii (z1 , t)+ I (z1 , t) sign Ii (z1 , t) < 0, (4.31) dt i i=1 z1 (t) = 0. Учитывая сформулированное выше положение, отметим, что, если условие (4.31) выполняется в момент начала переходного процесса, т. е.  n   d (z, t) sign I∗i (z1 , t) < 0, z1 (t) = 0, t = 0, − λi I∗i (z1 , t)+ Ii dt i=1 (4.32) то это условие выполняется в любой момент 0 < t1  T . Еще один конструктивный метод поиска области начальных условий, из которой состояние объекта (4.8) под воздействием управления (4.17) приводится в область заданных краевых условий, может быть найден, если принять во внимание, что   n  d gj (t) < 0, z1 (t) = 0, gj (t) dt j=1

или  n j=1

  n

{exp [−λj t]} I∗j (z1 , t)  × −

{exp [−λj t]} ×

j=1

λj I∗j (z1 , t)

 d ∗ + < 0, I (z1 , t) dt j

z1 (t) = 0. (4.33)

116 Гл. 4. Pобастное управление нелинейными неопределенными объектами

В начале переходного процесса при t = 0 последняя система неравенств принимает вид     n n  d ∗ ∗ ∗ < 0, −λj Ij (z1 , t) + Ij (z1 , t) I (z1 , t) dt j (4.34) j=1

j=1

z1 (t) = 0,

t = 0.

Полученное позволяет найти область начальных значений объекта (4.19) z(0) = x∗0 ∈ X0 ⊂ Rn , для которых z1 (t) → 0 при t → ∞. Условие (4.33) можно переформулировать: подынтегральное выражение решения уравнения (4.19) асимптотически убывает, если матрица     d d ∗ T T ∗ g(t) g (t) = I (z1 , t) {{exp (−Λτ )} I (z1 , t)} dt dt отрицательно определена при z1 (t) = 0 или   d ∗ T ∗ ∗ I (z1 , t) − Λ I (z1 , t) {I (z1 , t)} < 0, dt

t = 0,

z1 (t) = 0.

Учитывая сформулированное выше положение, отметим, что, если условие (4.34) выполняется в момент начала переходного процесса, то это условие выполняется в любой момент t1 > 0, в котором z(t1 ) = 0. Tеорема 4.2.4. Cтабилизирующее управление вида u(t) = −R−1 [B + β ∗ ] Sz(t) для объекта d z(t) = [A + α∗ ] z(t) + [B1 + β ∗ ] u(t) + I (z, t) dt существует, если область возможных начальных условий объекта отвечает условию   d ∗ ∗ (z , t) − Λ (z , t) {I∗ (z1 , t)}T < 0, I 1 I 1 dt z1 (t) = 0, t = 0, где I∗ (z1 , t) = P I (z1 , t), Λ = P −1 ΠP , z1 (t) = P z(t). Несколько иное условие устойчивости можно получить, рассмотрев подынтегральное выражение правой части неравенства (4.23) и умножив его слева на IT (z, t), т. е. T I (z, t) {exp(−Πt)} I (z, t) > 0,

z(t) = 0.

(4.35)

4.2. Условия существования стабилизирующего управления

117

Условие асимптотической устойчивости буде иметь место, если производная по времени выражения (4.35) будет отрицательна при x(t) = 0:    d T d  T I (z, t) {exp(−Πt)} I (z, t) = I (z, t) {exp(−Πt)} I (z, t)+ dt dt   d T T + I (x(t) {z, exp(−Πt)} I (z, t) − I (z, t)Π {exp(−Πt)} I (z, t)  0 dt или, учитывая коммутативные свойства {exp (−Πt)}, будем иметь     d d T T T I (z, t) I (z, t)+ I (z, t) I(z, t) − I (z, t)Π I (z, t)  0. (4.36) dt dt Tаким образом, система (4.18) с начальными условиями, при которых выполняется условие     d T d T − IT (z, 0)Π I (z, 0)  0, I (z, 0)+ I (z, 0) I (z, t) I (z, t) dt dt t=0 t=0 (4.37) асимптотически устойчива. Tеорема 4.2.5. Cистема d z(t) = Π z(t) + I(z, t) dt асимптотически устойчива, если d а) решение уравнения zM (t) = Π zM (t), zM (t0 ) = x0 стремится dt к нулю при t → ∞; б) начальные условия системы таковы, что     d d T T − IT (z, 0)Π I(z, 0)  0. I (z, t) I (z, t) I(z, 0)+ I (z, 0) dt dt t=0 t=0 Условия существования стабилизирующего управления вида (4.17) можно получить, введя функцию Ляпунова V = z T (t)Sz(t),

(4.38)

где положительно определенная матрица S есть решение уравнения (4.13). Производная функции Ляпунова (4.38) будет иметь вид   d V = −z T (t) Q + S[B + β ∗ ]R−1 [B + β ∗ ]T S z(t)+ dt + z T (t)S I (z, t) + IT (z, t) Sz(t) < 0 при z(t) = 0. (4.39)

118 Гл. 4. Pобастное управление нелинейными неопределенными объектами

Назначая соответствующим образом матрицы Q и R, можно получить решением уравнения (4.13) матрицу S такую, чтобы выполнялось условие (4.7), т. е. T I (z, t) {I (z, t) − Sz(t)} < 0,

z(t) = 0.

(4.40)

Tогда неравенство (4.39) можно переписать в виде   d V = −z T (t) Q + SBR−1 B T S z(t) + 2 IT (z, t) I (z, t) < 0, dt z(t) = 0, t  0. Tаким образом, объект (4.8) стабилизируем управлением (4.17), если выполняется условие   (4.41) z T (t) Q + SBR−1 B T S z(t) > 2 IT (z, t) I (z, t), z(t) = 0. При конкретных выражениях аналитических нелинейностей можно определить область возможных значений состояния системы X(t) и возможных начальных условий X0 , при которых в задаче с параметрической интервальной неопределенностью будет существовать стабилизирующее управление. Отметим, что условие (4.41), при выполнении которого система асимптотически устойчива, предъявляет к рассматриваемой системе менее строгие требования, чем условие (4.28), так как последнее требует монотонного убывания подынтегрального выражения второго слагаемого в выражении (4.22), что обеспечивает асимптотические свойства устойчивости.

4.3. Переходный процесс нелинейной системы в задаче стабилизации Оценим точность выполнения задачи управления нелинейным объектом (задачи стабилизации) d z(t) = [A + α∗ ] z(t) + [B1 + β ∗ ] u(t) + I (z, t) dt с управлением u(t) = −R−1 [B1 + β ∗ ] Sz(t).

(4.42) (4.43)

Pешения уравнения (4.42) и его линеаризованной модели с соответствующими управлениями имеют вид   t z(t) = [exp (Π t)] z(0) + [exp (−Πτ )] I (z, τ ) dτ , 0

zM (t) = [exp (Π t)] z(0).

4.3. Переходный процесс нелинейной системы в задаче стабилизации 119

Если принять, что справедливо соотношение z(t)  zM (t) или, что то же самое,    t       exp (Π T ) z(0) + [exp (−Π τ )] I (z, τ ) dτ   zM (t) , (4.44)   0

то из неравенства (4.44) имеем

I (z, t)

[exp (−Π t)] I (z, t)

   .   t

zM (t)

 z(0) + [exp (−Π τ )] I (z, τ ) dτ   

(4.45)

0

Интегрируя (4.45) от 0 до t, получаем   t  

I (z, t)

  t. ln  z(0) + [exp (−Π τ )] I (z, τ ) dτ  − ln z(0)   

zM (t)

0

Отсюда следует, что      t  

I(z, t)

  t .  z(0) + [exp (−Π τ )] I (z, τ ) dτ   z(0) exp  

zM (t)

0

Умножая (4.46) на exp (Π t) , будем иметь   

I(z, t)

t .

z(t)  zM (t) exp

zM (t)

(4.46)

(4.47)

Tеорема 4.3.1. Если нелинейное дифференциальное уравнение d z(t) = Πz(t) + I (z, t), dt z(t0 ) = x0 , где I (z, t) — нелинейная вектор-функция, и линейное дифференциальное уравнение d zM (t) = ΠzM (t), dt zM (t0 ) = x0 имеют решения для t  0, то

z(t)  zM (t)



 exp

I (z, t)

t

zM (t)

 ,

t  0.

При формулировке теоремы 4.3.1 использовались идеи «основной теоремы об устойчивости» Беллмана [5].

120 Гл. 4. Pобастное управление нелинейными неопределенными объектами

Введем вектор

ε(t) = z(t) − zM (t).

(4.48)

Если решение ε(t) существует, то из (4.48) следует, что t ε(t) =

[exp {Π(t − τ )}] I (z, τ ) dτ.

(4.49)

0

Напомним, что действительные части характеристических корней матрицы Π, λi , i = 1, 2, ... , n отрицательны, пусть при этом max (R λi ) = −μ < 0. Tогда каждое решение системы (4.49), которое стремится к нулю при t → ∞, удовлетворяет условию [9] lim sup

t→∞

ln |ε(t)|  −μ. t

(4.50)

Tаким образом, все решения (4.49), которые начинаются из множества возможных начальных условий, определяемых, например, соотношением (4.37), удовлетворяют неравенству (4.50). Так как действительные корни характеристического уравнения матрицы то существуют постоянные K и ρ, такие, что  Πt  Π отрицательны,  e   K e−ρt , t  0. Tогда t

ε(t)  K e−ρt eρτ I(z, τ ) dτ. 0

Если начальные условия системы таковы, что z(t) → 0 при t → ∞, т. е. система устойчива, то I(z, 0) > I(z, t) , t > 0. Tогда

ε(t)  K e

−ρτ

t eρτ I(z, 0) dτ. 0

Откуда

ε(t) 

  1 K I(z, 0) 1 − e−ρt . ρ

(4.51)

Tаким образом, при t = T возможный рост решения системы по отношению к решению линейной системы описывается соотношением

ε(T ) 

  1 K I (z, 0) 1 − e−ρT . ρ

(4.52)

4.3. Переходный процесс нелинейной системы в задаче стабилизации 121

Tеорема 4.3.2. Возможный рост решения системы d z(t) = Πz(t) + I (z, t), dt z(t0 ) = x0 , где I(z, t) — нелинейная вектор-функция, по отношению к решению линейной системы d zM (t) = ΠzM (t), dt zM (t0 ) = x0 , у которой действительные части характеристических корней матрицы Πλi , i = 1, 2, ... , n отрицательны, для t  0 описывается соотношением

ε(t) 

  1 K I (z, 0) 1 − e−ρt , ρ

где ε(t) = z(t) − zM (t). Cледствие. Учитывая, что z(t)  x(t) и z(t0 ) = x0 , справедливо соотношение   1

x(t) − zM (t)  K I (z, α∗ , β ∗ , 0) 1 − e−ρt . ρ Отметим, что при заданной области возможных значений параметров нелинейного объекта, полученные выше результаты позволяют решить три основные задачи стабилизации системы: 1) заданы уравнения первого приближения, произведен синтез управления, обеспечивающего отрицательность вещественных частей корней характеристического уравнения системы первого приближения, заданы нелинейные члены. Tребуется определить область начальных условий, при которых синтезированное по первому приближению управление будет стабилизировать нелинейных объект; 2) заданы уравнения первого приближения, произведен синтез управления, обеспечивающего отрицательность вещественных частей корней характеристического уравнения системы первого приближения, задана область начальных условий системы. Tребуется определить условия, которым должны удовлетворять нелинейные члены системы, при которых синтезированное по первому приближению управление будет стабилизировать нелинейную систему; 3) заданы уравнения первого приближения, проведен по первому приближению синтез структуры управляющего устройства (с точностью до значений параметров), задана область начальных условий, заданы нелинейные члены системы. Tребуется определить условия, которым должны удовлетворять параметры регулятора, обеспечивающего стабилизацию нелинейного объекта.

122 Гл. 4. Pобастное управление нелинейными неопределенными объектами

4.4. Условия существования терминального робастного управления Pассмотрим вопрос о существовании управления вида (4.17) при движении нелинейной нестационарной системы в заданном интервале времени из любого начального состояния, принадлежащего заданному множеству, в заданную область. Условие d-робастности для объекта " # d z(t) = A + α∗ −[B1 + β ∗ ] R−1 [B1 +β ∗ ]T S z(t)+ I (z, a∗ , β ∗ ), dt z(t0 ) = x∗0 ∈ X0 имеет вид   T    

z(T ) =  [exp (ΠT )] z(0) + [exp (−Πτ )] I (z, τ ) dτ   d.   0

Откуда T

[exp (−Πτ )] I (z, τ ) dτ .

[exp (ΠT )] z(0) − d 

(4.53)

0

Если условие (4.53) не выполняется, то это означает, что для объекта d x(t) = [A + α(x, t)] x(t) + [B1 + β(x, t)] u(t) + I (x, a(x, t), β(x, t)) dt с начальным условием x∗0 = z(t0 ) ∈ X0 и заданным периодом управления [0, T ] в общем случае не существует управления вида u(t) = = Kx(t) = −R−1 [B + β ∗ ] Sx(t) с постоянной положительно определенной матрицей S, определяемой решением Pиккати–Лурье S [A + α∗ ] + T T + [A + α∗ ] S − S [B + β ∗ ] R−1 [B + β ∗ ] S + Q = 0, которое может обеспечить заданный показатель робастности d. Выполнение условия (4.27) или (4.30) обеспечивает переходному процессу асимптотическое свойство, предъявляя соответствующие требования к поведению нелинейной вектор-функции, входящей в систему. Tаким образом, выполнение этого условия является необходимым условием существования d-робастного управления. Условие (4.53) является дополнительным, обеспечивая достаточные условия существования d-робастного управления. Выполнение обоих условий гарантирует выполнение задачи d-робастного управления нестационарным объектом. Полученный результат сформулируем в виде теоремы.

4.4. Условия существования терминального робастного управления

123

Tеорема 4.4.1. Пусть z(T ) — значение решения уравнения d z(t) = Πz(t) + I (z, t), z(t0 ) = 0 в момент t = T > t0 , dt где Π — действительная постоянная матрица, все характеристические корни которой имеют отрицательные действительные части. Tогда условия    d I (z, t)    < Π I (z, t) , z(t) = 0, t = 0   dt и T

[exp(ΠT )] z(0) − d  [exp(−Πτ )] I (z, τ ) dτ

0

являются соответственно необходимыми и достаточными условиями для выполнения соотношения z(T )  d, d > 0. Оценим точность выполнения задачи управления нелинейным объектом с управлением вида u(t) = −R−1 [B + β ∗ ] Sz(t), t ∈ [0, T ]. Применим ранее полученный результат (теорема 4.3.3) к задаче робастного управления. Очевидно, что задача робастного управления, состоящая в выполнении условия z(T )  d при zM (T ) < d, будет успешно решена для объекта d z(t) = Πz(t) + I (z, t), dt z(t0 ) = 0, если будет выполняться условие  

I (z, T )

d 1  exp T  ,

zM (T )

zM (T )

(4.54)

где zM (T ) = {exp [ΠT ]} x∗ (t0 ) . Cледовательно, для объекта

 d x(t) = A + α(x, t) − [B1 + β(x, t)] R−1 S x(t) + I (x, a(x, t), β(x, t)), dt x(0) = x∗0 условие успешного выполнения задачи терминального робастного управления будет иметь вид   d

I (x, T )

T  . 1  exp

zM (T )

zM (T )

Условие (4.54) содержит требования к значениям нелинейной вектор-функции I (z, T ) по отношению к показателю робастности d и длительности процесса управления T . Tребования к управлению нелинейным объектом, сфокусированные в выполнении условия zM (T ) < d, учтены при получении условия (4.54).

124 Гл. 4. Pобастное управление нелинейными неопределенными объектами

Используя теорему 4.4.1 и учитывая, что z(t)  x(t) при z(t0 ) = x(t0 ), нетрудно видеть, что, если z(T )  d, то и x(T )  d. Tеорема 4.4.2. Pешение уравнения d x(t) = [A + α(x, t)] x(t) + [B1 + β(x, t)] Kx(t) + I (x, a(x, t), β(x, t)), dt x(t0 ) ∈ X0 , α(x, t), β(x, t) ∈ Ω, в момент t = T > t0 удовлетворяет условию x(T )  d, d > 0, если удовлетворяет условию теоремы 4.4.1 решение уравнения d z(t) = [A + α∗ ] z(t) + [B1 + β ∗ ] Kz(t) + I (z, a∗ , β ∗ ), dt z(t0 ) = x(t0 ), где

а) α∗ , β ∗ ∈ Ω таковы, что

| [A + α∗ ] x(t) + [B1 + β ∗ ] Kx(t) + I (x, a∗ , β ∗ ) |   | [A + α(x, t)] x(t) + [B1 + β(x, t)] Kx(t) + I (x, a(x, t), β(x, t)) | , б) K = −R−1 [B1 + β ∗ ] S, где S [A+α∗ ]+[A+α∗ ] S −S [B1 +β ∗ ] R−1 [B1 +β ∗ ] S +Q = 0, Q, R > 0. T

T

Если условия на правом конце задаются в виде |xi (T )|  di ,

di > 0,

i = 1, ... , n,

то проверить возможность выполнения условия (4.49) можно, переписав это условие в виде  

I(D)

d 1  exp T  , (4.55)

zM (T )

zM (T )

где DT = (d1 , ... , dn ). Tак как zM (T ) = {exp [ΠT ]} x∗ (t0 ) , где Π = A + α∗ − T − [B1 + β ∗ ] R−1 [B1 + β ∗ ] S, условие (4.55) можно использовать для предварительной проверки назначения весовых матриц функционала (4.12) на возможность выполнения задачи терминального робастного управления. Найдем дополнительные условия, определяющие возможность решения задачи d-робастного управления неопределенным нелинейным объектом. Рассмотрим уравнение, мажорирующее решения неопределенного объекта. При общей формулировке теоремы об асимптотической устойчивости системы d z(t) = Π z(t) + I (z, t), (4.56) dt

4.4. Условия существования терминального робастного управления

125

здесь корни матрицы Π = A + α∗ − [B + β ∗ ] R−1 [B + β ∗ ] S имеют отрицательные действительные части, достаточно предположить [9, 10], что для некоторого k > 0 T

| I (z, t) |  k |z(t)|

(4.57)

при малых |z(t)|. Применение неравенства (4.57) к системе (4.56) дает d

z(t)  (|Π| + kn1/2 ) z(t) , dt где z(t) — эвклидова длина вектора z(t). Здесь использовалось, что n−1/2 |z(t)|  z(t)  |z(t)|. Таким образом, если эвклидова длина z(t) мала, то 

z(t)  z(t0 ) exp (|Π| + kn1/2 ) t или

 |z(t)|  n1/2 |z(t0 )| exp (|Π| + kn1/2 ) t ,

когда |z(t)| мало. Точно так же  |z(t0 )|  n1/2 |z(t)| exp (|Π| + kn1/2 ) t ,

t  t0 ,

t  t0 .

(4.58)

Так как условие выполнения терминальной задачи управления неопределенным объектом сформулировано в виде z(t)  d, d > 0 или |z(t)|  d∗ , d∗ = n1/2 d > 0 (d-робастное управление), то использование (4.58) позволяет записать условие для множества Z0 :  |z(t0 )|  n1/2 d exp (|Π| + kn1/2 ) T . Теорема 4.4.3. Система  d T x(t) = A + α(t) − [B + β(t)] R−1 [B + β ∗ ] S x(t) + I (z, t), dt где x ∈ Rn , t ∈ [t0 , T ], α(t), β(t) ∈ Ω, Ω — заданное множество возможных траекторий параметров объекта, α∗ , β ∗ ∈ Ω таковы, что     T  A + α∗ − [B + β ∗ ] R−1 [B + β ∗ ] S x(t) + I (z, t)        A + α(t) − [B + β(t)] R−1 [B + β ∗ ]T S x(t) + I (z, t) , а положительно определенная матрица S есть решение уравнения Риккати–Лурье [A+α∗ ] S +S [A+α∗ ]T −[B +β ∗ ] R−1 [B +β ∗ ]T + Q = 0,

R, Q > 0,

126 Гл. 4. Pобастное управление нелинейными неопределенными объектами

d-робастна, т. е. |x(T )|  d, если область начальных условий определяется неравенством  |x(t0 )|  n1/2 d exp (|Π| + kn1/2 )T , k > 0. В заключение отметим, что при заданных: областях возможных начальных условий и значений параметров нелинейного объекта, периодe процесса управления, ограничениях на управляющие воздействия, полученные выше результаты позволяют решaть разнообразные задачи d-робастного управления системы.

4.5. Робастное управление билинейным объектом Билинейные системы достаточно хорошо моделируют реальные процессы в различных областях: в технике, экономике, биологии, социологии и т. д. Эти системы, будучи нелинейными динамическими системами, при решении многих вопросов допускают полное аналитическое исследование и, следовательно, позволяют получать результаты достаточно общего характера [8]. Нелинейность билинейных систем порождает большое разнообразие принципиально отличающихся частных случаев, анализ которых весьма специфичен и может потребовать привлечения специальной техники исследования. Используя методику построения робастного управления для линейных систем, изложенную в главе 3, проведем синтез робастного управления и найдем область возможных начальных условий, для которых полученные управления будут стабилизировать неопределенный билинейный объект. Пусть неопределенный билинейный объект описывается уравнением: d x(t) = [A + a(t)] x(t) + [B + β(t) + x(t)M ] u(t), dt

(4.59)

где x ∈ Rn , u ∈ Rr , r  n, α(t), β(t) ∈ Ω, вектор-строка M размером 1 × r содержит действительные коэффициенты. Начальное условие принадлежит заранее неизвестному, подлежащему определению, подмножеству, т. е. x(t0 ) ∈ X0 .

(4.60)

Предполагается, что известная пара A, B обеспечивает объекту свойство управляемости при отсутствии параметрических возмущений и множество Ω таково, что при всех возможных α(t), β(t) ∈ Ω пара ([A + α(t)], [B + β(t)]) сохраняет управляемость объекта во Задана цель терминального управления:  Tвсем интервале управления. η x(T )  d, η ∈ Rk — оператор проектирования из Rn в Rk , d — фиксированная неотрицательная величина.

4.5. Робастное управление билинейным объектом

127

Задача управления объектом заключается в построении такой стратегии u(t) ∈ U , при которой достигается цель управления и минимизируется функционал: 1 1 J(x, u) = xT (T )F x(T ) + 2 2

T

 xT (t)Qx(t) + uT (t)Ru(t) dt,

(4.61)

t0

где задан интервал управления [t0 , T ], матрица R — положительно определена, матрицы Q и F — положительно полуопределены. Сформируем робастную модель объекта (4.59): d z(t) = [A + α∗ ] z(t) + [B + β ∗ + z(t)M ] u(t), dt Здесь матрицы α∗ , β ∗ ∈ Ω таковы, что

z(t0 ) = x0 .

(4.62)

[A + α∗ ] z(t) + [B + β ∗ + z(t)M ] u(t)   [A + α(t)] x(t) + [B + β(t) + x(t)M ] u(t) . (4.63) Таким образом, решение уравнения (4.62) является мажорирующим (в смысле (4.64)) для различных решений уравнения (4.59). Модель (4.62) будет использоваться для нахождения управлений u(t). Отклонением

z(t) − x(t)

(4.64)

x(t)

назовем отклонение z(t) от x(t). Это отклонение характеризует степень робастности модели (4.62) по отношению к объекту (4.59) в каждый момент времени переходного процесса. Будем искать управление u(t) ∈ U как функцию состояния объекта (4.59), т. е. u(t) = Hx(t). Поиск матрицы H осуществляется с использованием линейной модели, которая имеет вид: d zM (t) = [A + α∗ ] zM (t) + [B + β ∗ ] u∗ (t), zM (t0 ) = x0 . (4.65) dt Для того, чтобы регулятор в терминальной задаче содержал постоянные параметры, назначим матрицу штрафа первого слагаемого функционала (4.61) в виде F = S, где положительно определенная матрица S является решением уравнения Риккати–Лурье: S [A + α∗ ] + [A + α∗ ] S − S [B + β ∗ ] R−1 [B + β ∗ ] S + Q = 0. (4.66) T

T

Очевидно, что в случае такого назначения матрицы F будет выполd няться соотношение S(t) = 0, т. е. S = const на всем интервале dt управления. Оптимальное управление для модели (4.65) с функционалом качества (4.61), в котором вместо z(t) подставим zM (t), будет имеет вид [1, 2]: u∗ (t) = −R−1 [B + β ∗ ]T SzM (t). (4.67)

128 Гл. 4. Pобастное управление нелинейными неопределенными объектами

Нетрудно убедиться, что синтезированное управление (4.67) обеспечивает отрицательность вещественных частей корней характеристического уравнения системы первого приближения  d zM (t) = A + α∗ − [B + β ∗ ] R−1 [B + β ∗ ]T S zM (t), (4.68) dt что является необходимым и достаточным условиями ее асимптотической устойчивости. Используем структуру управления (4.67) для построения управлением объектом (4.59) и его робастной модели (4.62). Уравнения объекта и его робастной модели с соответствующими управлениями будут иметь вид  d T x(t) = A+α(t)−[B +β(t)+x(t)M ] R−1 [B +β ∗ ] S x(t), x(t0 ) = x0 , dt (4.69)  d z(t) = A+α∗ −[B +β ∗ +z(t)M ] R−1 [B +β ∗ ]T S z(t), z(t0 ) = x0 . dt (4.70) Нетрудно видеть, что отклонение z(t) от zM (t) определяется соотношением: t     [z(t)−zM (t)]  T −1 ∗  =  exp [−Πτ ]z(τ )M R [B +β ] Sz(τ ) dτ   / zM (0) ,

zM (t)

  0

где Π = A + α∗ − [B + β ∗ ] R−1 [B + β ∗ ] S. Что касается значения функционала качества, то справедливо следующее соотношение: T

1 T x (0)Sx(0)  J(x(t), u(x(t)))  J(z(t), u(z(t))). 2 Следует отметить [9, 11], что использование управления по первому приближению для управления нелинейным объектом не изменяет качественной картины расположения траекторий в начале координат. Это можно отнести и к билинейным объектам. Т. е. использование управления по первому приближению вида (4.67) для управления робастной моделью (4.62) не изменяет качественной картины расположения траекторий в начале координат. Это свойство, в силу условия (4.63), имеют и траектории объекта (4.59). 4.5.1. Необходимые условия существования стабилизирующего управления. Найдем необходимые условия существования стабилизирующего управления вида (4.67) для робастной модели (4.62), т. е. условия, при которых z(t) → 0 при t → ∞.

4.5. Робастное управление билинейным объектом

129

Решение уравнения (4.70) имеет вид: ⎧ ⎫ t ⎨ ⎬ z(t) = [exp(Π, t)] z(0) − [exp(−Πτ )] z(τ )M R−1 [B + β ∗ ]T Sz(τ ) dτ . ⎩ ⎭ 0

(4.71) Обозначим N = M R−1 [B + β ∗ ] S. Уравнение (4.71) перепишем в виде: ⎧  ⎫  t ⎨ ⎬    . (4.72) [exp(Π, t)] z(0) − [exp(−Π, τ )] z(τ )N z(τ ) dτ

z(t) =   ⎩ ⎭   0

Если z(t) → 0 при t → ∞, то:     t    z(0) − [exp(−Π, τ )] z(τ )N z(τ ) dτ  → 0 при t → ∞     0

или

t       [exp(−Π, τ )] z(τ )N z(τ ) dτ  → z(0) при t → ∞.    

(4.73)

0

значение, то при t → ∞ выражение  t Так как z(0) имеет конечное       [exp(−Π, τ )] z(τ )N z(τ ) dτ  должно иметь конечное значение. Учи    0 тывая, что  t t       [exp(−Π, τ )] z(τ )N z(τ )dτ   [exp (−Π, τ )] z(τ )N z(τ ) dτ , (4.74)     0

0

условие (4.73) будет выполняться, если подынтегральное выражение в правой части неравенства (4.74) будет убывать. Потребуем, чтобы положительно определенное подынтегральное выражение убывало монотонно. Отметим, что запас устойчивости, определяемый выполнением этого требования, сужает область возможных значений начальных условий, при которых сохраняется устойчивость системы. Этот более узкий класс систем, в котором выполняется предъявляемое требование, справедливо отнести к системам, обладающим свойством «сверхустойчивости» («сверхстабилизируемым») [13]. Найдем условия, которые определят это свойство. Рассмотрим правую часть неравенства (4.74). Так как действительные части характе5 Aфанасьев

130 Гл. 4. Pобастное управление нелинейными неопределенными объектами

ристических корней матрицы Π отрицательны, то существуют постоянные K и ρ, такие, что exp(Πt)  K e−ρt , t  0. Тогда t

[exp(−Π, τ )] z(τ )N z(τ )dτ  K e

−ρt

0

t eρτ z(τ )N z(τ ) dτ. 0

Если начальные условия системы таковы, что z(t) → 0 при t → ∞, т. е. система устойчива, то z(0)N z(0) > z(t)N z(t) , t > 0. Следовательно t

{exp [Π(t − τ )]} z(τ )N z(τ ) dτ  K e

−ρt

t

0

eρτ z(τ )N z(τ ) dτ 0

или t

{exp [Π(t − τ )]} z(τ )N z(τ ) dτ 

  1 K z(0)N z(0) 1 − e−ρt . ρ

0

Что касается подынтегрального выражения, то условие сверхустойчивости, в том понимании, которое было введено выше, имеет вид:

{exp(Πt)} z(t)N z(t)  K e−ρt z(t)N z(t) .

(4.75)

При этом рост интегральной составляющей решения уравнения (4.75) не превосходит некоторого вполне определенного значения, т. е. t

{exp (−Πτ )} z(τ )N z(τ ) dτ 

  1 K z(0)N z(0) 1 − e−ρt . ρ

0

Определение. Назовем билинейную систему d z(t) = [Π + z(t)N ] z(t), dt

z ∈ Rn ,

у которой корни λi , i = 1, 2, ... , n характеристического уравнения системы первого приближения имеют отрицательные действительные части, сверустойчивой, если

{exp (Πt)} z(t)N z(t)  K e−ρt z(t)N z(t) ,

t  0,

где K > 0 и (−ρ) = max(Re λi ) < 0. Вернемся к условию (4.73). Оно будет выполняться, если производная по времени от положительно определенной формы

{exp (−Πt)} z(t)N z(t) > 0,

z = 0

(4.76)

4.5. Робастное управление билинейным объектом

131

будет отрицательной, т. е. условие монотонного убывания подынтегрального выражения (4.74) имеет вид [5]     d(z(t)N z(t))   , z = 0. {exp (−Πt)}

Π {exp (−Πt)} z(t)N z(t) >    dt (4.77) Учитывая, что Π {exp (−Πt)} = {exp (−Πt)} Π, из условия (4.77) можно получить условие на изменение во времени билинейной части z(t)N z(t):    d(z(t)N z(t))   < Πz(t)N z(t) , t  0  (4.78)   dt или, учитывая, что Πz(t)N z(t)  Π z(t)N z(t) ,    d(z(t)N z(t))      dt < Π , z(t) = 0 при t = 0.

z(t)N z(t)

(4.79)

Так как при выполнении условия (4.78) обеспечивается монотонное убывание нормы подынтегрального выражения (4.73), то система (4.70) асимптотически устойчива. T Отметим, что матрица Π = A + α∗ − [B + β ∗ ] R−1 [B + β ∗ ] S зависит от ряда параметров, существенным из которых для выполнения условий задачи стабилизации системы является положительно определенная матрица S, которая является решением уравнения (4.66). Так как S = S(Q, R), то назначая соответствующим образом матрицы Q и R, при заданном начальном состоянии объекта z(0) и известной матрицы M можно получить решение уравнения (4.70) таким, что будут выполняться условие стабилизации робастной модели объекта    dz(τ )N z(τ )   ∗ ∗ −1 ∗ T   0,

z(t) = 0.

(4.81)

Условие асимптотической устойчивости буде иметь место, если производная по времени выражения (4.81) будет отрицательна при z(t) = 0: d  T [z(t)N z(t)] {exp (−Πt)} z(t)N z(t) = dt   d T [z(t)N z(t)] {exp (−Πt)} z(τ )N z(τ )+ = dt   d T z(t)N z(t) − + [z(t)N z(t)] {exp (−Πt)} dt − [z(t)N z(t)]T Π {exp (−Πt)} z(t)N z(t)  0 или, учитывая коммутативные свойства {exp (−Πt)}, будем иметь 

   d d T T [z(t)N z(t)] z(t)N z(t) + [z(t)N z(t)] z(t)N z(t) − dt dt T

− [z(t)N z(t)] Πz(t)N z(t)  0. (4.82)

4.5. Робастное управление билинейным объектом

133

Таким образом, система робастная модель системы с начальными условиями, при которых выполняется условие     d d T T [z(t)N z(t)] z(t)N z(t) + [z(t)N z(t)] z(t)N z(t) − dt dt T

− [z(t)N z(t)] Πz(t)N z(t)  0,

t = 0,

z(0) = 0,

(4.83)

асимптотически устойчива. Теорема 4.5.2. Система d z(t) = [Π + z(t)N ] z(t), z ∈ Rn dt асимптотически устойчива, если d zM (t) = ΠzM (t), zM (t0 ) = x0 стремиться а) решение уравнения dt к нулю при t → ∞; б) начальные условия системы таковы, что     d d T T [z(t)N z(t)] z(t)N z(t) + [z(t)N z(t)] z(t)N z(t) − dt dt − [z(t)N z(t)]T Πz(t)N z(t)  0,

t = 0,

z(0) = 0.

Условия существования стабилизирующего управления вида (4.67) можно получить, введя функцию Ляпунова: V = z T (t)Sz(t),

(4.84)

где положительно определенная матрица S есть решение уравнения (4.66). Производная функции Ляпунова (4.84) будет иметь вид: " d T V = −z T (t) Q + S [B + β ∗ ] R−1 [B + β ∗ ] S+ dt # Sz(t)N + N T z T (t)S z(t) < 0, z(t) = 0. (4.85) Таким образом, система, описываемая уравнением (4.70), асимптотически устойчива, если выполняется условие: " # T z T (t) Q + S [B + β ∗ ] R−1 [B + β ∗ ] S z(t) > − z T (t)Sz(t)N z(t) − z T (t)N T z T (t)Sz(t) < 0 при z(t) = 0. (4.86) Отметим, что условие (4.86), при выполнении которого система асимптотически устойчива, предъявляет требования к начальным условиям рассматриваемой системы менее строгие, чем условие (4.80) и (4.83). 4.5.2. Робастное терминальное управление неопределенным билинейным объектом. Рассмотрим вопрос о существовании управ-

134 Гл. 4. Pобастное управление нелинейными неопределенными объектами

ления вида (4.67) при движении билинейной неопределенной системы в заданном интервале времени из любого начального состояния в заданную область. Очевидно, что область начальных условий X0∗ , при которых задача робастного управления будет выполнена, зависит от значений параметров матриц A(t) = A + α(t), B(t) = B + β(t), M , от периода управления, от значений весовых матриц функционала Q, R (и таким образом от управления u(t0 , T )), от задания области конечных значений состояния объекта, т. е. область возможных начальных условий определяется выражением  d X0∗ = α(t), β(t) ∈ Ω, M , u∗ (t0 , T ) : x(t) = dt  = A(t)x(t) + [B(t) + x(t)M ]u(t), |x(T )|  d . Условие d-робастности для модели объекта  d T z(t) = A+α∗ −[B +β ∗ +z(t)M ] R−1 [B +β ∗ ] S z(t), dt z(t0 ) = x∗0 ∈ X0 имеет вид z(T )  d или     T   

z(T ) =  [exp (ΠT )] z(0) − [exp (−Πτ )] z(τ )N z(τ ) dτ    d.   0

Откуда T

[exp (ΠT )] z(0) − d 

[exp (−Πτ )] z(τ )N z(τ ) dτ .

(4.87)

0

Если условие (4.80) не выполняется, то это означает, что для робастной модели объекта  d z(t) = A + α∗ − [B + β ∗ + z(t)M ] R−1 [B + β ∗ ]T S z(t) dt с начальным условием z(0) = x∗0 ∈ X0 и заданным периодом управления [0, T ], не существует управления вида u(t) = Hz(t) = T = −R−1 [B + β ∗ ] Sz(t) с постоянной положительно определенной матрицей S, определяемой решением Риккати–Лурье S [A + α∗ ] + [A + α∗ ]T S − S [B + β ∗ ] R−1 [B + β ∗ ]T S + Q = 0, при котором будет выполняться условие z(T )  d. Выполнение условия (4.80) обеспечивает переходному процессу асимптотическое свойство, предъявляя соответствующие требования к поведению билинейной формы, входящей в систему. Условие (4.87)

4.5. Робастное управление билинейным объектом

135

является дополнительным условием, обеспечивая достаточные условия существования d-робастного управления. Выполнение обоих условий гарантирует выполнение задачи d-робастного управления нестационарным объектом. Полученный результат сформулируем в виде теоремы. Теорема 4.5.3. В задаче управления билинейным неопределенным объектом вида: d x(t) = [A + α(t)] x(t) + [B + β(t) + x(t)M ] u(t) dt где u(t) = −R−1 [B + β ∗ ] Sx(t) и матрица S является решением уравнения Риккати–Лурье: S [A + α∗ ] + [A + α∗ ]T S − S [B + β ∗ ] R−1 [B + β ∗ ]T S + Q = 0, с заданным интервалом управления, заданным интервалом параметрической неопределенности α(t), β(t) ∈ Ω и заданной областью возможных начальных состояний X0 условия:    d(z(t)N z(t))   < Πz(t)N z(t) , z(t) = 0, t = 0    dt и T

[exp (ΠT )] z(0) − d  [exp (−Πτ )] z(τ )N z(τ ) dτ , 0

где Π = A + α∗ − [B + β ∗ ] R−1 [B + β ∗ ] S и N = M R−1 [B + β ∗ ] S являются соответственно необходимыми и достаточными условиями существования d-робастного управления. Если задан интервал управления, то для системы вида (4.59) можно определить область начальных условий, траектории, начинающиеся из которой, будут удовлетворять условиям на правом конце. Пусть t0 = 0 и T — заданный момент окончания переходного процесса. Не трудно показать, что начальные условия системы должны отвечать следующему условию T

e−ρT z(0) −

  d 1

z(0)N z(0) 1 − e−ρT  , ρ K

где K > 0 и (−ρ) = max (Re λi ) < 0. Три причины «неуспешного» d-робастного управления билинейным объектом: 1) начальные условия не принадлежат области допустимых начальных условий, при которых успешно выполняется задача d-робастного управления; 2) матрицы Q, R в функционале качества таковы, что не существует управлений вида u(t) = −R−1 (B ∗ )T Sx(t), где положительно опреде-

136 Гл. 4. Pобастное управление нелинейными неопределенными объектами

ленная матрица S является решением уравнения Риккати–Лурье, при котором успешно выполняется задача d-робастного управления; 3) интервал управления [t0 , T ] таков, что при заданной области конечных значений и заданном управлении задача d-робастного управления не может быть выполнена. Изменяя те или иные условия задачи, можно добиться выполнения неравенства (4.76) или (4.79) и тем самым обеспечить успешное выполнениe задачи d-робастного управления.

4.6. Дополнительный регулятор с параметрической настройкой для нелинейного неопределенного объекта Используя материал главы 1, построим дополнительный регулятор с возможностью параметрической оптимизации. Пусть управляемый объект описывается уравнением d x(t) = [A + α(t)] x(t) + [B + β(t)] u(t) + I (t, x), dt x(t0 ) = x0 , x ∈ Rn , u ∈ Rr , α(t), β(t) ∈ Ω,

(4.88)

где Ω — заданная область возможных траекторий параметров α(t) и β(t). Относительно вектора I (t, x) сохраняются ранее сделанные предположения. Пусть γ(t) = α∗ − α(t), η(t) = β ∗ − β(t), (4.89) где постоянные α∗ , β ∗ ∈ Ω таковы, что |[A + α∗ ] x(t) + [B + β ∗ ] u(t) + I (t, x)|   |[A + α(x, t)] x(t) + [B + β(x, t)] u(t) + I (t, x)| и

u(t) = u1 (t) + u2 (t).

(4.90) (4.91)

Управление u1 (t) организуем в виде u1 (t) = −R−1 [B + β ∗ ] Sx(t), T

(4.92)

где положительно определенная матрица S является решением уравнения Риккати–Лурье S [A + α∗ ] + [A + α∗ ]T S − S [B1 + β ∗ ] R−1 [B1 + β ∗ ]T S + Q = 0. Дополнительное к u1 (t) управление u2 (t) организуем в виде u2 (t) = −P (t) x(t),

(4.93)

4.6. Дополнительный регулятор с параметрической настройкой

137

где матрица P (t) размерностью r × n содержит перестраиваемые параметры. С учетом изложенного выше, уравнение объекта можно переписать в виде d x(t) = Π x(t) + F (t, x) − [B + β(t)] P (t) x(t), dt где " # T F (t, x) = I (t, x) − γ(t) − η(t)R−1 [B + β ∗ ] S x(t). (4.94) Учитывая (4.7), отметим, что матрица P (t) должна быть такова, чтобы выполнялось условие: F T (t, x) [F (t, x) − [B + β(t)] P (t)x(t)] < 0 или, с учетом (4.90), T ∗ I (t, x) [I (t, x) − [B + β ] P (t)x(t)] < 0.

(4.95)

Гамильтониан HM (t) линейной модели объекта (4.88) d xM (t) = [A + α∗ ] xM (t) + [B + β ∗ ] u1 (t) dt с управлением вида (4.92) u1 (t) = −R−1 [B + β ∗ ] SxM (t) T

на интервале управления принимает значение [2]:  1 T HM (t) = xTM (t) Q + S [B1 + β ∗ ] R−1 [B1 + β ∗ ] S xM (t)+ 2   d xM (t) = 0. (4.96) + xTM (t)S dt Выполнение условия (4.96) является необходимым и достаточным условием оптимальности линейной системы. Сформируем функцию H(t), используя структуру уравнения (4.96),  1 H(t) = xT (t) Q + S [B1 + β ∗ ] R−1 [B1 + β ∗ ]T S x(t)+ 2 " # T + xT (t)S A + α∗ − [B1 + β ∗ ] R−1 [B1 + β ∗ ] S x(t)+ + [B + β ∗ ] P (t) x(t) + I (t, x) . (4.97) Параметры матрицы P (t) следует перестраивать так, чтобы H(t) → 0 и чем быстрее это будет происходить, тем поведение системы будет ближе к поведению оптимальной линейной модели. Очевидно, что гамильтониан (4.97) равен нулю при выполнении соотношения F (t, x) − [B + β(t)] P (t) x(t) = 0.

138 Гл. 4. Pобастное управление нелинейными неопределенными объектами

Однако точного выполнения этого условия в общем случае достичь достаточно сложно или невозможно. В практических задачах можно ввести несколько ослабленное требование к условию оптимальности нелинейной системы вида (4.88). Это условие запишем, как H ∗ (t) = 0,

если

|H(t)|  κ > 0.

(4.98)

Очевидно, что значение параметра κ > 0 влияет на выполнение условия (4.95), но проследить аналитическую связь этого влияния в общем случае невозможно. Алгоритм перестройки параметров матрицы P (t), организованный с использованием материала главы 1, будет иметь вид  T d ∂H ∗ (x, P ) P (t) = − H ∗ (x, P ), P (t0 ) = 0. (4.99) dt ∂P (t) Здесь

 H(x, P ), H (x, P ) = 0, ∗

если если

|H(t)| > κ, |H(t)|  κ.

(4.100)

Можно сказать, что параметр κ характеризует робастность системы с алгоритмом параметрической оптимизации (4.99), т. е.

F (t, x) − [B + β(t)] P (t) x(t)  d > 0.

(4.101)

С учетом (4.97) алгоритм (4.99) принимает вид d T P (t) = − [B + β ∗ ] Sx(t) xT (t) H ∗ (x, P ), dt

P (t0 ) = 0.

(4.102)

Глава 5 ОТДЕЛЬНЫЕ ПРИМЕРЫ МОДЕЛИРОВАНИЯ РОБАСТНЫХ И РОБАСТНО-АДАПТИВНЫХ СИСТЕМ 5.1. Управление морским судном 5.1.1. Математическая модель грузового судна типа «Cargo». Плавание судна в условиях волнения сопровождается качкой и рысканием, а также дрейфом от течения и ветра, которые усложняют его удержание на проложенной траектории. При этом используются различные подходы к синтезу закона управления при описании динамики судна и действующих на него возмущений с помощью моделей различной степени полноты. Кинематические уравнения движения судна в траекторной системе координат Oξη можно записать в виде (Крылов А. В. Разработка и исследование многофункциональной системы управления движением судна. Автореферат дис. на соискание ученой степени канд. техн. наук. — СПб., 1991) ξ˙ = Vx cos(K − P ) − Vy cos θ sin(K − P ) + VT cos(KT − P ); η˙ = Vx sin(K − P ) + Vy cos θ cos(K − P ) + VT sin(KT − P ),

(5.1)

где Vx , Vy — продольная и боковая составляющие линейной скорости; K — желаемый курс корабля; P — курс корабля; VT , KT — скорость и курс течения; θ — угол крена. Уравнения динамики судна относительно водной среды в связанной системе координат могут быть записаны следующим образом: (m + λ11 )V˙ x = Tx + f11 Vx2 + f17 Vx2 δ 2 + (m + λ22 )Vy ωz + + n11 Vy |Vy | + Fx возм ; ˙ (m + λ22 )Vy + λ24 ω˙ x = (f22 Vx − μ22 )Vy + (f26 Vx − mVx )ωz − μ24 ωx + + f27 Vx2 δ + n21 Vy |Vy | + Fy возм ;

(Jxx + λ44 )ω˙ x + λ42 V˙ y = (zг f22 Vx − μ24 )Vy + zг f26 Vx ωx − μ44 ωx − (Jzz

− mgh0 θ + zг f27 Vx2 δ + n41 Vy |Vy | + Mx возм ; " # + λ66 )ω˙ z = f66 Vx − (μ66 + Vx2 ωв−2 k μ22 ) ωz + + (f62 Vx −λ22 Vx )Vy +f67 Vx2 δ+n61 ωz |ωz |+Mz возм ; (5.2)

140

Гл. 5. Отдельные примеры моделирования робастных систем

где ωx , ωz — угловые скорости бортовой качки и рыскания; m — масса судна; Jxx , Jzz — моменты инерции относительно соответствующих осей; λij (i, j = 1, 6) — присоединенные массы при демпфирующих членах; fij , nij — параметры модели динамики, определяемые по известным гидродинамическим и инерциальным коэффициентам; h0 — метацентрическая высота; zг — аппликата приложения гидродинамической силы; Fy возм , Mx возм , Mz возм — суммарные сила и моменты ветроволновых возмущений относительно соответствующих осей; Tx — тяга гребных винтов судна. В роли управления выступает угол перекладки руля δ. Замечание. Полагая угловую скорость бортовой качки равной нулю и пренебрегая нелинейными слагаемыми, получаем следующие уравнения бокового движения судна в горизонтальной плоскости: V˙ y = a11 Vx Vy + a12 Vx ωz + b1 Vx2 δ + fy возм ; ω˙ z = a21 Vx Vy + a22 Vx ωz + b2 Vx2 δ + mz возм ,

(5.3)

где aij , bi — нормированные коэффициенты; fy возм , mz возм — сила и момент внешних возмущений. Эта упрощенная модель будет использована в п. 5.4 для моделирования. Если ввести следующие обозначения:         Vy a11 Vx a12 Vx b1 x= , A= , B= , δ = u (5.4) ωz a21 Vx a22 Vx b2 и если считать, что внешние возмущения аппроксимируются белыми шумами, то мы приходим к канонической дифференциальной линейной системе, для которой будут проведены все последующие теоретические рассуждения: x˙ = Ax + Bu + w. (5.5) Модели возмущений. Для описания возмущений, действующих на судно, используются стохастические модели. Аэродинамические силы и моменты складываются из двух составляющих: медленно меняющихся с интервалом корреляции несколько часов и быстро меняющихся с интервалом корреляции в десятки секунд. Среднеквадратические значения силы и момента медленно меняющихся ветровых воздействий зависят от скорости кажущегося ветра Vak и площади надстроек судна AV L и определяются формулами: 2 AV L ; σFay = 0,5Cay ρa Vak 2 σMax = 0,5Cay ρa Vak AV L zцп ;

σMaz =

2 0,5Cam ρa Vak

(5.6)

AV L L,

где Cay , Cam — безразмерные аэродинамические коэффициенты; L — длина судна по ватерлинии.

5.1. Управление морским судном

141

Для силы и моментов справедливы следующие зависимости Max = Fay zцп ; Maz = Fay la ,

(5.7)

где la — плечо центра парусности по продольной оси аэродинамической боковой силы, зависящее от угла набега кажущегося ветра γk ; zцп — плечо центра парусности по вертикальной оси, которое практически не зависит от γk и считается известным. Соотношение (5.7) для Maz определяет наличие корреляции между боковой силой и моментом вокруг оси Oz. Однако неопределенность в знании плеча la , а также его изменчивость даже при небольших вариациях угла γk обеспечивают достаточную адекватность стохастической модели в виде двух стационарных марковских процессов, заданных уравнениями: 4 Fay 2 F˙ay = − + σFay w1 ; τa τa 4 (5.8) M 2 az M˙ az = − + σMaz w2 ; τa τa где τa — интервал корреляции; wi — независимые порождающие белые шумы единичной интенсивности. При этом указанная связь этих процессов может быть передана путем задания недиагональной ковариационной матрицы начальных значений силы и момента с уровнем относительной корреляции ∼ 0,25. Аналогично можно задать модель для момента относительно продольной оси. Быстро меняющиеся составляющие аэродинамических возмущений можно аппроксимировать белошумными процессами. Сила и момент волнового воздействия выражаются через угол волнового склона αв , для описания которого используется марковский процесс следующего вида: αв = x1 − y1 ; α˙ в = x2 − y2 ; x˙ 1 = x2 ; x˙ 2 = −a1 x2 − a2 x1 + cx w; y˙ 1 = y2 ; y˙ 2 = −b1 y2 − b2 y1 + b2 x1 + b1 x2 ,

(5.9)

причем 2 a1 = 0,6ωвк ; a2 = 1,1ωвк ; √ 2 b1 = 2 ωвк ; b2 = ωвк ; √ h ω2 cx = 3% в · 1,85ωвк ωвк . 5,3g

(5.10)

Здесь ωв — частота волнения; ωвк — частота кажущегося волнения; h3% — высота волны 3-процентной обеспеченности; g — ускорение силы тяжести. Данная модель отражает основные свойства гравита-

142

Гл. 5. Отдельные примеры моделирования робастных систем

ционного волнения в открытом море — полосовой характер спектра и малый уровень спектра на низких частотах. Течение в направлении поперек траектории (ось η) представляет собой медленно меняющийся процесс, который можно описать марковским процессом первого порядка 4 VT η 2 V˙ T η = − + σVT w3 , (5.11) τT τT где τT — интервал корреляции; σVT — среднеквадратическое значение скорости течения; w3 — порождающий белый шум единичной интенсивности. Для упрощенной модели предполагается, что ветро-волновые возмущения аппроксимируются белым шумом. Таким образом, она сводится к канонической системе линейных дифференциальных уравнений, применяемой в классической постановке линейно-квадратичной задачи оптимального управления. Упрощенно движение данного объекта, без учета внешних возмущений, можно описать следующей системой дифференциальных уравнений: V˙ y (t) = a∗11 (t)Vy (t) + a∗12 (t)r(t) + b∗1 (t)δ(t), (5.12) r(t) ˙ = a∗21 (t)Vy (t) + a∗22 (t)r(t) + b∗2 (t)δ(t), где значения коэффициентов a∗11 , a∗12 , a∗21 , a∗22 , b∗1 , b∗2 зависят от времени и вычисляются по следующим формулам: Vx (t)a11 , a∗12 (t) = Vx (t)a12 , L Vx (t)a21 Vx (t)a22 (5.13) a∗21 (t) = , , a∗22 (t) = 2 L L V 2 (t)b1 V 2 (t)b2 b∗1 (t) = x 2 , b∗2 (t) = x 2 , L L где L — длина грузового судна; коэффициенты a11 , a12 , a21 , a22 , b1 , b2 — конфигурационные постоянные, которые для грузового судна типа «Cargo» имеют следующие значения: a∗11 (t) =

a11 a12 a21 a22

= −0,77, = −0,34, = −3,39, = −1,63,

b1 = 0,17, b2 = −0,63, L = 161,

(5.14)

Здесь V — вектор скорости судна; Vy , Vx — компоненты вектора скорости; ψ, r — угол и угловая скорость рыскания соответственно; ψ˙ = r; Vy = V sin(r); Vx = V cos(r). (5.15) В роли управления выступает угол перекладки руля: u(t) = δ(t).

5.1. Управление морским судном

143

y d

Vy r

Y

Vx X

V Рис. 5.1. Движение объекта управления грузового судна типа «Cargo»

Задача заключается в стабилизации судна на курсе, т. е. цель управления: |r|  r∗ , |Vy |  Vy∗ , где r∗ , Vy∗ — неотрицательные числа, близкие к нулю. Функционал качества задан в виде:   1 Vy (T ) J = (Vy (T ) r(T ))S + r(T ) 2    T  1 Vy (t) 2 + + Ru (t) dt. (5.16) (Vy (t) r(t)) Q r(t) 2 t0

Обозначим x(t) вектор состояния объекта и введем стандартные обозначения для коэффициентов системы:   Vy (t x(t) = , (5.17) r(t)  ∗   ∗  a11 (t) a∗12 (t) b1 (t) A(t) = , B(t) = . (5.18) a∗21 (t) a∗22 (t) b∗2 (t) Определим начальные условия: r(t0 ) = r0 ;

Vy (t0 ) = Vy0 = V sin r0 .

(5.19)

Таким образом, получаем каноническую систему: x(t) ˙ = A(t)x(t) + B(t)u(t), x(t0 ) = x0 и функционал качества 1 1 J = xT (T )Sx(T ) + 2 2

T t0



xT (t) Qx(t) + Ru2 (t) dt.

(5.20)

Гл. 5. Отдельные примеры моделирования робастных систем

144

5.1.2. Управление при полной информации о параметрах и состоянии судна. В случае полной информации о параметрах и состоянии системы оптимальное управление определяется формулой: δ(t) = −R−1 B T (t)S1 (t)x(t),

(5.21)

где S находится из уравнения типа Риккати: S˙ 1 (t) + S1 (t)A(t) + AT (t)S1 (t) + S1 (t)B(t)R−1 B T (t)S1 (t) + Q = 0, S1 (T ) = S, (5.22) причем S удовлетворяет уравнению типа Риккати–Лурье: SA + AT S + SBR−1 B T S + Q = 0, здесь

 A=

Vx a11 /L Vx a12 Vx a21 /L2 Vx a22 /L



 B=

,

(5.22a)

Vx2 b1 /L2 Vx2 b2 /L2

 .

(5.22б)

Для моделирования воспользуемся следующими численными значениями (моделирование проведено Е. Дуэль с использованием системы Simulink, входящей в состав пакета Matlab 6.5): V = 30 км/ч = 75/9 м/с;   1 0 Q= , R = 1, 0 10

r(t0 ) = r0 =

(5.23)

π . 9

Следовательно, Vy (t0 ) = V sin r0 ≈ 2,85 м/с. B B A d x Subsistem Getting steering 0

Vx

2

K

Vx

Product1

Gain1

Vy

Scope4 1/s Manual Switch

Product2

Scope1 r

Vcos(u)

Constant3 Matrix multyply Product2

XY Graph

Integrator1

Fcn A

Vx

Scope2

Scope3

K Gain

Рис. 5.2. Схема объекта (5.12)

Схемы и результаты моделирования поведения системы (5.12) с управлением (5.21), (5.22), а также в отсутствие управления представлены на рис. 5.2–5.10. 5.1.3. Робастное управление детерминированным объектом с неизвестными параметрами. Пусть измеряется весь вектор со-

5.1. Управление морским судном

Matrix Multiply

145

SA

Product1

2 A

u

T

Math Function

1 B

Matrix Multiply

A'S

f(z)

Solve f(z)=0

z

S

Product2

Q Matrix Multiply

Constant2

Product3

-1

T

u

Math Function1

-invR

Gain Matrix Multiply

MATLAB R Function Constant1 MATLAB Fcn

3 x

1 d

Product4

Рис. 5.3. Подсистема решения уравнения Риккати–Лурье (5.22a) и построения управления (5.21)

4 2 0 -2 -4 -6 0

50

100

150

Рис. 5.4. Скорость в направлении y − Vy в случае отсутствия управления

3 2 1 0 -1 -2 -3 0

50

100

150

Рис. 5.5. Скорость в направлении y − Vy при оптимальном управлении

146

Гл. 5. Отдельные примеры моделирования робастных систем

0,4 0,3 0,2 0,1 0

50

100

150

Рис. 5.6. Угловая скорость рыскания r в случае отсутствия управления

0,4 0,3 0,2 0,1 0 -0,1 0

50

100

150

Рис. 5.7. Угловая скорость рыскания r при оптимальном управлении

8,4 8,3 8,2 8,1 8 7,9 7,8 0

50

100

150

Рис. 5.8. Скорость в направлении x − Vx в случае отсутствия управления

8,4 8,3 8,2 8,1 8 7,9 7,8 0

50

100

150

Рис. 5.9. Скорость в направлении x − Vx при оптимальном управлении

стояния объекта управления, но неизвестны значения его параметров. Построим робастный регулятор.

5.1. Управление морским судном

147

4 3 2 1 0 -1 0

50

100

150

Рис. 5.10. Оптимальное управление δ (5.21)

Так как коэффициенты системы определяются выражениями вида: a∗ij (t) = Vx (t)cij = V cij cos r(t), b∗i (t) = Vx2 (t)di = V 2 di cos2 r(t),

(5.24)

то, следовательно, для них имеет место интервальная неопределенность: −V cij  a∗ij (t)  V cij ; 0  b∗i (t)  V 2 di .

(5.25)

Однако мы будем считать, что для угла рыскания возможны только π π значения из диапазона −  r(t)  . 6 6 Выделим в матрицах A(t) и B(t) постоянные составляющие: a∗ij (t) = a∗ij + αij (t); b∗i (t) = b∗i + βi (t).

(5.26)

Положим a∗ij = V cij cos(0) = V cij , b∗i = V 2 di cos2 (0) = V 2 di . Тогда αij (t) =

a∗ij (t)



a∗ij

= V cij [cos r(t) − 1];

βi (t) = b∗i (t) − b∗i = V 2 di [cos2 r(t) − 1];

(5.27)

√ 3 −2 V cij  αij (t)  0; 2 1 − V 2 di  βi (t)  0. 4 (5.28)

π «Наихудшее» состояние объекта при r(t) = ± : 6 √ 3 −2 1 ∗ V cij ; βip α∗ij = = − V 2 d. 2 4

(5.29)

Гл. 5. Отдельные примеры моделирования робастных систем

148

Vx

2

B

K Gain1

Constant3 0

Vx

Product1 Vy 1/s

x

d

Subsistem Getting steering

Manual Switch

Product2

Scope1 r

XY Graph

Integrator1 Vcos(u)

d

Vx

Fcn Scope4

Matrix multiply Product3

A

Scope2

Scope3

K Gain

Рис. 5.11. Схема объекта (5.12)

*

uK SA#

Matrix Gain4

A#'S

K*u Matrix Gain3

z

S

Algebraic constant

Matrix multiply

SB#

*

uK

Solve f(z) f(z)=0

Product3

Matrix Gain

Q Constant2

K*u

uinvR

Matrix Gain1

Matrix Gain5

-1

-(invR)B#'S

Gain

1

Matrix multiply

1 d

Product4

Рис. 5.12. Подсистема решения уравнения Риккати–Лурье (4.22а) и построения управления (5.21)

Обозначим A∗ = (a∗ij + α∗ij ) =

√

 3 V cij , 2

B ∗ = (b∗i =



 3 2 V di . 4

Робастное управление удовлетворяет соотношению:   Vy (t) , δ(t) = −R−1 B ∗ S r(t)

(5.30)

(5.31)

где S — решение уравнения Риккати–Лурье: T

T

SA∗ + A∗ S + SB ∗ R−1 B ∗ S + Q = 0.

(5.32)

5.1. Управление морским судном

149

5

0

-5 0

50

100

150

Рис. 5.13. Скорость в направлении y − Vy

0,4 0,3 0,2 0,1 0 -0,1 0

50

100

150

Рис. 5.14. Угловая скорость рыскания r

8,4 8,3 8,2 8,1 8 7,9 7,8 0

50

100

150

Рис. 5.15. Скорость в направлении x − Vx

4 3 2 1 0 -1 0

50

100

150

Рис. 5.16. Робастное управление δ (4.21)

Замечание. В этом параграфе и далее будет рассматриваться задача d-робастной стабилизации: |r(T )|  d∗ , d∗ = 0,5, T = 150 c. Ниже на рис. 5.11, 5.12 представлены схемы моделирования объекта (5.2) с робастным управлением (5.20). Результаты моделирования — на рис. 5.13–5.16.

150

Гл. 5. Отдельные примеры моделирования робастных систем

5.1.4. Робастное управление стохастическим объектом с неизвестными параметрами. Теперь учтем влияние на поведение объекта внешних ветро-волновых возмущений и шумов в измерителе. Положим, что внешние возмущающие воздействия можно аппроксимировать белыми шумами. Тогда движение объекта можно описать следующей системой дифференциальных уравнений:   ∗    ∗     Vy (t) ω1 (t) a11 (t) a∗12 (t) b1 (t) V˙ y (t) = + δ(t) + , a∗21 (t) a∗22 (t) r(t) b∗2 (t) ω2 (t) r(t) ˙ (5.33) ∗ b (t) по-прежнему определяются соотношениями (5.27), где a∗ij (t),  i  ω1 (t) а ω(t) = — белый гауссовский шум с интенсивностью W (t). ω2 (t) Пусть измеритель состояния объекта описывается уравнением:   Vy (t) + n(t), (5.34) y(t) = C r(t) где n(t) — также белый гауссовский шум с интенсивностью N (t), причем ω(t) и n(t) не коррелируют между собой и с начальным состоянием объекта. Пусть известно: W  W (t)  W , N  N (t)  N . Функционал качества:   1 Vy (T ) + J = (Vy (T ) r(T )) S r(T ) 2    T  1 Vy (t) + + Ru2 (t) dt. (Vy (t) r(t)) Q r(t) 2

(5.35)

t0

Построить робастное управление в виде (5.21) невозможно в силу неизвестности вектора состояния. Если  построить  наблюдатель, y (t) V , то робастное который будет вырабатывать оценку x (t) = r(t) управление будет находиться по формуле    δ(t) = −R−1 B ∗ S Vy (t) , (5.36) r(t) где

T

T

SA∗ + A∗ S + SB ∗ R−1 B ∗ S + Q = 0.

(5.37)

При этом фильтр можно организовать различными способами. Рассмотрим 3 варианта: робастный, адаптивный и робастно-адаптивный фильтры Калмана.

5.1. Управление морским судном B

Gain1

Constant3 0

Vx

2

K

Vx

Product1 Vy

Scope1

1/s y

d

Subsistem Getting steering

Manual Switch

Product2

Fcn

Cx

XY Graph

Integrator1

d Matrix multiply Product3

A

K Gain

Vx

Scope2

Scope3 w1 Band-Limited White Noise

C*u Matrix gain

Scope7

r Vcos(u)

Scope4

y

151

n Band-Limited White Noise

Scope6

Scope5

w2 Band-Limited White Noise

Рис. 5.17. Схема объекта (5.33)–(5.34)

Рис. 5.18. Подсистема решения уравнения Риккати–Лурье (5.37) и построения управления (5.36)

152

Гл. 5. Отдельные примеры моделирования робастных систем

4 2 0 -2 -4 -6 0

50

100

150

Рис. 5.19. Скорость в направлении y − Vy в случае отсутствия управления

0,4 0,3 0,2 0,1 0

50

100

150

Рис. 5.20. Угловая скорость рыскания r в случае отсутствия управления

Робастный фильтр. Используя результаты главы 2, построим робастный фильтр Калмана для рассматриваемой системы:        y (t) y (t) d Vy (t) V V ∗ ∗ ∗ = [A+α ] +[B +β ] δ(t)+K y(t)−C , r(t) r(t) dt r(t) (5.38)     Vy (t0 ) = Vy0 , r0 r(t0 ) где

A = a∗ij = (V cij ), (b∗i )

(5.39)

B= = (V di ), √     3 −2 1 V cij ; α∗ = (α∗ij ) = β ∗ = (βi∗ ) = − V 2 di , 2 4 ∗ ∗ T ∗ −1 K = P C (N ) ,

(5.40)

[A + α∗ ]P ∗ + P ∗ [A + α∗ ]T − P ∗ C T (N ∗ )−1 CP ∗ + W ∗ = 0,

(5.43)

2

(5.41) (5.42)

N ∗ , W ∗ — наихудшие значения матриц интенсивности шумов. При моделировании будем использовать следующие значения матриц C, W ∗ , N ∗ :   0,01 0 , N ∗ = 0,01. C = (0 1), W ∗ = 0 0, 01

5.1. Управление морским судном

153

В качестве начальных условий для оценки вектора состояния положим: . / ⎞ ⎛ π   , cos V c ij Vy (t0 ) = ⎝ .6 / ⎠ . π r(t0 ) V 2 di cos2 6

Схемы и результаты моделирования — на рис. 5.21–5.28.

*

Ku Matrix Gain3 Ku

2 d

A#x B#d

*

1/s Integrator1

1 x

Matrix Gain1 K#

Subsystem K

Product1 y-Cx

Cx

*

Cu Matrix Gain

1 y

Рис. 5.21. Подсистема, моделирующая робастный фильтр

*

Ku A#P#

Matrix Gain3

P#A#'

u*K Matrix Gain4

Matrix multiply

*

Cu

Solve f(z) f(z)=0

z

P#

Algebraic constant

Product3

Matrix Gain1

W Constant3

*

u C' Matrix Gain

uinvN Matrix Gain5

P#C'(invN)

1 K#

Рис. 5.22. Подсистема, решающая уравнение Риккати–Лурье (5.43) и вычисляющая K по формуле (5.42)

154

Гл. 5. Отдельные примеры моделирования робастных систем

3 2 1 0 -1 -2 -3 0

50

100

150

Рис. 5.23. Скорость в направлении y − Vy

6 4 2 0 -2 0

50

100

150

Рис. 5.24. Робастная оценка скорости в направлении y − Vy

0,4 0,3 0,2 0,1 0 -0,1 0

50

100

150

Рис. 5.25. Угловая скорость рыскания r

0,6 0,4 0,2 0 -0,2 0

50

100

150

Рис. 5.26. Робастная оценка угловой скорости рыскания r

Адаптивный фильтр. Адаптивный наблюдатель Калмана с оптимизацией, основанной на использовании модифицированного уравнения Винера–Хопфа, согласно формулам из § 3.3, для нашей задачи

5.1. Управление морским судном

8,4 8,3 8,2 8,1 8 7,9 7,8 0

50

155

150

100

Рис. 5.27. Скорость в направлении x − Vx

6 4 2 0 -2 0

50

150

100

Рис. 5.28. Робастное управление δ (5.36)

будет иметь вид:     y (t) d Vy (t) V = [A + a(t)] + [B + β ∗ ] δ(t)+ r(t) r(t) dt     + [K + k(t)] y(t) − C Vy (t) , (5.44) r(t)     Vy (t0 ) = Vy0 , r0 r(t0 ) где A, B, β ∗ те же, что и в предыдущем параграфе, в качестве K будем использовать «испорченное» K ∗ : K = 0,5K ∗ , где K ∗ определяется соотношениями (5.42), (5.43). Оптимизация наблюдателя осуществляется при помощи адаптивных матриц a(t) и k(t). Обозначим векторы-строки, составленные из элементов этих матриц, соответственно ! a(t) и ! k(t). Тогда   T ∂C x (t) d ! a(t) = M {y(t1 ) − C x (t1 )} , dt ∂! a(t) (5.45) ! a(t0 ) = ! a0 , ⎡

d! ∂C x (t) k(t) = M ⎣ ! dt ∂ k(t) ! k0 . k(t0 ) = !

T

⎤ {y(t1 ) − C x (t1 )}⎦ ,

(5.46)

156

Гл. 5. Отдельные примеры моделирования робастных систем

Рис. 5.29. Подсистема решения уравнения Риккати–Лурье (5.43) и построения управления (5.36) A0 -C-

Scope3

Matrix multiply

a -C-

Product3 A#x

B# 2 d

B#d

Scope4 1/s Integrator1

1 x

Product2

K# Subsystem k 0,5 Gain y-Cx K0 k A0+a B#(invR)B#'S Subsystem k

y-Cx

Product1 Cx 1 y

Matrix Gain C*u

3 -B#(invR)B#'S

y x A a 0 K0+k B#(invR)B#'S Subsystem a

Рис. 5.30. Подсистема, моделирующая адаптивный фильтр (5.44)

2 x

1 y

d(x)/da

Matrix multiply

d(Cx)/da

Dead Zone

Matrix Concatenation5

Horiz Cat

Integrator1

1/s

Matrix multiply

Horiz C

Vert Cat

Matrix Gain1

C*u

T

1 a

u

Scope1

4 K0+k

Math Function6

Integrator9

1/s

5 -B#(invR)B#'S

3 A0

d(Cx)/da

Matrix Concatenation3 Matrix Concatenation2

a22

Matrix Concatenation a21 Horiz C

a12

a11

Matrix multiply Product9

C*u

Matrix Gain2

Рис. 5.31. Подсистема настройки параметра a по формулам (5.45), (5.47)

Matrix Gain

1/s Integrator5

Transport Product1 Delay

Matrix Gain10

Matrix Gain6

C*u

Cu

Ku

*

Matrix Gain9

Matrix Gain5

*

Cu

Ku

*

Matrix Gain8

Matrix Gain4

*

Cu

Ku

*

Matrix Gain3

*

Matrix Gain7

*

Cu

Ku

*

Matrix Concatenation4 Horiz Cat

5.1. Управление морским судном 157

1 y-Cx

*

Matrix Gain4

Ku

*

Matrix Gain3

Ku

*

1/s

Product1

Integrator5

Dead Zone

d(x)/dk Matrix multiply Product9

Scope1

Integrator1

1/s

Matrix multiply Product5

1 k

2 K0

d(Cx)/dk

Matrix Gain2 C*u

Рис. 5.32. Подсистема настройки параметра k по формулам (5.46), (5.48)

d(Cx)/dk

Matrix Concatenation4

Transport Delay

Matrix Gain5

Cu

*

Matrix Gain6

Cu

Matrix Concatenation4 Horiz Cat

Horiz Cat

*

Matrix Gain1

uC

T

3 K0+k

u

4 -B#(invR)B#'S

Integrator9

1/s

Math Function6

158 Гл. 5. Отдельные примеры моделирования робастных систем

5.1. Управление морским судном

159

При моделировании формул (5.45), (5.46) на Simulink находить функции чувствительности будем с помощью следующих соотношений:   ∂ ∂(C x ˙ ) x = CE + C (A + a) − B ∗ R−1 B ∗T S − (K ∗ + k)C ; ∂! a ∂! a   ∂ ∂x ˙ x = E + (A + a) − B ∗ R−1 B ∗T S − (K ∗ + k)C ; ∂! a ∂! a где

 E=

1 0 0 0



 x ,

0 1 0 0



 x ,

0 0 1 0



 x ,

0 0 0 1

  x  ;

(5.47)

(5.47a)

  ∂ ∂(C x ˙ ) x = CF + C (A + a) − B ∗ R−1 B ∗T S − (K ∗ + k)C ; ! ∂k ∂! k (5.48)   ∂ ∂x ˙ x ∗ −1 ∗T ∗ = F + (A + a) − B R B S − (K + k)C ; ∂! k ∂! k где      0 1 (y − C x ) . (5.48a) (y − C x ), F = 1 0 Схема объекта (5.33) — та же, что и ранее — на рис. 5.29. Остальные схемы и результаты моделирования — на рис. 5.30–5.40. 3 2 1 0 -1 -2 -3 0

50

100

150

Рис. 5.33. Скорость в направлении y − Vy

6 4 2 0 -2 -4 0

50

100

150

Рис. 5.34. Адаптивная оценка скорости в направлении y − Vy

160

Гл. 5. Отдельные примеры моделирования робастных систем

0,4 0,3 0,2 0,1 0 -0,1 0

50

100

150

Рис. 5.35. Угловая скорость рыскания r

0,6 0,4 0,2 0 -0,2 0

50

100

150

Рис. 5.36. Адаптивная оценка угловой скорости рыскания r

8,4 8,3 8,2 8,1 8 7,9 7,8 0

50

100

150

Рис. 5.37. Скорость в направлении x − Vx

6 4 2 0 -2 0

50

100

150

Рис. 5.38. Робастное управление δ (5.36)

Робастно-адаптивный фильтр. Робастно-адаптивный наблюдатель для нашего объекта управления конструируется согласно следую-

5.1. Управление морским судном

00 00 00 00 00 00 00 00 01

1

161

4

0 2 3

50

0

100

150

Рис. 5.39. Настройка параметра a

4

10

-3

3

1

2 1

2

0 -1 0

50

100

150

Рис. 5.40. Настройка параметра k

щим формулам:      d Vy (t) = [A + α∗ ] Vy (t) + [B + β ∗ ] δ(t)+ r(t) r(t) dt     + [K0 + k(t)] y(t) − C Vy (t) , (5.49) r(t)     Vy (t0 ) = Vy0 , r0 r(t0 )  T  ∂C x (t) d! k(t) = M {y(t1 ) − C x (t1 )} , dt (5.50) ∂! k(t) !0 . ! k(t0 ) = k A, B, α∗ ,β ∗ определяются соотношениями (5.39), (5.40). Положим 0 , чтобы протестировать работу адаптивно настраиваемого K0 = 0 коэффициента k(t) в более сложных условиях. Схема объекта та же, что и ранее — на рис. 5.17. Все остальные схемы, кроме подсистемы нахождения оценки вектора состояния, почти во всем повторяют схемы из предыдущего пункта. Результаты моделирования — на рис. 5.41–5.49. 6 Aфанасьев

162

Гл. 5. Отдельные примеры моделирования робастных систем

Рис. 5.41. Подсистема, моделирующая робастно-адаптивный фильтр (5.41)

3 2 1 0 -1 -2 -3 0

50

100

150

Рис. 5.42. Скорость в направлении y − Vy

8 6 4 2 0 -2 0

50

100

150

Рис. 5.43. Робастно-адаптивная оценка скорости в направлении y − Vy

5.2. Управление летательного объекта по крену 5.2.1. Постановка задачи. В качестве объекта управления выбрана упрощенная модель снаряда. Модель объекта представлена на рис. 5.50.

5.2. Управление летательного объекта по крену

163

0,4 0,3 0,2 0,1 0 -0,1 0

50

150

100

Рис. 5.44. Угловая скорость рыскания r

0,6 0,4 0,2 0 -0,2 0

50

150

100

Рис. 5.45. Робастно-адаптивная оценка угловой скорости рыскания r

8,4 8,3 8,2 8,1 8 7,9 7,8 0

50

150

100

Рис. 5.46. Скорость в направлении x − Vx

Движение снаряда описывается системой уравнений третьего порядка (здесь и далее временной аргумент для краткости будем опускать): δ˙e = u,

ω˙ x1 = −

1 Ne + α ωx1 + δe , Tγ Tγ

γ˙ = ωx1 ,

(5.51)

где δe — угол отклонения элеронов; ωx1 — угловая скорость крена; γ — угол крена; Tγ — постоянная времени снаряда; Ne — эффективность элеронов; u — сигнал управления; α — параметр возмущения (−5  α  5). 6*

164

Гл. 5. Отдельные примеры моделирования робастных систем

4 3 2 1 0 -1 0

50

150

100

Рис. 5.47. Робастное управление δ (5.36)

1

10-3

0,8 0,6 0,4 0,2 50

0

150

100

Рис. 5.48. Настройка параметра k − 1

0,4 0,3 0,2 0,1 50

0

150

100

Рис. 5.49. Настройка параметра k1

Если принять следующие обозначения: ⎛   0 0 δe ⎜ Ne + α − 1 x = ωx1 , A = ⎝ Tγ Tγ γ 0 1

0



0⎟ ⎠, 0

  1 B= 0 0

систему (5.51) можно переписать в канонической форме: x˙ = Ax + Bu. Минимизируемый функционал качества задан в виде: T  J= t0

 γ2 δe2 u2 + + dt, 2 γ02 δe0 u20

(5.52)

где γ0 — желаемое максимальное значение γ; δe0 — максимально допустимое значение δe ; u0 — максимально допустимое значение u.

5.2. Управление летательного объекта по крену

165

Рис. 5.50. Модель объекта

T Функционал J представлен в форме (xT Qx + uT Ru)dt, где ⎛

1

0 2 ⎜ δe0 ⎜ Q=⎜ 0 0 ⎝ 0 0



t0

0

⎟ ⎟ 0 ⎟, 1 ⎠

R=

1 . u20

γ02

Назначим числовые данные: Ne = 10 c−1 , u0 = π рад · c−1 , π π δe0 = рад, γ0 = рад. 12 180 . π/ . В качестве начальных условий выберем xT (t0 ) = 0 0 18 С учетом численных данных матрицы A, Q и R примут вид: ⎛ . /2 ⎞ 12   0 0 ⎜ π ⎟ 0 0 0 1 ⎜ ⎟ 0 0 A = 10 + α −1 0 , Q = ⎜ 0 ⎟ , R= 2 . / ⎠ . ⎝ π 0 1 0 180 2 0 0 π (5.53) Построим алгоритм оптимизации заданной системы. Для начала рассмотрим случай оптимального регулятора с полной информацией о состоянии объекта, затем построим робастный регулятор с полной информацией, рассмотрим наблюдатель Луенбергера и фильтр Калмана–Бюси без перестройки параметров. После решения перечисленTγ = 1 c,

166

Гл. 5. Отдельные примеры моделирования робастных систем

ных задач перейдем к конструированию алгоритма перестройки параметров для обоих наблюдателей. Для моделирования будем использовать систему Simulink, входящую в состав пакета Matlab 6.5 (моделирование проведено Т. Караваевой). 5.2.2. Оптимальное управление объектом с полной информацией о его состоянии. Пусть α = 0. Систему (5.15) с учетом (5.23) можно переписать в виде: ⎛ ⎞      0 0 0 δe 1 δ˙e ⎝ ω˙ x ⎠ = 10 −1 0 ωx1 + 0 u, 1 0 1 0 γ 0 γ˙  ⎛ 0 ⎞  δe (t0 ) 0 ⎠. ωx1 (t0 ) = ⎝ π γ(t0 ) 18

Функционал качества примет вид: T  J=

180 π



2 γ + 2

12 π

2 δe2

 1 2 + 2 u dt. π

t0

Оптимальное управление определяется уравнением: u(t) = −R−1 B T Sx(t), где S находится из уравнения SA + AT S − SBR−1 B T S + Q = 0. Состояние оптимальной системы есть решение линейного дифференциального уравнения   x(t) ˙ = A − BR−1 B T S x(t), x(t0 ) = x0 . Схемы, реализующие решение данной задачи, представлены на рис. 5.51, 5.52, графики переходных процессов показаны на рис. 5.53. 5.2.3. Робастное управление объектом с полной информацией о состоянии летательного объекта. Схемы моделирования для данной задачи отличаются от тех, которые представлены в предыдущем параграфе только параметрами настроек блока MatrixGain «A» (см. приложение). На рис. 5.54, 5.55 представлены графики переходных процессов для α = 5 и α = −5, а также сравнение их с переходными процессами для α = 0, которое показывает, что робастное управление лучше справляется со случаем α = 5, чем с α = 0, но хуже со случаем α = −5. π Пусть теперь задано целевое условие: |γ(T )|  , T = 1. 180

5.2. Управление летательного объекта по крену -1

T

R *B * Ku

Product Matrix multiply

167

S Subsystem S

*

Ku 1/s

B

Scope

Integrator A K*u

Рис. 5.51. Нахождение оптимального управления и оптимальной траектории

*

SA uK *

T*

A S * Ku Solve f(z) f(z)=0

*

SB uK *

z

1 S

Algebraic constant Matrix multiply

T*

B S Ku *

Q

Рис. 5.52. Нахождение матрицы S

0,6 0,4 0,2 0 -0,2 -0,4 -0,6 -0,8 0

3 2

1

0,5

1

1,5

2

2,5

3

3,5

4

Рис. 5.53. Графики переходных процессов для случая оптимального регулятора при полной информации о состоянии объекта (1 — δe , 2 — ωx , 3 — γ)

168

Гл. 5. Отдельные примеры моделирования робастных систем

0,4 0,2 0 -0,2 -0,4 -0,6 -0,8 -1 0

Переходные процессы 3

2

1

0,5

0,2 0,1 0 -0,1 -0,2 -0,3 0

1

1,5

1

1,5

2,5 2 Сравнение

3

3,5

4

2,5

3

3,5

4

2 3

1 0,5

2

Рис. 5.54. Графики переходных процессов при α = 5 (1 — δe , 2 — ωx , 3 — γ)

Рис. 5.55. Графики переходных процессов при α = −5 (1 — δe , 2 — ωx , 3 — γ)

На рис. 5.56 показаны графики третьей компоненты вектора x при α = 0, α = 5 и α = −5. Видно, что ко времени T = 1 все три графика попадают в нужную область.

5.2. Управление летательного объекта по крену

169

0,2 0,15 0,1 0,05 0 -0,05 0

1 2 3 0,5

1

1,5

2

2,5

3

3,5

4

Рис. 5.56. Переходные процессы компоненты γ(t) при α = 0, α = 5 и α = −5 (1 — a = 0; 2 — a = 5; 3 — a = −5)

5.2.4. Наблюдатель Луенбергера. Пусть теперь измеряется не   δe весь вектор x, а только две его компоненты (α = 0): y = . γ Построим наблюдатель Люенбергера для ωx1 .   1 0 0 , T = (0 1 0). Так как y = Cx и ωx1 = T x, то C = 0 0 1 В силу этого с учетом того, что CV = I1 , T P = I2 , получим:     1 0 0 V = 0 0 , P = 1 . 0 1 0 Тогда:



  0 1 = −1, D = T AP = 0    0 0 0 1 0 0 0 = (10 0) . E = T AV = 10 −1 0 0 1 0 0 1 0 0 0 10 −1 0 0 1 0

ωx1 + Ey матрицы Подставив в наблюдатель Люенбергера ω x1 = D D и E, получим: ω x1 = − ωx1 + 10δe . Начальные условия для ω x1 возьмем равные 0,3. Управление будем искать в виде:   δe  x1 . u = −R−1 B T S ω γ Схема моделирования представлена на рис. 5.57. Подсистема S совпадает с подсистемой, представленной на рис. 5.52. Графики переходных процессов показаны на рис. 5.58. Если сравнить данные графики со случаем оптимального управления, можно заметить, что процесс стабилизации в этом случае идет несколько хуже.

170

Гл. 5. Отдельные примеры моделирования робастных систем -1*

T

R B * Ku

Product

S Subsystem S

Matrix multiply Gain 10

1/s

Terminator

Integrator

*

Ku B

1/s Scope

Integrator A * Ku

Рис. 5.57. Решение задачи стабилизации с использованием наблюдателя Люенбергера

0,5

2

3

0 -0,5 1 -1 0

0,5

1

1,5

3

2,5

2

3,5

4

Рис. 5.58. Графики переходных процессов (1 — δe , 2 — ωx , 3 — γ)

5.2.5. Фильтр Калмана–Бюси. Фильтр будем строить для объекта, описываемого уравнением x˙ = Ax + Bu + F w,      0 10 −1 0 где A = , B= , F = 0 , w — белый гауссовский 0 1 0 1 шум с интенсивностью W = 0,01. Задан измеряемый процесс 

 y=

ωx1 γ



 +

n1 n2

 ,

где n1 , n2 — белые гауссовские шумы с интенсивностями N1 = N2 = = 0,001.

5.2. Управление летательного объекта по крену

171

Фильтр Калмана-Бюси имеет вид: ⎛ ⎞ d        ω  x1 ω x 1 + n1 ω  x1 ωx1 ⎝ dt ⎠ = 10 −1 − + K , d γ γ + n2 γ  0 1 γ  dt     N1 0 1 0 где K = P C T N −1 , здесь C = , N = , P является 0 1 0 N2 решением уравнения AP + P AT − P C T N −1 CP + F W F T = 0. Управление будем искать в виде:   δe  x1 . u = −R−1 B T S ω γ  Product -1*

T

R B * Ku Matrix multiply

Band-Limited White Noise1 оценка x

y u

Subsystem оценка x B * Ku *

Band-Limited White Noise

Ku F

S Subsystem S

*

Ku Band-Limited White Noise2

1/s Integrator

Scope

A * Ku

Рис. 5.59. Решение задачи стабилизации с использованием фильтра Калмана– Бюси

Схемы, реализующие фильтр Калмана–Бюси, представлены на рис. 5.59–5.61, графики переходных процессов показаны на рис. 5.62. Графики носят колебательный характер из-за наличия постоянных шумовых возмущений, однако под воздействием оптимального управления колебания происходят в окрестности нуля. 5.2.6. Алгоритмы оптимизации, использующие наблюдатель Люенбергера. Схемы, реализующие настройку параметра a(t) в наблюдателе Люенбергера согласно алгоритму, рассмотренному в главе 3, а также само решение задачи стабилизации представлены на рис. 5.63, 5.64.

172

Гл. 5. Отдельные примеры моделирования робастных систем Product3 Matrix multiply

1 y

2 u

K Subsistem K

*

Ku B

1 Оценка x

1/s

Matrix multiply

-CC

Integrator1

*

Ku A

Product

Рис. 5.60. Фильтр Калмана–Бюси *

PA * uK

T

A*P * Ku *

T

PC * uK *

CP * Ku

Solve f(z) f(z)=0 Matrix multiply

[2 2] N

z

1 K

u*K

Algebraic constant

T

C *N

-1

-1

Q F*W*FT

Рис. 5.61. Hахождение матрицы K

1,5 1 0,5

1

2 3

1

3

0 -0,5

2

-1 -1,5 0

0,5

1

1,5

2

2,5

3

3,5

4

Рис. 5.62. Графики переходных процессов (1 — δe , 2 — ωx , 3 — γ)

На рис. 5.65, 5.66 показаны графики переходных процессов, а также поведение параметра a(t) при α = 5 и α = −5. На рис. 5.67, а и б показаны графики переходных процессов с перестройкой параметра a(t) и без нее для α = −5. На рис. 5.67, в представлены графики

5.2. Управление летательного объекта по крену Product

-1*

173

T

R B * Ku

S Subsystem S

Matrix multiply

Gain 10 1/s Integrator

ad *

d w w

*

Ku B

1/s Integrator

Scope

A * Ku

Рис. 5.63. Схема объекта для координатно-параметрической оптимизации с использованием наблюдателя Люенбергера

1 d Constant 0 w 2 3 w

Manual Switch

1 ad

1/s Integrator 1/s Integrator1

100

Product1

Gain Product

Scope

Рис. 5.64. Схема, реализующая настройку параметра a(t)

сравнения переходных процессов систем а) с оптимальными значениями параметров наблюдателя и с включенными цепями оптимизации и б) с неоптимальными значениями параметров наблюдателя и с выключенными цепями оптимизации. Сравнение показывает необходимость перестройки параметра a(t). 5.2.7. Алгоритмы оптимизации, использующие фильтр Калмана–Бюси. Схемы, реализующие настройку параметра a(t) фильтре Калмана–Бюси, а также само решение задачи стабилизации представлены на рис. 5.68–5.70. На рис. 5.71, 5.72 показаны графики переходных процессов, а также поведение параметра a(t) при α = 5 и α = −5. На рис. 5.73, а и б

174

Гл. 5. Отдельные примеры моделирования робастных систем

Переходные процессы

1 0,4 0

2 1

3

-0,5 -1 -1,5 0 1,4 1,2 1 -0,8 -0,6 -0,4 -0,2 0 0

1

0,5

1,5

2

2,5

3

3,5

4

2,5

3

3,5

4

Параметр а

1

0,5

1,5

2

Рис. 5.65. Графики переходных процессов при α = 5 (1 — δe , 2 — ωx , 3 — γ)

0,4 0,2 0 -0,2 -0,4 -0,6 -0,8 -1 0 0,1 0 -0,1 -0,2 -0,3 -0,4 -0,5 -0,6 0

Переходные процессы 3

2

1

0,5

1

1,5

0,5

1

1,5

2,5 2 Параметр а

3

3,5

4

2,5

3

3,5

4

2

Рис. 5.66. Графики переходных процессов при α = −5 (1 — δe , 2 — ωx , 3 — γ)

5.3. Управление боковым движением самолета

175

а) С настройкой

0,5 3

2

0 1 -0,5 -1 0

0,5

1

2,5 1,5 2 б) Без настройки

3

3,5

4

1

2,5 1,5 2 в) Сравнение

3

3,5

4

3

3,5

4

0,5 3

2

0

1 -0,5 -1 0 10

10

0,5 -3

5

3

0 -5 0

2 0,5

1 1

1,5

2

2,5

Рис. 5.67. Сравнение алгоритмов с перестройкой параметра a(t) и без перестройки при α = −5 (1 — δe , 2 — ωx , 3 — γ)

показаны графики переходных процессов с перестройкой параметра a(t) и без нее для α = −5. На рис. 5.73, в представлены графики сравнения переходных процессов систем а) с оптимальными значениями параметров наблюдателя и с включенными цепями оптимизации и б) с неоптимальными значениями параметров наблюдателя и с выключенными цепями оптимизации. Сравнение показывает необходимость перестройки параметра a(t).

5.3. Управление боковым движением самолета 5.3.1. Постановка задачи. В качестве объекта управления выбрана упрощeнная модель самолeта. Движения самолёта по крену, рысканию и скольжению взаимосвязаны и образуют совокупность так

Гл. 5. Отдельные примеры моделирования робастных систем

176 Product

-1*

T

R B * Ku

S Subsystem S

Matrix multiply d оценка x w y

Band-Limited White Noise1

Band-Limited White Noise2

K*u C

B * Ku *

Band-Limited White Noise

Ku F

1/s Integrator

Scope

A * Ku

Рис. 5.68. Схема объекта для координатно-параметрической оптимизации с использованием фильтра Калмана-Бюси

w 2 Subsystem K K

d 1

3 y

Gain1 10 Matrix multiply

Subsystem ad w w ad d K*(y-Cx)

1/s Integrator

1 оценка x 1/s Integrator1

Product

Рис. 5.69. Схема, реализующая фильтр Калмана–Бюси с настраиваемым параметром a(t)

называемого бокового движения. Это движение почти не связано с изменениями угла тангажа и вертикальными перемещениями самолeта, т. е. с его продольным движением. Возмущeнное боковое движение самолeта относительно установившегося горизонтального полeта описывается системой уравнений пятого порядка (здесь и далее временной аргумент будем опускать для

5.3. Управление боковым движением самолета

177

Рис. 5.70. Схема, реализующая настройку параметра a(t)

1 0,5 3

Переходные процессы 1

2 2

0 -0,5 -1 -1,5 0

3 1 0,5

1

1,5

0,5

1

1,5

4

2,5 2 Параметр а

3

3,5

4

2,5

3

3,5

4

3 2 1 0 -1 -2 0

2

Рис. 5.71. Графики переходных процессов при α = 5 (1 — δe , 2 — ωx , 3 — γ)

краткости записи): zβ g β + γ, β˙ = ωy + m0 V0  V0 Jxy 1 ∂Mx β+ ω˙ y + ω˙ x = Jx Jx ∂β  Jxy 1 ∂My β+ ω˙ x + ω˙ y = Jy Jy ∂β γ˙ = ωx , ψ˙ = ωy ,

 ∂Mx ∂Mx ∂Mx ωx + ωy + δe , ∂ωx ∂ωy ∂δe  ∂My ∂My ∂My ωx + ωy + δn , ∂ωx ∂ωy ∂δn

(5.54)

178

Гл. 5. Отдельные примеры моделирования робастных систем

Переходные процессы

1

1

0,5 3 0 -0,5 -1 -1,5 0

2 2

3

1 0,5

1

1,5

0,5

1

1,5

2

2,5 2 Параметр а

3

3,5

4

2,5

3

3,5

4

1 0 -1 -2 -3 0

2

Рис. 5.72. Графики переходных процессов при α = −5 (1 — δe , 2 — ωx , 3 — γ)

где β — угол скольжения; ψ — угол рыскания (курса); γ — угол крена; ωy — угловая скорость рыскания; ωx — угловая скорость крена; δe , δn — углы отклонения элеронов и руля соответственно. Значения моментов инерции и их производных, а также параметров самолeта считаем заданными: zβ m0 V0 1 ∂Mx Jx ∂β 1 ∂My Jy ∂β g V0

1 ∂My 1 ∂Mx = 0,379 с−1 ; = 1,580 с−1 ; Jy ∂δn Jx ∂δe 1 ∂Mx 1 ∂Mx = −1,17 с−1 ; = −0,790 с−1 ; = 0,129 с−1 ; Jx ∂ωx Jx ∂ωy 1 ∂My 1 ∂My = 0,379 с−1 ; = −0,0125 с−1 ; = 0,0096 с−1 ; Jy ∂ωx Jy ∂ωy Jxy Jxy = 0,0438 с−1 ; = −0,0723 с−1 ; = −0,106 с−1 . Jy Jx = −0,0297 с−1 ;

Управление самолeтом осуществляется отклонением элеронов и руля (углы δe и δn ). Минимизируемый функционал качества задаeтся выражением: 1 J = lim (T −t0 )→∞ 2

T  t0

δe δe0

2  2  2  2  δn γ β −ψ + + + dt. δn0 γ0 ε0

(5.55)

5.3. Управление боковым движением самолета

а) С настройкой

1 0,5

2

2

0

1

-1 -1,5 0

0,5

1

2 1

2

0

-2 0

1

0,5

0,5 3

4

3,5

3 3

1

1

-1 0

3

2,5 1,5 2 б) Без настройки

1

-1

-0,5

3

1

3

-0,5

0

179

3

2,5 1,5 2 в) Сравнение

2 4

3,5

1

2 2

1

0,5

3

1

1,5

2

3

2,5

3,5

4

Рис. 5.73. Сравнение алгоритмов с перестройкой параметра a(t) и без перестройки при α = −5 (1 — δe , 2 — ωx , 3 — γ)

V0

b X g

dn Z Рис. 5.74. Модель исследуемого объекта

Гл. 5. Отдельные примеры моделирования робастных систем

180

T

Функционал J представлен в форме (x Qx + u Ru)dt, где ⎛

1 ⎜0 ⎜ Q=⎜0 ⎝0 0

0 0 0 0 0

0 0 0 0 0

t0



0 −2 0 0 ⎟ ⎟ 0 0 ⎟, 1 0 ⎠ 0 1

 R=

1 0 0 1

 ,

δe0 = δn0 = γ0 = ε0 = 1.

С учeтом значений коэффициентов система (5.54) может быть представлена в равносильной форме: β˙ = ωy − 0,0297β + 0,0438γ, ω˙ x = −1,2196β − 0,7948ωx + 0,131ωy + 1,5923δe − 0,0405δn , ω˙ y = 0,4672β + 0,0449ωx − 0,0191ωy − 0,1151δe + 0,3819δn , γ˙ = ωx , ψ˙ = ωy .

(5.56)

Предполагаем, что приборному измерению доступны все компоненты вектора состояний: y = Ex, где x = (β, ωx , ωy , γ, ψ) . Если принять следующие обозначения: ⎛ ⎞ −0,0297 0 1 0,0438 0 0 0⎟ ⎜ −1,2196 −0,7948 0,131 ⎜ ⎟ 0,0449 0,0191 0 0 ⎟, A = ⎜ 0,4672 ⎝ 0 1 0 0 0⎠ 0 0 1 0 0 ⎛ ⎞ 0 0 ⎜ −0,0405 1,5923 ⎟ ⎜ ⎟ B = ⎜ 0,3819 −0,1151 ⎟ , u = (δn , δe ), ⎝ ⎠ 0 0 0 0 систему (5.56) можно переписать в канонической форме: x˙ = Ax + Bu. В реальных условиях эксплуатации объект зачастую отличается от предполагаемой модели вследствие различных помех (ветра, изменения эффективности рулей и элеронов и др.). Также может меняться и требуемое направление. Исходя из этого можно поставить задачу следующим образом: требуется построить закон управления динамическим объектом (5.56) в присутствии шумов, наилучший с точки зрения функционала качества (5.55). 5.3.2. Управление объектом при полной информации о его параметрах и состоянии. В случае полной информации о параметрах и состоянии системы оптимальное управление определяется формулой: δ(t) = −R−1 B T (t)S1 (t)x(t),

(5.57)

5.3. Управление боковым движением самолета

181

где S находится из уравнения типа Риккати: S˙ 1 (t) + S1 (t)A(t) + AT (t)S1 (t) + S1 (t)B(t)R−1 B T (t)S1 (t) + Q = 0, S1 (T ) = S, (5.58) причем S удовлетворяет уравнению типа Риккати–Лурье: SA + AT S + SBR−1 B T S + Q = 0.

(5.58a)

Моделирование проведено М. Петровым и Е. Кочергиной с использованием системы Simulink, входящей в состав пакета Matlab 6.5. Схемы и результаты моделирования поведения системы (5.54) с управлением (5.57)–(5.58a), а также в отсутствие управления, представлены на рис. 5.75, 5.76.

u

Scope1 Scope6 Scope2

-E*u Matrix Gain7 [0;0] Constant3

*

Bu Manual Matrix Switch Gain

1/s

x

Integrator1

Scope3

*

Au Matrix Gain1

Scope4

Scope5

Рис. 5.75. Схема объекта

Выходом является вектор состояния x(t). На рис. 5.76 представлены графики переходных процессов угла скольжения, угловой скорости рысканья, угловой скорости крена, угла крена и угла рысканья соответственно. Период функционирования системы выбран 50 с. Из графиков видно, что регулятор справляется со своей задачей и при заданных начальных отклонениях объекта по углам β и γ выводит систему в первоначальное (нулевое) положение. Для компенсации начальных условий системе необходимо отклонить компоненты ωx и ωy . 5.3.3. Робастное управление детерминированным объектом с неизвестными параметрами. В данном случае (случае интервальной неопределенности) закон управления объектом (5.54) имеет вид: ⎞ ⎛ β   ⎜ ωx ⎟ δn ⎟ ⎜ (5.59) = −E ⎜ ωy ⎟ , δe ⎝ γ ⎠ ψ

182

Гл. 5. Отдельные примеры моделирования робастных систем

1

b

0,5 0 0,5

wx

0 -0,5 0,1

wy

0 -0,1 0,5

g

0 -0,5 0

y

-0,2 -0,4 0

10

20

30

40

50

Рис. 5.76. Графики переходных процессов объекта в отсутствие шумов

Для нахождения оптимально управления (то есть матрицы E), используем функцию системы Matlab [E, S, e] = lqrd(A, B, Q, R, T s):   1,7293 0,16229 3,3393 0,11342 0,45559 E= . 0,0963 0,7494 −0,25027 1,0309 −0,89019 Робастное управление удовлетворяет соотношению: δ(t) = −R−1 B ∗ Sx,

(5.60)

где S — решение уравнения Риккати–Лурье: SA∗ + A∗T S + SB ∗ R−1 B ∗T S + Q = 0.

(5.61)

5.3. Управление боковым движением самолета

183

Замечание. В этом параграфе и далее будет рассматриваться задача d-робастной стабилизации: |r(T )|  d∗ , d∗ = 0,5, T = 150 c. Ниже на рис. 5.77 представлена схема моделирования объекта (5.54) с робастным управлением. Результаты моделирования — на рис. 5.78–5.83. (Графики переходных процессов угла скольжения, угловой скорости рысканья, угловой скорости крена, угла крена и угла рысканья соответственно.)

Рис. 5.77. Схема объекта

0,5 0,4 0,3 0,2 0,1 0 0

50

100

150

Рис. 5.78. Угол скольжения

0,2 0 -0,2 -0,4 -0,6 0

50

100

Рис. 5.79. Угловая скорость крена

150

184

Гл. 5. Отдельные примеры моделирования робастных систем

0,05 0 -0,05 -0,1 -0,15 -0,2 0

50

100

150

Рис. 5.80. Угловая скорость рысканья

0,2 0 -0,2 -0,4 -0,6 0

50

100

150

Рис. 5.81. Угол крена

0 -0,1 -0,2 -0,3 -0,4 0

50

100

150

Рис. 5.82. Угол рысканья

0,5 0 -0,5

1 2

-1 -1,5 0

50

100

150

Рис. 5.83. Управление (угол отклонения элеронов и руля направления)

5.3.4. Робастное управление стохастическим объектом с неизвестными параметрами. Теперь учтем влияние на поведение объекта шумов в измерителе. Положим, что внешние возмущающие воз-

5.3. Управление боковым движением самолета

185

действия можно аппроксимировать белыми шумами. Тогда движение объекта можно описать следующей системой дифференциальных уравнений: (x(t)) ˙ = Ax + Bδ(t) + w(t), (5.62) где a∗ij (t), b∗i (t) по-прежнему определяются соотношениями (5.56), а ω(t) — белый гауссовский шум c интенсивностью W (t). Пусть измеритель состояния объекта описывается уравнением: y(t) = C + n(t),

(5.63)

где n(t) — также белый гауссовский шум с интенсивностью N (t), причем ω(t) и n(t) не коррелируют между собой и с начальным состоянием объекта. Пусть известно: W  W (t)  W , N  N (t)  N . Построить робастное управление по формулам, которые рассматривались ранее, невозможно в силу неизвестности вектора состояния. Если построить наблюдатель, который будет вырабатывать оценку x (t), то робастное управление будет определятся формулой

где

x, δ(t) = −R−1 B ∗ S

(5.64)

SA∗ + A∗T S + SB ∗ R−1 B ∗T S + Q = 0.

(5.65)

При этом фильтр можно организовать различными способами. Рассмотрим два варианта: робастный, и адаптивно-робастный фильтры Калмана.

y u

Scope1

Scope6

u

Scope2

Scope7 x

*

-EE u Matrix Gain7

*

Bu Matrix Gain

1/s

x

Integrator1

Scope3

*

Au Matrix Gain1

Scope4

*

Cu

Scope5

Matrix Gain n Band-Limited White Noise

Рис. 5.84. Схема объекта

w Band-Limited White Noise

186

Гл. 5. Отдельные примеры моделирования робастных систем

Робастный фильтр. Используя результаты § 2.3, построим робастный фильтр Калмана для нашей системы: d ( x) = [A + α∗ ]( x(t))[B + β ∗ ](t) + K ∗ [y(t) − C( x(t))], dt x  = x0 ,

(5.66)

где A = (a∗ij ), B = (b∗i ), α∗ = (α∗ij );

(5.67) (5.68) (5.69)

β ∗ = (βi∗ ),

K ∗ = P ∗ C T (N ∗ )−1 , ∗





(5.70) ∗ T



∗ −1

[A + α ]P + P [A + α ] − P C (N ) T





CP + W = 0,

(5.71)

N ∗ , W ∗ — наихудшие значения матриц интенсивности шумов. Схемы и результаты моделирования — на рис. 5.85–5.98. AA

A#x

A#

Matrix multiply

BB

Product3

B#

Matrix multiply

2 u

1/s Integrator1

Subsystem K

Matrix multiply y-Cx

Scope1

Scope2

Product2 K#

x 1

Scope3

Product1 Scope4 Cx

Scope6

1 y

*

Cu Matrix Gain

Scope5

Рис. 5.85. Подсистема, моделирующая робастный фильтр

Адаптивно-робастный фильтр. Робастно-адаптивный наблюдатель для нашего объекта управления конструируется согласно следующим формулам: d ( x) = [A + α∗ ]( x) + [B + β ∗ ] δ(t) + [K0 + k(t)][y(t) − C( x)], (5.72) dt ( x(t0 )) = x0 ,   T ∂C x (t) d a(t) = M {y(t ) − C x  (t )} , 1 1  dt (5.73) ∂ a(t)   a(t0 ) = a 0 .

5.3. Управление боковым движением самолета

187

u*K A#P#

Matrix Gain3

P#A#'

K*u Matrix Gain4

z

P#

Algebraic constant

Matrix multiply

u*C

Solve f(z) f(z)=0

Product3

Matrix Gain1

W Constant3

C*u

uinvR

Matrix Gain

Matrix Gain5

1 K# P#C'(invN)

Display

Рис. 5.86. Подсистема, решающая уравнение Риккати–Лурье и вычисляющая матрицу K

1 0,5 0 -0,5 -1 0

10

20

30

40

50

60

70

80

90

100

80

90

100

Рис. 5.87. Угол скольжения

0,6 0,4 0,2 0 -0,2 -0,4 0

10

20

30

40

50

60

70

Рис. 5.88. Робастная оценка угла скольжения

Результаты моделирования — на рис. 5.99–5.114.

188

Гл. 5. Отдельные примеры моделирования робастных систем

0,4 0,2 0 -0,2 -0,4 -0,6 0

10

20

30

40

50

60

70

80

90

100

80

90

100

Рис. 5.89. Угловая скорость крена

0,4 0,3 0,2 0,1 0 -0,1 0

10

20

30

40

50

60

70

Рис. 5.90. Робастная оценка угловой скорости крена

0,4 0,2 0 -0,2 -0,4 -0,6 0

10

20

30

40

50

60

70

80

90

100

90

100

Рис. 5.91. Угловая скорость рысканья

0,4 0,2 0 -0,2 -0,4 -0,6 0

10

20

30

40

50

60

70

80

Рис. 5.92. Робастная оценка угловой скорости рысканья

5.4. Управление выводом и сопровождением объекта по нестационарной траектории 5.4.1. Постановка задачи. Пусть управляемый и наблюдаемый линейный динамический объект описывается системой линейных неод-

5.4. Управление выводом и сопровождением объекта

189

0,5 0 -0,5 -1 -1,5 0

10

20

30

40

50

60

70

80

90

100

70

80

90

100

80

90

100

80

90

100

Рис. 5.93. Угол крена

0,8 0,4 0 -0,4 -0,8 0

10

20

30

40

50

60

Рис. 5.94. Робастная оценка угла крена

0,5 0 -0,5 -1 -1,5 0

10

20

30

40

50

60

70

Рис. 5.95. Угол рысканья

0,6 0,4 0,2 0 -0,2 -0,4 0

10

20

30

40

50

60

70

Рис. 5.96. Робастная оценка угла рысканья

нородных дифференциальных уравнений: x˙ 1 (t) = x2 (t), x˙ 2 (t) = −x1 (t) − 2x2 (t) + u(t),

(5.74)

Гл. 5. Отдельные примеры моделирования робастных систем

190

0,2 0,1 0 -0,1 -0,2 0

10

20

30

40

50

60

70

80

90

100

Рис. 5.97. Управление (угол отклонения элеронов)

0,8 0,4 0 -0,4 -0,8 0

10

20

30

40

50

60

70

80

90

100

Рис. 5.98. Управление (угол отклонения руля направления)

Scope1

Scope6 y x u -B#(invR)B#'S

*

-EE u Matrix Gain7

u

Scope2

*

Bu Matrix Gain

1/s

x

Integrator1

Scope3

*

Au Matrix Gain1 y

Cx

*

Cu

Scope5

Matrix Gain

*

-BB EE -B#(invR)B#'S

Scope4

n Band-Limited White Noise

w Band-Limited White Noise

Рис. 5.99. Схема объекта

где x ∈ Rn , u ∈ Rr , r  n, x1 (t0 ) ∈ X1 (t0 ), x2 (t0 ) ∈ X2 (t0 ). Пусть желаемая траектория описывается системой линейных дифференциальных уравнений: z˙1 (t) = (1 + g12 (t))z2 (t), z˙2 (t) = (−1 + g21 (t))z1 (t) + (−2 + g22 (t))z2 (t) + w(t), где w(t) — белый шум; M [w(t)] = 0, интенсивность W , z ∈ Rn .

(5.75)

5.4. Управление выводом и сопровождением объекта

191

a Matrix multiply

AA A0

BB

Product3

B#

Matrix multiply

2 u

Ax x 1

1/s Integrator1

Scope2

Product2 K#

Matrix multiply

Subsystem K

y-Cx

Scope1

Scope3

Product1 Scope4 Cx

y x A0 a K# B#(invR)B#'S Subsystem a

1 y

*

Cu Matrix Gain

Scope5

3 -B#(invR)B#'S

Рис. 5.100. Подсистема, моделирующая робастно-адаптивный фильтр

Параметры траектории изменяются неконтролируемым образом, причем g12  g12 (t)  g12 ,

g21  g21 (t)  g21 ,

g22  g22 (t)  g22 .

Задан интервал управления t ∈ [t0 , T ]. Условием управления объектом (5.74) является вывод объекта на желаемую траекторию (5.75) в интервале [t0 , T1 ], причем T1  T с заданной точностью |η, e(T1 )|  d,

(5.76)

где e(t) = x(t) − y(t), и его дальнейшее сопровождение по траектории с этой же точностью. Качество переходных процессов и расход энергии на выполнение поставленной задачи предлагается оценивать с помощью функционала Больца: J(e, u, v) =

1 T e (T1 )F e(T1 )+ 2 T 1 1 + {eT (t)Q1 e(t) + uT (t)Ru(t) − v T (t)P v(t)} dt. 2 t0

Таким образом, синтезировано робастное управление: u(t) = −R−1 B T K(t)e(t), v(t) = −P −1 N T K(t)e(t),

(5.77)

2 x

1 y

Ceijx

Matrix multiply

d(Cx)/da

Horiz C

Dead Zone

-K-

Horiz C

Рис. 5.101. Подсистема, реализующая адаптивную настройку a(t)

Matrix Concatenation3

Vert Cat

u*C

Integrator9

1/s

1 a

uT

Scope4

4 K#

Math Function6

Matrix 5 Gain1 -B#(invR)B#'S

3 A0

d(Cx)/da

C*u

Matrix Gain2

Matrix Matrix Matrix Concatenation4 Concatenation5 Concatenation6

Horiz C

Matrix multiply Product9

Horiz C

Scope5

Matrix multiply

Integrator1

1/s

d(x)/da

Integrator5

1/s

Matrix Matrix Concatenation1 Concatenation2

Horiz C

a11

Transport Product1 Delay

Subsystem 2

x

Matrix Gain

C*u

eijx

Subsystem 1

x

192 Гл. 5. Отдельные примеры моделирования робастных систем

5.4. Управление выводом и сопровождением объекта

193

*

uK A#P#

Matrix Gain3

P#A#'

K*u Matrix Gain4 *

z

P#

Algebraic constant

Matrix multiply

Cu

Solve f(z) f(z)=0

Product3

Matrix Gain1

W Constant3

*

u C'

uinvN

Matrix Gain

P#C'(invN)

Matrix Gain5

1 K#

Рис. 5.102. Подсистема, решающая уравнение Риккати–Лурье и вычисляющая матрицу K

0,6 0,4 0,2 0 -0,2 0

10

20

30

40

50

60

70

80

90

100

80

90

100

Рис. 5.103. Угол скольжения

0,6 0,4 0,2 0 -0,2 0

10

20

30

40

50

60

70

Рис. 5.104. Адаптивно-робастная оценка угла скольжения

где K(t) является решением уравнения типа Риккати: ˙ K(t) + K(t)A + AT K − K[BR−1 B T − N P N T ]K(t) + Q = 0, K(T ) = F. 7 Aфанасьев

194

Гл. 5. Отдельные примеры моделирования робастных систем

0,1 0 -0,1 -0,2 -0,3 -0,4 0

10

20

30

40

50

60

70

80

90

100

90

100

Рис. 5.105. Угловая скорость крена

0,2 0 -0,2 -0,4 -0,6 0

10

20

30

40

50

60

70

80

Рис. 5.106. Адаптивно-робастная оценка угловой скорости крена

0,2 0,1 0 -0,1 -0,2 0

10

20

30

40

50

60

70

80

90

100

90

100

Рис. 5.107. Угловая скорость рысканья

0,1 0,05 0 -0,05 -0,1 -0,15 0

10

20

30

40

50

60

70

80

Рис. 5.108. Адаптивно-робастная оценка угловой скорости рысканья

На интервале t ∈ [t0 , T1 ], учитывая (5.76), имеем: пусть Φ(t) — фун˙ даментальная матрица решений уравнения (5.74), т. е. Φ(t) = AΦ(t), Φ(0) = I, где I — единичная матрица.

5.4. Управление выводом и сопровождением объекта

195

0,4 0,2 0 -0,2 -0,4 -0,6 0

10

20

30

40

50

60

70

80

90

100

70

80

90

100

Рис. 5.109. Угол крена

0,2 0 -0,2 -0,4 -0,6 0

10

20

30

40

50

60

Рис. 5.110. Адаптивно-робастная оценка угла крена

0,2 0 -0,2 -0,4 -0,6 0

10

20

30

40

50

60

70

80

90

100

80

90

100

Рис. 5.111. Угол рысканья

0,2 0 -0,2 -0,4 -0,6 0

10

20

30

40

50

60

70

Рис. 5.112. Адаптивно-робастная оценка угла рысканья

Учитывая неравенство Коши–Буняковского–Шварца, условие (5.76) для первого интервала можно записать в виде:    T 1    T  η , Φ(t0 )e(t0 ) + Φ(τ )[N P −1 N T − BR−1 B T ]K11 (τ )e(τ )dτ   d.   t0

7*

(5.78)

Гл. 5. Отдельные примеры моделирования робастных систем

196

0,5

1

0

2

-0,5 -1 -1,5 0

10

20

30

40

50

60

70

80

90

100

Рис. 5.113. Робастное управление (угол отклонения элеронов и руля направления)

0,3 0,2 0,1 0 -0,1 -0,2 -0,3 0

10

20

30

40

50

60

70

80

90

100

Рис. 5.114. Адаптивная настройка a(t)

Учитывая e(t) = x(t) − z(t) получим:   T 1    T  −1 T η , Φ(τ )BR B K11 (τ )e(τ )dτ     t0

   T 1     T  η , Φ(t0 )e(t0 ) + Φ(τ )g ∗ (τ )z(τ )dτ  − d. (5.79)   t0

Для второго интервала t ∈ (T1 , T ] запишем:   T     T −1 T η , Φ(τ )BR B K12 (τ )e(τ )dτ     T1

   T    T   η , Φ(t0 )e(t0 ) + Φ(τ )g ∗ (τ )z(τ )dτ  − d. (5.80)   T1

Из условий (5.79) и (5.80) определяют наихудшие значения параметров g ∗ (t) матрицы возмущений. Эти условия служат также проверкой возможного успешного решения задачи управления при конкретныx значениях R.

5.4. Управление выводом и сопровождением объекта

197

5.4.1. Результаты математического моделирования. Имеем:       0 1 0 0 g12 (t) A= ; B= ; G(t) = ; −1 −2 1 −g21 (t) −2g22 (t)     1 0 0 , d = 0,1, T1 = 5, T = 30. ; Q= w(t) = 0 1 1 Проведем исследование гипотетического объекта с использованием пакета Simulink, являющегося частью системы MatLab + Simulink (моделирование проведено Л. Соколовой). На рис. 5.115 изображен общий вид линейного детерминированного объекта с регулятором на языке SIMULINK.

Scope4 x1 z1 x2 u z2 Regulator

u

x1 x2

Scope2

Object z1

z2 Trajectory

Scope1

Scope3

Рис. 5.115. Общая схема линейного детерминированного объекта с регулятором в системе SIMULINK

На рис. 5.116 представлена схема объекта (5.74): u

x1 x2 Object 1/s

1 x1

Integrator 1/s

2 x2

Integrator1

1 u Product

Рис. 5.116. Общая схема объекта

2 Constant

198

Гл. 5. Отдельные примеры моделирования робастных систем

На рис. 5.117 представлена схема регулятора:

Рис. 5.117. Схема регулятора

На рис. 5.118 представлена схема блока траектории: z1 z2 Trajectory

1/s

1 z1

Integrator

0,5 Constant1

Product1

1/s Integrator1

Signal1

0,5

2 z2

Product

Constant

Рис. 5.118. Схема блока траектории

1. Считаем регулятор на случай полной информации о параметрах желаемой траектории g = 0, g = 0. Из вычислений, проведeнных в системе Matlab, следует, что оптимальное управление имеет вид: u(t) = −R−1 B T Ke(t) = −1,4142e1 (t) − − 0,4142e2 (t). 2. Считаем регулятор на случай неполной информации о параметрах желаемой траектории: G(t) = A + g(t), g  g  g, т. е. g21 = 0,5, g22 = 0,5.

g(t) ∈ Ω.

5.4. Управление выводом и сопровождением объекта

199

Из вычислений, проведeнных в системе Matlab, следует, что оптимальное управление имеет вид: u(t) = −R−1 B T [K1 x(t) − K2 z(t)] = = (−0,4142 − 0,4142)x(t) − (−1,618 − 0,618)z(t). 3. Считаем регулятор на случай неполной информации о параметрах желаемой траектории, учитывая, что на z2 накладывается помеха в виде белого гауссовского шума (БГШ) с частотой 5 и дисперсией 0,3 (график 5.119): d z(t) = G(t)z(t) + w(t), G(t) = A + g(t), dt g  g  g, т. е. g21 = 0,5, g22 = 0,5.

g(t) ∈ Ω.

Сигнал

0,5 0

-0,5 0

5

10

15 Время, с

20

25

30

Рис. 5.119. Белый гауссовский шум (БГШ) с частотой 5 и дисперсией 0,3

Из вычислений, проведeнных в системе Matlab, следует, что оптимальное управление имеет вид: u(t) = −R−1 B T [K1 x(t) − K2 z(t)] = = (−0, 4142 − 0,4142)x(t) − (−1,618 − 0,618)z(t). На графиках 5.120, 5.121 изображены выход векторов x1 и z1 , x2 и z2 при полной информации о параметрах желаемой траектории g = 0, g = 0 (случай 1).

Рис. 5.120. Переходные процессы x1 и z1 при полной информации о параметрах (1 — x1 (t); 2 — z1 (t))

200

Гл. 5. Отдельные примеры моделирования робастных систем

Рис. 5.121. Переходные процессы x2 и z2 при полной информации о параметрах (3 — x2 (t); 4 — z2 (t))

На графиках 5.122 и 5.123 изображены ошибки слежения x1 − z1 и x2 − z2 при полной информации о параметрах желаемой траектории g = 0, g = 0 (случай 1). 0,4 0 -0,4 -0,8 -1,2 0

5

10

15

20

25

30

Рис. 5.122. Сравнение x1 и z1 при полной информации о параметрах

1,2 0,8 0,4 0 -0,4 0

5

10

15

20

25

30

Рис. 5.123. Сравнение x2 и z2 при полной информации о параметрах

Графики 5.124, 5.125. На графиках изображены выход векторов x1 и z1 , x2 и z2 при неполной информации о параметрах желаемой траектории g21 = 0,5, g22 = 0,5 (случай 2). Графики 5.126, 5.127. На графиках изображены ошибки слежения x1 − z1 и x2 − z2 при неполной информации о параметрах желаемой траектории g21 = 0,5, g22 = 0,5 (случай 2). Графики 5.128, 5.129. На графике изображены выход векторов x1 и z1 , x2 и z2 при полной информации о параметрах желаемой траектории g21 = 0,5, g22 = 0,5, учитывая, что на z2 накладывается помеха

5.4. Управление выводом и сопровождением объекта

201

Рис. 5.124. Переходные процессы x1 и z1 при неполной информации о параметрах (1 — x1 (t); 2 — z1 (t))

Рис. 5.125. Переходные процессы x2 и z2 при неполной информации о параметрах (3 — x2 (t); 4 — z2 (t))

0,4 0 -0,4 -0,8 -1,2 0

5

10

15

20

25

30

Рис. 5.126. Ошибка слежения ε1 (t) = x1 (t) − z1 (t)

1,2 0,8 0,4 0 -0,4 0

5

10

15

20

25

30

Рис. 5.127. Ошибка слежения ε2 (t) = x2 (t) − z2 (t)

в виде белого гаусовского шума (БГШ) с частотой 5 и дисперсией 0,3 (случай 3). На графиках изображены ошибки слежения x1 − z1 и x2 − z2 при неполной информации о параметрах желаемой траектории g21 = 0,5,

202

Гл. 5. Отдельные примеры моделирования робастных систем

Рис. 5.128. Сравнение x1 и z1 при полной информации о параметрах (1 — x1 (t); 2 — z1 (t))

Рис. 5.129. Сравнение x2 и z2 при полной информации о параметрах (3 — x2 (t); 4 — z2 (t))

0,4 0 -0,4 -0,8 -1,2 0

5

10

15

20

25

30

Рис. 5.130. Ошибка слежения x1 − z1 при неполной информации о параметрах

1,2 0,8 0,4 0 -0,4 0

5

10

15

20

25

30

Рис. 5.131. Ошибка слежения x2 − z2 при неполной информации о параметрах

g22 = 0,5, учитывая, что на z2 накладывается помеха в виде белого гаусовского шума (БГШ) с частотой 5 и дисперсией 0,3 (случай 3).

5.5. Примеры нахождения существования робастного управления

203

Как видно из графиков ошибка робастного управления не превысила заданный показатель робастности, т. е. за время T1 = 5 с объект попадает в трубку |d| = |0,1| и движется по нестационарной траектории, не выходя за пределы трубки.

5.5. Примеры нахождения существования робастного управления для нелинейных объектов Постановка задачи. В этом разделе книги для нелинейных объектов будут найдены области начальных условий, из которых объекты асимптотически эволюционируют к точке устойчивого равновесия при t → ∞. Другими словами, при любых начальных условиях, принадлежащих найденным областям, объекты асимптотически устойчивы. Предполагается, что управление по первому приближению найдено, система «объект-регулятор» имеет вид d x(t) = Lx(t) + F (x(t)), dt

(5.81)

 0 1 — матрица, обеспечивающая устойчивость си−1 −1 стеме; F (x(t)) — вектор-столбец, содержащий задаваемую в примерах нелинейную функцию. Требуется, используя результаты четвертой главы, отыскать область начальных условий, исходя из которых траектории имели бы асимптотический характер движения к точке устойчивого равновесия. В рассматриваемых примерах эта точка x = 0. Решение уравнения (5.81) имеет вид ⎡ ⎤ t x(t) = eLt ⎣x0 + e−Lτ F (x, τ ) dτ ⎦ . (5.82) 

где L =

t0

Матричное нелинейное неравенство, определяющее область допустимых условий, имеет вид T   −Lt  d r F (x, t) −L e−Lt F (x, t) + e−Lt F (x, t)  0. (5.83) dt При t0 = 0 из неравенства (5.83) получаем условие, определяющее область начальных условий для уравнения (5.81):  T d F (x0 , 0) −LF (x0 , 0) + F (x0 , t)t=0  0 dt или  T d F (x0 , t)t=0 F (x0 , 0) − F (x0 , 0)F T (x0 , 0) LT  0. dt

Гл. 5. Отдельные примеры моделирования робастных систем

204

Последнее неравенство будет использовано в примерах. Пример 1. В этом примере F T (x(t)) = (0 x31 (t)).        d x1 (t) 0 x1 (t) 0 1 . = + −1 −1 x2 (t) x31 (t) dt x2 (t) Матричное нелинейное неравенство, определяющее область допустимых начальных условий,      0 0 0 1 2 (0)x (0) − 0 3x 0 x31 (0)  0 2 1 −1 −1 x31 (0) x31 (t)   или 0 −x61 (0)  0. 0 3x31 (0)x2 (0) + x61 (0) Откуда:

x61 (0)  0,

3x51 (0)x2 (0) + x61 (0)  0.

Рис. 5.132. Область начальных условий

Пример 2. В этом примере F T (x(t)) = (0 x22 (t)).        d x1 (t) 0 0 1 x1 (t) . = + x2 (t) −1 −1 x22 (t) dt x2 (t) Матричное нелинейное неравенство, определяющее область допустимых начальных условий,   0 0 2x2 (0)[−x1 (0) − x2 (0) + x22 (0)] − 2 x2 (t)    0 0 1 − (0 x22 (0))  0 −1 −1 x22 (0)   или 0 −x42 (0)  0. 0 2x32 (0)[−x1 (t) − x2 (0) + x22 (0)] + x42 (0)

5.6. Пример нахождения существования робастного управления

205

Рис. 5.133. Область начальных условий

Откуда x42 (0)  0,

  2x32 (0) −x1 (t) − x2 (0) + x22 (0) + x42 (0)  0.

5.6. Пример нахождения существования робастного управления для билинейного объекта Рассмотрим систему уравнений, описывающую билинейную систему с постоянными параметрами:        d x1 0 x1 0 1 = − (5.84) −2 −3 x2 2x1 x2 − 3x22 dt x2 или в координатной форме d x1 = x2 , dt d x2 = −2x1 − 3x2 − 2x1 x2 + 3x22 , x1 (0) = 1, x2 (0) = −1. dt В задаче терминального управления билинейным объектом заданы следующие условия: T = 8, |x1 (T )|, |x2 (T )|  0,2. Линейная модель системы (5.84) имеет вид d x1 = x2 , dt (5.85) d x2 = −2x1 − 3x2 , x1 (0) = 1, x2 (0) = −1. dt Запишем для рассматриваемого примера матричное нелинейное неравенство (4.80), взяв производные по t:   0 (0 (6x2 (0) − 2x1 (0))[−2x1 (0) − 3x2 (0)− 3x22 (0) − 2x1 (0)x2 (0)   0 1 × − 2x1 (0)x2 (0) + 322 (0)]) − −2 −3

206

Гл. 5. Отдельные примеры моделирования робастных систем

 ×

0 3x22 (0) − 2x1 (0)x2 (0)



0 3x22 (0) − 2x1 (0)x2 (0)  0, x1 (0) = 0,

x2 (0) = 0.

Откуда 2 2 3x2 (0) − 2x1 (0)x2 (0)  0, (3x22 (0) − 2x1 (0)x2 (0))[18x32 (0) − 12x1 (0)x2 (0)− −9x22 (0)



18x1 (0)x22 (0)

+

4x21 (0)

+

4x21 (0)x2 (0)]

(5.86)

 0.

Полученное матричное неравенство позволяет определить области начальных условий, траектории, начинающиеся из которых, асимптотически убывают. Из (5.86) имеем следующие условия: x11 = x12 = x13 =

3 x2 , 2 3(2x2 + 3x22 −

% 8x22 + 8x32 + x42 )

4(1 + x2 ) % 3(2x2 + 3x22 + 8x22 + 8x32 + x42 ) 4(1 + x2 )

,

(5.87)

.

Как следует из уравнений (5.87), имеются три такие области начальных условий: [−1, ∞), [−1,17157, −1], (−∞, −6,82871]. На рис. 5.134 показаны эти области (заштрихованные). 30 20 10 0 -10 -20 -30 -10 -8

-6

-4

-2

0

2

4

6

8

10

Рис. 5.134. Области начальных условий асимптотически устойчивой системы (5.84)

На рис. 5.135 показаны переходные процессы линейной модели (верхний график) и билинейной системы (нижний график) (5.84). Как видно из графиков, переходные процессы менее чем за 3 единицы времени (при заданном интервале управления T = 8) входят в «трубку» |x1 (T )|, |x2 (T )|  0,2.

5.6. Пример нахождения существования робастного управления

1 0,8 x 1 0,6 0,4 0,2 0 -0,2 -0,4 -0,6 x 2 -0,8 -1 0 1 2 1 0,8 x1 0,6 0,4 0,2 0 -0,2 x2 -0,4 -0,6 -0,8 -1 0 1 2

3

4

5

6

7

8

9

10

3

4

5

6

7

8

9

10

Рис. 5.135. Графики переходных процессов компонент вектора x(t)

207

Список литературы 1. Алексеев В. М., Тихомиров В. М., Фомин С. В. Оптимальное управление. — М.: Наука, 1979. 2. Атанс М., Фалб П. Оптимальное управление. — М.: Машиностроение, 1968. 3. Афанасьев В. Н., Колмановский В. Б., Носов В. Р. Математическая теория конструирования систем управления. — М.: Высшая школа, 2003. 4. Афанасьев В. Н. Динамические системы управления с неполной информацией. Алгоритмическое конструирование. — М:. КомКнига, 2007. — 216 с. 5. Беллман Р. Теория устойчивости решений дифференциальных уравнений. Изд. 2-е, стереотипное. — М.: Едиториал УРСС, 2003. — 216 с. 6. Бекенбах Э., Беллман Р. Неравенства. Изд.2-е, стереотипное. — М.: КомКнига, 2007. — 280 с. 7. Емельянов С. В., Коровин С. К. Стабилизация неопределенных динамических объектов с непрерывным временем // Новые методы управления сложными системами: Сборник. — М.: Наука, 2004. — C. 87–148. 8. Емельянов С. В., Коровин С. К. Наблюдатели состояния для неопределенных систем. Математическое моделирование. Проблемы и результаты. — М.: Наука, 2003. — C. 12–35. 9. Колдингтон Э. А., Левинсон Н. Теория обыкновенных дифференциальных уравнений. Изд. 2-е, исправленное. — М.: Едиториал УРСС, 2007. — 472 с. 10. Малкин И. Г. Теория устойчивого движения. Изд. 2-е, стереотипное. — М.: Едиториал УРСС, 2004. — 432 с. 11. Немыцкий В. В., Степанов В. В. Качественная теория дифференциальных уравнений. Изд. 3-е, испр. — М.: Едиториал УРСС, 2004. — 552 с. 12. Петров Б. Н., Крутько П. Д. Алгоритмическое конструирование оптимальных регуляторов при неполной информации о состоянии объекта возмущений // Изв. АН СССР. Техническая кибернетика. 1972. № 6. С. 188–199. 13. Поляк Б. Т., Щербаков П. С. Робастная устойчивость и управление. — М.: Наука, 2002. — 303 с. 14. Цыпкин Я. З. Основы информационной теории идентификации. — М.: Наука, 1984. — 320 с. 15. Эльсгольц Л. Э. Качественные методы в математическом анализе. — М.: ГИТТЛ, 1955. — 300 с.