ПОСТАНОВКА Задачі ОПТИМАЛЬНОГО стохастичную Керування
1. Загальні положення
Позначатімемо - простір станів,,.
Можливі Керування є множини Припустиме Керування, яка у свою черго є підмножіною простору Керування:, . p> Послідовність керуючих функцій,, записана у вігляді
(1),
назівається стратегією Керування.
Задача оптимального Керування системою (1) Полягає в поиска Такої послідовності функцій Керування, что мінімізує цільовій функціонал системи за кроків. Ця послідовність назівається оптимальною стратегією Керування. p> Визначення. Если кількість кроків, на якіх досліджується поведінка системи, є скінченною, то завдання назівається задачею Зі скінченнім горизонтом решение. Если ж ми розв'язуємо задачу на нескінченному часовому інтервалі (), то горизонт решение є нескінченнім.
Задача оптимального стохастичного Керування з дискретністю годиною віпліває Із детермінованої задачі, ЯКЩО система функціонує за умов Випадкове збурень. У цьом випадка функція (1), что візначає стан системи на шкірному Наступний кроці, поклади від потокового стану , Керування и Випадкове збурень:
,. (2)
Збурення є елементами Деяк ймовірнісного простору (де - простір збурень, - алгебра підмножін з) и має Розподіл . <В
2 Критерії якості
Розглянемо спочатку КРИТЕРІЇ якості, Які найчастіше Використовують в детермінованих дискретних завданнях Керування, а потім перейдемо до стохастичного випадка. Если на шкірному кроці Функціонування системи задана функція, что візначає витрати за один крок Керування, то крітерій якості руху матіме вигляд
. (3)
Величина, что назівається коефіцієнтом дисконтування, візначає внесок витрат за ВСІ попередні крокі на шкірному поточному кроці.
Найчастіше крітерій (3) вікорістовується в тихий випадка, коли звітність, розв'язувати задачі, пов'язані з витратами Деяк Видів ресурсів. Саме цею функціонал ми будемо використовуват надалі.
Крім крітерію (3) розглядаються такоже КРИТЕРІЇ, Які мінімізують горизонт системи и є аналогом годині руху для неперервно систем. У цьом випадка цільовій функціонал матіме вигляд
.
Такоже часто в дискретних завданнях Керування Використовують термінальні функціоналі якості
або,
де - завдань стан системи, - кінцевій стан системи.
Оскількі в задачі оптимального стохастичного Керування збурення віпадкові, то может буті Тільки апріорна інформація про них, Наприклад, у вігляді Функції розподілу, відомої Повністю або частково. У цьом випадка Якість процеса Керування оцінюється за помощью формули
,
яка дорівнює математичность сподіванню Функції. br/>
3 Віді функцій Керування стохастичную системою
Задача детермінованого Керування відрізняється від свого стохастичного аналога тім, что в першій відсутні неконтрольовані факторі, и еволюція системи однозначно візначається вибраному | Керування. Отже, у задачі детермінованого Керування для шкірного початкова стану можна заздалегідь вібрато послідовність оптимальних Керування,, ...,,! застосування якіх Дає оптимальне значення функціонала.
Для стохастичної системи в загально випадка цього сделать НЕ можна, оскількі система переходити Зі стану в стан НЕ Тільки под дією Керування; на неї на шкірному кроці такоже вплівають віпадкові величину. Очевидно, что, по-перше, ці Величини могут так Изменить траєкторію системи, что Арбітражний процес раніше за оптімальне Керування в момент его! застосування Вже таких не буде, І, по-друге, інформація, одержувана на шкірному кроці про впливи, что малі місце, может буті додатково Використана для Поліпшення якості Керування (Рис. 1). br/>В
Рисунок 1 - Еволюція стохастичної системи (- завдань стан)
Отже, для розв'язання задач оптимального стохастичного Керування доцільно використовуват стратегії, у якіх - функція минулих станів системи. У цьом випадка схема визначення оптимального Керування на шкірному кроці наступна. Если - Початковий стан системи, то за перше Керування вібірається функція. Если малі місце стани, ..., и були задані Керування, ...,, то Керування на-му кроці вібірається як функція, (для всіх). Отже, для Вибори Керування вікорістовується вся інформація, что є в наявності. Описана стратегія Керування є позіційною, оскількі Керування візначається перелогових від реалізованіх позіцій (станів) системи, на відміну від програмного Керування, коли послідовність Керування візначається заздалегідь, до качану процеса Керування, и є функцією годині.
Розглянемо окремі випадка.
Если,, то Керування назівається стаціонарнім Керування. Такі стратегії найпростіші, оскількі є одним и тим же вектором для всіх моментів годині.
Керування,, назівається марковськими позіційною стратегією (Стратегією, шкірних елемент Якої поклади Тільки от потокового стану си...