цю залежність у вигляді
(1.1)
Рівності (1.1) отримали назву рівнянь станів. Функції вважаємо заданими. p> Варіюючи управління U, отримаємо різну В«ефективністьВ» процесу, яку будемо оцінювати кількісно цільової функцією Z, яка від початкового стану системи і від обраного управління U:
p> (1.2)
Показник ефективності k-го кроку процесу управління, який залежить від стану спочатку цього кроку та управління, обраного на цьому кроці, позначимо через (рис. 1). У розглянутій задачі покрокової оптимізації цільова функція (1.2) повинна бути адитивної, тобто
(1.3)
Зазвичай умовами процесу на управління на кожному кроці накладаються деякі обмеження. Управління, задовольняють цим обмеженням, називаються припустимими.
Задачу покрокової оптимізації можна сформулювати так: визначити сукупність допустимих управлінь, переводять систему з початкового стану в кінцевий стан і максимізує (мінімізують) показник ефективності (1.3).
Для однаковості формулювань (але не обчислювальних процедур!) надалі будемо говорити тільки про задачу максимізації, маючи на увазі, що якщо необхідно мінімізувати Z, то замінивши Z на Z '=-Z перейдемо до максимізації Z'.
Початковий стан і кінцевий стан можуть бути задані однозначно або можуть бути вказані безліч початкових станів і безліч кінцевих станів так, що. В останньому випадку в задачі покрокової оптимізації потрібно визначити сукупність допустимих управлінь, переводять систему з початкового стану в кінцеве і максимізує цільову функцію (1.3). Управління, при якому досягається максимум цільової функції (1.3) називається оптимальним керуванням і позначається через U * =.
Якщо змінні управління приймають дискретні значення, то модель ДП називається дискретною. Якщо ж зазначені змінні змінюються безперервно, то модель ДП називається безперервною. Залежно від числа параметрів станів (s) і числа керуючих змінних на кожному кроці (r) розрізняють одномірні і багатовимірні моделі ДП. Число кроків в задачі може бути або кінцевим, або нескінченним.
ДП застосовується при оптимізації як детермінованих, так і стохастичних процесів.
У деяких завданнях, розв'язуваних методом ДП, процес управління природно розбивається на кроки. Наприклад, при розподілі на кілька років ресурсів діяльності підприємства кроком природно вважати часовий період; при розподілі коштів між n підприємствами номером кроку природно кроку номер чергового підприємства. В інших завданнях розбиття на кроки вводиться штучно. Наприклад, безперервний керований процес можна розглядати як дискретний, умовно розбивши його на деякі часові відрізки - кроки. Виходячи з умов кожної конкретної задачі, довжину кроку вибирають таким чином, щоб на кожному кроці отримати просту задачу оптимізації та забезпечити необхідну точність обчислень.
В
2.2.2 Принцип оптимальності і рівняння Беллмана
Метод динамічного прог...