哈密頓-雅可比-貝爾曼方程

哈密頓-雅可比-貝爾曼方程(Hamilton-Jacobi-Bellman equation,簡稱HJB方程)是一個偏微分方程,是最優控制的核心。HJB方程式的解是針對特定動態系統及相關代價函式下,有最小代價的實值函式。

簡介

哈密頓-雅可比-貝爾曼方程Hamilton-Jacobi-Bellman equation,簡稱 HJB方程)是一個偏微分方程,是最優控制的核心。HJB方程式的解是針對特定動態系統及相關代價函式下,有最小代價的實值函式。

若只在某一個區域求解,HJB方程是一個必要條件,若是在整個狀態空間下求解,HJB方程是充份必要條件。其解是針對開環系統,但也允許針對閉環系統求解。HJB方程也可以擴展到隨機系統。

一些經典的變分問題,例如最速降線問題,可以用此方法求解。

HJB方程的基礎是以1950年代由理察·貝爾曼及其同仁提出的動態規劃。對應的離散系統方程式一般稱為貝爾曼方程。在連續時間的結果可以視為由卡爾·雅可比及威廉·哈密頓提出,經典力學中哈密頓-雅可比方程的延伸。

最佳控制的問題

哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程

考慮在時間 內,以下確定系統最佳控制的問題:

哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程

其中 C[ ]為標量成本函式, D[ ]為計算其最終狀態時效力時或經濟值的函式, x( t)為系統狀態向量, x(0)假設已知,及 u( t)是想要求得的控制向量,在 0≤ t≤ T。

此系統也需滿足下式:

哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程

其中 F[ ]可以根據狀態向量決定向量後續的變化。

微分方程

對於一個簡單系統,哈密頓-雅可比-貝爾曼微分方程是:

哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程
哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程

它的邊界條件是:

哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程
哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程
哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程
哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程
哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程
哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程
哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程

這裡的 指 關於時間變數 的導數, 表示向量a,b的點乘, 是 關於變數 的梯度。

哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程
哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程
哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程

在上述微分方程中,未知標量 被稱為貝爾曼價值函式,代表了系統從時間 時的狀態開始,按照最優路徑控制,直到時間 時的價值消耗。

方程推導

我們可以這樣得到HJB方程。

哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程

如果 是一個代價函式(或者稱其為貝爾曼價值函式),那么根據理察·貝爾曼的最優性原理,從時間t到t+dt,我們可以得到:

哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程

我們可以注意到,對右邊公式第一項做泰勒展開,可以得到:

哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程
哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程
哈密頓-雅可比-貝爾曼方程 哈密頓-雅可比-貝爾曼方程

這裡的 表示在泰勒展開中,高於1階的無窮小量。如果兩邊同時消去 ,同時除去dt,當dt趨向於0時,對式子取極限,我們就能得到哈密頓-雅可比-貝爾曼(HJB)方程。

相關條目

•貝爾曼方程,離散的哈密頓-雅可比-貝爾曼方程。

•Pontryagin最小值定理,是將哈密頓量最小值,是最佳化必要但不充份的條件,和哈密頓-雅可比-貝爾曼方程相比的好處是只要考慮滿足條件的單一軌跡。

相關詞條

熱門詞條

聯絡我們