貝爾曼方程
維基百科,自由的 encyclopedia
「貝爾曼方程(Bellman Equation)」也被稱作「動態規劃方程(Dynamic Programming Equation)」,由理查·貝爾曼(Richard Bellman)發現。貝爾曼方程是動態規劃(Dynamic Programming)這種數學最佳化方法能夠達到最佳化的必要條件。此方程將「決策問題在特定時間點的值」以「來自初始選擇的報酬 及 由初始選擇衍生的決策問題的值」的形式表示。藉這個方式將動態最佳化問題變成較簡單的子問題,而這些子問題遵守由貝爾曼所提出的「最佳化原理」。
貝爾曼方程最早應用在工程領域的控制理論及其他應用數學領域,而後成為經濟學上的重要工具。
幾乎所有可以用最佳控制理論(Optimal Control Theory)解決的問題也可以透過分析合適的貝爾曼方程得到解決。然而,「貝爾曼方程」通常指離散時間(discrete-time)最佳化問題的動態規劃方程。處理連續時間(continuous-time)最佳化問題上,也有類似的偏微分方程,稱作漢彌爾頓-雅各比-貝爾曼方程(Hamilton–Jacobi–Bellman Equation, HJB Equation)。