簡介
馬氏決策一類可連續進行觀察的隨機動態系統的最最佳化決策。根據在各時刻觀察到的狀態,從允許的決策(控制、措施等)集合中選用一個決策,在這裡假定狀態和決策兩者都不依賴於系統的過去的歷史。在各個時刻選取決策的目的,是使系統運動的全過程達到某種最優運行效果的決策規則,稱為馬氏決策。即每個時刻t選取決策的規則,即與系統在t 以前的歷史無關,又是與當前系統狀態i所對應的決策f(i),i∈S,S是系統全體狀態所成的集合。若各個時刻的決策規則都是相同的馬氏決策,則稱為平穩決策。由於平穩決策的簡單性,因此它是實際套用中特別重要的一類決策。馬氏決策過程是動態規劃與馬爾可夫過程結合的產物,由貝爾曼(Bellman,R.)1957年正式提出並藉助於最優性原理求解最優決策的方法。後來,有人發現尋求最優決策問題可以化為求解相應的線性規劃問題。目前,它已在設備的更換與維修、庫存論、排隊論、控制工程、可靠性理論、搜尋論、水庫調度、林漁業管理、通訊網路等的最最佳化問題中都有套用,並正向工程、生物、經濟等領域滲透。
研究者注意的問題主要有:各類模型及其更一般化的研究;狀態部分可觀察、適應性等模型的理論探討;特殊模型更有效的解法;如何用易於處理的模型去逼近複雜的模型等問題。
發展概況
50年代R.貝爾曼研究動態規劃時和L.S.沙普利研究隨機對策時已出現馬爾可夫決策過程的基本思想。R.A.霍華德(1960)和D.布萊克韋爾(1962)等人的研究工作奠定了馬爾可夫決策過程的理論基礎。1965年,布萊克韋爾關於一般狀態空間的研究和E.B.丁金關於非時齊(非時間平穩性)的研究,推動了這一理論的發展。1960年以來,馬爾可夫決策過程理論得到迅速發展,套用領域不斷擴大。凡是以馬爾可夫過程作為數學模型的問題,只要能引入決策和效用結構,均可套用這種理論。
馬氏決策模型介紹
有限馬氏決策是指狀態集和決策集均有限的馬氏決策過程,離散時間有限馬氏決策模型由五重組組成:
其中各元的含義如下:
(1)狀態集S:由系統所有可能的狀態組成,表示決策者採取決策的依據,非空。對於有限馬爾可夫決策過程來說,S是有限的,用符號i、j、k等來表示狀態。
(2)決策集A:表示可供選擇的決策範圍,對狀態 是在狀態 i 處可用的決策集,也非空。對於有限馬爾可夫決策過程,決策集A(i)是有限的,通常用a來表示決策。
(3)轉移機率 :表示系統在決策時刻n處於狀態i,採取決策 時,則系統在n+1時處於狀態 j 的機率,它與決策時刻n無關。
(4)報酬函式 r(i,a):表示系統在決策時刻n處於狀態i,採取決策 時,系統在本階段獲得的報酬,假定報酬函式 r(i,a)一致有界。
(5)準則函式V:考慮無限階段的系統期望折扣總報酬準則。即在策略 下的無限階段的期望總報酬為: ,其中 表示折扣因子,如折現率。
(6)定義最優值函式:
可以證明,最優值函式 是以下最優方程在可行域B中的惟一解:
指標
衡量策略優劣的常用指標有折扣指標和平均指標。折扣指標是指長期折扣〔把 t 時刻的單位收益折合成0時刻的單位收益的βt(β < 1)倍〕期望總報酬;平均指標是指單位時間的平均期望報酬。 採用折扣指標的馬爾可夫決策過程稱為折扣模型。業已證明:若一個策略是β折扣最優的,則初始時刻的決策規則所構成的平穩策略對同一β也是折扣最優的,而且它還可以分解為若干個確定性平穩策略,它們對同一β都是最優的。現在已有計算這種策略的算法。
採用平均指標的馬爾可夫決策過程稱為平均模型。業已證明:當狀態空間S 和行動集A(i)均為有限集時,對於平均指標存在最優的確定性平穩策略;當S和(或)A(i)不是有限的情況,必須增加條件,才有最優的確定性平穩策略。計算這種策略的算法也已研製出來。
馬爾可夫
馬爾可夫,1856年6月14日生於梁贊,1922年7月20日卒於聖彼得堡。1874年入聖彼得堡大學,受P.L.切比雪夫思想影響很深。1878年畢業,並以《用連分數求微分方程的積分》一文獲金質獎章。兩年後,取得碩士學位 ,並任聖彼得堡大學副教授。1884年取得物理-數學博士學位,1886 年任該校教授。1896年被選為聖彼得堡科學院院士。1905年被授予功勳教授稱號。 馬爾可夫是彼得堡數學學派的代表人物。以數論和機率論方面的工作著稱。他的主要著作有《機率演算》等。在數論方面,他研究了連分數和二次不定式理論 ,解決了許多難題。在機率論中,他發展了矩法,擴大了大數律和中心極限定理的套用範圍。馬爾可夫最重要的工作是在1906~1912年間,提出並研究了一種能用數學分析方法研究自然過程的一般圖式——馬爾可夫鏈。同時開創了對一種無後效性的隨機過程——馬爾可夫過程的研究。馬爾可夫經多次觀察試驗發現,一個系統的狀態轉換過程中第n次轉換獲得的狀態常決定於前一次(第(n-1)次)試驗的結果。
馬爾可夫進行深入研究後指出:對於一個系統,由一個狀態轉至另一個狀態的轉換過程中,存在著轉移機率,並且這種轉移機率可以依據其緊接的前一種狀態推算出來,與該系統的原始狀態和此次轉移前的馬爾可夫過程無關。馬爾可夫鏈理論與方法已經被廣泛套用於自然科學、工程技術和公用事業中。