詳細介紹
全體決策者有一個共同的目標函式,但每個決策者作決策時卻依賴各不相同而又相關的信息的決策理論,簡稱隊論。隊是全體成員有一個共同目標的一種組織。隊中成員之間的關係是合作關係而不是對抗關係。隊論是從信息結構的觀點來研究決策問題的。其主要特徵是,每一個決策者基於所接收到的各不相同而又相關的信息來作各自的決策。為了實現共同目標,所有決策者應協調他們的行動。
發展簡史 隊論原是經濟學家在不完全信息的約束下建立經濟模型時提出來的,後來推廣到工程技術和其他學科。1955年,J.馬爾沙克奠定了隊論的基礎。他研究了在一個組織內如何協調各成員的工作。1962年,R.拉德納把隊論置於可靠的數學基礎上。雖然他們兩人的研究主要在靜態方面,但他們得到的結果可在形式上確定決策問題的信息結構。1972年,何毓琦和祝開景把拉德納的工作推廣到動態情況,後又進行了許多研究,擴大了研究範圍,提出了一些算法。
隊決策模型 隊決策模型有自然狀態、決策變數集合、觀測信息函式集合、策略集合和損失函式等五個基本要素。
自然狀態 指問題的不確定成分,包括隨機初始條件、測量噪聲、不確定參數和隨機擾動等信息。這些信息又稱先驗信息,用一個隨機變數向量ξ=(ξ1,…,ξi,…,ξn)表示,機率分布用P(ξ)表示。n是系統狀態的維數。這種信息在開始制定決策時為每個決策者已知。
決策變數集合 u屌{u1,…,ui,…,um}。其中元素ui為第i個決策者的決策。ui也可以是向量,這時可將它分解為多個決策者,但他們均占有同樣的信息。當同一決策者在不同時間制定多個決策時,若基於不同的信息,就應看成不同的決策者。m是決策者數目。
觀測信息函式集合 z屌{z1,…,zi,…,zm}。其中元素zi為第i個決策者在制定決策時所接收到的信息,包括先驗信息ξ和由通信傳來的其他決策者的決策信息ui。即zi是ξ和uj的函式,記為 zi=ηi(ξ,uj),j=1,2,…,m,j厵i。一般來說,這一信息與第 k個決策者接收到的信息是不同的。集合η屌{η1,…,ηi,…,ηm}稱為信息結構。若zi只依賴於ξ而與其他決策者所作的決策uj無關,則zi只是ξ的函式,記為zi=ηi(ξ)。信息結構對全體決策者均為已知。
策略集合 γ屌{γ1,…,γi,…,γm}。又稱決策規則,相當於控制問題的控制律。其中元素 γi為第i個決策者採用的策略。第i個決策者接收了信息zi之後,必定據此作出某種決策ui,因而ui是zi的函式,記為ui=γi(zi)。這裡的γi(i=1,2,…,m)稱為策略。
損失函式 又稱支付函式、價值函式,用來評價各種決策後果所遭受的損失。它是ξ和u的函式,記為L(ξ,u)。常假定L(ξ,u)可用適當的效用單位來表示。
研究內容 根據信息結構形式的不同,隊論研究的問題分為靜態隊決策、部分嵌套動態隊決策和動態隊決策。
靜態隊決策 簡稱靜隊。指第 i個決策者作決策時用到的信息只依賴於ξ而與其他決策者的決策無關,即ui=γi(zi)=γi(ηi(ξ))。若一組策略已經給定,則損失函式可記為L(ξ,u)=L(u=γ(η(ξ)),ξ)。ξ是隨機變數,對ξ取期望值,用符號Eξ表示。於是,靜隊要解決的問題是求γ壟(i=1,2,…,m),使目標函式J(γ)=Eξ【L(u=γ(η(ξ),ξ)】為最小。這是一個確定型最最佳化問題,稱為正常策略型。除非問題比較簡單,例如損失函式為二次型,ξ是均值為零的高斯隨機變數,η(ξ)為線性函式(簡稱線性二次型高斯問題),γ的維數較低,否則要從整體上直接解出γ壟(i=1,2,…,m)是十分困難的。
一種限制較少的辦法是假定第i個決策者已經知道所有其他決策者的策略i,且已固定為i呏(γ壒,…,γ壠,γ壡,…,γ奰)。這時要求對γi 項求解。於是要解決的問題是求γ壟,使J(γ,)=Eξ【L(u=γ(η(ξ)),,ξ)】為最小。這是一個參數最最佳化問題,稱為半正常策略型。因問題已被i參數化了,半正常策略型的計算仍有一定的困難,不過這可按決策者逐個地用疊代法求解。相對於滿足正常策略型的解的最優性條件而言,這種方法得到的只是必要條件而不是充分條件。R.拉德納證明,線性二次型高斯靜隊問題存線上性最優決策,而且是唯一的。
部分嵌套動態隊決策 簡稱PN動隊。動態指隊中第i個決策者接收到的Zi依賴於第j個決策者的uj(j=1,2,…,m;j厵i),而uj的決策動作在前,Zi的接收動作在後。“動”這一個詞表示決策者的動作有一個次序關係。先後關係就是因果關係,用符號“劏”表示,j劏i表示j先於i,即j的決策能影響i收到的信息,但反之不然。若有一動隊的信息結構,其中第i個決策者的Zi包含了第j個決策者的Zj,便認為Zj嵌套於Zi之中。這時第i個決策者能準確知道第j個決策者所知道的事件,因而可以從Zi決定Zj。至少對部分的i、j而言,j劏i成立,而其餘的並沒有因果關係,這樣的信息結構稱為部分嵌套的信息結構(PN)。可見,若動隊的PN結構是線性的,有一個明顯的特性,當決策規則γ一經確定,第i個決策者前面所有第j、k…個決策者的動作uj、uk…就完全能由Zi確定。因此,如uj、uk…已分別由Zj、Zk…所確定,則在Zi中包含的其他決策者的決策信息uj、uk…便屬多餘,可從Zi中消去。等效的等於Zi減去這些多餘信息。對所有的i均作同樣處理,結果在(i=1,2,…,m)中除ξ外均不包含其他決策者的決策信息。這樣,線性PN動隊就等效地轉換為靜隊問題。何毓琦和祝開景證明,線性二次型高斯PN動隊問題存線上性最優決策,而且是惟一的。
動態隊決策 簡稱動隊。指第 i個決策者接收的Zi,除ξ外還依賴於第j個決策者的決策信息uj,而不具有PN性質,記為Zi=ηi(ξ,uj),j=1,2,…,m,j厵i。動隊信息結構引起兩個困難。①各決策者的決策相互依賴,無限循環。即ui=γi(Zi)=γi(ηi(ξ,uj)),j=1,2,…,m,j厵i,其中uj又可記為uj=γj(ηj(ξ,ui)),i=1,2,…,m,i厵j。②策略依賴現象,使目標函式J中出現γi(γj(…))的多重複合函式項。這樣,即使原給定的損失函式為二次型,也不能保證J為二次型,從而使求解困難。
雖然難以求得動隊問題的最優解,但對線性二次型高斯問題而言,總可求得最優目標值的上下界。對此,先構造一個具有PN結構的輔助問題 墵,其信息由原結構的Zi根據j劏i的每一個Zj擴充而成。對所有的i均作同樣處理,變成嵌套於之中,從而可將墵轉換為靜隊問題來解。解出即可決定Zi。由於給決策者增加一些信息並不會使最最佳化變壞,故由墵求得的最優目標值愭不會大於原問題的最優目標值J*。設問題存線上性最優解,就比原最優解有更多的限制,故求出的最優目標值必不會小於J*。綜合得愭≤J*≤。
研究動隊問題的另一途徑是將一個複雜的動隊問題分解為若干較易求解的簡單的子問題。將全體決策者集合分為互不重疊的子集,把總目標函式分成若干子目標函式,並使總目標函式等於各子目標函式之和。若任何兩個子集之間不存在先後關係,則各子問題最優解的集合就是原問題的最優解。若某些子集的信息嵌套於另一些子集的信息之中,情況便較複雜,但套用PN結構概念,也可分解為互有關聯的子問題,原問題的最優解也可通過子問題的最優解來表示。
隊決策理論與分散控制理論有密切關係。分散控制在信息結構上與隊決策相似。在這個意義下,分散控制可視為隊決策的特定情況。但隊論並不研究系統穩定性、極點配置、能控性、能觀測性等系統理論的重要問題。