正則形式的博弈

正則形式的博弈

博弈論中,正則形式是描述博弈的一種方式。與延展形式不同,正則形式不用圖形來描述博弈,而是用矩陣來陳述博弈。與延展形式的表述方式相比,這種方式在識別出嚴格優勢策略納什均衡上更有用,但會丟失某些信息。博弈的正則形式的表述方式包括如下部分:每個參與者所有顯然的和可能的策略,以及和與其相對應的收益

在非完美信息的完全靜態博弈中,正則形式的表述方式詳細地說明了參與者策略空間和收益函式。策略空間是某個參與者的所有可能策略的集合。策略是參與者在博弈的每個階段——不管在博弈中這個階段實際上是否會出現——將要採取的行動的完整計畫。每個參與者的收益函式,是從參與者策略空間的向量積到該參與者收益集合(一般是實數集,數字表示基數效用或序數效用——在正則形式的表述方式中常常是基數效用)的映射。也就是說,參與者的收益函式把策略組合(所有參與者策略的清單)作為它的輸入量,然後輸出參與者的收益。

正則形式的使用

占優策略

合作 背叛
合作 2, 2 0, 3
背叛 3, 0 1, 1

收益矩陣有助於剔除劣勢策略,而且經常被用於說明這個概念。例如,在囚徒困境中(右圖),參與者會發現因為其他人的背叛,合作成了嚴格劣勢策略。參與者會比較每列的第一個數字,在這個例子中,3>2且1>0。這表明無論橫排參與者怎樣選擇,豎排參與者選擇背叛都比較好些。類似地,參與者會比較每列的第二個數字,同樣也是3>2且1>0。這說明無論豎排參與者怎么做,橫排參與者選擇背叛都比較好些。這就證明了此博弈唯一的納什均衡是(背叛,背叛)。

正則形式的連續博弈

一個連續博弈
左,左 左,右 右,左 右,右
4, 3 4, 3 -1, -1 -1, -1
0, 0 3, 4 0, 0 3, 4

這些矩陣只表述同時(或者更一般地,信息不完美的)做出行動的博弈。上述矩陣不能表述甲先做出行動,被乙觀察到,然後乙再做出行動的博弈。因為在這個例子中,無法確定乙每次的策略。為了表述這種連續博弈,我們要列出乙在博弈進行期間所有的行動——儘管根據實際情況,某種行動決不會出現。和前面一樣,在這個博弈中乙有兩種選擇,左和右。與前面不一樣的是,視甲的行動不同而定,乙有四種策略。這些策略是:

1. 如果甲選擇頂,選擇左;否則,選擇左

2. 如果甲選擇頂,選擇左;否則,選擇右

3. 如果甲選擇頂,選擇右;否則,選擇左

4. 如果甲選擇定,選擇右;否則,選擇右

右圖是這個博弈的正則形式的表述方式。

通用公式

為了用把博弈表述成正則形式,需要提供下列數據:

*表示參與者的有限集P,標記為

*每個參與者k在P里擁有有限個純策略.

一個純策略組合是參與者策略的聯合,這是一個m元組.

則有:

我們用來表示策略組合的集合

收益函式形如

其預期解釋是博弈結束時給予單個參與者的獎品。相應地,為了完整地說明一個博弈,收益函式必須在參與者集 P= {1, 2, ..., m}中對每個參與者詳細說明。

定義:一個正則形式的博弈的結構形如

這裡 P = {1,2, ...,m}是參與者集合,

是純策略集合的一個m元組,每個純策略對應於一個參與者,而

是收益函式的m元組。

沒有理由在前面的討論中,把參與者數量有限或每個參與者的策略有限的博弈排除在外。因為要用到泛函分析的技巧,關於有限博弈的研究非常艱深。

實例

一個正則形式的博弈
乙選擇左 乙選擇右
甲選擇頂 4, 3 -1, -1
甲選擇底 0, 0 3, 4

有種博弈是參與者同時(或至少在做出行動前不觀察其他參與者的動作)做出行動,並按照上述已做出行動的組合獲得收益。右邊的矩陣是這種博弈得正則形式的表述方式。例如,如果甲做出行動“頂”,而乙做出行動“左”,則甲得到收收益4,乙得到收益3。在每個回合,第一個數字代表豎排參與者(此處為甲)的收益,第二個數字代表橫排參與者(此處為乙)的收益。

其他表述方式

對稱博弈(其收益不是依賴於參與者選擇的動作)常常被表述為只有一種收益,即豎排參與者的收益。例如,左右兩邊的收益矩陣表述的是同一個博弈。

兩個參與者都有的
雄鹿 野兔
雄鹿 3, 3 0, 2
野兔 2, 0 2, 2
只有豎排的
雄鹿 野兔
雄鹿 3 0
野兔 2 2

相關詞條

熱門詞條

聯絡我們