網路演化博弈

網路演化博弈

演化博弈論是把博弈理論分析和動態演化過程分析結合起來的一種理論。根據演化博弈理論,博弈雙方的策略最終收斂到演化穩定策略(evolutionarily stablestragegy,ESS)上。

相關簡介

博弈論

博弈研究的對象是遊戲(Game),更確切的說,是指在具有雙方相互競爭對立的環境條件下,參與者依靠所掌握的信息,在一定的規則約束下,各自選擇策略並取得相應結果(或收益)的過程。博弈論就是使用數學模型研究衝突對抗條件下最優決策問題的理論。
博弈論被認為是研究自然和人類社會中普遍存在的合作行為最為有力的手段。博弈模型反映了自私的個體之間的合作競爭關係,能夠很好地刻畫生物系統中生物體之間的相互作用關係及演化動力學。
通常博弈由以下4個部分所組成:

博弈論 博弈論

(1)博弈個體:在一個博弈中至少有兩位決策者(agent)參與博弈.

(2)策略集:個體的博弈策略可以是純策略,也可以是混合策略博弈的策略集由參與博弈的個體所有可能採用的策略所組成.
(3)收益矩陣:當博弈個體選定好自己的策略後,其所獲取的收益由收益矩陣中的相應元素來確定.
(4)策略演化: 在多輪博弈過程中,博弈個體遵循自身收益最大化的最終目標,即以此目標為指導原則來進行策略調整。

經典博弈模型

囚徒困境 囚徒困境

囚徒困境博弈

雪堆博弈

演化網路博弈基本定義

要討論合作的湧現,必須涉及相當數量的個體(局中人),而且合理地認為這些局中人以及他們之間的關係構成一個複雜網路,隨著時間的演化,每個局中人都在和他的鄰居進行博弈,這就稱為演化網路博弈,它的定義可以表述為:
(1)數量N→∞的局中人位於一個複雜網路上。
(2)每個時間演化步,按一定法則選取的一部分局中人以一定頻率匹配進行博弈。
(3)局中人採取的對策可以按一定法則更新,所有局中人的策略更新法則相同。這種法則稱為“策略的策略”。然而,法則更新比博弈頻率慢得多,使得局中人可以根據上一次更新對策成功與否選擇、調整下一次的更新。(4)局中人可以感知環境、吸取信息,然後根據自己的經驗和信念,在策略更新法則下更新策略。
(5)策略更新法則可能受到局中人所在網路拓撲結構的影響。

演化網路博弈研究內容

第一,研究網路拓撲結構對博弈演化動力學的影響。
第二,探索一些可能的支持合作行為湧現的動力學機制。
第三,研究博弈動力學和網路拓撲結構的共演化,即個體策略和網路拓撲結構協同演化的情形。

促進合作行為湧現的機制

重複博弈(爭鋒相對、冷酷策略)、巴普洛夫策略、親緣選擇、直接互惠、間接互惠(聲譽)、網路互惠以及群選擇。
公共利益博弈

演化博弈論與經典博弈論的區別

網路博弈 網路博弈

(1)策略內涵的不同:不同行為 到生物系統中的不同類型物種本身,策略由物種的不同表現型來體現;
(2)均衡意義的不同:納什均衡到演化穩定策略(ESS);

(3)個體互相作用方式的不同(博弈個體與博弈次數)

網路上的演化博弈研究方向

(1)研究網路拓撲結構對博弈動力學演化結果的影響;
(2) 一定的網路結構下,探討各種演化規則對演化結果的影響;
(3)網路拓撲和博弈動力學的共演化,主要是自 適應網路上博弈動力學 ,即網路拓撲調整受博弈動力學影響.

網路演化博弈的策略更新規則

(1)模仿最優者:即在每輪博弈過後,個體採取其鄰居中獲得最高收益的個體的策略進行下一輪博弈。
(2)模仿優勝者:即個體在策略更新時,同時參考那些收益比自身高的鄰居的策略,以正比於他們所得收益的機率進行策略轉變。
以上兩種規則可以統稱為模仿策略. 模仿策略的基本思想是個體的更新策略,根據鄰居中收益最高的個體策略進行模仿,以期獲得更高的收益。

(3)配對比較:即個體隨機選擇某一鄰居進行收益的比較,以某個機率(為此兩個體收益差的函式)轉變為對方的策略!

費米函式 費米函式

每個節點(對應博弈者假設為P1)隨機的選取他的一個鄰居節點(對應博弈者假設為P2),P1以一定機率W模仿P2的策略,常用的演化規則(統計力學的費米函式)

其中,Ui表示Pi的累積收益,參數κ>0為噪音,代表了一種非理性行為的可能,一般是一個很小的值,常取0.1。當κ→∞時,表示所有的信息都被噪音淹沒,策略進行完全隨機的更新;當κ→0時,表示確定的模仿規則,即當P2的累積收益高於P1時,P1則採取P2的策略。
另一類演化規則

另一規則 另一規則

其中,kmax為P1與P2中較大度節點的度,P,T,S,R為2×2收益矩陣元素。

演化規則 演化規則
資料 資料

(4)隨機過程方法:通常考慮Moran過程(birth一death) (或者death一birth過程) , 即在策略更新時,以正比於個體適應度(由收益來衡量)的機率產生一個新的個體,然後隨機取代此個體的某個鄰居。
Moran過程是將Darwin的進化思想直接引入到演化博弈中。一個實際背景是種群中的變異入侵,以下圖為例,種群中所有個體“C”,當某個個體發生變異後,變為”D”,以後每一步考慮隨機移去一個個體,並以正比於原種群中“C”個體適應度的機率生成一個新的“C”個體,否則生成一個新的“D”個體。在適應度函式滿足一定條件時,“D”個體可能完全侵占整個種群(Invade),
Martin A.Nowak等人研究了這類種群侵占問題,將某種策略從種群中僅存在一個變異個體時,最終能侵占整個種群的機率定義為策略的紮根機率。

死生過程是Moran過程的一個自然推廣,原始網路中存在合作“C”、背叛“D”兩種策略,按照連邊關係個體之間進行博弈,獲得一個累計收益,其中b表示合作收益,即遇到對手採取合作時獲得收益;c表示合作代價,即個體採取合作獲得負收益。隨機選擇選擇一個個體死亡(假設為位於中間位置的“D”節點),則其所有的鄰居按照正比於個體適應度的機率產生一個後代,填補個體死亡後留下的空位。重複這一過程,種群中的策略將達到動態平衡。

相關詞條

熱門詞條

聯絡我們