納什均衡:納什均衡（Nash equilibrium），又稱為非合作博弈 -百科知識中文網

來源

納什均衡，Nash equilibrium,又稱為非合作博弈均衡，是博弈論的一個重要術語，以約翰·納什命名。約翰·納什1948年作為年輕數學博士生進入普林斯頓大學。其研究成果見於題為《非合作博弈》（1950）的博士論文。該博士論文導致了《n人博弈中的均衡點》（1950）和題為《非合作博弈》（1951）兩篇論文的發表。納什在上述論文中，介紹了合作博弈與非合作博弈的區別。他對非合作博弈的最重要貢獻是闡明了包含任意人數局中人和任意偏好的一種通用解概念，也就是不限於兩人零和博弈。該解概念後來被稱為納什均衡。

約翰·福布斯·納什（JohnForbesNashJr）1948年作為年輕數學博士生進入普林斯頓大學。其研究成果見於題為《非合作博弈》（1950）的博士論文。該博士論文導致了《n人博弈中的均衡點》（1950）和題為《非合作博弈》（1951）兩篇論文的發表。納什在上述論文中，介紹了合作博弈與非合作博弈的區別。他對非合作博弈的最重要貢獻是闡明了包含任意人數局中人和任意偏好的一種通用解概念，也就是不限於兩人零和博弈。該解概念後來被稱為納什均衡。

納什的主要學術貢獻體現在1950年和1951年的兩篇論文，1950年他才把自己的研究成果寫成題為“非合作博弈”的文章刊登在美國全國科學院每月公報上，立即引起轟動。說起來這全靠師兄戴維·蓋爾之功，就在遭到馮·諾依曼貶低，嘲笑幾天之後，他遇到蓋爾，像說夢話似的告訴他自己已經將馮·諾依曼的“最小最大原理找到了普遍化的方法和均衡點。納什這個初出茅廬的小子，根本不知道競爭的險惡，從沒想到學術欺騙的後果。結果還是戴維·蓋爾充當了他的“經紀人”，起草致科學院的簡訊，系主任列夫謝茨則利用方便的人脈關係親自將文稿遞交給科學院。納什寫的文章不多，他辯解說：少了才是精品。1996年諾貝爾經濟學獎得主莫爾里斯當牛津大學艾奇沃思經濟學講座教授時也沒有發表過什麼文章，特殊的人才，必須有特殊的選拔辦法。

Nash平衡是指博弈中這樣的局面，對於每個參與者來說，只要其他人不改變策略，他就無法改善自己的狀況。Nash在證明了在每個參與者都只有有限種策略選擇、並允許混合策略的前提下，Nash平衡一定存在。以兩家公司的價格大戰為例，Nash平衡意味著兩敗俱傷的可能：在對方不改變價格的條件下，既不能提價，否則會進一步喪失市場；也不能降價，因為會出現賠本甩賣。於是兩家公司可以改變原先的利益格局，通過談判尋求新的利益評估分攤方案，也就是Nash平衡。類似的推理當然也可以用到選舉，群體之間的利益衝突，潛在戰爭爆發前的僵局，議會中的法案爭執等。

納什的這兩篇關於非合作博弈論的重要論文，徹底改變了人們對競爭和市場的看法。他證明了非合作博弈及其均衡解，並證明了均衡解的存在性，即著名的納什均衡。從而揭示了博弈均衡與經濟均衡的內在聯繫。納什的研究奠定了現代非合作博弈論的基石，後來的博弈論研究基本上都沿著這條主線展開的。然而，納什天才的發現卻遭到馮·諾依曼的斷然否定，在此之前他還受到愛因斯坦的冷遇。但是骨子裡挑戰權威、藐視權威的本性，使納什堅持了自己的觀點，終成一代大師。

含義

納什均衡是一種策略組合，使得每個參與人的策略是對其他參與人策略的最優反應。

假設有n個局中人參與博弈，如果某情況下無一參與者可以獨自行動而增加收益（即為了自身利益的最大化，沒有任何單獨的一方願意改變其策略的），則此策略組合被稱為納什均衡。所有局中人策略構成一個策略組合（StrategyProfile）。納什均衡，從實質上說，是一種非合作博弈狀態。

納什均衡達成時，並不意味著博弈雙方都處於不動的狀態，在順序博弈中這個均衡是在博弈者連續的動作與反應中達成的。納什均衡也不意味著博弈雙方達到了一個整體的最優狀態，需要注意的是，只有最優策略才可以達成納什均衡，嚴格劣勢策略不可能成為最佳對策，而弱優勢和弱劣勢策略是有可能達成納什均衡的。在一個博弈中可能有一個以上的納什均衡，而囚徒困境中有且只有一個納什均衡。

數學定義

納什均衡的定義：在博弈G=﹛S1,…,Sn：u1,…，un﹜中，如果由各個博弈方的各一個策略組成的某個策略組合（s1*,…，sn*）中，任一博弈方i的策論si*，都是對其餘博弈方策略的組合（s1*,…s*i-1,s*i+1,…，sn*）的最佳對策，也即ui（s1*,…s*i-1,si*,s*i+1,…，sn*）≥ui（s1*,…s*i-1,sij*,s*i+1,…，sn*）對任意sij∈Si都成立，則稱（s1*,…，sn*）為G的一個納什均衡。

經濟學定義

所謂納什均衡，指的是參與人的這樣一種策略組合，在該策略組合上，任何參與人單獨改變策略都不會得到好處。換句話說，如果在一個策略組合上，當所有其他人都不改變策略時，沒有人會改變自己的策略，則該策略組合就是一個納什均衡。

特點

納什均衡是博弈論最重要、最一般化的均衡概念。它是指所有參與人戰略的這樣一種組合：在這一組合中，給定其他參與人的戰略，沒有任何人有積極性改變自己的戰略。換言之，構成納什均衡的戰略對每個人都是最優的。

納什均衡有一個很重要的特點，即信念和選擇之間的一致性。也就是說，基於信念的選擇是合理的，同時支持這個選擇的信念也是正確的。所以，納什均衡具有預測的自我實現（self-enforcement）的特徵：如果所有人都認為這個結果會出現，這個結果就真的會出現（在博弈中的所有組合中，只有納什均衡能滿足自我實施的條件）。

我們可以換一個角度來理解納什均衡：假如在博弈之前，所有的參與人達成一個協定。我們的問題是：在不存在外部強制執行的情況下，每一個人是否有積極性去自覺遵守這個協定？如果每個人都有積極性遵守這個協定，這個協定就構成一個納什均衡。也就是說，給定這個協定，別人遵守的情況下，沒有人會有積極性選擇不同於這個協定的行動，這個協定就是一個納什均衡。反之，如果有任何人有積極性單方面背離這個協定，這個協定就不是一個納什均衡。

套用

納什均衡對我們理解社會制度（包括法律、政策、社會規範等）非常重要。任何制度，只有構成一個納什均衡，才能得到人們的自覺遵守。納什均衡不一定是帕累托最優的，但有效的帕累托最優只有通過納什均衡才能實現。有效的制度設計，就是如何通過納什均衡實現帕累托最優。

納什均衡概念作為博弈分析最重要的概念，對於我們研究和理解制度和許多經濟社會現象非常重要。一個制度即使對所有人都不好，但如果它是一個納什均衡，就仍然會持續存在。反之，一個制度即使聽起來很好，但如果它不是一個納什均衡，就不可能得到所有人的自覺遵守。特別是，如果我們的社會要從囚徒困境中走出來，就必須有辦法使每個人選擇合作成為一個納什均衡。這就是為什麼諾貝爾經濟學獎得主梅耶森（Myerson,1999）認為，發現納什均衡的意義可以和生命科學中發現DNA的雙螺鏇結構相媲美的原因。

納什均衡是一個分析工具，本身不包含價值判斷。我們會經常套用這個概念分析各種規章制度和政策。

分類

納什均衡可以分成兩類：“純戰略納什均衡”和“混合戰略納什均衡”。

要說明純戰略納什均衡和混合戰略納什均衡，要先說明純戰略和混合戰略。

所謂純戰略是提供給玩家要如何進行賽局的一個完整的定義。特別地是，純戰略決定在任何一種情況下要做的移動。戰略集合是由玩家能夠施行的純戰略所組成的集合。而混合戰略是對每個純戰略分配一個機率而形成的戰略。混合戰略允許玩家隨機選擇一個純戰略。混合戰略博弈均衡中要用機率計算，因為每一種策略都是隨機的，達到某一機率時，可以實現支付最優。因為機率是連續的，所以即使戰略集合是有限的，也會有無限多個混合戰略。

當然，嚴格來說，每個純戰略都是一個“退化”的混合戰略，某一特定純戰略的機率為1，其他的則為0。

故“純戰略納什均衡”，即參與之中的所有玩家都玩純戰略；而相應的“混合戰略納什均衡”，之中至少有一位玩家玩混合戰略。並不是每個賽局都會有純戰略納什均衡，例如“錢幣問題"就只有混合戰略納什均衡，而沒有純戰略納什均衡。不過，還是有許多賽局有純戰略納什均衡（如協調賽局，囚徒困境和獵鹿賽局）。甚至，有些賽局能同時有純戰略和混合戰略均衡。

經典案例

智豬博弈

豬圈裡有兩頭豬，一頭大豬，一頭小豬。豬圈的一邊有個踏板，每踩一下踏板，在遠離踏板的豬圈的另一邊的投食口就會落下少量的食物。如果有一隻豬去踩踏板，另一隻豬就有機會搶先吃到另一邊落下的食物。當小豬踩動踏板時，大豬會在小豬跑到食槽之前剛好吃光所有的食物；若是大豬踩動了踏板，則還有機會在小豬吃完落下的食物之前跑到食槽，爭吃到另一半殘羹。

那么，兩隻豬各會採取什麼策略？答案是：小豬將選擇“搭便車”策略，也就是舒舒服服地等在食槽邊；而大豬則為一點殘羹不知疲倦地奔忙於踏板和食槽之間。

原因是，小豬踩踏板將一無所獲，不踩踏板反而能吃上食物。對小豬而言，無論大豬是否踩動踏板，不踩踏板總是好的選擇。反觀大豬，已明知小豬是不會去踩動踏板的，自己親自去踩踏板總比不踩強吧，所以只好親力親為了。

槍手博弈

王者的悲哀。三人對槍自決，甲乙丙槍法優劣遞減。最後無奈而神奇的結局，將不取決於同時開槍還是先後開槍，最優良的槍手，倒下的機率將最高；而最蹩腳的槍手，存活的希望卻最大。因為沒有人會把威脅最小的槍手列為一號清楚目標。在這裡，後發制人的弱勢者將勝出。以弱勝強，絕不是神話。

囚徒困境

假設有兩個小偷A和B聯合犯事、私入民宅被警察抓住。警方將兩人分別置於不同的兩個房間內進行審訊，對每一個犯罪嫌疑人，警方給出的政策是：如果一個犯罪嫌疑人坦白了罪行，交出了贓物，於是證據確鑿，兩人都被判有罪。如果另一個犯罪嫌疑人也作了坦白，則兩人各被判刑8年；如果另一個犯罪嫌人沒有坦白而是抵賴，則以妨礙公務罪（因已有證據表明其有罪）再加刑2年，而坦白者有功被減刑8年，立即釋放。如果兩人都抵賴，則警方因證據不足不能判兩人的偷竊罪，但可以私入民宅的罪名將兩人各判入獄1年。

關於這個案例，顯然最好的策略是雙方都抵賴，結果是大家都只被判1年。但是由於兩人處於隔離的情況，首先應該是從心理學的角度來看，當事雙方都會懷疑對方會出賣自己以求自保、其次才是亞當-斯密的理論，假設每個人都是“理性的經濟人”，都會從利己的目的出發進行選擇。這兩個人都會有這樣一個盤算過程：假如A坦白，B抵賴，B得坐10年監獄，B坦白最多才8年；B要是抵賴，A就可以被釋放，而B會坐10年牢。綜合以上幾種情況考慮，不管A坦白與否，對B而言都是坦白了划算。兩個人都會動這樣的腦筋，最終，兩個人都選擇了坦白，結果都被判8年刑期。

重要影響

這一概念影響深遠，成為博弈論中最為核心的名詞，極大地推動了博弈論的發展及其在社會科學領域中的套用，特別是促進了經濟學的發展。著名博弈論學者、諾貝爾經濟學獎得主邁爾森（Myerson,1999）認為，發現納什均衡的意義可以和生命科學中發現DNA的雙螺鏇結構相媲美。

博弈論所研究的是理性的決策者之間衝突及合作的理論，可以為實際決策提供理論基礎和方向指導。其最終追求結果是使博弈方達到利益最大化的均衡。在生活中，博弈仍然無處不在。博弈論代表著一種全新的分析方法和全新的思想。諾貝爾經濟學獎獲得者保羅-薩繆爾遜如是說：要想在現代社會做個有價值的人，你就必須對博弈論有個大致的了解也可以這樣說，要想贏得生意，不可不學博弈論；要想贏得生活，同樣不可不學博弈論。

納什均衡理論奠定了現代主流博弈理論和經濟理論的根本基礎，正如克瑞普斯（Kreps，1990）在《博弈論和經濟建模》一書的引言中所說，“在過去的一二十年內，經濟學在方法論以及語言、概念等方面，經歷了一場溫和的革命，非合作博弈理論已經成為範式的中心，在經濟學或者與經濟學原理相關的金融、會計、行銷和政治科學等學科中，現在人們已經很難找到不懂納什均衡能夠‘消費’近期文獻的領域。”

納什均衡的重要影響可以概括為以下六個方面：
1．改變了經濟學的體系和結構。非合作博弈論的概念、內容、模型和分析工具等，均已滲透到個體經濟學、總量經濟學、勞動經濟學、國際經濟學、環境經濟學等經濟學科的絕大部分學科領域，改變了這些學科領域的內容和結構，成為這些學科領域的基本研究範式和理論分析工具，從而改變了原有經濟學理論體系中各分支學科的內涵。
2．擴展了經濟學研究經濟問題的範圍。原有經濟學缺乏將不確定性因素、變動環境因素以及經濟個體之間的互動作用模式化的有效辦法，因而不能進行微觀層次經濟問題的解剖分析。納什均衡及相關模型分析方法，包括擴展型博弈法、逆推歸納法、子博弈完美納什均衡等概念方法，為經濟學家們提供了深入的分析工具。
3．加強了經濟學研究的深度。納什均衡理論不迴避經濟個體之間直接的互動作用，不滿足於對經濟個體之間複雜經濟關係的簡單化處理，分析問題時不只停留在巨觀層面上而是深入分析表象背後深層次的原因和規律，強調從微觀個體行為規律的角度發現問題的根源，因而可以更深刻準確地理解和解釋經濟問題。
4．形成了基於經典博弈的研究範式體系。即可以將各種問題或經濟關係，按照經典博弈的類型或特徵進行分類，並根據相應的經典博弈的分析方法和模型進行研究，將一個領域所取得的經驗方便地移植到另一個領域。
5．擴大和加強了經濟學與其他社會科學、自然科學的聯繫。納什均衡之所以偉大，就因為它普通，而且普通到幾乎無處不在。納什均衡理論既適用於人類的行為規律，也適合於人類以外的其他生物的生存、運動和發展的規律。納什均衡和博弈論的橋樑作用，使經濟學與其他社會科學、自然科學的聯繫更加緊密，形成了經濟學與其他學科相互促進的良性循環。
6．改變了經濟學的語言和表達方法。在進化博弈論方面相當有造詣的坎多利（Kandori，1997）對保羅·薩繆爾森（PaulSamuelson）的名言“你甚至可以使一隻鸚鵡變成一個訓練有素的經濟學家，因為它必須學習的只有兩個詞，那就是‘供給’和‘需求’”，曾做過一個幽默的引申，他說，“現在這隻鸚鵡需要再學兩個詞，那就是‘納什均衡’”。