基本內容
序貫決策是指按時間順序排列起來,以得到按順序的各種決策(策略),是用於隨機性或不確定性動態系統最最佳化的決策方法。
一個具備序貫理性的參與人很清楚自己在每一個需要作出決定的時刻都需要對已有的決策進行最佳化,而且在做這種最佳化的時候必須把未來需要重新最佳化的這一事實考慮在現有的最佳化決策當中。
生活中難以達到序貫理性原因是:
人們的計算能力是有限的;
人們的理性本身也是有限的(比如感情用事、衝動行事、冒險傾向等)。
1.人們的計算能力是有限的;
2.人們的理性本身也是有限的(比如感情用事、衝動行事、冒險傾向等)。
舉例
用策略式(或稱為標準式)表示靜態博弈,用擴展式表示動態或多階段博弈,描述博弈中的序列結構。策略式博弈中的參與人的策略一旦制定,不再改變。擴展式博弈中的參與人有序貫理性:
參與人可以在博弈的每一個時點重新制定策略;
參與人知道未來可以最佳化自已的策略。
1.參與人可以在博弈的每一個時點重新制定策略;
2.參與人知道未來可以最佳化自已的策略。
實際套用
序貫決策方法廣泛套用於物流配送車輛調度、家電產品運營、應急資源配置等情況。套用序貫決策方法,可大大減少計算量。同時,對於給定的動態系統而言,初始狀態向量為已知,系統經過相當長時間運行後,所選擇的一序列方案,是每一階段的平均收益最大的方案。
在生活中,按照逆向歸納法,我們就能找出下棋時的均衡路徑,這樣我們就分不出高下,只能成為平手。然而,現實中勝負是常見的。其本質就在於對手之間的序貫理性是不一樣,他們對局勢的洞察力是不一樣的。有經驗的老手,眼光顯然比一個新手強上不止幾百倍。