概要說明
貝葉斯序貫決策的特點
①所研究的系統是動態的,即系統所處的狀態與時間有關,可周期(或連續)地對它觀察;
②決策是序貫地進行的,即每個時刻根據所觀察到的狀態和以前狀態的記錄,從一組可行方案中選用一個最優方案(即作最優決策),使取決於狀態的某個目標函式取最優值(極大或極小值);
③系統下一步(或未來)可能出現的狀態是隨機的或不確定的。
貝葉斯序貫決策的過程
貝葉斯序貫決策的過程是:從初始狀態開始,每個時刻作出最優決策後,接著觀察下一步實際出現的狀態,即收集新的信息,然後再作出新的最優決策,反覆進行直至最後。
系統在每次作出決策後下一步可能出現的狀態是不能確切預知的,存在兩種情況:
①系統下一步可能出現的狀態的機率分布是已知的,可用客觀機率的條件分布來描述。對於這類系統的序貫決策研究得較完滿的是狀態轉移律具有無後效性的系統,相應的序貫決策稱為馬爾可夫決策過程,它是將馬爾可夫過程理論與決定性動態規劃相結合的產物。
②系統下一步可能出現的狀態的機率分布不知道,只能用主觀機率的條件分布來描述。用於這類系統的序貫決策屬於決策分析的內容。