被動強化學習

被動強化學習指的是在完全可觀察環境的狀態下使用基於狀態表示的被動學習。在被動學習中,Agent的策略是Pi是固定的:在狀態s中,它總是執行行動Pi(s)。

背景

傳統的機器學習系統是一個模型逐漸最佳化的學習系統,學習的終極目標是收斂到一個最優解,期待是確定的數學模型。傳統的ML系統方法期待模型直接學習到模式的空間結構,並得到空間結構的等價模型映射,相對於任意模型,學習到的模型是e精度最優的,即是e精度最接近的,這就意味著最大的準確率和最大的泛化性能。

跨越到連線主義的範疇,強化學習是一個反饋式學習系統,其期待是一個不斷根據反饋進行最佳化的模型,並非一次成型。

專家系統由專家構建明確的推理規則和知識節點,模型約束為邏輯約束;監督學習構建明確的函式模型和模型參數,模型約束為拓撲約束;非監督學習形式與監督學習不同而結果相同。強化學習系統附加了一個強化規則/函式,用於實時更新模型。

專家系統、機器學習系統可以構建一個反饋系統的外圍,構建一個強化學習系統,以應對互動和反饋、以及時序輸入和線上模型更新。

直接效用估計

由widrow和hoff在1950s末末期在自適應控制理論裡面提出的 直接效用估計。思想為:認為一個狀態的效用是從該狀態開始往後的期望總回報,二每次實驗對於每個被訪問狀態提供了該值的一個樣本。

直接效用估計使RL成為監督學習的一個實例,其中每一個學習都以狀態為輸入,以觀察得到的未來回報為輸出。此時,RL已經被簡化為標準歸納學習問題。

後記:作為作準歸納學習的直接效用估計,是穩定的且收斂的。

時序差分學習

時序差分學習TD.(Timporal-difference):求解內在的MDP並不是讓Berman方程來承擔學習問題的唯一方法。另外一種方法是:使用觀察到的轉移來調整觀察到的狀態的效用,使得它滿足約束方程。

ADP方法和TD方法實際上是緊密相關的。二者都試圖對效用估計進行局部調整,以使每一狀態都與其後繼狀態相“一致”。一個差異在於 TD調整一個狀態使其與所有已觀察的後繼狀態相一致,而ADP則調整該狀態使其與所有可能出現的後繼狀態相一致,根據機率進行加權演化出的近似ADP算法可以提高几個數量級的運算速度。

相關詞條

熱門詞條

聯絡我們