簡介
這個很具有普遍性的問題套用於學習控制移動機器人,在工廠中學習最優操作工序以及學習棋類對弈等。當agent在其環境中做出每個動作時,施教者會提供獎勵或懲罰信息,以表示結果狀態的正確與否。例如,在訓練agent進行棋類對弈時,施教者可在遊戲勝利時給出正回報,而在遊戲失敗時給出負回報,其他時候為零回報。agent的任務就是從這個非直接的,有延遲的回報中學習,以便後續的動作產生最大的累積效應。
學習算法(Q-Learning)
Q學習算法在確定性回報和動作假定下的Q學習算法:
(s表示狀態,a表示動作,Q(s,a)表示對狀態s下動作a得到的總體回報的一個估計,r為此動作的立即回報,γ為折扣因子,其中0≤γ<1)
1。對每個s,a初始化表項Q(s,a)為0
2。觀察當前狀態s
3。一直重複做:
選擇一個動作a並執行它,該動作為使Q(s,a)最大的a。
接收到立即回報r。
觀察新狀態s'。
對Q(s',a')按照下式更新表項:
Q(s,a)= r(s,a) +γ* max Q (s',a')。
s=s'。
基本原理
強化學習目的是構造一個控制策略,使得Agent行為性能達到最大。Agent從複雜的環境中感知信息,對信息進行處理。Agent通過學習改進自身的性能並選擇行為,從而產生群體行為的選擇,個體行為選擇和群體行為選擇使得Agent作出決策選擇某一動作,進而影響環境。
增強學習是指從動物學習、隨機逼近和最佳化控制等理論發展而來,是一種無導師線上學習技術,從環境狀態到動作映射學習,使得Agent根據最大獎勵值採取最優的策略;Agent感知環境中的狀態信息,搜尋策略(哪種策略可以產生最有效的學習)選擇最優的動作,從而引起狀態的改變並得到一個延遲回報值,更新評估函式,完成一次學習過程後,進入下一輪的學習訓練,重複循環疊代,直到滿足整個學習的條件,終止學習。