增強學習算法:增強學習（Reinforcement Learning）要 -百科知識中文網

簡介

這個很具有普遍性的問題套用於學習控制移動機器人，在工廠中學習最優操作工序以及學習棋類對弈等。當agent在其環境中做出每個動作時，施教者會提供獎勵或懲罰信息，以表示結果狀態的正確與否。例如，在訓練agent進行棋類對弈時，施教者可在遊戲勝利時給出正回報，而在遊戲失敗時給出負回報，其他時候為零回報。agent的任務就是從這個非直接的，有延遲的回報中學習，以便後續的動作產生最大的累積效應。

學習算法（Q-Learning）

Q學習算法在確定性回報和動作假定下的Q學習算法：

（s表示狀態，a表示動作，Q（s，a）表示對狀態s下動作a得到的總體回報的一個估計，r為此動作的立即回報，γ為折扣因子，其中0≤γ<1）

1。對每個s，a初始化表項Q（s，a）為0

2。觀察當前狀態s

3。一直重複做：

選擇一個動作a並執行它，該動作為使Q（s，a）最大的a。

接收到立即回報r。

觀察新狀態s'。

對Q（s'，a'）按照下式更新表項：

Q（s，a）= r(s，a) +γ* max Q （s'，a'）。

s=s'。

基本原理

強化學習目的是構造一個控制策略，使得Agent行為性能達到最大。Agent從複雜的環境中感知信息，對信息進行處理。Agent通過學習改進自身的性能並選擇行為，從而產生群體行為的選擇，個體行為選擇和群體行為選擇使得Agent作出決策選擇某一動作，進而影響環境。

增強學習是指從動物學習、隨機逼近和最佳化控制等理論發展而來，是一種無導師線上學習技術，從環境狀態到動作映射學習，使得Agent根據最大獎勵值採取最優的策略；Agent感知環境中的狀態信息，搜尋策略（哪種策略可以產生最有效的學習）選擇最優的動作，從而引起狀態的改變並得到一個延遲回報值，更新評估函式，完成一次學習過程後，進入下一輪的學習訓練，重複循環疊代，直到滿足整個學習的條件，終止學習。

增強學習算法

簡介

學習算法（Q-Learning）

基本原理

相關詞條

Python機器學習算法

增強學習與近似動態規劃

機器學習算法

基於學習的圖像增強技術

算法設計與分析習題解答（第3版）

機器學習

SOM算法

算法最佳化

貓群算法

相關搜尋

熱門詞條