內容簡介
從零起步掌握強化學習技術精髓,稱霸人工智慧領域!《深入淺出強化學習:原理入門》針對初學者的需求,直接分析原理,並輔以編程實踐。以解決問題的思路,層層剖析,單刀直入地普及了傳統的強化學習基本方法和當前炙手可熱的深度強化學習方法,直接將讀者帶入強化學習的殿堂。精讀完本書,您能在熟練掌握原理的基礎上,直接上手編程實踐。本書的敘述方式簡潔、直接、清晰,值得精讀!
圖書目錄
1 緒論 1
1.1 這是一本什麼書 1
1.2 強化學習可以解決什麼問題 2
1.3 強化學習如何解決問題 4
1.4 強化學習算法分類及發展趨勢 5
1.5 強化學習仿真環境構建 7
1.5.1 gym 安裝及簡單的demo 示例 8
1.5.2 深入剖析gym 環境構建 10
1.6 本書主要內容及安排 12
第一部分 強化學習基礎 17
2 馬爾科夫決策過程 18
2.1 馬爾科夫決策過程理論講解 18
2.2 MDP 中的機率學基礎講解 26
2.3 基於gym 的MDP 實例講解 29
2.4 習題 34
3 基於模型的動態規劃方法 36
3.1 基於模型的動態規劃方法理論 36
3.2 動態規劃中的數學基礎講解 47
3.2.1 線性方程組的疊代解法 47
3.2.2 壓縮映射證明策略評估的收斂性 49
3.3 基於gym 的編程實例 52
3.4 最優控制與強化學習比較 54
3.5 習題 56
第二部分 基於值函式的強化學習方法 57
4 基於蒙特卡羅的強化學習方法 58
4.1 基於蒙特卡羅方法的理論 58
4.2 統計學基礎知識 67
4.3 基於Python 的編程實例 71
4.4 習題 74
5 基於時間差分的強化學習方法 75
5.1 基於時間差分強化學習算法理論講解 75
5.2 基於Python 和gym 的編程實例 83
5.3 習題 87
6 基於值函式逼近的強化學習方法 88
6.1 基於值函式逼近的理論講解 88
6.2 DQN 及其變種 94
6.2.1 DQN 方法 94
6.2.2 Double DQN 100
6.2.3 優先回放(Prioritized Replay) 102
6.2.4 Dueling DQN 104
6.3 函式逼近方法 105
6.3.1 基於非參數的函式逼近 105
1.3.2 基於參數的函式逼近 111
6.3.3 卷積神經網路 117
6.4 習題 123
第三部分 基於直接策略搜尋的強化學習方法 125
7 基於策略梯度的強化學習方法 126
7.1 基於策略梯度的強化學習方法理論講解 126
7.2 基於gym 和TensorFlow 的策略梯度算法實現 134
7.2.1 安裝Tensorflow 135
7.2.2 策略梯度算法理論基礎 135
7.2.3 Softmax 策略及其損失函式 136
7.2.4 基於TensorFlow 的策略梯度算法實現 138
7.2.5 基於策略梯度算法的小車倒立擺問題 141
7.3 習題 141
8 基於置信域策略最佳化的強化學習方法 142
8.1 理論基礎 143
8.2 TRPO 中的數學知識 153
8.2.1 資訊理論 153
8.2.2 最佳化方法 155
8.4 習題 164
9 基於確定性策略搜尋的強化學習方法 165
9.1 理論基礎 165
9.2 習題 170
10 基於引導策略搜尋的強化學習方法 171
10.1 理論基礎 171
10.2 GPS 中涉及的數學基礎 178
10.2.1 監督相LBFGS 最佳化方法 178
10.2.2 ADMM 算法 179
10.2.3 KL 散度與變分推理 183
10.3 習題 184
第四部分 強化學習研究及前沿 185
11 逆向強化學習 186
11.1 概述 186
11.2 基於最大邊際的逆向強化學習 187
11.3 基於最大熵的逆向強化學習 194
11.4 習題 201
12 組合策略梯度和值函式方法 202
12.1 理論基礎 202
13 值疊代網路 207
13.1 為什麼要提出值疊代網路 207
13.2 值疊代網路 210
14 基於模型的強化學習方法:PILCO 及其擴展 214
14.1 概述 214
14.2 PILCO 216
14.3 濾波PILCO 和探索PILCO 226
14.3.1 濾波PILCO 算法 227
14.3.2 有向探索PILCO 算法 230
14.4 深度PILCO 232
參考文獻 235