基本信息
出版社: 清華大學出版社; 第1版 (2011年2月1日)
叢書名: 信息技術和電氣工程學科國際知名教材中譯本系列
平裝: 425頁
正文語種: 簡體中文
開本: 16
ISBN: 9787302242925, 7302242925
條形碼: 9787302242925
產品尺寸及重量: 25.6 x 18.6 x 2.2 cm ; 680 g
ASIN: B004P8IWD0
內容簡介
隨機學習與最佳化在現代工程、社會、金融問題中具有廣泛的套用。《隨機學習與最佳化:基於靈敏度的方法》以一個統一的框架,涵蓋了離散事件動態系統的攝動分析、馬爾可大決策過程、強化學習、辨識和自適應控制等學習和最佳化的不同學科;並利用基於性能差分公式的簡單方法介紹馬爾可夫決策過程理論,通過該方法能求得以長期平均代價為準則的n階偏差最佳化策略以及無折扣的Blackwell最佳化策略。《隨機學習與最佳化:基於靈敏度的方法》還包含有最近發展出來的基於事件的最佳化方法,它為利用系統的特性來克服或減輕維數災的研究開闢了個新方向。《隨機學習與最佳化:基於靈敏度的方法》強調以樣本路徑的構造為基礎的物理解釋,物理上的直觀認識可以為完善已有的最佳化方法提供新思路。
為幫助讀者理解掌握書中的內容,《隨機學習與最佳化:基於靈敏度的方法》提供r大量的示例和豐富的習題。
《隨機學習與最佳化:基於靈敏度的方法》適合作為相關專業的研究生教材,學生可從一門課程中學到原本屬於多個不同學科的內容。《隨機學習與最佳化:基於靈敏度的方法》有助於促進學習和最佳化領域中各學科之間的合作,對該領域的研究人員也大有裨益。
1 引言
1.1 學習和最佳化概述
1.1.1 問題描述
1.1.2 最優策略
1.1.3 學習和最佳化的基本局限
1.1.4 學習和最佳化的基於靈敏度的觀點
1.2 不同學科中問題的描述
1.2.1 攝動分析(PA)
1.2.2 馬爾可夫決策過程
1.2.3 強化學習
1.2.4 辨識和自適應控制
1.2.5 基於事件的最佳化和性能勢集結
1.3 學習和最佳化學科關係圖
1.4 術語和符號
習題
第1部分 學習與最佳化的四門學科
2 攝動分析
2.1 馬爾可夫鏈的攝動分析
2.1.1 構造攝動樣本路徑
2.1.2 攝動實現因子和性能勢
2.1.3 性能導數公式
2.1.4 折扣報酬準則的梯度
2.1.5 高階導數和麥克勞林級數
2.2 馬爾可夫過程的性能靈敏度
2.3 半馬爾可夫過程的性能靈敏度
2.3.1 半馬爾可夫過程的基礎知識
2.3.2 性能靈敏度公式
2.4 排隊系統的攝動分析
2.4.1 構造攝動樣本路徑
2.4.2 攝動實現
2.4.3 性能導數
2.4.4 相關理論問題的評註
2.5 其他方法
習題
3 利用攝動分析的學習與最佳化
3.1 性能勢
3.1.1 數值方法
3.1.2 從樣本路徑學習性能勢
3.1.3 耦合
3.2 性能梯度
3.2.1 通過性能勢估計
3.2.2 直接學習
3.3 利用攝動分析的最佳化
3.3.1 梯度方法和隨機逼近
3.3.2 利用長樣本路徑的最佳化
3.3.3 套用
習題
4 馬爾可夫決策過程
4.1 遍歷鏈
4.1.1 策略疊代
4.1.2 偏差最優性
4.1.3 折扣報酬馬爾可夫決策過程
4.2 多鏈
4.2.1 策略疊代
4.2.2 偏差最優性
4.2.3 折扣報酬馬爾可夫決策過程
4.3 n階偏差最佳化問題
4.3.1 n階偏差差分公式
4.3.2 最優性方程
4.3.3 策略疊代
4.3.4 n階偏差最優策略空間
習題
……
第2部分 基於事件的最佳化——一種新方法
第3部分 附錄:數學基礎