內容介紹
《複雜數據統計方法——基於r的套用》用自由的日軟體分析30多個可以從國外網站下載的真實數據,包括橫截面數據、縱向數據和時間序列數據,通過這些數據介紹了幾乎所有經典方法及最新的機器學習方法。《複雜數據統計方法——基於r的套用》特點:(1)以數據為導向;(2)介紹最新的方法(附有傳統方法回顧);(3)提供r軟體入門及全部例子計算的日代碼及數據的網址;(4)各章獨立。
《複雜數據統計方法——基於r的套用》的讀者對象包括統計學、套用統計學、經濟學、數學、套用數學、精算、環境、計量經濟學、生物醫學等專業的本科、碩士及博士生,各領域的教師和實際工作者。
作者介紹
吳喜之,北京大學數學力學系本科,美國北卡羅來納大學統計博士。中國人民大學統計學院教授,博士生導師。曾在美國加利福尼亞大學、美國北卡羅來納大學、南開大學、中國人民大學、北京大學等多所著名學府執教。作品目錄
第1章引言1.1作為科學的統計
1.2數據分析的實踐
1.3數據的形式以及可能用到的模型
1.3.1橫截面數據:因變數為實軸上的數量變數
1.3.2橫截面數據:因變數為分類(定性)變數或者頻數
1.3.3縱向數據,多水平數據,面板數據,重複觀測數據
1.3.4多元數據各變數之間的關係:多元分析
1.3.5路徑模型/結構方程模型
1.3.6多元時間序列數據
1.4 r軟體入門
1.4.1簡介
1.4.2動手
第2章橫截面數據:因變數為實數軸上的數量變數
2.1簡單回歸回顧
2.2簡單線性模型不易處理的橫截面數據
2.2.1標準線性回歸中的指數變換
2.2.2生存分析數據的cox回歸模型
2.2.3數據出現多重共線性情況:嶺回歸,lasso回歸,適應性lasso回歸,偏最小二乘回歸
.2.2.4無法做任何假定的數據:機器學習回歸方法
2.2.5決策樹回歸(回歸樹)
2.2.6boosting回歸
2.2.7bagging回歸
2.2.8隨機森林回歸
2.2.9人工神經網路回歸
2.2.10支持向量機回歸
2.2.11幾種回歸方法五折交叉驗證結果
2.2.12方法的穩定性及過擬合
第3章橫截面數據:因變數為分類變數及因變數為頻數(計數)變數的情況
3.1經典logistic回歸,probit回歸和僅適用於數量自變數的判別分析回顧
3.1.1logistic回歸和probit回歸
3.1.2經典判別分析
3.2因變數為分類變數,自變數含有分類變數:機器學習分類方法
3.2.1決策樹分類(分類樹)
3.2.2adaboost分類
3.2.3bagging分類
3.2.4隨機森林分類
3.2.5支持向量機分類
3.2.6最近鄰方法分類
3.2.7分類方法五折交叉驗證結果
3.3因變數為頻數(計數)的情況
3.3.1經典的poisson對數線性模型回顧
3.3.2使用poisson對數線性模型時的散布問題
3.3.3零膨脹計數數據的poisson回歸
3.3.4使用機器學習的算法模型擬合計數數據
3.3.5多項logit模型及多項分布對數線性模型回顧
第4章縱向數據(多水平數據,面板數據)
4.1縱向數據:線性隨機效應混合模型
4.2縱向數據:廣義線性隨機效應混合模型
4.3縱向數據:決策樹及隨機效應模型
4.4縱向數據:縱向生存數據
4.4.1cox隨機效應混合模型
4.4.2分步聯合建模
4.5計量經濟學家的視角:面板數據
第5章多元分析(不區分因變數及自變數)
5.1實數軸上的數據:經典多元分析內容回顧
5.1.1主成分分析及因子分析
5.1.2分層聚類及k均值聚類
5.1.3典型相關分析
5.1.4對應分析
5.2非經典多元數據分析:可視化
5.2.1主成分分析
5.2.2對應分析
5.2.3多重對應分析
5.2.4多重因子分析
5.2.5分層多重因子分析
5.2.6基於主成分分析的聚類
5.3多元數據的關聯規則分析
第6章路徑建模(結構方程建模)數據的pls分析
6.1路徑模型概述
6.1.1路徑模型
6.1.2路徑模型的兩種主要方法
6.2 pls方法:顧客滿意度的例子
6.3協方差方法簡介
6.4結構方程模型的一些問題
第7章多元時間序列數據
7.1時間序列的基本概念及單變數時間序列方法回顧
7.1.1時間序列的一些定義和基本概念
7.1.2常用的一元時間序列方法
7.2單位根及協整檢驗
7.2.1概述
7.2.2單位根檢驗
7.2.3協整檢驗
7.3varx模型與狀態空間模型
7.3.1varx模型擬合
7.3.2狀態空間模型擬合
7.3.3模型的比較和預測
附錄練習:熟練使用r軟體
參考文獻