前言信息
本書的主要內容 :第 1章,R語言入門 .主要介紹 R的基本使用方法 ,如 R的下載與安裝;向量、矩陣、數組、列表、數據框等對象的特點 ,以及數據的讀寫、控制流和相應程式設計.第 2章,數值計算 .主要介紹與數值分析相關的部分內容 ,如非線性方程組求解、函式求極值、數據擬合與數值積分等 .第 3章,R語言繪圖 .主要介紹 R中的繪圖函式 ,如高、低水平繪圖函式 ,以及繪圖參數的設定 .第 4章,機率、分布與隨機模擬 .主要介紹 R中重要分 布函式的計算 ,以及隨機抽樣與隨機模擬的方法 .第 5章,假設檢驗 .主要介紹重要的參數檢驗 ,如 t檢驗、 F檢驗和重要的非參數檢驗 ,如秩檢驗、分布檢驗、列聯表檢驗 .第 6章,回歸分析 .主要介紹各種回歸方法 ,如線性回歸、穩健回歸、非線性回歸和廣義線性回歸 .第 7章,多元統計分析 .介紹各種多元分析方法 ,如方差分析、判別分析、聚類分析、主成分分析、因子分析和典型相關分析 .第 8章,多元分布 .主要介紹多元常態分配函式和相應的檢驗方法 ,如均值向量的檢驗 ,以及相關程式包的下載 ,這部分內容是需要下載擴展程式包才能完成的.《統計建模與 R軟體》一書出版 (2007年 4月出版 )已有 7個年頭 ,當初編寫此書的主要目的是希望學生在數學建模競賽中 ,使用 R軟體解決他們可能遇到的統計問題 .隨著 R軟體在中國的普及與發展 ,此書有幸成為 R語言初學者的入門教材 1 .因此 ,當有人向我建議,專門編寫一本 R語言的入門教材時,本人欣然同意,並著手這方面的工作.
真正開始編寫教材後 ,遇到的困難超出我的想像 .首先 ,R語言涵蓋的內容非常廣泛 ,而且國內近年來已出版了大量與 R語言有關的書籍 ,哪些內容是初學者必備的知識 ?其次 ,如何處理本書與前一本書的關係 ,哪些內容需要保留 ,哪些知識又需要補充 ?再次 ,統計知識介紹到什麼程度 ?R語言是進行統計分析的工具 ,如果本書 “只是講解 R”,是不可能做到的 .
R語言是一種自由軟體程式語言與操作環境 ,主要用於統計分析、繪圖、數據挖掘 .R本來是由紐西蘭奧克蘭大學的 Ross Ihaka和 Robert Gentleman開發(也因此稱為 R),現在由 “R開發核心團隊 ”負責開發 .雖然 R是主要用於統計分析的軟體 ,但也有人用作矩陣計算,其分析速度可媲美專用於矩陣計算的自由軟體 GNU Octave和商業軟體 MATLAB2 .
本書是 R語言的一本入門教材 ,它包括 R軟體下載與安裝、程式包的載入和基本的 R命令 ,這些都是學習 R所必備的內容 .為了避免同時講授統計知識和 R語言可能產生的困難,本書假定讀者對相關的統計知識有了一定的了解 .書中只是結合最基本的統計知識 ,介紹相關函式的使用方法 ,以及如何使用內置函式去解決統計中的問題 ,相關統計知識的介紹是為了更好地理解函式中相應參數的意義.
雖然 R是一款統計軟體 ,但它也涉及數值分析的相關內容 ,而且這些內容是統計計算中不可缺少的內容 .因此 ,本書用一章的篇幅對數值分析的部分內容作了簡要的介紹 .介紹它們的另一個目的是學習 R語言的編程 ,R與其他計算機語言一樣 ,是可以進行編程的 .學會編程可以擴展 R的使用範圍 ,這也是使用 R進行科學研究必備的條件 .R的另一個強大的功能是繪圖 ,本書也用一章的篇幅系統地介紹了 R語言的繪圖函式 ,以及繪圖參數的設定.
本書的每一章 ,基本上是針對一類 (統計 )問題設計的 ,討論的內容由淺入深、循序漸進.完成一章的學習後 ,基本上能完成相關內容的計算與分析 .雖然是一本入門教材 ,但了解 R的擴展功能還是必不可少的 ,本書以多元分布為例 ,介紹擴展包的下載與安裝、擴展函式的使用,為讀者學會下載和使用與自己學習和工作相關的擴展函式打下基礎.
本書所介紹的 R函式均以 R-2.15.2版本 1為基準 ,所有函式 (包括自編函式 )均通過測試,讀者如果需要書中例題的相關程式 ,以及例題和部分習題的數據檔案 ,可以傳送電子郵件向作者索取。
本書是一本 R語言入門教材 ,適合於理工、經濟、管理、生物等專業的本科生、研究生 ,或者相關專業的技術人員學習 R軟體使用 ,可以作為 “統計計算 ”課程的教材或教學參考書,也可作為數學建模競賽培訓的輔導教材.
由於受編者水平所限 ,書中一定存在不足甚至錯誤之處 ,歡迎讀者不吝指正 。
編者
2014年 3月於北京工業大學
目錄信息
第 1章 R語言入門 .1
1.1 R語言簡介1
1.1.1 R軟體的下載與安裝 . 1
1.1.2初識 R. 2
1.1.3下拉式選單與捷徑.4
1.2向量. .15
1.2.1基本運算 15
1.2.2數據對象 17
1.2.3向量賦值 18
1.2.4產生有規律的向量 19
1.2.5邏輯向量 21
1.2.6向量中的缺失數據 21
1.2.7字元型向量 . 22
1.2.8用 vector函式生成向量 . 24
1.2.9複數向量 25
1.2.10向量的下標運算 . 25
1.2.11與數值向量有關的函式 27
1.3因子. .28
1.3.1 factor函式 28
1.3.2 gl函式 29
1.3.3與因子有關的函式 29
1.4矩陣. .30
1.4.1矩陣的生成 . 30
1.4.2與矩陣運算有關的函式 . 31
1.4.3矩陣下標 33
1.5數組. .34
1.5.1數組的生成 . 34
1.5.2數組下標 34
1.5.3 apply函式 36
1.6對象和它的模式與屬性.36
1.6.1固有屬性:mode和 length 37
1.6.2修改對象的長度.37
1.6.3 attributes和 attr函式 38
1.6.4對象的 class屬性 . 39
1.7列表. .39
1.7.1列表的構造 . 39
1.7.2列表的修改 . 40
1.7.3返回值為列表的函式 40
1.8數據框 . 40
1.8.1數據框的生成 . 41
1.8.2數據框的引用 . 42
1.8.3 attach函式. .42
1.8.4 with函式 . 43
1.8.5列表與數據框的編輯 43
1.8.6 lapply函式和 sapply函式.43
1.9讀、寫數據檔案 44
1.9.1讀純文本檔案 . 44
1.9.2讀取其他軟體格式的數據檔案 46
1.9.3讀取 Excel表格數據 47
1.9.4數據集的讀取 . 49
1.9.5寫數據檔案 . 50
1.10控制流 51
1.10.1分支函式. .51
1.10.2中止語句與空語句 52
1.10.3循環函式. .53
1.11 R程式設計 . 54
1.11.1函式定義. .54
1.11.2定義新的二元運算 56
1.11.3有名參數與默認參數. .56
1.11.4遞歸函式. .57
1.11.5程式運行. .57
1.11.6程式調試. .59習題 1 . 61
第 2章數值計算 63
2.1向量與矩陣的運算 . 63
2.1.1向量的四則運算.63
2.1.2向量的內積與外積 64
2.1.3矩陣的四則運算.65
2.1.4矩陣的函式運算.66
2.1.5求解線性方程組.67
2.1.6矩陣分解 69
2.2非線性方程 (組)求根 73
2.2.1非線性方程求根.73
2.2.2求解非線性方程組 77
2.3求函式極值 80
2.3.1一元函式極值 . 80
2.3.2多元函式極值 . 81
2.4插值. .87
2.4.1多項式插值 . 87
2.4.2分段線性插值 . 88
2.4.3分段 Hermite插值 90
2.4.4三次樣條函式 . 90
2.5數據擬合 . 93
2.5.1最小二乘原理 . 93
2.5.2求解超定線性方程組的 QR分解方法 . 94
2.5.3多項式擬合 . 97
2.6數值積分 . 97
2.6.1梯形求積公式 . 97
2.6.2 Simpson求積公式 .98
2.6.3 integrate函式 . 99習題 2 100
第 3章 R語言繪圖 103
3.1高水平繪圖函式.103
3.1.1基本繪圖函式 —— plot函式 103
3.1.2多組圖 —— pairs函式.105
3.1.3協同圖 —— coplot函式 . 109
3.1.4點圖 —— dotchart函式 . 110
3.1.5餅圖 —— pie函式 . 113
3.1.6條形圖 —— parplot函式 114
3.1.7直方圖 —— hist函式 115
3.1.8箱線圖 —— boxplot函式 117
3.1.9 Q-Q圖 —— qqnorm函式. .119
3.1.10三維透視圖 —— persp函式 120
3.1.11等值線 —— contour函式 . 122
3.2圖形參數 . .123
3.2.1高水平繪圖函式中的參數 124
3.2.2圖形參數的永久設定 . 124
3.2.3圖形參數的臨時設定 . 125
3.2.4圖形元素控制 125
3.3低水平圖形函式.127
3.3.1添加點、線、文字、符號或數學表達式 . 127
3.3.2添加直線、線段和圖例 . 130
3.3.3添加圖題、邊與盒子 . 132
3.3.4添加多邊形或圖形陰影 134
3.3.5互動圖形函式 135
3.4圖形參數 (續) . 136
3.4.1坐標軸與坐標刻度 . 136
3.4.2圖形邊空 .137
3.4.3多圖環境 .138
3.5圖形設備 . .143習題 3 144
第 4章機率、分布與隨機模擬 . 146
4.1組合數與機率計算 146
4.1.1生成組合方案 146
4.1.2生成組合數 146
4.1.3機率計算 .146
4.2分布函式 . .147
4.2.1分布函式 .147
4.2.2分位數 . 148
4.3常用的分布函式.148
4.3.1常態分配 .148
4.3.2均勻分布 .150
4.3.3指數分布 .150
4.3.4二項分布 .151
4.3.5 Poisson分布 . 152
4.3.6 χ2分布 154
4.3.7 t分布 154
4.3.8 F分布 . 155
4.3.9 R的內置函式 155
4.4樣本統計量 . 157
4.4.1樣本均值 .157
4.4.2樣本方差 .157
4.4.3順序統計量 158
4.4.4中位數 . 159
4.4.5分位數 . 159
4.4.6樣本的 k階矩 . 160
4.4.7偏度係數與峰度係數 . 160
4.4.8經驗分布函式 161
4.5隨機抽樣與隨機模擬 163
4.5.1隨機數的生成 163
4.5.2隨機抽樣 .164
4.5.3隨機模擬 .166習題 4 169
第 5章假設檢驗 . 172
5.1假設檢驗的基本思想 172
5.1.1基本概念 .172
5.1.2基本思想 .172
5.1.3兩類錯誤 .173
5.1.4 P值 . 173
5.2重要的參數檢驗.173
5.2.1 t檢驗 173
5.2.2 F檢驗 . 176
5.2.3二項分布的近似檢驗 . 178
5.2.4二項分布的精確檢驗 . 182
5.2.5 Poisson檢驗 . 184
5.2.6功效檢驗 .185
5.3符號檢驗與秩檢驗 189
5.3.1符號檢驗 .189
5.3.2秩檢驗與秩和檢驗 . 191
5.3.3尺度參數檢驗 196
5.4分布檢驗 . .197
5.4.1 Pearson擬合優度 χ2檢驗 . 197
5.4.2 Kolmogorov-Smirnov檢驗 . .200
5.4.3正態性檢驗 202
5.5列聯表檢驗 . 203
5.5.1 Pearson χ2獨立性檢驗 203
5.5.2 Fisher精確獨立性檢驗.205
5.5.3 McNemar檢驗 . 207
5.5.4三維列聯表的條件獨立性檢驗 . 208
5.6相關性檢驗 . 210
5.6.1 Pearson相關檢驗 211
5.6.2 Spearman相關檢驗 211
5.6.3 Kendall相關檢驗 212
5.6.4 cor.test函式 . 213
5.7遊程檢驗 . .215習題 5 216
第 6章回歸分析 . 223
6.1線性回歸 . .223
6.1.1線性回歸模型 223
6.1.2線性回歸模型的計算 . 225
6.1.3預測區間與置信區間 . 227
6.1.4其他函式 .230
6.2回歸診斷 . .230
6.2.1為什麼要作回歸診斷 . 231
6.2.2殘差檢驗 .232
6.2.3影響分析 .236
6.3 Box-Cox變換 . 240
6.4多重共線性 . 243
6.4.1多重共線性現象 . 244
6.4.2嶺估計 . 245
6.5逐步回歸 . .247
6.5.1“最優”回歸方程的選擇 . 247
6.5.2逐步回歸的計算 . 247
6.6穩健回歸 . .251
6.6.1穩健回歸的基本概念 . 252
6.6.2穩健回歸 .253
6.6.3抗干擾回歸 255
6.7非線性回歸 . 257
6.7.1多項式回歸 258
6.7.2局部多項式回歸 . 260
6.7.3非線性回歸 262
6.8廣義線性回歸模型 265
6.8.1 glm函式 . 266
6.8.2 Logistic回歸模型 267
6.8.3 Poisson分布族 . 271
6.8.4常態分配族 273習題 6 274
第 7章多元統計分析 281
7.1方差分析 . .281
7.1.1方差分析的數學模型 . 281
7.1.2方差分析的計算 . 284
7.1.3多重均值檢驗 289
7.1.4與方差分析有關的函式 291
7.1.5方差分析的進一步討論 293
7.1.6秩檢驗 . 295
7.1.7協方差分析 299
7.2判別分析 . .301
7.2.1判別分析的數學模型 . 302
7.2.2判別分析的計算 . 302
7.3聚類分析 . .306
7.3.1距離和相似係數 . 306
7.3.2系統聚類法 308
7.3.3類個數的確定 314
7.3.4實例 . 315
7.3.5 K均值聚類 319
7.4主成分分析 . 320
7.4.1主成分分析的數學模型 320
7.4.2主成分分析的計算 . 321
7.4.3主成分分析的套用 . 326
7.5因子分析 . .330
7.5.1因子分析的數學模型 . 330
7.5.2因子分析函式 331
7.5.3因子分析的計算 . 332
7.6典型相關分析 . 339
7.6.1典型相關分析的數學模型 340
7.6.2典型相關分析的計算 . 340習題 7 342
第 8章多元分布 . 352
8.1基本概念 . .352
8.1.1多元分布函式與機率密度函式 . 352
8.1.2多元常態分配 352
8.1.3與多元常態分配有關的 R函式 353
8.2樣本統計量及抽樣分布 . 357
8.2.1樣本統計量 357
8.2.2抽樣分布 .359
8.3多元正態總體均值向量的檢驗 360
8.3.1單個總體均值向量的檢驗 360
8.3.2兩個總體均值向量的檢驗 360
8.3.3 R中的均值檢驗函式 .361
8.4擴展包中的其他函式 365
8.4.1多元 t分布 365
8.4.2多元非參數檢驗 . 366
8.4.3多元正態性檢驗 . 370習題 8 370
索引 373
參考文獻 . .384