bootstrap[統計學]

Bootstrap是非參數統計中一種重要的估計統計量變異性,並可進行統計量區間估計的統計方法,也稱為自助法。

其核心思想和基本步驟如下:

(1) 採用重複抽樣技術從原始樣本中抽取一定數量(可自己給定,一般與原始樣本相同)的樣本,此過程允許重複抽樣。

(2) 根據抽出的樣本計算待估計的統計量T。

(3) 重複上述N次(一般大於1000),得到N個統計量T。

(4) 計算上述N個統計量T的樣本方差,以此估計統計量T的方差。

應該說Bootstrap是現代統計學較為流行的一種統計方法,在小樣本時效果很好。通過方差的估計可以構造置信區間等,其套用範圍得到進一步延伸。

具體抽樣方法舉例:想要知道池塘裡面魚的數量,可以先抽取N條魚,做上記號,放回池塘。

進行重複抽樣,抽取M次,每次抽取N條,考察每次抽到的魚當中有記號的比例,綜合M次的比例,在進行統計量的計算。

套用bootstrap的原因:其實,在進行分析的時候,首先要做的就是,判斷隨機變數的類型,然後就是判斷隨機變數的數據服從什麼分布。什麼分布至關重要,因為它直接決定能不能分析。舉例:如果進行方差分析,首先就要求常態分配,如果不是常態分配,就要有補救措施,這個補救措施就是bootstrap。bootstrap還有一個用處,因為經典統計學對集中趨勢比較完善,但是對其他一些分布參數,例如中位數,四分位數,標準差,變異係數等的區間估計不完善,所以就需要bootstrap,這種方法。bootstrap和經典統計學方法類似,一般情況參數法效率高於非參數法,但是,參數法最大的弊端就是需要事先有一個分布模型,如果模型不符合,分析結果可能錯誤,也就是白分析。

如果數據存在明顯的層次,可以用分層抽樣提高分析效率,spss默認是非參數bootstrap方法,並且採用完全隨機抽樣,所以,如果要求分層抽樣,不能依靠默認,需要自己設定。

還有特別需要注意,需要多少個觀測量才是最科學,最合理的,答案是1000個。少於這個數字,計算結果不準確,因為是按照百分位數法計算可信區間,所以,不能太少。如果多於1000個,多數情況下精度改善非常有限,並且浪費系統資源和計算時間。

bootstrap的spss分析中的操作步驟:“分析”~“比較均值”~“均值”~選擇好自變數和因變數~“選項”子對話框~“單元格統計量”~bootstrap子對話框~執行bootstrap複選框

還有一點,如果因變數符合或者大概符合常態分配,bootstrap方法就可以不用。

相關詞條

相關搜尋

熱門詞條

聯絡我們