概念
在樣本量無限增大時,統計量X(X,X,...X)的極限分布作為抽樣分布的一種近似,這種極限分布常稱為漸近分布。統計推斷的理論與方法貫穿於現代統計中,抽樣分布理論是進行統計推斷的基礎。 在抽樣分布理論中,已導出的χ 分布,t分布,F分布等,它們以來自正態總體、抽樣分布的精確性、套用的廣泛性、為數不多尤為重要。 但在其他情況下,總體為非正態總體或者總體的分布未知時,抽樣分布都不易導出,或導出過於複雜而難於套用,這迫使人們去尋求其近似分布。 利用大樣本的方法,結合Slutsky定理,研究了總體是一般分布或者分布未知情況下的幾種統計量A 、 B及其函式等,推出了它們的漸近分布。
基於一般分布總體的統計量的漸近分布
在抽樣分布理論中,正態總體是實際中經常用到的一個總體,來自該總體的分布,χ 分布,t分布,F分布等一批精確分布,套用非常廣泛,但為數不多。 相對於正態總體來說,總體為非正態總體或者總體的分布未知時,要求抽樣分布的精確分布是非常不容易的,或導出過於複雜而難於套用。
在總體為任意分布或者分布未知的情況下,利用大樣本方法,並結合Slutsky等引理,可以得到一些統計量的漸近分布。 而且這些方法具有可推廣的意義,只要能構造合適的函式,就可以得到更多的抽樣分布,以便進行進一步的統計推斷。
套用
基於短期資料的重慶風速極值漸進分布分析
採用統計方法推算極值風速的誤差主要來自3個方面:樣本選取、模型選取和參數估計。年最大風速最初被認為服從極值II型,後來更多的研究表明極值風速取極值I型更好。研究發現,極值風速的有界性,與前2種極值分布的右部尾部長度(up—per taillength)無限長的特性相違背,而與極值III型分布右部尾部長度有限長的特性符合,因而選取極值III型分布最合適。採用跨閾法(Peak Over nresh—old,POT)選取樣本的廣義跨閾分布GPD模型(GeneralizedParato Distribution)能較好地彌補樣本不足給參數估計帶來的困難,同時給出較好的風速估計心。
利用重慶市沙坪壩區1990—1999年間的短期風速資料來進行年最大風速的極值分布分析。首先分別採用極值I型(Gumbel)分布、極值II型(Frechet)分布和極值III型(reverse weibuu)分布擬合年最大風速的極值分布,而後選取1990一1994年問各月最大風速作為樣本,使樣本容量擴大為60個來擬合最大風速的月極值的漸進分布。依據最小二乘法的原理、矩法和變數替換法分別對3種極值分布函式進行參數估計,通過參數估計優良性指標,比較短期風速資料下的年最大風速的分布函式與月極值漸進分布函式的擬合效果,從得到的4組12個分布函式中選取較好的一種極值分布函式作為年最大風速的極值分布函式。最後通過與GPD的參數估計指標及風速估計結果比較分析,得到短期風速資料下重慶年最大風速極值的最優漸進分布。
極值Ⅲ型(reverse weibull)分布給出了最佳的擬合優度和極值風速估計值且對於缺少長期風速觀測資料的地區,採用對有限的短期資料進行月最大風速的分析來擬合該地區的風速極值漸進分布,效果明顯優於採用年最大風速記錄。從某種意義上來說樣本容量的提高,使抽樣誤差減小了。
重慶地面氣溫與風速年極值的漸近分布
氣象要素極值作為氣候隨機變數在數學意義上是不穩定的,但它們隨時間變化過程在機率上卻是穩定的。因此,氣象要素極值的分布可能用分布函式去模擬,從而為氣象極端事件出現機率的預測提供理論依據和數據參考。分布函式的具體形式因隨機變數的特性而異,試驗表明:某些氣象要素極值,例如氣溫極值和風速極值的漸近分布,能以很高的擬合精度遵循三參數韋伯分布或耿貝爾分布。故選用三參數韋伯分布和耿貝爾分布作為已知分布函式,擬合重慶地面最高氣溫和最大風速年極值的漸近分布。用重慶40年(1951 —1990)的地面最高氣溫年極值資料和30年(1956 —1990 )的最大風速年極值資料,其中最大風速年極值有些年份無記錄值,故只有30 年作為樣本容量,對擬合參數進行估計,並通過比較表征參數估計優良性的指標,選取較好的一種作為重慶地面最高氣溫和最大風速年極值的漸近分布函式。
利用重慶1951—1990年40年間的地面最高氣溫年極值和1956—1990年間地面最大風速年極值記錄,用韋伯分布和耿貝爾分布分別對它們進行擬合實驗,並對其中的參數進行估算。計算了擬合標準差、擬合相對偏差、柯爾莫哥洛夫擬合適度,從中選出這三個值較小的分布模式作為假設分布,然後通過統計檢驗,最後確定出重慶地面最高氣溫和最大風速年極值應遵循的漸近分布。
從統計檢驗可以發現:重慶地區的最大風速年極值的漸近分布的擬合效果比最高氣溫年極值漸近分布的擬合效果差,其檢驗統計量比最高氣溫年極值的大。主要原因如下:(1)受資料來源的限制,最大風速年極值的樣本容量比最高氣溫年極值的樣本容量小。我國大部分測站只有解放以後的氣象資料,而且最大風速年極值有些缺記錄,風速漏報等原因而造成樣本容量小。(2)最大風速年極值受各種因素的影響如風的陣性、測站位置、周邊環境、儀器和安裝方法的更新、觀測時制的改變、站址的改變(重慶站在我們所取資料的時段內曾有陳家坪和沙坪壩站址的轉換)等原因都可能使觀測序列發生改變,這些變化不是實際氣候變化的反映,因而破壞了資料的均一性,而使其變化更不規則,不穩定,即其均一性欠佳。特別是當風速大於20M/S 時,出現的機率很小。(3)風速測量儀器的觀測準確度遠小於溫度觀測。所有這些都會使最大風速年極值的漸近分布的擬合效果比最高氣溫年極值漸近分布的擬合效果差。重慶地面最高氣溫年極值的漸近分布用韋伯分布或耿貝爾分布均可,但用韋伯分布擬合更精確。