方法簡介
人們常常需要根據手中的數據,分析或推斷數據反映的本質規律。即根據樣本數據如何選擇統計量去推斷總體的分布或數字特徵等。統計推斷是數理統計研究的核心問題。所謂統計推斷是指根據樣本對總體分布或分布的數字特徵等作出合理的推斷。它是統計推斷的一種基本形式,是數理統計學的一個重要分支,分為點估計和區間估計兩部分。
在已知系統模型結構時,用系統的輸入和輸出數據計算系統模型參數的過程。18世紀末德國數學家C.F.高斯首先提出參數估計的方法,他用最小二乘法計算天體運行的軌道。20世紀60年代,隨著電子計算機的普及,參數估計有了飛速的發展。參數估計有多種方法,有矩估計、極大似然法、一致最小方差無偏估計、最小風險估計、同變估計、最小二乘法、貝葉斯估計、極大驗後法、最小風險法和極小化極大熵法等。最基本的方法是最小二乘法和極大似然法。
標準特點
(1)無偏性
無偏性是指估計量抽樣分布的數學期望等於總體參數的真值。無偏性的含義是,估計量是一隨機變數,對於樣本的每一次實現,由估計量算出的估計值有時可能偏高,有時可能偏低,但這些估計值平均起來等於總體參數的真值。在平均意義下,無偏性表示沒有系統誤差。
(2)一致性
有效性是指估計量與總體參數的離散程度。如果兩個估計量都是無偏的,那么離散程度較小的估計量相對而言是較為有效的。離散程度是用方差度量的,因此在無偏估計量中,方差愈小愈有效。
(3)有效性
一致性,又稱相合性,是指隨著樣本容量的增大,估計量愈來愈接近總體參數的真值 。
性質
當估計值的數學期望等於參數真值時,參數估計就是無偏估計。當估計值是數據的線性函式時,參數估計就是線性估計。當估計值的均方差最小時,參數估計為一致最小均方誤差估計。若線性估計又是一致最小均方誤差估計,則稱為最優線性無偏估計。如果無偏估計值的方差達到克拉默-堯不等式的下界,則稱為有效估計值。若 ,則稱 為一致性估計值。在一定條件下,最小二乘估計是最優線性無偏估計,它的估計值是有效估計,而且是一致性估計。極大似然估計在一定條件下漸近有效,而且是一致的。
尋求最小二乘估計和極大似然估計的常用方法是將準則對參數θ求導數,計算梯度,因而要使用最最佳化的方法:梯度法、變尺度法、單純形搜尋法、牛頓-拉夫森法等 。
主要分類
點估計
點估計 ( point estimation )是依據樣本估計總體分布中所含的未知參數或未知參數的函式。通常它們是總體的某個特徵值,如數學期望、方差和相關係數等。點估計問題就是要構造一個只依賴於樣本的量,作為未知參數或未知參數的函式的估計值。例如,設一批產品的廢品率為θ。為估計θ,從這批產品中隨機地抽出n個作檢查,以X記其中的廢品個數,用X/n估計θ,這就是一個點估計。
構造點估計常用的方法是:
①矩估計法。用樣本矩估計總體矩,從而得到總體分布中參數的一種估計。它的思想實質是用樣本的經驗分布和樣本矩去替換總體的分布和總體矩。矩估計法的優點是簡單易行, 並不需要事先知道總體是什麼分布。缺點是,當總體類型已知時,沒有充分利用分布提供的信息。一般場合下,矩估計量不具有唯一性。
②最大似然估計法。於1912年由英國統計學家R.A.費希爾提出,利用樣本分布密度構造似然函式來求出參數的最大似然估計。
③最小二乘法。主要用於線性統計模型中的參數估計問題。
④貝葉斯估計法。基於貝葉斯學派(見貝葉斯統計)的觀點而提出的估計法。可以用來估計未知參數的估計量很多,於是產生了怎樣選擇一個優良估計量的問題。首先必須對優良性定出準則,這種準則是不唯一的,可以根據實際問題和理論研究的方便進行選擇。優良性準則有兩大類:一類是小樣本準則,即在樣本大小固定時的優良性準則;另一類是大樣本準則,即在樣本大小趨於無窮時的優良性準則。最重要的小樣本優良性準則是無偏性及與此相關的一致最小方差無偏估計,其次有容許性準則,最小化最大準則,最優同變準則等。大樣本優良性準則有相合性、最優漸近正態估計和漸近有效估計等 。
區間估計
區間估計 ( interval estimation )是依據抽取的樣本,根據一定的正確度與精確度的要求,構造出適當的區間,作為總體分布的未知參數或參數的函式的真值所在範圍的估計。例如人們常說的有百分之多少的把握保證某值在某個範圍內,即是區間估計的最簡單的套用。1934年統計學家 J.奈曼創立了一種嚴格的區間估計理論。求置信區間常用的三種方法:
①利用已知的抽樣分布。例如,設x1,x2,…,xn為正態總體N(μ,σ2)中抽出的樣本,要作μ的區間估計,則服從自由度為n-1的t分布。指定α>0,找這個分布的上α/2分位數tα/2(n-1),則有即由此得到 μ 的一個置信係數為 1-α 的置信區間。
②利用區間估計與假設檢驗的聯繫。設要作θ的置信係數為1-α 的區間估計,對於任意的θ0,考慮原假設為 H:θ=θ0,備擇假設為 K:θ≠θ0。設有一水平為α 的檢驗,它當樣本X屬於集合A( θ0)時接受H。若集合{θ0∶X∈A(θ0)}是一個區間,則它就是θ的一個置信區間,其置信係數為1-α。就上例而言,對假設H:μ=μ0的檢驗常用t檢驗:當時接受μ=μ0,集合即為區間。這正是前面定出的μ的置信區間。若要求θ的置信下限(或上限),則取原假設為θ≤θ0(或θ≥θ0),備擇假設為θ>;θ0(或θ<;θ0),按照同樣的方法可得到所要求的置信下(上)限。
③利用大樣本理論。例如,設x1,x2,…,xn為抽自參數為p的二點分布的樣本,當n→∞時,依分布收斂(見機率論中的收斂)於標準常態分配N(0,1),以 uα/2記N (0,1)的上 α/2分位數。所以,可作為p的一個區間估計,上面的極限值1-α就定義為它的漸近置信係數。
評價置信區間的好壞有兩個因素:一是其精度,可以用區間的長度來刻畫,長度越長,精度越低。另一個因素是置信度,在樣本容量固定時,當置信度增大,此時置信區間的長度變大,即置信區間的置信度越高,則精度越低,反之,精度越高則置信度越低。
遞推參數估計
還有一種遞推參數估計。為了減少計算量,便於線上估計參數,產生了許多遞推算法。一般是用遞推算法估計動態系統的參數。方法是:利用時刻t上的參數估計 、存儲向量xt與時刻t+1上的輸入和輸出數據ut+1和yt+1,計算新的參數值。每一步的計算時間比解一個線性代數方程組要少得多。
最小二乘法和極大似然法都有遞推形式,另外還有遞推廣義最小二乘法、遞推輔助變數法和遞推增廣最小二乘法等,都是遞推最小二乘法的改進形式,
可以用來估計帶有色噪聲干擾的系統。此外,隨機逼近算法、卡爾曼濾波法和朗道遞推估計,是從不同的出發點得到的遞推參數估計法(見遞推估計算法),大多數遞推參數估計算法的一致性,即,可以用鞅收斂性、常微分方程穩定性和超穩定性、正實性分別證明。
參數估計的方法很多,如何統一它們,如何在實踐中簡單有效地判斷它們的性質以及產生新的方法,都是有待進一步探討的問題 。
統計推斷
參數估計與假設檢驗
統計推斷是由樣本的信息來推測母體性能的一種方法,它又可以分為兩類問題,即 參數估計和 假設檢驗。實際生產和科學實驗中,大量的問題是在獲得一批數據後,要對母體的某一參數進行估計和檢驗。
例如,我們對45鋼的斷裂韌性作了測定,取得了一批數據,然後要求45鋼斷裂韌性的平均值,或要求45鋼斷裂韌性的單側下限值,或要求45鋼斷裂韌性的分散度(即離散係數),這就是 參數估計的問題。
又如,經過長期的積累,知道了某材料的斷裂韌性的平均值和標準差,經改進熱處理後,又測得一批數據,試問新工藝與老工藝相比是否有顯著差異,這就是 假設檢驗的問題。
這樣可以看出,參數估計是假設檢驗的第一步,沒有參數估計,也就無法完成假設檢驗 。