概念理解
通常,置信區間具有附加的不確定性:估計值±誤差幅度
在統計學中,譬如平均數和標準偏差,僅為以有限的數據量為基礎的對總體Mu和Sigma的估計量,.這些估計因樣本之間存在變動性,我們以統計為基礎的置信區間來量化我們的不確定性.置信區間為總體參數(MuandSigma)提供了一個可接受的範圍。你得到的任何樣本統計量因樣本之間存在差異,因此真正的總體或過程的參數也有所不同.
舉例說明置信區間在直覺上的理解:抽取部分螺釘樣品並測量其長度.樣品平均數(x圖)和標準偏差(s)正好與總體平均數(m)和標準偏差(s)完全一致的可能性有多大?換句話說,總體平均數(m)可能會落在多寬的一個區間?
置信區間和誤差的區別
誤差是假定被測的量的真值已知,測量值與真值的差,其絕對值被稱為誤差。但實際上,被測量的真值是無法知道的,我們能夠獲得的只是測量值,那么,根據統計方法對測量過程中的各干擾因素進行分析,可以預計真值一定會落在以測量值為中心的某個區間內。這個區間就是置信區間。
舉例說明
對於每種分配模式,或多或少都會有一些參數(Parameter)存在,而這些參數往往是未知的、也是我們要找出來的。最常見的有母體的平均數與變異數(或標準差)。信賴區間(或置信區間)就是預測某個參數可能值的信心強度,例如平均值的95%信賴區是(a,b):我們有95%的信心可以確定平均值落會a與b之間,但是在那個位置我們就不知道,所以就要靠點估計與假設檢定來確認。
但是有一點要注意:參數是固定的,而信賴區會跟抽樣的結果有關(所以是變動的)。因此,我們實際以資料來模擬時,有可能信賴區間不會涵括參數的位置,這就是信賴係數的意義。例如95%的信賴區間,我們去模擬100組資料、相對算出100組信賴區間,你會發現約有5個信賴區間沒有涵括到參數的真值。
另外不同的分配,參數的個數都不一樣。除了前面有提到母體平均數與標準差之外,Weibull家族分配還有謂的Location參與Shape參數,其他如二項式分配的參數是p(成功或失敗的機率)、Poisson分配的參數是Lambda(平均值也等於變異數),而在無母數方法上最常用的就是中位數(Median)。在統計理論上,我們都可以用一些統計量來估計這些參數,以及相對的區間估計(也就是信賴區間)。