詳解
抽樣推斷的一般概念
抽樣推斷是在根據隨機原則從總體中抽取部分實際數據的基礎上,運用數理統計方法,對總體某一現象的數量性作出具有一定可靠程度的估計判斷。抽樣推斷具有這些特點: 它是由部分推算整體的一種認識方法;它是建立在隨機取樣的基礎上。它是運用機率估計的方法;抽樣推斷的誤差可以事先計算並加以控制。
抽樣推斷的主要內容為:參數估計和假設檢驗 。
抽樣的基本概念
1、全及總體和樣本總體
全及總體是我們所要研究的對象,而樣本總體則是我們所要觀察的對象,兩者是有區別而又有聯繫的不同範疇。全及總體又稱母體,簡稱總體,它是指所要認識的,具有某種共同性質的許多單位的集合體。樣本總體又稱子樣,簡稱樣本,是從全及總體中隨機抽取出來,代表全及總體的那部分單位的集合體。樣本總體的單位數稱為樣本容量,通常用小寫英文字母n來表示。隨著樣本容量的增大,樣本對總體的代表性越來越高,並且當樣本單位數足夠多時,樣本平均數愈接近總體平均數。
如果說對於一次抽樣調查,全及總體是唯一確定的,那么樣本總體就不是這樣,樣本是不確定的,一個全及總體可能抽出很多個樣本總體,樣本的個數和樣本的容量有關,也和抽樣的方法有關。
2、全及指標和抽樣指標
根據全及總體各個單位的標誌值或標誌屬性計算的,反映總體某種屬性或特徵的綜合指示稱為全及指標。常用的全及指標有總體平均數(或總體成數)、總體標準差(或總體方差 )。
由樣本總體各單位標誌值計算出來反映樣本特徵,用來估計全及指標的綜合指標稱為統計量(抽樣指標)。統計量是樣本變數的函式,用來估計總體參數,因此與總體參數相對應,統計量有樣本平均數(或抽樣成數)、樣本標準差(或樣本方差 )。
對於一個問題全及總體是唯一確定的,所以全及指標也是唯一確定的,全及指標也稱為參數,它是待估計的數。而統計量則是隨機變數,它的取值隨樣本的不同而發生變化。
3、樣本容量和樣本個數
樣本容量是指一個樣本所包含的單位數。通常將樣本單位數不少於30個的樣本稱為大樣本,不及30個的稱為小樣本。社會經濟統計的抽樣調查多屬於大樣本調查。樣本個數又稱樣本可能數目。指從一個總體中可能抽取的樣本個數。一個總體有多少樣本,則樣本統計量就有多少種取值,從而形成該統計量的分布,此分布是抽樣推斷的基礎。
4、重複抽樣和不重複抽樣
抽樣誤差
抽樣誤差是指由於隨機抽樣的偶然因素使樣本各單位的結構不足以代表總體各單位的結構,而引起抽樣指標和全及指標之間的絕對離差。因此,又
稱為隨機誤差,它不包括登記誤差,也不包括系統性誤差。
影響抽樣誤差的因素有:總體各單位標誌值的差異程度;樣本的單位數;抽樣的方法;抽樣調查的組織形式。
1、抽樣平均誤差。抽樣平均誤差的作用首先表現在它能夠說明樣本指標代表性的大小。平均誤差大,說明樣本指標對總體指標的代表性低;反之,則高 。
2、抽樣極限誤差。抽樣極限則說明樣本指標對總體指標的代表性高。其次,平均誤差還說明樣本指標與總體指標差別的一般範圍。這個範圍實際上就是抽樣極限誤差。
抽樣平均誤差的計算:
重複抽樣:
不重複抽樣: 誤差是指用絕對值形式表示的樣本指標與總體指標偏差的可允許的最大範圍。它表明被估計的總體指標有希望落在一個以樣本指標為基礎的可能範圍。它是由抽樣指標變動可允許的上限或下限與總體指標之差的絕對值求得的。
由於總體平均數和總體成數是未知的,它要靠實測的抽樣平均數成數來估計。因而抽樣極限誤差的實際意義是希望總體平均數落在抽樣平均數的範圍內,總體成數落在抽樣成數的範圍內。
基於理論上的要求,抽樣極限誤差需要用抽樣平均誤差 或 為標準單位來衡量。即把極限誤差 △x或 △p相應除以 或 ,得出相對的誤差程度t倍,t稱為抽樣誤差的機率度。於是有:
抽樣估計方法
抽樣估計就是利用實際調查計算的樣本指標值來估計相應的總體指標數值。抽樣估計有點估計和區間估計兩種
參數點估計的基本特點:根據總體指標的結構形式設計樣本指標作為總體參數的估計量,並以樣本指標的實際值直接作為相應總體參數的估計值。點估計的優良標準是無偏性、一致性和有效性。
抽樣估計的置信度是表明抽樣指標和總體指標的誤差不超過一定範圍的機率有多大。
參數區間估計的基本特點:
根據給定的機率保證程度的要求,利用實際抽樣資料,指出總體被估計值的上限和下限,即指出總體參數可能存在的區間範圍,而不是直接給出總體參數的估計值。
總體參數區間估計根據給定的機率保證程度的要求,利用實際抽樣資料,指出被估計值的上限和下限,即指出總體參數可能存在的區間範圍。總體參數區間估計必須同時具備估計值、抽樣誤差範圍和機率保證程度三個要素。
區間估計的內容包括總體平均數和總體成數的估計。
例1、某學校進行一次英語測驗,為了解學生的考試情況,隨機抽選部分學生進行調查,所得資料如下:
考試成績 | 學生人數 |
60以下 | 10 |
60-70 | 20 |
70-80 | 22 |
80-90 | 40 |
90-100 | 8 |
試以95.45%的可靠性估計該校學生英語考試的平均成績的範圍及該校學生成績在80分以上的學生所占的比重的範圍。
解:(1)該校學生英語考試的平均成績的範圍:
σ=11.377
△x = tμx=2×1.1377=2.2754
該校學生考試的平均成績的區間範圍是:
x - △x≤X≤ x+△x
76.6-2.2754≤X≤76.6+2.2754
74.32≤X≤78.89
(2)該校學生成績在80分以上的學生所占的比重的範圍
△p=tμp=2×0.04996=0.09992
80分以上學生所占的比重的範圍:
P=p±△p=0.48±0.09992
0.3801≤P≤0.5799
在95.45%機率保證程度下,該校學生成績在80分以上的學生所占的比重的範圍在38.01%—57.99%之間。
這是在簡單抽樣條件下進行區間估計的例題。從上面的解法中,我們可以總結出這一類計算題的基本做法:先計算出樣本指標,然後根據所給條件(重複抽樣或不重複抽樣)進行抽樣平均誤差的計算,抽樣極限誤差的計算,最後根據樣本指標和極限誤差進行區間估計。
例2、從某年級學生中按簡單隨機抽樣方式抽取40名學生,對公共理論課的考試成績進行檢查,得知其平均分數為78.75分,樣本標準差為12.13分,試以95.45%的機率保證程度推斷全年級學生考試成績的區間範圍。如果其它條件不變,將允許誤差縮小一半,應抽取多少名學生?
解:n=40 x=78.56 σ=12.13 t=2
(1)
μx=12.13/sqrt(40)=1.92
△x = tμx=2×1.92=3.84
全年級學生考試成績的區間範圍是:
x - △x≤X≤ x+△x
78.56-3.84≤X≤78.56+3.84
74.91≤X≤82.59
(2)將誤差縮小一半,應抽取的學生數為: (人)
n=(12.13*2/1.92)^2=160
抽樣組織形式
常用的抽樣組織形式有:簡單隨機抽樣、類型抽樣、等距抽樣和整群抽樣。
通俗的講抽樣誤差就是指樣本指標與全及總體指標之間的絕對誤差。在進行抽樣檢查時不可避免會產生抽樣誤差,因為從總體中隨機抽取的樣本,其結構不可能和總體完全一致。例如樣本平均數與總體平均數之差| x − X |(註:x與X上都還有一橫代表平均數,這裡打不出來),樣本成數與總體成數之差 | p − P | 。雖然抽樣誤差不可避免,但可以運用大數定律的數學公式加以精確地計算,確定它具體的數量界限,並可通過抽樣設計加以控制。
抽樣估計
抽樣推斷的概念和特點
抽樣推斷是按隨機原則從全部研究對象中抽取部分單位進行觀察,並根據樣本的實際數據對總體的數量特徵作出具有一定可靠程度的估計和判斷。
特點:它是由部分推斷整體的一種認識方法;抽樣推斷建立在隨機取樣的基礎上;抽樣推斷運用機率估計的方法;抽樣推斷的誤差可以事先計算並加以控制。
抽樣推斷的內容
參數估計:參數估計是依據所獲得的樣本觀察資料,對所研究現象總體的水平、結構、規模等數量特徵進行估計。
假設檢驗:假設檢驗是利用樣本的實際資料來檢驗事先對總體某些數量特徵所作的假設是否可信的一種統計分析方法。
有關抽樣的基本概念
1、總體和樣本
N n
總體又稱全及總體。指所要認識的研究對象全體。總體單位總數用“N”表示。
樣本又稱子樣。是從全及總體中隨機抽取出來,作為代表這一總體的那部分單位組成的集合體。樣本單位總數用“n”表示。
2、參數和統計量
參數是反映總體數量特徵的全及指標。
統計量是根據樣本數據計算的綜合指標
成數P:總體中具有某種性質的單位數在總體全部單位數中所占的比重。
3、樣本容量和樣本個數
樣本容量是一個樣本包含的單位數。用 “n”表示。一般要求 n ≥30樣本個數
樣本個數是從一個全及總體中可能抽取的樣本數目。
4、重複抽樣和不重複抽樣
重複抽樣又稱回置抽樣。
不重複抽樣又稱不回置抽樣。
例:從4個球中抽兩個球
採用重複抽樣和不重複抽樣:
A
B
C
D
AA AB AC AD
BA BB BC BD
CA CB CC CD
DA DB DC DD
抽樣誤差的含義及影響抽樣誤差大小的因素
由於隨機抽樣的偶然因素使樣本各單位的結構不足以代表總體各單位的結構,而引起抽樣指標和全及指標之間的絕對離差。
1、總體各單位標誌值的差異程度
2、樣本的單位數
3、抽樣方法
4、抽樣調查的組織形式
抽樣平均誤差
定義
抽樣平均誤差是抽樣平均數或抽樣成數的標準差,反映了抽樣指標與總體指標的平均誤差程度。
多數樣本指標與總體指標都有誤差,誤差有大、有小,有正、有負,抽樣平均誤差就是將所有的誤差綜合起來,再求其平均數,所以抽樣平均誤差是反映抽樣誤差一般水平的指標。
抽樣平均數的平均誤差:
重複抽樣:
此公式說明,抽樣平均誤差與總體標準差成正比,與樣本容量成反比。(當總體標準差未知時,可用樣本標準差代替)(教材P180例題)
通過例題可說明以下幾點:
①樣本平均數的平均數等於總體平均數。
②抽樣平均數的標準差僅為總體標準差的
③可通過調整樣本單位數來控制抽樣平均誤差。
例題:假定抽樣單位數增加 2 倍、0.5倍時,抽樣平均誤差怎樣變化?
解:抽樣單位數增加 2 倍,即為原來的 3 倍
即:當樣本單位數增加2倍時,抽樣平均誤差為原來的0.577倍。抽樣單位數增加 0.5倍,即為原來的 1.5倍。
即:當樣本單位數增加0.5倍時,抽樣平均誤差為原來的0.8165倍。
不重複抽樣:
公式表明:抽樣平均誤差不僅與總體變異程度、樣本容量有關,而且與總體單位數的多少有關。
例題一:
隨機抽選某校學生100人,調查他們的體重。得到他們的平均體重為58公斤,標準差為10公斤。問抽樣推斷的平均誤差是多少?
例題二:
某廠生產一種新型燈泡共2000隻,隨機抽出400隻作耐用時間試驗,測試結果平均使用壽命為4800小時,樣本標準差為300小時,求抽樣推斷的平均誤差?
例題一解:
已知:n=100 x=58 σ=10
即:當根據樣本學生的平均體重估計全部學生的平均體重時,抽樣平均誤差為1公斤。
例題二解:
已知:N=2000 n=400 σ=300 x=4800
計算結果表明:根據部分產品推斷全部產品的平均使用壽命時,採用不重複抽樣比重複抽樣的平均誤差要小。
2.抽樣成數的平均誤差
重複抽樣:
不重複抽樣:
例題三:某校隨機抽選400名學生,發現戴眼鏡的學生有80人。根據樣本資料推斷全部學生中戴眼鏡的學生所占比重時,抽樣誤差為多大?
例題四:一批食品罐頭共60000桶,隨機抽查300桶,發現有6桶不合格,求合格品率的抽樣平均誤差?
例題三解:
已知:
則:樣本成數
即:根據樣本資料推斷全部學生中戴眼鏡的學生所占的比重時,推斷的平均誤差為2%。
例題四解:
已知:
則:樣本合格率
計算結果表明:不重複抽樣的平均誤差小於重複抽樣,但是“N”的數值越大,則兩種方法計算的抽樣平均誤差就越接近。
抽樣極限誤差
含義:抽樣極限誤差指在進行抽樣估計時,根據研究對象的變異程度和分析任務的要求所確定的樣本指標與總體指標之間可允許的最大誤差範圍。
計算方法:它等於樣本指標可允許變動的上限或下限與總體指標之差的絕對值。
抽樣平均數極限誤差:
抽樣成數極限誤差:
五.抽樣誤差的機率度 t
抽樣誤差的機率度是測量抽樣估計可靠程度的一個參數。用符號“ t ”表示。公式表示:
總體參數的點估計
總體參數點估計的特點:P188
總體參數優良估計的標準
無偏性、一致性、有效性
總體參數的區間估計
總體參數區間估計的特點:P195
抽樣估計的置信度就是表明抽樣指標和總體指標的誤差不超過一定範圍的機率保證程度(教材P191)
符號表示:P( x - X ≤Δ )
理論已經證明,在大樣本的情況下,抽樣平均數的分布接近於常態分配,分布特點是:抽樣平均數以總體平均數為中心,兩邊完全對稱分布,即抽樣平均數的正誤差與負誤差的可能性是完全相等的。且抽樣平均數愈接近總體平均數,出現的可能性愈大,機率愈大;反之,抽樣平均數愈離開總體平均數,出現的可能性愈小,機率愈小,趨於0。(見下圖)
總體參數區間估計的方法
(一)根據給定的抽樣誤差範圍,求機率保證程度
分析步驟:
1、 抽取樣本,計算抽樣指標。
2、根據給定的極限誤差範圍估計總體參數的上限和下限。
3、 計算機率度
4、查表求出機率F(t),並對總體參數作出區間估計。
(二)根據給定的機率F(t),推算抽樣極限誤差的可能範圍
分析步驟:
1、 抽取樣本,計算樣本指標。
2、 根據給定的F(t)查表求得機率度 t 。
3、根據機率度和抽樣平均誤差計算極限誤差。
4、計算被估計值的上、下限,對總體參數作出區間估計。
例題一:
某農場進行小麥產量抽樣調查,小麥播種總面積為1萬畝,採用不重複簡單隨機抽樣,從中抽選了100畝作為樣本進行實割實測,測得樣本平均畝產400斤,方差144斤。
(1)以95.45%的可靠性推斷該農場小麥平均畝產可能在多少斤之間?若機率保證程度不變,要求抽樣允許誤差不超過1斤,問至少應抽多少畝作為樣本?
例題一解題過程:
已知:N=10000 n=100
1、計算抽樣平均誤差
2、計算抽樣極限誤差
3、計算總體平均數的置信區間
上下限:
即:以95.45%的可靠性估計該農場小麥平均畝產量在397.62斤至402.38斤之間.
例題二:某鄉有5000農戶,按隨機原則重複抽取100戶調查,得平均每戶年純收入12000元,標準差2000元。
要求:(1)以95%的機率(t=1.96)估計全鄉平均每戶年純收入的區間。
(2)以同樣機率估計全鄉農戶年純收入總額的區間範圍。
例題二解題過程 :
例題三:從某年級學生中按簡單隨機抽樣方式抽取50名學生,對鄧小平理論課的考試成績進行檢查,得知其平均分數為75.6分,樣本標準差10分,試以95.45%的機率保證程度推斷全年級學生考試成績的區間範圍。如果其它條件不變,將允許誤差縮小一半,應抽取多少名學生?
例題三解題過程:
抽樣組織設計
抽樣組織設計的基本原則
抽樣推斷是根據事先規定的要求而設計的抽樣調查組織,並以所獲得的這一部分實際資料為基礎,進行推理演算作出結論。因此科學的抽樣調查組織,保證隨機條件的實現,並取得最佳的抽樣效果,首先,要保證隨機原則的實現。從理論上說,隨機原則就是要保證總體每一單位都有同等的中選機會,或樣本的抽選的機率是已知的。在實踐上,一是要有合適的抽樣框。並必須考慮它是不是能復蓋總體的所有單位,和抽樣單位與總體單位的對應問題。二是取樣的實施問題。在總體單位數很大甚至無限的情況下,在設計中要考慮將總體各單位加以分類、排隊或分階段等措施來保證總體每單位中選的機會均等。其次,要考慮樣本容量和結構問題。樣本容量取決於對抽樣判斷準確性、可靠性的要求,而後者又因所研究問題的性質和抽樣的結果的用途不同,很難給出一個絕對的標準。樣本容量的結構不同,所產生的效果也不同。抽樣設計應該善於利用評價而且有效利用由於調整樣本結構而產生的效果。再次,關於抽樣組織形式問題。一種科學的組織形式往往有可能以更少的樣本單位數,取得更好的抽樣效果。下面介紹幾種常用的抽樣組織形式:1.簡單隨機抽樣:重複抽樣條件下必要樣本單位數的計算:按隨機原則直接從總體N個單位中抽取 n 個單位作為樣本。2.類型抽樣:先對總體各單位按主要標誌加以分組,然後再從各組中按隨機的原則抽選一定單位構成樣本。3.等距抽樣先按某一標誌對總體各單位進行排隊,然後依一定順序和間隔來抽取樣本單位的一種組織形式。4.整群抽樣將總體各單位劃分成許多群,然後從其中隨機抽取部分群,對中選群的所有單位進行全面調查的抽樣組織形式。