基本介紹
歸納統計是在隨機抽樣的基礎上,根據部分資料(數據)推斷總體的方法,也即利用樣本資料對抽出樣本的總作出推論的方法。它也是數理統計方法的基本支柱之一。
例如,某城市有一萬戶居民(總體),我們抽出200戶(樣本)來研究他們的生活水平,根據這200戶的情況來推斷整個城市居民的生活水平。
從樣本中計算出來的數值,通常稱為 統計值;在總體中的數值,則稱為 參數值。推論統計就是運用樣本的統計值來推斷總體的參數值。因此,如何抽取樣本,樣本的可靠程度,分析可靠程度的保證及進行假設檢驗,都是推論統計需要研究的問題。
歸納統計分為兩大類:(1) 參數估計,就是根據一個隨機樣本的統計值來估計總體參數值。(2) 假設檢定,在邏輯上與參數估計有點不同,它是首先假設總體的情況是怎樣的,然後以一個隨機樣本的統計值來檢驗這個假設是否正確。可見,參數估計與假設檢定雖然都是推論統計,但在邏輯上略有不同。前者是先看樣本情況才問及總體情況;後者則先假設總體情況,然後才進行抽樣和分析樣本資料。在社會學研究中,大多數推論統計都是首先成立假設,然後檢驗假設,所以經常採用假設檢定這類推論統計的方法 。
參數估計
參數估計就是根據抽樣結果,科學地估計總體參數值的大小和範圍。參數估計有兩種方法:①點估計。利用樣本統計單值直接估計未知總體參數的方法。如從某市抽取100名少年犯人作為樣本,計算出他們的年齡均值為16.5歲,然後將該值作為全市少年犯人的平均年齡。這種以點代面的估計方法即為點估計法。點估計法一般只用來對總體參數進行粗略的估算,由於它不能說明估計的準確程度和可靠度,因此很少使用。②區間估計。在一定的把握程度上對總體參數可能落入的一個數值範圍做出估計的方法。如計算出某市少年犯人的平均年齡可能在16-17歲之間的範圍內,這種估計總體參數在一定區間的推斷方法就是區間估計法。由於有抽樣誤差的存在,區間估計會受樣本統計值和樣本誤差的影響而發生波動,因此需判斷估計成功的把握程度。把握程度可用顯著水平的概念來表示。所謂顯著水平,是指根據機率計算的當樣本與總體沒有真實差異時出現實得誤差的最大可能性。如對某市少年犯人重複抽樣100次,如果有96次或是91次所作的區間估計包含了少年犯人的平均年齡在16-17歲之間,則進行一次估計成功的機率為96%或91%,即顯著水平達到4% (0. 04)或9% (0. 09),也就是說估計錯誤的可能性不超過4%或9%。按一定顯著水平求得的估計區間稱為置信區間。應當說明,在進行區間估計時所選定的顯著水平愈高,把握程度越高。區間估計的範圍也愈大;反之,把握程度則愈小,區間估計的範圍也就愈小 。
假設檢驗
假設檢驗是根據抽樣調查統計結果在一定可靠性基礎上對原來的假設作出接受或拒絕的判斷。如認為“某市犯罪人員的婚姻狀況以未婚為主”就是一個命題,該假設是否正確,要用從總體抽出的樣本進行檢驗,得出承認或推翻假設的結論。因此,假設檢驗也只通過研究樣本對事先作出的有關總體特徵的假設進行檢驗的基本過程。
假設檢驗主要解決兩類問題:①對總體的某些特徵提出適當的假設後,利用抽樣方法進行檢驗。檢驗結果有兩種情況:一是檢驗結果與假設之間存在一定的偏差;二是檢驗結果與假設完全相符。若是第一種情況,一定要了解偏差是真的表明假設錯誤,還是由於抽樣誤差造成的;若是第二種情況,也不能貿然說假設是正確的,也可能是由於抽樣誤差造成的。②對從兩組或兩組以上樣本計算出的統計值之間的差異進行顯著性考驗。統計值之間的差異有可能是它們所代表的不同總體的總體參數的差異,也有可能是同一總體但由於抽樣誤差造成的,因而要進行顯著性考驗。在顯著性考驗中,如果檢驗結果差異顯著,就可推斷這種差異代表總體參數之間的差異,否則樣品可能來自同一總體,或者認為總體參數間無真實差異,或者也可認為樣本統計值的差異只是由於抽樣誤差造成的。在此應當注意的是,任何時候都不能憑樣本統計值之間的差異,輕率得出它們代表的總體的參數間存在差異的結論 。