概念
理論統計學是統計學的一個分支,它是把研究對象一般化、抽象化,以機率論為基礎,從純理論的角度,對統計方法加以推導論證,中心的內容是統計推斷問題,實質是以歸納方法研究隨機變數的一般規律。理論統計學包含的內容很多,例如統計分布理論,統計估計和假設檢驗理論,相關與回歸分析,方差分析,時間序列分析、隨機過程理論等。
統計學
統計學是通過搜尋、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其套用範圍幾乎覆蓋了社會科學和自然科學的各個領域。
統計學的英文statistics最早源於現代拉丁文Statisticum Collegium(國會)、義大利文Statista(國民或政治家)以及德文Statistik,最早是由Gottfried Achenwall於1749年使用,代表對國家的資料進行分析的學問,也就是“研究國家的科學”。十九世紀,統計學在廣泛的數據以及資料中探究其意義,並且由John Sinclair引進到英語世界。
統計學是一門很古老的科學,一般認為其學理研究始於古希臘的亞里斯多德時代,迄今已有兩千三百多年的歷史。它起源於研究社會經濟問題,在兩千多年的發展過程中,統計學至少經歷了“城邦政情”、“政治算數”和“統計分析科學”三個發展階段。所謂“數理統計”並非獨立於統計學的新學科,確切地說,它是統計學在第三個發展階段所形成的所有收集和分析數據的新方法的一個綜合性名詞。機率論是數理統計方法的理論基礎,但是它不屬於統計學的範疇,而是屬於數學的範疇。
統計估計
統計估計(statistical estimation)是統計推斷的一種形式,統計估計的方法是用樣本的函式來估計總體的分布函式、分布參數或數字特徵。例如,用樣本均值估計總體均值;用經驗分布函式估計總體分布函式等,參數估計與非參數估計是統計估計的兩大部分。
統計估計是指推斷統計中用樣本資料去估計總體參數的方法。有點估計與區間估計兩種。
數理統計包括統計描述和統計推斷兩部分,統計推斷就是由樣本推斷總體,是統計學的核心內容,統計推斷內容非常豐富,大致可以歸納為兩大類:統計估計和統計檢驗。統計估計分為參數估計和非參數估計、點估計和區間估計,下面只涉及參數的點估計和區間估計,參數的點估計,指用樣本統計量的值估計未知參數的值。參數的區間估計就是用樣本來確定一個區間,使這個區間以很大的機率包含所估計的未知參數,這樣的區間稱為置信區間。
點估計是直接估計總體參數的值,通常用樣本數據的一個統計量作為總體參數的估計量。例如,在估計一個正態總體的平均數時,把樣本數據的平均數取作總體平均數的估計量。點估計時,要求樣本統計量是無偏統計量,即要求在無數次重複抽樣時,這種樣本統計量產生的分布的平均數等於被估計的參數。還要求這個樣本分布的方差比其他無偏估計量的方差要小。區間估計是構造 一個區間,推斷參數的真值以某個機率落在這個區間內。這個機率稱為“區間的置信水平”。這個區間,稱為“置信區間”。
假設檢驗
假設檢驗(Hypothesis Testing)是數理統計學中根據一定假設條件由樣本推斷總體的一種方法。具體作法是:根據問題的需要對所研究的總體作某種假設,記作H0;選取合適的統計量,這個統計量的選取要使得在假設H0成立時,其分布為已知;由實測的樣本,計算出統計量的值,並根據預先給定的顯著性水平進行檢驗,作出拒絕或接受假設H0的判斷。常用的假設檢驗方法有u—檢驗法、t檢驗法、χ2檢驗法(卡方檢驗)、F—檢驗法,秩和檢驗等。
假設檢驗的基本思想是小機率反證法思想。小機率思想是指小機率事件(P<0.01或P<0.05)在一次試驗中基本上不會發生。反證法思想是先提出假設(檢驗假設H0),再用適當的統計方法確定假設成立的可能性大小,如可能性小,則認為假設不成立,若可能性大,則還不能認為不假設成立。
假設是否正確,要用從總體中抽出的樣本進行檢驗,與此有關的理論和方法,構成假設檢驗的內容。設 A是關於總體分布的一項命題,所有使命題 A成立的總體分布構成一個集合 h0,稱為原假設(常簡稱假設)。使命題 A不成立的所有總體分布構成另一個集合 h1,稱為備擇假設。如果 h0可以通過有限個實參數來描述,則稱為參數假設,否則稱為非參數假設(見非參數統計)。如果 h0(或 h1)只包含一個分布,則稱原假設(或備擇假設)為簡單假設,否則為複合假設。對一個假設 h0進行檢驗,就是要制定一個規則,使得有了樣本以後,根據這規則可以決定是接受它(承認命題 A正確),還是拒絕它(否認命題 A正確)。這樣,所有可能的樣本所組成的空間(稱樣本空間)被劃分為兩部分HA和HR(HA的補集),當樣本 x∈HA時,接受假設 h0;當 x∈HR時,拒絕 h0。集合HR常稱為檢驗的拒絕域,HA稱為接受域。因此選定一個檢驗法,也就是選定一個拒絕域,故常把檢驗法本身與拒絕域HR等同起來。
相關分析
相關分析就是對總體中確實具有聯繫的標誌進行分析,其主體是對總體中具有因果關係標誌的分析。它是描述客觀事物相互間關係的密切程度並用適當的統計指標表示出來的過程。在一段時期內出生率隨經濟水平上升而上升,這說明兩指標間是正相關關係;而在另一時期,隨著經濟水平進一步發展,出現出生率下降的現象,兩指標間就是負相關關係。
為了確定相關變數之間的關係,首先應該收集一些數據,這些數據應該是成對的。例如,每人的身高和體重。然後在直角坐標繫上描述這些點,這一組點集稱為“散點圖”。
根據散點圖,當自變數取某一值時,因變數對應為一機率分布,如果對於所有的自變數取值的機率分布都相同,則說明因變數和自變數是沒有相關關係的。反之,如果,自變數的取值不同,因變數的分布也不同,則說明兩者是存在相關關係的。
兩個變數之間的相關程度通過相關係數r來表示。相關係數r的值在-1和1之間,但可以是此範圍內的任何值。正相關時,r值在0和1之間,散點圖是斜向上的,這時一個變數增加,另一個變數也增加;負相關時,r值在-1和0之間,散點圖是斜向下的,此時一個變數增加,另一個變數將減少。r的絕對值越接近1,兩變數的關聯程度越強,r的絕對值越接近0,兩變數的關聯程度越弱。
回歸分析
回歸分析(regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。運用十分廣泛,回歸分析按照涉及的變數的多少,分為一元回歸和多元回歸分析;按照因變數的多少,可分為簡單回歸分析和多重回歸分析;按照自變數和因變數之間的關係類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個自變數和一個因變數,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變數,且自變數之間存線上性相關,則稱為多重線性回歸分析。
在大數據分析中,回歸分析是一種預測性的建模技術,它研究的是因變數(目標)和自變數(預測器)之間的關係。這種技術通常用於預測分析,時間序列模型以及發現變數之間的因果關係。例如,司機的魯莽駕駛與道路交通事故數量之間的關係,最好的研究方法就是回歸。
方差分析
方差分析(Analysis of Variance,簡稱ANOVA),又稱“變異數分析”,是R.A.Fisher發明的,用於兩個及兩個以上樣本均數差別的顯著性檢驗。 由於各種因素的影響,研究所得的數據呈現波動狀。造成波動的原因可分成兩類,一是不可控的隨機因素,另一是研究中施加的對結果形成影響的可控因素。
方差分析的基本原理是認為不同處理組的均數間的差別基本來源有兩個:
(1) 實驗條件,即不同的處理造成的差異,稱為組間差異。用變數在各組的均值與總均值之偏差平方和的總和表示,記作SSb,組間自由度dfb。
(2)隨機誤差,如測量誤差造成的差異或個體間的差異,稱為組內差異,用變數在各組的均值與該組內變數值之偏差平方和的總和表示, 記作SSw,組內自由度dfw。
總偏差平方和 SSt = SSb + SSw。
組內SSw、組間SSb除以各自的自由度(組內dfw =n-m,組間dfb=m-1,其中n為樣本總數,m為組數),得到其均方MSw和MSb,一種情況是處理沒有作用,即各組樣本均來自同一總體,MSb/MSw≈1。另一種情況是處理確實有作用,組間均方是由於誤差與不同處理共同導致的結果,即各樣本來自不同總體。那么,MSb>>MSw(遠遠大於)。
MSb/MSw比值構成F分布。用F值與其臨界值比較,推斷各樣本是否來自相同的總體。