機率統計計算
正文
又稱計算機率統計,是機率論、數理統計、計算數學和計算機科學等學科之間的一個交叉性、邊緣性、套用性的學科分支,研究如何根據實際問題提出來的要求,利用機率論、數理統計中提供的機率統計模型,對試驗觀測數據或隨機模擬數據進行統計分析處理,給出實際問題性質的統計描述、統計控制或統計預測的數值結果。機率統計計算套用廣泛,發展很快。研究的主要領域包括隨機數據的統計分析計算、機率統計模型的隨機模擬計算及它們在數字計算機上的具體計算實現的程式包研製等三個相互關聯的方面。
隨機數據的統計分析計算 在計算機上,對實際問題中給出的一組試驗觀測數據或機率統計模型的隨機模擬數據尣1,尣2 ,…,尣n 進行分析計算。這裡,,,表示在第i次試驗中或第i次模擬中得到的觀測數據,可以是一個標量 (m=1),也可以是一個向量(m>1)。根據尣i所含變數個數m的不同(m=1或m>1)和各次觀測模擬之間是否統計相關或相互獨立,在分析計算時使用不同的機率統計模型和不同的機率統計算法。對各次觀測或模擬間相互獨立的隨機數據,有一元(m=1)和多元(m>1)統計分析計算之分;對相關性的觀測數據,有處理平穩隨機數據的數字時間序列分析計算,處理突發隨機事件的隨機點過程計算,處理狀態離散的馬爾可夫鏈計算和處理各種觀測系統的數字濾波計算等。
對一組給定的隨機觀測數據{尣i}進行統計分析計算,重要的是選擇恰當的機率統計模型和有效的進行統計分析計算的算法。以對多元數據進行統計分析計算為例,目的各有不同:有的要求對觀測變數之間進行調整,使它們之間可以進行平衡和便於比較;有的要求在不影響結果的精度和可靠度的條件下,降低觀測數據的維數,化簡問題的結構;有的要求按照一定的標準,對數據進行分類或分組;有的要求給出觀測數據的方程或方程組,用這類模型解釋因變數的變異,預測系統的未來可能取值等等。因此,在多元分析計算中,不僅要明確進行分析計算的目的和觀測數據{尣i}自身的一些性質和特點,而且還要了解各種不同的多元統計分析模型及其相應算法的特點。在多元統計分析計算中,進行統計分析的主要目的、相應可用的統計模型及其常用算法如圖所示(箭頭指示出可選用的統計模型)。
以多元回歸分析和多元判別分析為例,用這種統計分析模型進行計算,就是根據由變數組(x1,x2,…,xm;y)得到的相互獨立的 n組觀測數據(xi1,xi2,…,xim;yi)(i=1,2,…,n;n>m), 確定因變數y和自變數(x1,x2,…,xm) 之間的關係,用於識別、預報、控制或分類。這裡,因變數y在回歸模型中取連續值,表示分析系統所處的水平;在判別模型中取離散值,表示系統的類別。對這組數據進行統計分析計算的目的,就是從給定的變數組(x1,x2,…,xm)中,選取一個“最優”的子集:在回歸模型中,經計算給出回歸方程,能夠解釋因變數y的變異;在判別模型中,經計算給出判別函式,能夠將用y表示的類別數據按類分開。所以,對給定的觀測數據進行分析計算時,主要注意力集中在最優變數子集選取的不同算法及其實現上。在實際問題中,預選自變數的個數m和觀測的次數n通常都很大,各個自變數之間也不相互正交,存在著錯綜複雜的相互關係,需要按照一定的標準對自變數xi進行舍選。目前常用的算法有四種:①漸增法,把自變數按照各自重要性的大小,逐個選入回歸方程或判別函式;②漸降法,先把所有能引入的自變數全部引入回歸方程或判別函式,然後再把不重要的自變數逐個捨去;③舍選法,在把重要的自變數引入回歸方程或判別函式的同時,檢驗已在模型中的自變數是否繼續顯著,把不符合要求的自變數從中捨去;④最佳子集法,利用自變數各個不同子集合之間的關係,從所有可能的子集中選取最佳的子集。第三種算法最為常用,通常把它稱為逐步回歸和逐步判別算法。
對系統中依賴於時間t的一個變數或一組變數x(t)進行觀測或模擬,在時間t的等距間隔 Δt上,得到一組有序離散相關的數集合尣1,尣2,…,尣n,其中尣i=尣(t0+iΔt)(i=1,2,…,n)稱為數字時間序列,分析這類數據的方法稱為數字時間序列分析,或簡稱為時間序列分析。這類方法包括時域中的相關分析,頻域中的譜分析和時間序列模型,特別是p階自回歸、q階滑動平均線性模型ARMA(p,q)的識別、估計和檢驗的計算問題等。
時間序列分析與回歸分析、判別分析等多元分析方法相比,發展較遲。由於在實際問題中套用的重要性和廣泛性,特別是數字計算機的迅速發展和一些重大算法(如快速傅立葉變換算法)和理論(如模型識別理論)的突破,從一維時間序列到多維時間序列、從線性模型到非線性模型,都有很快的發展和廣泛的套用。
在隨機數據統計分析計算中,利用數字計算機快速計算的特點,發展出一系列與傳統的統計計算不同的算法,如各種非參數統計算法、穩健性估計算法、刀切法和自助子樣法等,增強了機率統計計算處理實際問題的能力。
機率統計模型的隨機模擬計算 隨機抽樣是機率統計中的一類經典方法。由於數字計算機的出現和發展,隨機抽樣作為一種算法在第二次世界大戰之後得到了迅速發展,並在許多不同的領域中得到了廣泛的套用。當時從事這一方法研究的物理學家,借用歐洲著名賭城蒙特卡羅的名字,給該法起名為蒙特卡羅法。
和隨機數據的統計分析計算不同,隨機模擬計算利用實際系統的機率統計模型,通過模擬計算,“仿造”系統的試驗觀測數據,進而分析系統的漸近統計性質。在數字計算機上,隨機模擬計算用系統概型的隨機數字模擬代替實際系統的物理模擬,用偽隨機數代替隨機變數的真實抽樣,這種雙重模擬計算,為機率統計計算解決實際問題開闢了不少新的套用領域。
機率統計計算程式包 為方便使用者在計算機上使用統計算法已經研製出為數眾多的機率統計計算程式包,它們可提供完整配套的統計模型,快速可靠的算法,易於使用、便於移植和二次開發的各種計算機語言的程式。它們在計算機上的廣泛套用,既帶來了方便,也出現了一些值得注意的問題,主要集中在機率統計計算的誤用和濫用上。因此,具有模型自動檢驗、識別功能和有效算法選取功能的統計程式包更受到使用者的歡迎。
參考書目
中國科學院計算中心機率統計組編著:《機率統計計算》,科學出版社,北京,1979。
K.安斯倫、A.拉爾斯登、H.S.維爾夫編,中國科學院計算中心機率統計組譯:《數字計算機上用的數學方法(統計方法)》,第3卷,上海科學技術出版社,上海,1981。(K. Enslein, A. Ralston, H. S. Wilf,StatisticalMethods for Digital Computers,Vol.3,MatheMatical Methods for Digital Computers,JohnWiley and Sons,New York,1977.)