常態分配
設真值為,n個獨立測量值為。高斯把後者的機率取為
(9)
其中為待定的誤差密度函式。到此為止他的作法與拉普拉斯相同。但在往下進行時,他提出了兩個創新的想法。
一是他不採取貝葉斯的推理方式,而徑直把使(9)式達到最大的,作為的估計,即使
(10)
成立的。現在我們把稱為樣本的似然函式,而把滿足(10)式的稱為的極大似然估計。這個稱呼是追隨費歇爾,因為他在1912年發表的一篇文章中,明確提到以上概念並非針對一般參數的情形。
如果拉普拉斯採用了高斯這個想法,那他會得出(在已定誤差密度(3)的基礎上)的估計是的中位數med(),即按大小排列居於正中的那一個(n為奇數時),或居於正中那兩個的算術平均(n為偶數時)。這個解不僅計算容易,且在實際意義上,有時比算術平均更合理。不過,即使這樣,拉普拉斯的誤差分布(3)大概也不可能取得高斯正態誤差那樣的地位。原因是是線性函式,在正態總體下有完善的小樣本理論,而med()要用於推斷就難於處理。另外,這裡所談的是一個特定的問題——隨機測量誤差該有如何的分布。測量誤差是由諸多因素形成,每種因素影響都不大。按中心極限定理,其分布近似於正態是勢所必然。其實,早在1780年左右,拉普拉斯就推廣了狄莫弗的結果,得到了中心極限定理的比較一般的形式。可惜的是,他未能把這一成果用到確定誤差分布的問題上來。
高斯的第二點創新的想法是:他把問題倒過來,先承認算術平均是應取的估計,然後去找誤差密度函式以迎合這一點,即找這樣的,使有(10)式決定的就是。高斯證明(注2):這隻有在
(11)
才能成立,這裡h>0是常數,這就是常態分配。
使用這個誤差分布,就容易對最小二乘法給出一種解釋。回到第四章的方程(3),其中,是觀測數據。記
按理論它們應為0,但因有測量誤差存在,實際不必為0,故可視為誤差。按高斯的第一個原則(極大似然),結合誤差密度(11),()的機率為
要此式達到最大,必須取之值,使表達式達到最小,於是得到的最小二乘估計。要注意的是,這一點與待定常數之值無關。
高斯這項工作對後世的影響極大,它使常態分配同時有了“高斯分布”的名稱,且如第七章曾指出的,後世之所以多將最小二乘法的發明權歸之於他,也是出於這一工作。高斯是一個偉大的數學家,重要的貢獻不勝枚舉。但現今德國10馬克的印有高斯頭像的鈔票,其上還印有常態分配的密度曲線。這傳達了一種想法:在高斯的一切科學貢獻中,其對人類文明影響最大者,就是這一項。
在高斯剛作出這個發現之初,也許人們還只能從其理論的簡化上來評價其優越性,其全部影響還不能充分看出來。這要到20世紀正態小樣本理論充分發展起來以後。
拉普拉斯很快得知高斯的工作,並馬上將其與他發現的中心極限定理聯繫起來。為此,他在即將發表的一篇文章(發表於1810年)上加了一點補充,指出如若誤差可看成許多量的疊加,則根據他的中心極限定理,則誤差理應有高斯分布。這是歷史上第一次提到所謂“誤差學說”誤差是由大量的、由種種原因產生的元誤差疊加而成。後來到1837年,海根(G.Hagen)在一篇論文中正式提出了這個學說。其實,他提出的形式有相當大的局限性:海根把誤差構想成個數很多的、獨立同分布的“元誤差”之和,每個只取兩值,其機率都是,由此出發,按狄莫弗的中心極限定理,立即就得出誤差(近似地)服從常態分配。
拉普拉斯所指出的這一點有重大的意義,在於它給誤差的正態理論一個更自然合理,更令人信服的解釋。因為,高斯的說法有一點循環論證的氣味:由於算術平均是優良的,推出誤差必須服從常態分配;反過來,由後一結論又推出算術平均及最小二乘估計的優良性,故必須認定這二者之一(算術平均的優良性,誤差的正態性)為出發點,終覺有其不足之處。拉普拉斯的理論把這斷裂的一環連線起來,使之成為一個和諧的整體,實有著極重大的意義。