奔福德定律

0.301 0.176 0.051

奔福德定律是由美國數學家、天文學家塞蒙·紐卡姆(Simon Newcomb)在1881年首次發現的。在1881年的一天,他在使用對數表做計算時,突然注意到了對數表的第一頁要比其他頁更為破舊。奇怪的現象激發了他的研究興趣,當時他所能得到的唯一的解釋是人們對小數字的計算量要大於對大數字的計算量。經過大量的統計分析,他發現了許多類型的數字都很好地符合這樣的規律:以1為第一位數的隨機數要比以2為第一位數的隨機數出現的機率要大,而以2為第一位數的隨機數又比以3為第一位數的隨機數出現的機率要大,以此類推。當時紐卡姆關注這一數學現象完全是出於好奇,並沒有對這一定律做出任何解釋。由於當時的人們對這一規律的運用缺乏興趣,這一發現很快就被人們忘卻了。
到了1938年,美國通用電器(GE)的物理學家弗瑞克·奔福德(Frank Benford)注意到了同樣的現象。他收集並驗證了總數為20229個數字,其中包括籃球比賽的數字、河流的長度、湖泊的面積、各個城市的人口分布數字、在某一雜誌里出現的所有數字,發現在這些數字中,整數1在數字中第一位出現的機率大約為30%,整數2在數字中第一位出現的機率大約為17%,整數3在數字第一位出現的機率約為12%,而8和9在數字中第一位出現的機率約為5%和4%。這一規律因此也被人們稱為“第一位數分布規律”(見表1)。
表1 整數1~9在數字首位上出現的機率
n 1 2 3 4 5 6 7 8 9
P[dight(n)] 0.301 0.176 0.125 0.097 0.079 0.067 0.058 0.051 0.046
不過,並不是所有的數據都可以用奔福德定律來進行分析,能夠用奔福德定律來進行數值分析的數據應該有如下條件限制:(1)數據不能設定最大值與最小值的限制,比如百分比、全世界政治家的年齡、人的身高、以秒為單位的400米跑的時間、郵件的郵資。(2)數值在一個很寬的範圍里連續變動,不存在間斷點或間斷區間。(3)數字沒有被特別賦值,如身份證號、股票代碼、社會保險號。(4)數值既不完全隨機,也不過度地集中。(5)數值的形成受多種因素的影響,是多種因素綜合作用的結果。
符合奔福德定律數據類型一般有:河流的長度,人口分布數,煤氣耗用量、用電的賬單金額數、公司的繳納稅款數、個人所得稅的納稅額。一般認為,與會計、統計、稅收、金融以及證券市場的各種數字可以很好地符合奔福德定律。
這個應該沒啥稀奇。我們採用的十進制相當於等比級數,但是在進位之前的1、2、3、4...卻又是等差級數,這一點從對數坐標紙上就可以清晰的看出,1~2之間的距離比2~3就要大。因此,首位數是1的機率應該是:
1: log2=30.1%
2: log3-log2=17.6%
3: log4-log3=12.5%

相關詞條

熱門詞條

聯絡我們