對比
常態分配
自然界與社會生活中,許多科學家感興趣的事件往往都有一個典型的規模,個體的尺度在這一特徵尺度附近變化很小. 比如說人的身高,中國成年男子的身高絕大多數都在平均值1.70m左右。 當然,地域不同這一數值會有一定的變化,但無論怎樣,我們從未在大街上見過身高低於10cm的“小矮人”,或高於10m的“巨人”。 如果我們以身高為橫坐標,以取得此身高的人數或機率為縱坐標,可繪出一條鐘形分布曲線,這種曲線兩邊 衰減得極快;類似這樣以一個平均值就能表征出整個群體特性的分布,我們稱之為常態分配。另外一個我們要注意的是最高的人與最矮的人的身高之比,根據金氏世界紀錄,世界上最高的人與最矮的人(均已去世)的身高分別是2. 72m和0. 57m,二者之比為4. 8,這個數值並不是很大,我們將在下文中證實。
長尾分布
對於另一些分布,像國家GDP或個人收入的分布,情況就大不一樣了,個體的尺度可以在很寬的範圍內變化,這種波動往往可以跨越多個數量級. 比如根據世界銀行的統計,最富有的國家—美國,其2003年GDP高達10, 881, 609, 000,000美元(一個天文數字) ,而數據顯示同年GDP最低的國家—西非島國聖多美和普林西比,只有54, 000,000美元,二者之比高達201511. 3。個人收入分布亦是如此,想想世界首富比爾·蓋茨那高達465億美元的個人資產就清楚了。 國家或城市人口的分布也會出現類似的情形。 據世界銀行的統計, 2003年人口最多的國家—中國,總人口數多達1, 288, 400,000,而數據顯示同年人口最少的國家—西太平洋上的帛琉群島,人口數僅為20, 000 (不及中國一個普通縣城的人口數) ,二者之比有64420之多。
以收入值或國家總人口數為橫坐標,以不低於該收入值的人數(機率)或國家數目(機率)為縱坐標,可繪出一條向右偏斜得很厲害,拖著長長“尾巴”的機率分布曲線,它與鐘形的泊松分布曲線有顯著的不同. 這種“長尾”分布表明,絕大多數個體的尺度很小,而只有少數個體的尺度相當大,像國家人口,全世界有224個國家和地區,只有11個國家的人口數超過一億。
對“長尾”分布研究做出重要貢獻的是Zipf和Pareto ,雖然他們並不是這種分布的最早發現者。1932年,哈佛大學的語言學專家Zipf在研究英文單詞出現的頻率時,發現如果把單詞出現的頻率按由大到小的順序排列,則每個單詞出現的頻率與它的排名序號的常數次冪存在簡單的反比關係:
P(r) ~r^-α
這種分布就稱為Zipf定律,它表明在英語單詞中,只有極少數的詞被經常使用,而絕大多數詞很少被使用。 實際上,包括漢語在內的許多國家的語言都有這種特點。 物理世界在相當程度上是具有惰性的,動態過程總能找到能量消耗最少的途徑,人類的語言經過千萬年的演化,最終也具有了這種特性,詞頻的差異有助於使用較少的辭彙表達儘可能多的語義,符合“最小努力原則”.分形幾何學的創始人Mandelbrot對Zipf定律進行了修訂,增加了幾個參數,使其更符合實際的情形。
19世紀的義大利經濟學家Pareto研究了個人收入的統計分布,發現少數人的收入要遠多於大多數人的收入,提出了著名的80/20 法則,即20%的人口占據了80%的社會財富. 個人收入X 不小於某個特定值x的機率與x的常數次冪亦存在簡單的反比關係: P [X ≥x ]~x - k ,此式即為Pareto定律(帕累托定律)。
Zipf定律與Pareto定律都是簡單的冪函式,我們稱之為冪律分布;還有其他形式的冪律分布,像名次- 規模分布、規模-機率分布,這四種形式在數學上是等價的,其通式可寫成,其中x, y是正的隨機變數,c, r均為大於零的常數. 這種分布的共性是絕大多數事件的規模很小,而只有少數事件的規模相當大。 對上式兩邊取對數,可知lny與lnx滿足線性關係lny= lnc - rlnx,也即在雙對數坐標下,冪律分布表現為一條斜率為冪指數的負數的直線,這一線性關係是判斷給定的實例中隨機變數是否滿足冪律的依據。
判斷兩個隨機變數是否滿足線性關係,可以求解兩者之間的相關係數;利用一元線性回歸模型和最小二乘法,可得lny對lnx的經驗回歸直線方程,從而得到y與x之間的冪律關係式.在雙對數坐標下的圖形,由於某些因素的影響,前半部分的線性特性並不是很強,而在後半部分,則近乎為一直線,其斜率的負數就是冪指數。
套用
實際上,冪律分布廣泛存在於物理學、地球與行星科學、計算機科學、生物學、生態學、人口統計學與社會科學、經濟與金融學等眾多領域中,且表現形式多種多樣。在自然界與日常生活中,包括地震規模大小的分布(古登堡2里希特定律) 、月球表面上月坑直徑的分布、行星間碎片大小的分布 、太陽耀斑強度的分布 、計算機檔案大小的分布 、戰爭規模的分布 、人類語言中單詞頻率的分布 、大多數國家姓氏的分布 、科學家撰寫的論文數的分布、論文被引用的次數的分布、網頁被點擊次數的分布 、書籍及唱片的銷售冊數或張數的分布、每類生物中物種數的分布、甚至電影所獲得的奧斯卡獎項數的分布等,都是典型的冪律分布。