簡介
齊夫定律(英語:Zipf's law,IPA/ˈzɪf/)是由哈佛大學的語言學家喬治·金斯利·齊夫(George Kingsley Zipf)於1949年發表的實驗定律。它可以表述為:在自然語言的語料庫里,一個單詞出現的頻率與它在頻率表里的排名成反比。所以,頻率最高的單詞出現的頻率大約是出現頻率第二位的單詞的2倍,而出現頻率第二位的單詞則是出現頻率第四位的單詞的2倍。這個定律被作為任何與冪定律機率分布有關的事物的參考。
理論
這個“定律”是哈佛大學的語言學家GeorgeKingsley Zipf1949年發表的。比如,在 Brown 語料庫中,“the”是最常見的單詞,它在這個語料庫中出現了大約7%(100萬單詞中出現69971次)。正如齊夫定律中所描述的一樣,出現次數為第二位的單詞“of”占了整個語料庫中的3.5%(36411次),之後的是“and”(28852次)。僅僅135個字彙就占了Brown語料庫的一半。齊夫定律是一個實驗定律,而非理論定律。齊夫分布可以在很多現象中被觀察到。齊夫分布的在現實中的起因是一個爭論的焦點。齊夫定律很容易用點陣圖觀察,坐標為log(排名)和log(頻率)。比如,“the”用上述表述可以描述為x = log(1), y = log(69971)的點。如果所有的點接近一條直線,那么它就遵循齊夫定律。最簡單的齊夫定律的例子是“1/f function”。給出一組齊夫分布的頻率,按照從最常見到非常見排列,第二常見的頻率是最常見頻率的出現次數的½,第三常見的頻率是最常見的頻率的1/3,第n常見的頻率是最常見頻率出現次數的1/n。然而,這並不精確,因為所有的項必須出現一個整數次數,一個單詞不可能出現2.5次。然而,在一個廣域範圍內並且做出適當的近似,許多自然現象都符合齊夫定律。
套用
巴塞隆納自治大學數學研究中心的研究者最近使用數學和統計學的專業知識,對齊夫定律(Zipf's law)進行了嚴格的研究。他們使用了古登堡計畫(the Project Gutenberg)的資料庫——古登堡計畫是一項將著作權過期的英語書籍電子化的網際網路計畫,包含3萬多篇英語文本,可以免費獲取。這么大規模的研究在該領域前所未有,此前的研究大多只採用幾十篇文本的數據集。分析結果表明,如果除去少數隻出現了一兩次的詞語,有55%的文本完全地符合齊夫定律,而如果考慮所有的詞語,仍然有40%的文本完全符合齊夫定律。該研究的負責人科拉爾(Á.Corral)稱,如果進一步忽略只出現3至5次的詞語,符合齊夫定律的文本數還會更多。
前不久,江南大學的研究者以諾貝爾文學獎得主莫言的《紅高粱》《蛙》和《透明的紅蘿蔔》為主要研究對象,採用字頻統計軟體和漢語詞頻統計軟體,統計莫言作品中字頻、詞頻,發現都能滿足齊夫定律。所得結果與包括英語、西班牙語、法語等在內的多種語言研究結果一致。這項研究從統計學角度提供了莫言可以成為中國大陸首位諾貝爾文學獎得主的可能原因之一。
齊夫定律已經在語言學、情報學、地理學、經濟學、信息科學等領域有了廣泛的套用,而且取得了不少可喜成果。中國數學家和語言學家周海中曾經指出:齊夫定律是描述詞頻分布規律的強大數學工具;作為經驗定律,它仍有不足之處,有待進一步完善。
例子
最簡單的齊夫定律的例子是“1/ ffunction”。給出一組齊夫分布的頻率,按照從最常見到非常見排列,第二常見的頻率是最常見頻率的出現次數的½,第三常見的頻率是最常見的頻率的1/3,第n常見的頻率是最常見頻率出現次數的1/n。然而,這並不精確,因為所有的項必須出現一個整數次數,一個單詞不可能出現2.5次。
在Brown語料庫中,“the”、“of”、“and”是出現頻率最前的三個單詞,其出現的頻數分別為69971次、36411次、28852次,大約占整個語料庫100萬個單詞中的7%、3.6%、2.9%,其比例約為6:3:2。大約占整個語料庫的7%(100萬單詞中出現69971次)。滿足齊夫定律中的描述。僅僅前135個字彙就占了Brown語料庫的一半。
齊夫定律是一個實驗定律,而非理論定律,可以在很多非語言學排名中被觀察到,例如不同國家中城市的數量、公司的規模、收入排名等。但它的起因是一個爭論的焦點。齊夫定律很容易用點陣圖觀察,坐標分別為排名和頻率的自然對數(log)。比如,“the”用上述表述可以描述為x = log(1), y = log(69971)的點。如果所有的點接近一條直線,那么它就遵循齊夫定律。
遵循該定律的現象
•單詞的出現頻率:不僅適用於語料全體,也適用於單獨的一篇文章
•網頁訪問頻率
•城市人口
•收入前3%的人的收入
•地震震級
•固體破碎時的碎片大小
參見
•經驗公式
•詞頻效應