Zipf定律

Zipf定律

Zipf定律可以表述為在自然語言的語料庫里,一個單詞出現的次數與它在頻率表里的排名成反比。Zipf定律是美國學者G.K.齊普夫1935年提出的。

Zipf定律描述

Zipf定律 Zipf定律

1935年,哈佛大學的語言學專家Zipf在研究英文單詞出現的頻率時,發現如果把單詞出現的頻率按由大到小的順序排列,則每個單詞出現的頻率與它的名次的常數次冪存在簡單的反比關係,這種分布就稱為Zipf定律,它表明在英語單詞中,只有極少數的詞被經常使用,而絕大多數詞很少被使用.實際上,包括漢語在內的許多國家的語言都有這種特點。這個定律後來在很多領域得到了同樣的驗證,包括網站的訪問者數量、城鎮的大小和每個國家公司的數量。

Zipf其人

George Kingsley Zipf 1902年1月出生於一個德裔家庭(其祖父十九世紀中葉移居美國)。1924年,他以優異成績畢業於哈佛學院。1925年在德國波恩、柏林學習。1929年完成Relative Frequency as a Determinant of Phonetic Change,獲得哈佛比較語文學博士學位。然後,他開始在哈佛教授德語。1931年與Joyce Waters Brown結婚。1932年出版Selected Studies of the Principle of Relative Frequency in Language。1935年出版The Psycho- Biology of Language:An Introduction to Dynamic Philology。1939年被聘為講師。1949年出版Human Behavior and the Principle of Least Effort:An Introduction to Human Ecology。1950年9月因患癌症病逝。(Prün & Zipf 2002)

Zipf套用

相信你一定聽過這樣的說法:

80%的財富集中在20%的人手中……

80%的用戶只使用20%的功能……

20%的用戶貢獻了80%的訪問量……

…………

你知道我在說“二八原則”或“20/80原則”,是的,沒錯!

-----------

如果把所有的單詞(字)放在一起看呢?會不會20%的詞(字)占了80%的出現次數?答案是肯定的。

早在上個世紀30年代,就有人(Zipf)對此作出了研究,並給出了量化的表達——齊普夫定律(Zipf's Law):一個詞在一個有相當長度的語篇中的等級序號(該詞在按出現次數排列的詞表中的位置,他稱之為rank,簡稱r)與該詞的出現頻率(他稱為frequency,簡稱f)的乘積幾乎是一個常數(constant,簡稱C)。用公式表示,就是 r × f = C 。

Zipf定律是文獻計量學的重要定律之一,它和洛特卡定律、布拉德福定律一起被並稱為文獻計量學的三大定律。

Zipf的專業是比較語文學,但是,以其名字命名的定律卻早已走出語言學,進入了信息學、計算機科學、經濟學、社會學、生物學、地理學、物理學等眾多研究領域 ,在學術界享有極高的聲譽。

齊夫定律已經在語言學、情報學、地理學、經濟學、信息科學等領域有了廣泛的套用,而且取得了不少可喜成果。中國數學家和語言學家周海中曾經指出:齊夫定律是描述詞頻分布規律的強大數學工具;作為經驗定律,它仍有不足之處,有待進一步完善。

相關詞條

熱門詞條

聯絡我們