齊普夫定律
正文
關於單詞在文獻中出現頻次的齊普夫定律。亦稱省力法則。1948年由美國哈佛大學語言學教授G.K.齊普夫對英語文獻中單詞出現的頻次進行大量統計以檢驗前人的定量化公式而提出的。該定律指出文章中單詞的頻次(f)與其排列的序號(r)之間存在著下述定量的關係,齊普夫認為:如果有一個包含n 個詞的文章,將這些詞按其出現的頻次遞減地排序,那么序號r和其出現頻次f之積fr,將近似地為一個常數,即fr=b,(式中r=1,2,3.…),即詞頻分布定律最普通而又最典型的表達。 此後, 許多工具書大 都採用類似觀點和說法 。如英國著名的語言學著作《語言與語言詞典》 中的釋義是:“(詞頻分布定律) 是指談話者或寫作者使用的詞的分布和頻次的總描述。F×R=C,方程式中F=頻次,R=序號,即頻率表上的位置;C=常數。方程式表示詞使用的總次數和詞頻表上的位置之間有一個固定比率。”但是齊普夫的表達僅適宜於中頻詞的情況,高頻與低頻詞與該表述偏差較大。於是對詞頻分布規律又有許多補充和深化的研究。詞頻分布規律是有較為豐富內涵的,學術界認為常態分配是描述自然科學的典型分布,而齊普夫分布將成為揭示社會科學規律的典型分布,所以社會科學界一直很重視這個定律。討論詞頻分布何以呈現那種特殊的形狀,對其成因提出假說,建立適當的理論模型描繪其分布過程是當前研究工作的熱點,目前較重要的假說有2個:①“省力法則”假說。提出這一假說的是齊普夫。他認為,在語言交流過程中,“省力法則”同時體現在說話人和聽話人身上。說話人希望組成語言的詞少,而且一詞多義,以節省其精力。聽話人認為最好是一詞一義,使聽到的詞與其確切涵義容易匹配,減少他理解的功夫。這2種節省精力的傾向最後平衡的結果,便是詞頻的那種雙曲線型分布。②“成功產生成功”假說。這方面以H.A.西蒙的研究最為著名。西蒙構造了一個機率模型,他所作的一個重要假說是:在文獻中,一詞使用的次數越多,則再次使用的可能性越大。該模型最後導出的分布與齊普夫分布相當接近,D.J.de S.普賴斯後來建立了一個相類似的模型,又明確地提出了“成功產生成功”的假說。
研究詞頻分布對編制詞表,制定標引規則,進行辭彙分析與控制,分析作者著述特徵具有一定意義。經驗表明,中頻詞往往是包含大量有檢索意義的關鍵字。而一篇文獻全文輸入計算機後,計算機是很容易檢出中頻詞的。因此,詞頻分布也是文獻自動分類、自動標引的研究對象。