詞頻分布定律:關於單詞在文獻中出現頻次的分布規律。亦稱省力法則。1948 -百科知識中文網

詞頻分布定律

正文

該定律指出文章中單詞的頻次(f)與其排列的序號(r)之間存在著下述定量的關係,齊普夫認為：如果有一個包含n 個詞的文章，將這些詞按其出現的頻次遞減地排序，那么序號r和其出現頻次f之積fr，將近似地為一個常數，即fr=b，(式中r=1,2,3.…)，即詞頻分布定律最普通而又最典型的表達。此後, 許多工具書大都採用類似觀點和說法。如英國著名的語言學著作《語言與語言詞典》中的釋義是：“(詞頻分布定律) 是指談話者或寫作者使用的詞的分布和頻次的總描述。F×R=C，方程式中F=頻次,R=序號,即頻率表上的位置；C=常數。方程式表示詞使用的總次數和詞頻表上的位置之間有一個固定比率。”但是齊普夫的表達僅適宜於中頻詞的情況，高頻與低頻詞與該表述偏差較大。於是對詞頻分布規律又有許多補充和深化的研究。
詞頻分布規律是有較為豐富內涵的，學術界認為常態分配是描述自然科學的典型分布，而齊普夫分布將成為揭示社會科學規律的典型分布，所以社會科學界一直很重視這個定律。討論詞頻分布何以呈現那種特殊的形狀，對其成因提出假說，建立適當的理論模型描繪其分布過程是當前研究工作的熱點,目前較重要的假說有2個：①“省力法則”假說。提出這一假說的是齊普夫。他認為，在語言交流過程中，“省力法則”同時體現在說話人和聽話人身上。說話人希望組成語言的詞少，而且一詞多義,以節省其精力。聽話人認為最好是一詞一義,使聽到的詞與其確切涵義容易匹配,減少他理解的功夫。這2種節省精力的傾向最後平衡的結果,便是詞頻的那種雙曲線型分布。②“成功產生成功”假說。這方面以H.A.西蒙的研究最為著名。西蒙構造了一個機率模型，他所作的一個重要假說是：在文獻中,一詞使用的次數越多,則再次使用的可能性越大。該模型最後導出的分布與齊普夫分布相當接近，D.J.de S.普賴斯後來建立了一個相類似的模型，又明確地提出了“成功產生成功”的假說。
研究詞頻分布對編制詞表，制定標引規則，進行辭彙分析與控制，分析作者著述特徵具有一定意義。經驗表明，中頻詞往往是包含大量有檢索意義的關鍵字。而一篇文獻全文輸入計算機後，計算機是很容易檢出中頻詞的。因此，詞頻分布也是文獻自動分類、自動標引的研究對象。

詞頻分布定律

詞頻分布定律

正文

配圖

相關連線

相關詞條

齊夫定律

Zipf定律

齊普夫定律

冪律分布

信息計量學及其醫學套用

文獻計量學

書目計量學

昝輝

相關搜尋

熱門詞條