頻率詞典
正文
按詞出現頻率的高低而編排的詞典。世界上第一部頻率詞典是1898年德國語言學家F.W.凱丁編的《德語頻率詞典》,這部詞典統計了 110萬個詞的語言素材。20世紀初,美國教育學家兼心理學家E.L.桑代克(1874~1949)編寫了《教師兩萬詞詞書》(192和《教師三萬詞詞書》(1944)。他做了大量的英語辭彙的頻率統計工作。中國第一部漢語頻率字典是教育家陳鶴琴 (1892~1982) 編寫的《語體文套用字彙》(1928)。中華人民共和國建立前他在南京高等師範學校任教,與助理員用了兩年時間,分析了554478個字,得出4261個單字。這是一部漢語頻率字典,而不是漢語頻率詞典。
頻率詞典按其內容可分為普通頻率詞典和專業性頻率詞典兩大類。
普通頻率詞典 可分為單語言頻率詞典和多語言頻率詞典。
單語言頻率詞典 分為:①語義頻率詞典:有英國學者M.韋斯特編寫的《通用英語詞表》(1953),收集了2000個最常用的英語詞,對於每一個多義詞,統計了它的每一個意義的頻率。②成語頻率詞典:在桑代克的倡議下,美國外語教學委員會於20世紀二三十年代出版了一系列外語成語頻率詞典。例如,美國學者F.D.切伊德勒爾的《法語成語詞表》(1929)和E.豪克的《德語成語詞表》(193都以成語的中心詞為詞條,列出了各個成語的絕對頻率和序號。③後綴頻率詞典:有桑代克的《英語後綴的教學》(194。他在每一個後綴的後面,註明由該後綴構成的詞的數量,從而表示該後綴在英語中出現的頻率。後綴頻率詞典不是針對單詞而是針對語言的形態進行編寫的,又可稱為倒序頻率詞典,它對於了解各種語言形態在交際活動中的分布情況有很大作用,對於語法教學也很有用處,因此,倒序頻率詞典的編制很受語言學家的歡迎。④ 一般頻率詞典: 在每一個詞後,註明其絕對頻率、相對頻率及序號,有的還註明該詞在各種檔案中的分布情況。
多語言頻率詞典 有美國學者 H.S.伊通的 《英語、法語、德語、西班牙語比較頻率詞表》(1940),這是一本多語言對照的頻率詞典,以各語言中最常用的1000個詞為依據進行對照。由於各語言所選的樣本及樣本容量不同,因而各語言中詞的頻率的相對誤差也各不相同。
專業性頻率詞典 有蘇聯學者С.Д.別列斯涅夫等編的《德語畜牧學頻率詞典》(1968),他們從151000個詞的語言素材中,統計出了2050個常用詞。 蘇聯學者П.М.阿列克謝耶夫和Л.А.圖里金娜合編的《英俄頻率詞典-最低限量的新聞辭彙》從30萬個詞的語言素材中,統計出16114個詞(其中出現3次以上的有6002個),並從另外30萬個詞的語言素材中統計出 16518個詞組(其中出現3次以上的有1963個)。其他如電子學等專業也編制了專業性頻率詞典。
過去,編寫頻率詞典主要靠手工查頻。近年來,人們開始藉助於計算機查頻。對於一些形態變化豐富的語言,首先由計算機將文章中的每個詞還原成它的原形(即頻率詞典中作詞條列出的形式),並注出每個詞詳盡的形態變化,輸入計算機儲存,然後由計算機進行頻率統計,列印出頻率詞典。例如,蘇聯拉脫維亞共和國科學院語言文學研究所數理語言學實驗室就用計算機編寫了《拉脫維亞語倒序頻率詞典》。北京航空學院計算機系用計算機對中國自1977~1982年漢字的使用頻率進行了一項規模浩大的統計工作,他們從報紙、期刊、教材、專著和通俗讀物等材料中,選出1240餘萬字,分社會科學5類、自然科學5類,用計算機進行處理,得出這些材料中共使用漢字8969個,並給出了這些漢字根據不同學科分類的26種使用頻率表,這是目前統計規模最大的漢語頻率字典。北京師範大學現代化教育技術研究所將24冊現行中國小語文教材共106.8萬字存入計算機,用動態方式生成了一個"漢語辭彙信息庫",並進行詞頻統計,由計算機編制出總詞頻表和分別按年代、教學階段、作者以及文體進行統計的分布詞頻表。 北京語言學院語言教學研究所採用人工與計算機相結合的辦法,對近200萬字的漢語語料進行詞頻統計,編制了《現代漢語頻率詞典》,收詞31159條,這是中國正式出版的第一部漢語頻率詞典。