圖書信息
出版社: 北京語言大學出版社; 第1版 (2009年6月1日)
平裝: 270頁
正文語種: 簡體中文
開本: 16
ISBN: 9787561923108
條形碼: 9787561923108
尺寸: 22.6 x 15.4 x 1.8 cm
重量: 422 g
作者簡介
楊建國,北京語言大學首都國際文化研究基地副研究員,碩士研究生導師。主要研究方向為語言學及套用語言學、漢語文化教育等,已發表語言、文化及教育類論文30餘篇。曾參與編寫《四庫大辭典》《中國傳統文化》等工具書及教材。
內容簡介
《基於動態流通語料庫的漢語熟語單位研究》基於漢語詞典學界和中文信息處理界重“詞”輕“語”的現象,對詞組研究、熟語研究進行了反思,提出“熟語單位”(IdiomUnit,IU)的概念。所謂“熟語單位”,就是“結合緊密,使用穩定”、功能相當於熟語的結構單位,是符合人的認知規律並被人們經常當做一個詞來使用的定型化了的固定短語或凝固表達式。我們判別IU的三條原則為:是否“結合緊密,使用穩定”;是否符合人們的認知規律(IU的長度一般為7±2);流通度是否達到一定的閾值。IU理論上包括一切具有熟語性的詞語組合單位。《基於動態流通語料庫的漢語熟語單位研究》討論的IU範圍包括三字格中的慣用語和像“差不多、靠不住、來不及”這樣介於詞和短語之間的結構串,四字格中的成語和新固定短語,簡稱略語、插入語和字母詞語等。
本研究選用的是《人民日報》2001-2003年三年的文本,約8000萬字。文章以動態語言知識更新理論為指導,以流通度理論為基礎,以年平均流通度閾值(0.5)作為主要篩選依據,運用規則和統計相結合的方法對“熟語單位”(IU)進行了初步的提取研究,並對部分提取結果的噪聲環境作了定量與定性分析。
對於IU的提取,我們採取的策略和基本步驟是:
(1)利用點號和“的、是、在、和、了、有”等高頻詞(字)將文本化短;自動提取時犧牲包含切分點的字元串,該部分字元串另行補救。
(2)數據格式轉換。將切分得到的形式上“完整”的2-8字串轉為資料庫格式。
(3)統計3-5字串的頻度、散布度和流通度。
(4)用字元串全年的平均流通度閾值進行篩選。
(5)對五音節(含)以上字串進行分詞並加以詞性標註,對其中的3字串、4字串和符合“N+N”、“N+V”、“V+N”、“V+V”等語法組合規則的相鄰字元串(二元組)進行抽取;再對抽取的字元串重複上面的第(3)和第(4)步。
(6)對篩選得到的字元串進行噪聲剔除,全部進行重新切分並加以詞性標註,然後運用靜態規則模板(共30條規則)再次過濾。
(7)藉助輔助手段對熟語單位進行直接抽取。
(8)得到三至五字格熟語單位表(約13500條)。
《基於動態流通語料庫的漢語熟語單位研究》還對提取出來的2001年的5500個三字格、2002年的6500個四字格作了簡單的分類和例示性的分析說明,重點考察了具有熟語性的短語。
三字格中我們重點探討了音節為“1+2”式、結構為“V+N/NP”式和音節為“2+1”式、結構為“V/VP+N”式的兩類,驗證了馮勝利有關三音節組合的論斷:音節為“1+2”式的是短語,音節為“2+1”式的是韻律詞。
四字格中我們重點探討了“N+V”式和“V+N”式。N和V之間存在複雜的語法、語義以及音節制約關係。關於“N+V”式,通過考察,我們發現:定中關係的“N+V”式四字格熟語性最強,數量也最多;狀中關係次之,主謂關係的四字格熟語性最弱,且N與V之間存在離散性。關於“V+N”式,我們發現:第一,“V+N”式四字格如果表示通名,它往往是或者容易成為一個NP習慣性搭配。第二,“V+N”式四字格中的N如果是比較抽象的雙音節名詞,則這類四字格構成的NP其熟語性相對較強。第三,“V+N”式四字格中的V如果是雙音節述賓式動詞,那么這種“雙音節述賓式動詞+賓語”形成的NP熟語性很強。
《基於動態流通語料庫的漢語熟語單位研究》還從套用的角度對流行語、字母詞語和插入語進行了考察研究,對流行語的科學評定和字母詞語的規範發表了意見。
《基於動態流通語料庫的漢語熟語單位研究》對簡稱略語的研究主要以《現代漢語詞典》(2002年增補本)所收的134個簡稱和報紙語料中的約350個簡稱為考察對象,將簡稱分為固定簡稱和臨時簡稱兩種,少數臨時簡稱隨著使用次數的增加、使用範圍的擴寬,可以成為固定簡稱。我們對兩種簡稱的構成及固定簡稱的成因進行了初步探討,重點考察了簡稱在真實文本中的使用情況。
《基於動態流通語料庫的漢語熟語單位研究》主要有以下三方面的創新:
(1)依據熟語性定義了“熟語單位”(IU)。IU是基於大眾語感的認知結構單位,它使得固定短語的範圍適當擴大,更加有利於中文信息處理、語言教學和漢外翻譯等。
(2)第一次基於動態流通語料庫(DCC),從大規模真實文本中提取通用的報紙固定短語,而且是採用相似於公眾共同語感的流通度來由計算機自動提取。
(3)提出按照文體集合對應語體原則構建報紙分類語料庫的短語提取策略,減少系統處理開銷,提高短語識別的召回率(recallrate)和準確率(precisionrate)。
目錄
摘要
Abstract
第一章 引論
1.1 本研究提出的背景
1.2 本研究的目標
1.3 本研究的意義
1.4 本研究的創新點和難點
1.5 小結
第二章 漢語熟語單位
2.1 熟語單位的界定
2.2 熟語單位的判定原則
2.3 熟語單位的範圍
2.4 熟語單位的判定方法
2.5 小結
第三章 基於200l~2003年《人民日報》的漢語熟語單位提取研究
3.1 語料的選取
3.2 語料庫及語料庫語言學
3.3 詞語自動提取研究的歷史和現狀
3.4 我們對中文信息處理及漢語的認識
3.5 提取熟語單位的方法和技術路線
3.6 輔助提取手段分析
3.7 部分結果驗證及相關分析
3.8 小結
第四章 三字格熟語單位研究
4.1 已有的研究
4.2 三字格概況
4.3 音節為“1+2”式、結構為“V+N/NP”式的三字格
4.4 音節為“2+1”式、結構為“V/VP+N”式的三字格
4.5 小結
第五章 四字格熟語單位研究
5.1 已有的研究
5.2 四字格概況
5.3 “N+V”式的四字格
5.4 “V+N”/“V+V”式的四字格
5.5 小結
5.6 附論五字格
第六章 流行語研究
6.1 引言
6.2 關於“流行”的界定
6.3 關於流行語的語言學研究
6.4 流行語的科學認定
6.5 餘論
第七章 字母詞語研究
7.1 引言
7.2 基於詞典的字母詞語的分類及相關分析
7.3 基於報紙語料庫的字母詞語的使用情況舉隅
7.4 關於字母詞語規範的兩點思考
7.5 附論插入語
第八章 簡稱考察研究
8.1 引言
8.2 簡稱的界定
8.3 簡稱的分類
8.4 固定簡稱
8.5 臨時簡稱
8.6 通過形式標記提取的簡稱例示
8.7 小結
第九章 結語——兼論熟語單位的套用價值
9.1 本書的研究方法
9.2 熟語單位的套用價值
9.3 存在的問題與下一步工作
附錄1 兩本新詞語詞典所收的部分新詞語比較
附錄2 基於大學生的詞語語感調查表
附錄3 從2001~2003年《人民日報》中切出的部分2字串
附錄4 從2001~2003年《人民日報》中切出的部分3字串
附錄5 從2001~2003年《人民日報》中切出的部分4字串
附錄6 從2001~2003年《人民日報》中切出的部分5字串
附錄7 從2001~2003年《人民日報》中切出的部分6字串
附錄8 從2001~2003年《人民日報》中切出的部分7字串
附錄9 從2001~2003年《人民日報》中切出的部分8字串
附錄10 2001~2003年《人民日報》的部分三字格熟語單位
附錄11 2001~2003年《人民日報》的部分四字格熟語單位
附錄12 2001~2003年《人民日報》的部分五字格熟語單位
附錄13 2001~2003年《人民日報》中相同的部分熟語單位
附錄14 2001年《人民日報》的部分引號抽取串
附錄15 2002年《人民日報》的部分引號抽取串
附錄16 2003年《人民日報》的部分引號抽取串
附錄17 2001~2003年《人民日報》中相同的部分引號抽取串
附錄18 1998年1月《人民日報》的部分“V+V”實例
附錄19 《現代漢語詞典》(2002年增補本)收錄的簡稱詞條
附錄20 2002年《人民日報》中的部分簡稱
附錄21 本書所使用的標記集
參考文獻
後記