基本信息
面向機率型辭彙知識庫建設的名詞語言知識獲取
作 譯 者:王萌
出版時間:2016-08
千 字 數:158
版 次:01-01
頁 數:160
開 本:16開
I S B N :9787121294600
內容簡介
語言知識庫是眾多自然語言處理系統不可或缺的組成部分,同時也是各種自然語言處理技術賴以實現的基礎。語言知識庫建設已經成為自然語言處理領域最基本、最重要的套用基礎研究之一。本書是以北京大學計算語言學研究所開發的綜合型語言知識庫為基礎,圍繞異質資源的集成創新這一主題,從資源集成的廣度和深度兩個方向開展研究的。首先,介紹了綜合型語言知識庫系統的構成及功能;其次,以名詞為切入點,研究從語料中自動獲取名詞語法屬性的方法,內容涉及數詞與名詞構成的數名結構,數詞、量詞與名詞構成的數量名短語及名詞與名詞構成的複合名詞短語,並對這3種屬性關係進行了詳細的句法和語義分析。
目錄信息
第1章 引 言 1
1.1 研究意義和背景 1
1.2 研究內容和基礎 3
1.3 本書內容及結構安排 4
第2章 綜合型語言知識庫系統 7
2.1 國內外相關研究 7
2.2 綜合型語言知識庫的資源概況 9
2.2.1 語言數據資源簡介 10
2.2.2 工具軟體簡介 17
2.3 系統集成方案 19
2.4 系統功能 21
2.4.1 語言加工模組 21
2.4.2 知識檢索模組 22
2.4.3 知識挖掘模組 23
2.5 本章小結 24
第3章 詞語的機率語法屬性研究 26
3.1 現代漢語辭彙計量研究的發展 27
3.2 構建《機率型現代漢語常用辭彙知識庫》 30
3.3 名詞機率語法屬性研究 31
3.3.1 “數名”屬性 33
3.3.2 “數量名”屬性 34
3.3.3 “前名”和“後名”屬性 35
3.4 本章小結 35
第4章 數名結構的計量研究 37
4.1 數名結構 37
4.2 實驗設計 38
4.2.1 語料標註 38
4.2.2 獲取數名結構 39
4.3 分散度 40
4.4 實驗結果及分析 42
4.5 本章小結 44
第5章 量名搭配的句法語義分析 45
5.1 複雜數量名短語的識別 46
5.1.1 名詞短語識別概述 46
5.1.2 複雜數量名短語界定 48
5.1.3 系統流程 49
5.1.4 量名搭配詞典的構建 50
5.1.5 右邊界識別算法 53
5.1.6 實驗結果及分析 56
5.2 量名搭配統計結果 59
5.3 量詞對名詞的語義選擇傾向 62
5.3.1 選擇傾向 62
5.3.2 量名搭配的特點 62
5.3.3 獲取方法 63
5.3.4 實驗結果及分析 66
5.4 基於量詞的名詞概念獲取 69
5.4.1 概念獲取 69
5.4.2 基於量詞的名詞概念描述 70
5.4.3 聚類方法 71
5.4.4 評價方法 72
5.4.5 實驗設計 73
5.5 本章小結 77
第6章 複合名詞短語的研究 79
6.1 複合名詞短語概述 79
6.1.1 複合名詞短語定義 79
6.1.2 複合名詞短語的特點 80
6.1.3 複合名詞短語的相關研究 81
6.2 複合名詞短語的自動獲取 83
6.2.1 問題提出 83
6.2.2 數據準備 83
6.2.3 統計指標 85
6.2.4 基於機器學習模型SVM的實驗 92
6.2.5 討論 95
6.3 複合名詞短語的語義解釋 97
6.3.1 問題概述 97
6.3.2 漢語複合名詞短語的釋義方法 100
6.3.3 動詞獲取 100
6.3.4 釋義短語生成 104
6.3.5 釋義短語過濾 105
6.3.6 實驗結果 109
6.3.7 結果分析 110
6.4 基於相似度計算的複合名詞短語推薦 113
6.4.1 問題概述 113
6.4.2 研究思路 113
6.4.3 詞語相似度計算 114
6.4.4 短語相似度計算 117
6.4.5 實驗數據及結果 118
6.5 本章小結 119
第7章 總結與展望 120
7.1 總結 120
7.2 進一步工作 121
附錄A 語料庫詞性標記與詞典詞類代碼對照表 124
附錄B 複雜數量名短語的識別結果樣例 126
附錄C 6.3節中實驗所用的複合名詞短語樣例 129
附錄D 基於相似度計算的複合名詞短語推薦樣例 130
後記 131
參考文獻 135