基本信息
NLP漢語自然語言處理原理與實踐
作 譯 者:鄭捷
出版時間:2017-01
千 字 數:816
版 次:01-01
頁 數:544
開 本:16開
I S B N :9787121307652
內容簡介
本書是一本研究漢語自然語言處理方面的基礎性、綜合性書籍,涉及NLP的語言理論、算法和工程實踐的方方面面,內容繁雜。 本書包括NLP的語言理論部分、算法部分、案例部分,涉及漢語的發展歷史、傳統的句法理論、認知語言學理論。需要指出的是,本書是迄今為止第一本系統介紹認知語言學和算法設計相結合的中文NLP書籍,並從認知語言學的視角重新認識和分析了NLP的句法和語義相結合的數據結構。這也是本書的創新之處。 本書適用於所有想學習NLP的技術人員,包括各大人工智慧實驗室、軟體學院等專業機構。
目錄信息
第1章 中文語言的機器處理 1
1.1 歷史回顧 2
1.1.1 從科幻到現實 2
1.1.2 早期的探索 3
1.1.3 規則派還是統計派 3
1.1.4 從機器學習到認知
計算 5
1.2 現代自然語言系統簡介 6
1.2.1 NLP流程與開源框架 6
1.2.2 哈工大NLP平台及其
演示環境 9
1.2.3 Stanford NLP團隊及其
演示環境 11
1.2.4 NLTK開發環境 13
1.3 整合中文分詞模組 16
1.3.1 安裝Ltp Python組件 17
1.3.2 使用Ltp 3.3進行中文
分詞 18
1.3.3 使用結巴分詞模組 20
1.4 整合詞性標註模組 22
1.4.1 Ltp 3.3詞性標註 23
1.4.2 安裝StanfordNLP並
編寫Python接口類 24
1.4.3 執行Stanford詞性
標註 28
1.5 整合命名實體識別模組 29
1.5.1 Ltp 3.3命名實體識別 29
1.5.2 Stanford命名實體
識別 30
1.6 整合句法解析模組 32
1.6.1 Ltp 3.3句法依存樹 33
1.6.2 Stanford Parser類 35
1.6.3 Stanford短語結構樹 36
1.6.4 Stanford依存句法樹 37
1.7 整合語義角色標註模組 38
1.8 結語 40
第2章 漢語語言學研究回顧 42
2.1 文字元號的起源 42
2.1.1 從記事談起 43
2.1.2 古文字的形成 47
2.2 六書及其他 48
2.2.1 象形 48
2.2.2 指事 50
2.2.3 會意 51
2.2.4 形聲 53
2.2.5 轉注 54
2.2.6 假借 55
2.3 字形的流變 56
2.3.1 筆與墨的形成與變革 56
2.3.2 隸變的方式 58
2.3.3 漢字的符號化與結構 61
2.4 漢語的發展 67
2.4.1 完整語義的基本
形式——句子 68
2.4.2 語言的初始形態與
文言文 71
2.4.3 白話文與複音詞 73
2.4.4 白話文與句法研究 78
2.5 三個平面中的語義研究 80
2.5.1 辭彙與本體論 81
2.5.2 格語法及其框架 84
2.6 結語 86
第3章 辭彙與分詞技術 88
3.1 中文分詞 89
3.1.1 什麼是詞與分詞規範 90
3.1.2 兩種分詞標準 93
3.1.3 歧義、機械分詞、語言
模型 94
3.1.4 辭彙的構成與未登錄
詞 97
3.2 系統總體流程與詞典結構 98
3.2.1 概述 98
3.2.2 中文分詞流程 99
3.2.3 分詞詞典結構 103
3.2.4 命名實體的詞典
結構 105
3.2.5 詞典的存儲結構 108
3.3 算法部分源碼解析 111
3.3.1 系統配置 112
3.3.2 Main方法與例句 113
3.3.3 句子切分 113
3.3.4 分詞流程 117
3.3.5 一元詞網 118
3.3.6 二元詞圖 125
3.3.7 NShort算法原理 130
3.3.8 後處理規則集 136
3.3.9 命名實體識別 137
3.3.10 細分階段與最短
路徑 140
3.4 結語 142
第4章 NLP中的機率圖模型 143
4.1 機率論回顧 143
4.1.1 多元機率論的幾個
基本概念 144
4.1.2 貝葉斯與樸素貝葉斯
算法 146
4.1.3 文本分類 148
4.1.4 文本分類的實現 151
4.2 信息熵 154
4.2.1 信息量與信息熵 154
4.2.2 互信息、聯合熵、
條件熵 156
4.2.3 交叉熵和KL散度 158
4.2.4 信息熵的NLP的
意義 159
4.3 NLP與機率圖模型 160
4.3.1 機率圖模型的幾個
基本問題 161
4.3.2 產生式模型和判別式
模型 162
4.3.3 統計語言模型與NLP
算法設計 164
4.3.4 極大似然估計 167
4.4 隱馬爾科夫模型簡介 169
4.4.1 馬爾科夫鏈 169
4.4.2 隱馬爾科夫模型 170
4.4.3 HMMs的一個實例 171
4.4.4 Viterbi算法的實現 176
4.5 最大熵模型 179
4.5.1 從詞性標註談起 179
4.5.2 特徵和約束 181
4.5.3 最大熵原理 183
4.5.4 公式推導 185
4.5.5 對偶問題的極大似然
估計 186
4.5.6 GIS實現 188
4.6 條件隨機場模型 193
4.6.1 隨機場 193
4.6.2 無向圖的團(Clique)
與因子分解 194
4.6.3 線性鏈條件隨機場 195
4.6.4 CRF的機率計算 198
4.6.5 CRF的參數學習 199
4.6.6 CRF預測標籤 200
4.7 結語 201
第5章 詞性、語塊與命名實體
識別 202
5.1 漢語詞性標註 203
5.1.1 漢語的詞性 203
5.1.2 賓州樹庫的詞性標註
規範 205
5.1.3 stanfordNLP標註
詞性 210
5.1.4 訓練模型檔案 213
5.2 語義組塊標註 219
5.2.1 語義組塊的種類 220
5.2.2 細說NP 221
5.2.3 細說VP 223
5.2.4 其他語義塊 227
5.2.5 語義塊的抽取 229
5.2.6 CRF的使用 232
5.3 命名實體識別 240
5.3.1 命名實體 241
5.3.2 分詞架構與專名
詞典 243
5.3.3 算法的策略——詞典
與統計相結合 245
5.3.4 算法的策略——層疊
式架構 252
5.4 結語 259
第6章 句法理論與自動分析 260
6.1 轉換生成語法 261
6.1.1 喬姆斯基的語言觀 261
6.1.2 短語結構文法 263
6.1.3 漢語句類 269
6.1.4 謂詞論元與空範疇 274
6.1.5 輕動詞分析理論 279
6.1.6 NLTK操作句法樹 280
6.2 依存句法理論 283
6.2.1 配價理論 283
6.2.2 配價詞典 285
6.2.3 依存理論概述 287
6.2.4 Ltp依存分析介紹 290
6.2.5 Stanford依存轉換、
解析 293
6.3 PCFG短語結構句法分析 298
6.3.1 PCFG短語結構 298
6.3.2 內向算法和外向
算法 301
6.3.3 Viterbi算法 303
6.3.4 參數估計 304
6.3.5 Stanford 的PCFG算法
訓練 305
6.4 結語 310
第7章 建設語言資源庫 311
7.1 語料庫概述 311
7.1.1 語料庫的簡史 312
7.1.2 語言資源庫的分類 314
7.1.3 語料庫的設計實例:
國家語委語料庫 315
7.1.4 語料庫的層次加工 321
7.2 語法語料庫 323
7.2.1 中文分詞語料庫 323
7.2.2 中文分詞的測評 326
7.2.3 賓州大學CTB簡介 327
7.3 語義知識庫 333
7.3.1 知識庫與HowNet
簡介 333
7.3.2 發掘義原 334
7.3.3 語義角色 336
7.3.4 分類原則與事件
分類 344
7.3.5 實體分類 347
7.3.6 屬性與分類 352
7.3.7 相似度計算與實例 353
7.4 語義網與百科知識庫 360
7.4.1 語義網理論介紹 360
7.4.2 維基百科知識庫 364
7.4.3 DBpedia抽取原理 365
7.5 結語 368
第8章 語義與認知 370
8.1 回顧現代語義學 371
8.1.1 語義三角論 371
8.1.2 語義場論 373
8.1.3 基於邏輯的語義學 376
8.2 認知語言學概述 377
8.2.1 象似性原理 379
8.2.2 順序象似性 380
8.2.3 距離象似性 380
8.2.4 重疊象似性 381
8.3 意象圖式的構成 383
8.3.1 主觀性與焦點 383
8.3.2 範疇化:概念的
認知 385
8.3.3 主體與背景 390
8.3.4 意象圖式 392
8.3.5 社交中的圖式 396
8.3.6 完形:壓縮與省略 398
8.4 隱喻與轉喻 401
8.4.1 隱喻的結構 402
8.4.2 隱喻的認知本質 403
8.4.3 隱喻計算的系統
架構 405
8.4.4 隱喻計算的實現 408
8.5 構式語法 412
8.5.1 構式的概念 413
8.5.2 句法與構式 415
8.5.3 構式知識庫 417
8.6 結語 420
第9章 NLP中的深度學習 422
9.1 神經網路回顧 422
9.1.1 神經網路框架 423
9.1.2 梯度下降法推導 425
9.1.3 梯度下降法的實現 427
9.1.4 BP神經網路介紹和
推導 430
9.2 Word2Vec簡介 433
9.2.1 詞向量及其表達 434
9.2.2 Word2Vec的算法
原理 436
9.2.3 訓練詞向量 439
9.2.4 大規模上下位關係的
自動識別 443
9.3 NLP與RNN 448
9.3.1 Simple-RNN 449
9.3.2 LSTM原理 454
9.3.3 LSTM的Python
實現 460
9.4 深度學習框架與套用 467
9.4.1 Keras框架介紹 467
9.4.2 Keras序列標註 471
9.4.3 依存句法的算法
原理 478
9.4.4 Stanford依存解析的
訓練過程 483
9.5 結語 488
第10章 語義計算的架構 490
10.1 句子的語義和語法預處理 490
10.1.1 長句切分和融合 491
10.1.2 共指消解 496
10.2 語義角色 502
10.2.1 謂詞論元與語義
角色 502
10.2.2 PropBank簡介 505
10.2.3 CPB中的特殊
句式 506
10.2.4 名詞性謂詞的語義
角色 509
10.2.5 PropBank展開 512
10.3 句子的語義解析 517
10.3.1 語義依存 517
10.3.2 完整架構 524
10.3.3 實體關係抽取 527
10.4 結語 531