NLP漢語自然語言處理原理與實踐:《NLP漢語自然語言處理原理與實踐》是 -百科知識中文網

基本信息

NLP漢語自然語言處理原理與實踐

作譯者：鄭捷

出版時間：2017-01

千字數：816

版次：01-01

頁數：544

開本：16開

I S B N ：9787121307652

內容簡介

本書是一本研究漢語自然語言處理方面的基礎性、綜合性書籍，涉及NLP的語言理論、算法和工程實踐的方方面面，內容繁雜。本書包括NLP的語言理論部分、算法部分、案例部分，涉及漢語的發展歷史、傳統的句法理論、認知語言學理論。需要指出的是，本書是迄今為止第一本系統介紹認知語言學和算法設計相結合的中文NLP書籍，並從認知語言學的視角重新認識和分析了NLP的句法和語義相結合的數據結構。這也是本書的創新之處。本書適用於所有想學習NLP的技術人員，包括各大人工智慧實驗室、軟體學院等專業機構。

目錄信息

第1章中文語言的機器處理 1

1.1 歷史回顧 2

1.1.1 從科幻到現實 2

1.1.2 早期的探索 3

1.1.3 規則派還是統計派 3

1.1.4 從機器學習到認知

計算 5

1.2 現代自然語言系統簡介 6

1.2.1 NLP流程與開源框架 6

1.2.2 哈工大NLP平台及其

演示環境 9

1.2.3 Stanford NLP團隊及其

演示環境 11

1.2.4 NLTK開發環境 13

1.3 整合中文分詞模組 16

1.3.1 安裝Ltp Python組件 17

1.3.2 使用Ltp 3.3進行中文

分詞 18

1.3.3 使用結巴分詞模組 20

1.4 整合詞性標註模組 22

1.4.1 Ltp 3.3詞性標註 23

1.4.2 安裝StanfordNLP並

編寫Python接口類 24

1.4.3 執行Stanford詞性

標註 28

1.5 整合命名實體識別模組 29

1.5.1 Ltp 3.3命名實體識別 29

1.5.2 Stanford命名實體

識別 30

1.6 整合句法解析模組 32

1.6.1 Ltp 3.3句法依存樹 33

1.6.2 Stanford Parser類 35

1.6.3 Stanford短語結構樹 36

1.6.4 Stanford依存句法樹 37

1.7 整合語義角色標註模組 38

1.8 結語 40

第2章漢語語言學研究回顧 42

2.1 文字元號的起源 42

2.1.1 從記事談起 43

2.1.2 古文字的形成 47

2.2 六書及其他 48

2.2.1 象形 48

2.2.2 指事 50

2.2.3 會意 51

2.2.4 形聲 53

2.2.5 轉注 54

2.2.6 假借 55

2.3 字形的流變 56

2.3.1 筆與墨的形成與變革 56

2.3.2 隸變的方式 58

2.3.3 漢字的符號化與結構 61

2.4 漢語的發展 67

2.4.1 完整語義的基本

形式——句子 68

2.4.2 語言的初始形態與

文言文 71

2.4.3 白話文與複音詞 73

2.4.4 白話文與句法研究 78

2.5 三個平面中的語義研究 80

2.5.1 辭彙與本體論 81

2.5.2 格語法及其框架 84

2.6 結語 86

第3章辭彙與分詞技術 88

3.1 中文分詞 89

3.1.1 什麼是詞與分詞規範 90

3.1.2 兩種分詞標準 93

3.1.3 歧義、機械分詞、語言

模型 94

3.1.4 辭彙的構成與未登錄

詞 97

3.2 系統總體流程與詞典結構 98

3.2.1 概述 98

3.2.2 中文分詞流程 99

3.2.3 分詞詞典結構 103

3.2.4 命名實體的詞典

結構 105

3.2.5 詞典的存儲結構 108

3.3 算法部分源碼解析 111

3.3.1 系統配置 112

3.3.2 Main方法與例句 113

3.3.3 句子切分 113

3.3.4 分詞流程 117

3.3.5 一元詞網 118

3.3.6 二元詞圖 125

3.3.7 NShort算法原理 130

3.3.8 後處理規則集 136

3.3.9 命名實體識別 137

3.3.10 細分階段與最短

路徑 140

3.4 結語 142

第4章 NLP中的機率圖模型 143

4.1 機率論回顧 143

4.1.1 多元機率論的幾個

基本概念 144

4.1.2 貝葉斯與樸素貝葉斯

算法 146

4.1.3 文本分類 148

4.1.4 文本分類的實現 151

4.2 信息熵 154

4.2.1 信息量與信息熵 154

4.2.2 互信息、聯合熵、

條件熵 156

4.2.3 交叉熵和KL散度 158

4.2.4 信息熵的NLP的

意義 159

4.3 NLP與機率圖模型 160

4.3.1 機率圖模型的幾個

基本問題 161

4.3.2 產生式模型和判別式

模型 162

4.3.3 統計語言模型與NLP

算法設計 164

4.3.4 極大似然估計 167

4.4 隱馬爾科夫模型簡介 169

4.4.1 馬爾科夫鏈 169

4.4.2 隱馬爾科夫模型 170

4.4.3 HMMs的一個實例 171

4.4.4 Viterbi算法的實現 176

4.5 最大熵模型 179

4.5.1 從詞性標註談起 179

4.5.2 特徵和約束 181

4.5.3 最大熵原理 183

4.5.4 公式推導 185

4.5.5 對偶問題的極大似然

估計 186

4.5.6 GIS實現 188

4.6 條件隨機場模型 193

4.6.1 隨機場 193

4.6.2 無向圖的團（Clique）

與因子分解 194

4.6.3 線性鏈條件隨機場 195

4.6.4 CRF的機率計算 198

4.6.5 CRF的參數學習 199

4.6.6 CRF預測標籤 200

4.7 結語 201

第5章詞性、語塊與命名實體

識別 202

5.1 漢語詞性標註 203

5.1.1 漢語的詞性 203

5.1.2 賓州樹庫的詞性標註

規範 205

5.1.3 stanfordNLP標註

詞性 210

5.1.4 訓練模型檔案 213

5.2 語義組塊標註 219

5.2.1 語義組塊的種類 220

5.2.2 細說NP 221

5.2.3 細說VP 223

5.2.4 其他語義塊 227

5.2.5 語義塊的抽取 229

5.2.6 CRF的使用 232

5.3 命名實體識別 240

5.3.1 命名實體 241

5.3.2 分詞架構與專名

詞典 243

5.3.3 算法的策略——詞典

與統計相結合 245

5.3.4 算法的策略——層疊

式架構 252

5.4 結語 259

第6章句法理論與自動分析 260

6.1 轉換生成語法 261

6.1.1 喬姆斯基的語言觀 261

6.1.2 短語結構文法 263

6.1.3 漢語句類 269

6.1.4 謂詞論元與空範疇 274

6.1.5 輕動詞分析理論 279

6.1.6 NLTK操作句法樹 280

6.2 依存句法理論 283

6.2.1 配價理論 283

6.2.2 配價詞典 285

6.2.3 依存理論概述 287

6.2.4 Ltp依存分析介紹 290

6.2.5 Stanford依存轉換、

解析 293

6.3 PCFG短語結構句法分析 298

6.3.1 PCFG短語結構 298

6.3.2 內向算法和外向

算法 301

6.3.3 Viterbi算法 303

6.3.4 參數估計 304

6.3.5 Stanford 的PCFG算法

訓練 305

6.4 結語 310

第7章建設語言資源庫 311

7.1 語料庫概述 311

7.1.1 語料庫的簡史 312

7.1.2 語言資源庫的分類 314

7.1.3 語料庫的設計實例：

國家語委語料庫 315

7.1.4 語料庫的層次加工 321

7.2 語法語料庫 323

7.2.1 中文分詞語料庫 323

7.2.2 中文分詞的測評 326

7.2.3 賓州大學CTB簡介 327

7.3 語義知識庫 333

7.3.1 知識庫與HowNet

簡介 333

7.3.2 發掘義原 334

7.3.3 語義角色 336

7.3.4 分類原則與事件

分類 344

7.3.5 實體分類 347

7.3.6 屬性與分類 352

7.3.7 相似度計算與實例 353

7.4 語義網與百科知識庫 360

7.4.1 語義網理論介紹 360

7.4.2 維基百科知識庫 364

7.4.3 DBpedia抽取原理 365

7.5 結語 368

第8章語義與認知 370

8.1 回顧現代語義學 371

8.1.1 語義三角論 371

8.1.2 語義場論 373

8.1.3 基於邏輯的語義學 376

8.2 認知語言學概述 377

8.2.1 象似性原理 379

8.2.2 順序象似性 380

8.2.3 距離象似性 380

8.2.4 重疊象似性 381

8.3 意象圖式的構成 383

8.3.1 主觀性與焦點 383

8.3.2 範疇化：概念的

認知 385

8.3.3 主體與背景 390

8.3.4 意象圖式 392

8.3.5 社交中的圖式 396

8.3.6 完形：壓縮與省略 398

8.4 隱喻與轉喻 401

8.4.1 隱喻的結構 402

8.4.2 隱喻的認知本質 403

8.4.3 隱喻計算的系統

架構 405

8.4.4 隱喻計算的實現 408

8.5 構式語法 412

8.5.1 構式的概念 413

8.5.2 句法與構式 415

8.5.3 構式知識庫 417

8.6 結語 420

第9章 NLP中的深度學習 422

9.1 神經網路回顧 422

9.1.1 神經網路框架 423

9.1.2 梯度下降法推導 425

9.1.3 梯度下降法的實現 427

9.1.4 BP神經網路介紹和

推導 430

9.2 Word2Vec簡介 433

9.2.1 詞向量及其表達 434

9.2.2 Word2Vec的算法

原理 436

9.2.3 訓練詞向量 439

9.2.4 大規模上下位關係的

自動識別 443

9.3 NLP與RNN 448

9.3.1 Simple-RNN 449

9.3.2 LSTM原理 454

9.3.3 LSTM的Python

實現 460

9.4 深度學習框架與套用 467

9.4.1 Keras框架介紹 467

9.4.2 Keras序列標註 471

9.4.3 依存句法的算法

原理 478

9.4.4 Stanford依存解析的

訓練過程 483

9.5 結語 488

第10章語義計算的架構 490

10.1 句子的語義和語法預處理 490

10.1.1 長句切分和融合 491

10.1.2 共指消解 496

10.2 語義角色 502

10.2.1 謂詞論元與語義

角色 502

10.2.2 PropBank簡介 505

10.2.3 CPB中的特殊

句式 506

10.2.4 名詞性謂詞的語義

角色 509

10.2.5 PropBank展開 512

10.3 句子的語義解析 517

10.3.1 語義依存 517

10.3.2 完整架構 524

10.3.3 實體關係抽取 527

10.4 結語 531

NLP漢語自然語言處理原理與實踐

基本信息

內容簡介

目錄信息

熱門詞條