自然語言處理理論與實戰

自然語言處理理論與實戰

《自然語言處理理論與實戰》是電子工業出版社於2018年7月出版的圖書,作者唐聃等。本書主要介紹相關學科基礎知識和自然語言處理理論及案例。適用於計算機、軟體工程、通信、電子技術和自動化專業的大學生和研究生,也適用於機器學習、數據挖掘、文本分析相關的人群,本書整體難度適宜,適合作為自學用書或課程教材。

主要內容

本書分四個部分,第一部分主要介紹基礎知識,包括認識機器學習和自然語言處理、快速上手Python、線性代數、機率論和統計學;第二部分主要介紹自然語言處理技術,包括自然語言處理介紹、語料庫技術、中文分詞、數據預處理、馬爾科夫模型、條件隨機場、模型評估、剖析自然處理工具背後的原理;第三部分主要介紹機器學習技術,包括認識機器學習、常見機器學習算法、機器學習算法案例源碼實現。第四部分主要介紹工程項目實踐,包括Python項目實戰、自然語言處理項目實戰、機器學習結合自然語言處理綜合項目實戰。

作者介紹

唐聃教授,中科院工學博士。現工作於成都信息工程大學軟體工程學院。研究方向包括自然語言處理、信息安全、數據分析。曾參與多項國家863項目和中科院知識創新工程項目、省科技廳和教育廳項目;2016年入選中國科學院西部之光人才計畫(中國科學院西部青年學者)。

白寧超,工學碩士,四川省計算機研究院開發工程師,曾參與國家自然基金項目和四川省科技支撐計畫等多個省級項目。

馮暄 高級工程師,四川省計算機研究院信息化工程研究所所長。主持或參與國家級、省級科研項目16項。獲得四川省科技進步獎二等獎2項、三等獎1項。

作品目錄

目錄

第1 章基礎入門

1.1 什麼是自然語言處理

1.1.1 自然語言處理概述

1.1.2 自然語言處理的發展歷史

1.1.3 自然語言處理的工作原理

1.1.4 自然語言處理的套用前景

1.2 開發工具與環境

1.2.1 Sublime Text 和Anaconda 介紹

1.2.2 開發環境的安裝與配置

1.3 實戰:第一個小程式的誕生

1.3.1 實例介紹

1.3.2 源碼實現

第2 章快速上手Python

2.1 初識Python 程式語言

2.1.1 Python 概述

2.1.2 Python 能做什麼

2.1.3 Python 的語法和特點

2.2 Python 進階

2.2.1 Hello World

2.2.2 語句和控制流

2.2.3 函式

2.2.4 List 列表

2.2.5 元組

2.2.6 set 集合

2.2.7 字典

2.2.8 面向對象編程:類

2.2.9 標準庫

2.3 Python 深入——第三方庫

2.3.1 Web 框架

2.3.2 科學計算

2.3.3 GUI

2.3.4 其他庫

第3 章線性代數

3.1 線性代數介紹

3.2 向量

3.2.1 向量定義

3.2.2 向量表示

3.2.3 向量定理

3.2.4 向量運算

3.3 矩陣

3.3.1 矩陣定義

3.3.2 矩陣表示

3.3.3 矩陣運算

3.3.4 線性方程組

3.3.5 行列式

3.3.6 特徵值和特徵向量

3.4 距離計算

3.4.1 餘弦距離

3.4.2 歐氏距離

3.4.3 曼哈頓距離

3.4.4 明可夫斯基距離

3.4.5 切比雪夫距離

3.4.6 傑卡德距離

3.4.7 漢明距離

3.4.8 標準化歐式距離

3.4.9 皮爾遜相關係數

第4 章機率論

4.1 機率論介紹

4.2 事件

4.2.1 隨機試驗

4.2.2 隨機事件和樣本空間

4.2.3 事件的計算

4.3 機率

4.4 機率公理

4.5 條件機率和全機率

4.5.1 條件機率

4.5.2 全機率

4.6 貝葉斯定理

4.7 資訊理論

4.7.1 資訊理論的基本概念

4.7.2 信息度量

第5 章統計學

5.1 圖形可視化

5.1.1 餅圖

5.1.2 條形圖

5.1.3 熱力圖

5.1.4 折線圖

5.1.5 箱線圖

5.1.6 散點圖

5.1.7 雷達圖

5.1.8 儀錶盤

5.1.9 可視化圖表用法

5.2 數據度量標準

5.2.1 平均值

5.2.2 中位數

5.2.3 眾數

5.2.4 期望

5.2.5 方差

5.2.6 標準差

5.2.7 標準分

5.3 機率分布

5.3.1 幾何分布

5.3.2 二項分布

5.3.3 常態分配

5.3.4 泊松分布

5.4 統計假設檢驗

5.5 相關和回歸

5.5.1 相關

5.5.2 回歸

5.5.3 相關和回歸的聯繫

第6 章語言學

6.1 語音

6.1.1 什麼是語音

6.1.2 語音的三大屬性

6.1.3 語音單位

6.1.4 記音符號

6.1.5 共時語流音變

6.2 辭彙

6.2.1 什麼是辭彙

6.2.2 辭彙單位

6.2.3 詞的構造

6.2.4 詞義及其分類

6.2.5 義項與義素

6.2.6 語義場

6.2.7 辭彙的構成

6.3 語法

6.3.1 什麼是語法

6.3.2 詞類

6.3.3 短語

6.3.4 單句

6.3.5 複句

第7 章自然語言處理

7.1 自然語言處理的任務和限制

7.2 自然語言處理的主要技術範疇

7.2.1 語音合成

7.2.2 語音識別

7.2.3 中文自動分詞

7.2.4 詞性標註

7.2.5 句法分析

7.2.6 文本分類

7.2.7 文本挖掘

7.2.8 信息抽取

7.2.9 問答系統

7.2.10 機器翻譯

7.2.11 文本情感分析

7.2.12 自動摘要

7.2.13 文字蘊涵

7.3 自然語言處理的難點

7.3.1 語言環境複雜

7.3.2 文本結構形式多樣

7.3.3 邊界識別限制

7.3.4 詞義消歧

7.3.5 指代消解

7.4 自然語言處理展望

第8 章語料庫

8.1 語料庫淺談

8.2 語料庫深入

8.3 自然語言處理工具包:NLTK

8.3.1 NLTK 簡介

8.3.2 安裝NLTK

8.3.3 使用NLTK

8.3.4 在Python NLTK 下使用Stanford NLP

8.4 獲取語料庫

8.4.1 國內外著名語料庫

8.4.2 網路數據獲取

8.4.3 NLTK 獲取語料庫

8.5 綜合案例:走進大秦帝國

8.5.1 數據採集和預處理

8.5.2 構建本地語料庫

8.5.3 大秦帝國語料操作

第9 章中文自動分詞

9.1 中文分詞簡介

9.2 中文分詞的特點和難點

9.3 常見中文分詞方法

9.4 典型中文分詞工具

9.4.1 HanLP 中文分詞

9.4.2 其他中文分詞工具

9.5 結巴中文分詞

9.5.1 基於Python 的結巴中文分詞

9.5.2 結巴分詞工具詳解

9.5.3 結巴分詞核心內容

9.5.4 結巴分詞基本用法

第10 章數據預處理

10.1 數據清洗

10.2 分詞處理

10.3 特徵構造

10.4 特徵降維與選擇

10.4.1 特徵降維

10.4.2 特徵選擇

10.5 簡單實例

10.6 本章小結

第11 章馬爾可夫模型

11.1 馬爾可夫鏈

11.1.1 馬爾可夫簡介

11.1.2 馬爾可夫鏈的基本概念

11.2 隱馬爾可夫模型

11.2.1 形式化描述

11.2.2 數學形式描述

11.3 向前算法解決HMM 似然度

11.3.1 向前算法定義

11.3.2 向前算法原理

11.3.3 現實套用:預測成都天氣的冷熱

11.4 文本序列標註案例:Viterbi 算法

第12 章條件隨機場

12.1 條件隨機場介紹

12.2 簡單易懂的條件隨機場

12.2.1 CRF 的形式化表示

12.2.2 CRF 的公式化表示

12.2.3 深度理解條件隨機場

第13 章模型評估

13.1 從統計角度介紹模型概念

13.1.1 算法模型

13.1.2 模型評估和模型選擇

13.1.3 過擬合與欠擬合的模型選擇

13.2 模型評估與選擇

13.2.1 模型評估的概念

13.2.2 模型評估的評測指標

13.2.3 以詞性標註為例分析模型評估

13.2.4 模型評估的幾種方法

13.3 ROC 曲線比較學習器模型

第14 章命名實體識別

14.1 命名實體識別概述

14.2 命名實體識別的特點與難點

14.3 命名實體識別方法

14.4 中文命名實體識別的核心技術

14.5 展望

第15 章自然語言處理實戰

15.1 GitHub 數據提取與可視化分析

15.1.1 了解GitHub 的API

15.1.2 使用NetworkX 作圖

15.1.3 使用NetworkX 構建興趣圖

15.1.4 NetWorkX 部分統計指標

15.1.5 構建GitHub 的興趣圖

15.1.6 可視化

15.2 微博話題爬取與存儲分析

15.2.1 數據採集

15.2.2 數據提取

15.2.3 數據存儲

15.2.4 項目運行與分析

附錄A Python 與其他語言調用

附錄B Git 項目上傳簡易教程

參考文獻

相關詞條

熱門詞條

聯絡我們