圖書簡介
本書是一本全面系統地講述計算機自然語言處理的優秀教材。本書英文版出版之後好評如潮,國外許多著名大學紛紛把本書選為自然語言處理和計算語言學課程的主要教材,該書被譽為該領域教材的“黃金標準”。本書包含的內容十分豐富,分為四個部分,共21章,深入細緻地探討了計算機處理自然語言的辭彙、句法、語義、語用等各個方面的問題,介紹了自然語言處理的各種現代技術。從層次的角度看,本書的論述是按照自然語言的不同層面逐步展開的,首先論述單詞的自動形態分析,接著論述自動句法分析,然後論述各種語言單位的自動語義分析,最後論述連貫文本的自動分析、對話與會話的智慧型代理以及自然語言生成。從技術的角度看,本書介紹了正則表達式、有限狀態自動機、文本-語音轉換、發音與拼寫的機率模型、詞類自動標註、N元語法、隱馬爾可夫模型、上下文無關語法、特徵與合一、辭彙化剖析與機率剖析、一階謂詞演算、詞義排歧、修辭結構理論、機器翻譯等非常廣泛的內容。本書具有“覆蓋全面、注重實用、強調評測、語料為本”四大特色。在本書的配套網站上,還提供了相關的資源和工具,便於讀者在實踐中進一步提高。
出版信息
作者: Daniel Jurafsky / James H. Martin
譯者: 馮志偉 / 孫樂出版社: 電子工業出版社
出版年: 2005
頁數: 588 頁
定價: 78.0
裝幀: 平裝
ISBN: 9787121007767
圖書目錄
第1章 導論
1.1 語音與語言處理中的知識
1.2 歧義
1.3 模型和算法
1.4 語言. 思維和理解
1.5 學科現狀與近期發展
1.6 語音和語言處理簡史
1.6.1 基礎研究:20世紀40年代和20世紀50年代
1.6.2 兩個陣營:1957年至1970年
1.6.3 四個范型:1970年至1983年
1.6.4 經驗主義和有限狀態模型的復甦:1983年至1993年
1.6.5 不同領域的合流:1994年至1999年
1.6.6 多重發現
1.6.7 心理學的簡要註記
1.7 小結
1.8 文獻和歷史說明
第一部分 辭彙的計算機處理
第2章 正則表達式與自動機
2.1 正則表達式
2.1.1 基本正則表達式模式
2.1.2 析取. 組合與優先關係
2.1.3 一個簡單的例子
2.1.4 一個比較複雜的例子
2.1.5 高級算符
2.1.6 正則表達式中的替換. 存儲器與ELIZA
2.2 有限狀態自動機
2.2.1 用FSA來識別羊的語言
2.2.2 形式語言
2.2.3 另外的例子
2.2.4 非確定FSA
2.2.5 使用NFSA接收符號串
2.2.6 識別就是搜尋
2.2.7 確定自動機與非確定自動機的關係
2.3 正則語言與FSA
2.4 小結
2.5 文獻和歷史說明
第3章 形態學與有限狀態轉錄機
3.1 英語形態學概觀
3.1.1 屈折形態學
3.1.2 派生形態學
3.2 有限狀態形態剖析
3.2.1 詞表和形態順序規則
3.2.2 用有限狀態轉錄機進行形態剖析
3.2.3 正詞法規則和有限狀態轉錄機
3.3 把FST詞表與規則相結合
3.4 與詞表無關的FST:PORTER詞幹處理器
3.5 人是怎樣進行形態處理的
3.6 小結
3.7 文獻和歷史說明
第4章 計算音系學與文本-語音轉換
4.1 言語語音與語音標音法
4.1.1 發音器官
4.1.2 輔音:發音部位
4.1.3 輔音:發音方法
4.1.4 元音
4.1.5 音節
4.2 音位和音位規則
4.3 音位規則和轉錄機
4.4 計算音系學中的一些高級問題
4.4.1 元音和諧
4.4.2 模板式形態學
4.4.3 優選理論
4.5 音位規則的機器學習
4.6 TTS中從文本映射到語音
4.6.1 發音詞典
4.6.2 詞典之外的查找:文本分析
4.6.3 基於有限狀態轉錄機(FST)的發音詞典
4.7 文本-語音轉換中的韻律
4.7.1 韻律的音系學性質
4.7.2 韻律的語音和聲學性質
4.7.3 語音合成中的韻律
4.8 人處理音位和形態的過程
4.9 小結
4.10 文獻和歷史說明
第5章 發音與拼寫的機率模型
5.1 關於拼寫錯誤
5.2 拼寫錯誤模式
5.3 非詞錯誤的檢查
5.4 機率模型
5.5 把貝葉斯方法套用於拼寫
5.6 最小編輯距離
5.7 英語的發音變異
5.8 發音問題研究中的貝葉斯方法
5.8.1 發音變異的決策樹模型
5.9 加權自動機
5.9.1 從加權自動機計算似然度:向前算法
5.9.2 解碼:Viterbi算法
5.9.3 加權自動機和切分
5.9.4 用切分來進行詞表的自動歸納
5.10 人類發音研究
5.11 小結
5.12 文獻和歷史說明
第6章 N元語法
6.1 語料庫中單詞數目的計算
6.2 簡單的(非平滑的)N元語法
6.2.1 N元語法及其對訓練語料庫的敏感性
6.3 平滑
6.3.1 加1平滑
6.3.2 Witten-Bell打折法
6.3.3 Good-Turing打折法
6.4 回退
6.4.1 回退與打折相結合
6.5 刪除插值法
6.6 拼寫和發音的N元語法
6.6.1 上下文有關的錯拼更正
6.6.2 發音模型的N元語法
6.7 熵
6.7.1 用於比較模型的交叉熵
6.7.2 英語的熵
6.8 小結
6.9 文獻和歷史說明
第7章 HMM與語音識別
7.1 語音識別的總體結構
7.2 隱馬爾可夫模型概述
7.3 再談Viterbi算法
7.4 先進的解碼方法
7.4.1 A*解碼算法
7.5 語音的聲學處理
7.5.1 聲波
7.5.2 怎樣解釋波形
7.5.3 聲譜
7.5.4 特徵抽取
7.6 聲學機率的計算
7.7 語音識別系統的訓練
7.8 用於語音合成的波形生成
7.8.1 音高和音延的修正
7.8.2 單元選擇
7.9 人的語音識別
7.10 小結
7.11 文獻和歷史說明
第二部分 句法的計算機處理
第8章 詞的分類與詞類標註
8.1 大多數英語詞的分類
8.2 英語的標記集
8.3 詞類標註
8.4 基於規則的詞類標註
8.5 隨機詞類標註
8.5.1 說明問題的一個例子
8.5.2 實際的HMM標註算法
8.6 基於轉換的標註
8.6.1 怎樣套用TBL規則
8.6.2 怎樣學習TBL規則
8.7 其他問題
8.7.1 多重標記和多項詞
8.7.2 未知詞
8.7.3 基於類的N元語法
8.8 小結
8.9 文獻和歷史說明
第9章 英語的上下文無關語法
9.1 組成性
9.2 上下文無關規則和樹
9.3 句子級的結構
9.4 名詞短語
9.4.1 在中心名詞前的成分
9.4.2 名詞後的成分
9.5 並列關係
9.6 一致關係
9.7 動詞短語和次範疇化
9.8 助動詞
9.9 口語的句法
9.9.1 不流暢現象
9.10 語法等價與範式
9.11 有限狀態語法和上下文無關語法
9.12 語法和人的語言處理
9.13 小結
9.14 文獻和歷史說明
第10章 基於上下文無關語法的剖析
10.1 剖析就是搜尋
10.1.1 自頂向下剖析
10.1.2 自底向上剖析
10.1.3 自頂向下剖析與自底向上剖析的對比
10.2 基本的自頂向下剖析
10.2.1 增加自底向上過濾
10.3 基本的自頂向下剖析的問題
10.3.1 左遞歸
10.3.2 歧義
10.3.3 子樹的重複剖析
10.4 Earley算法
10.4.1 預測
10.4.2 掃描
10.4.3 完成
10.4.4 示例
10.4.5 從線圖中檢索剖析樹
10.5 有限狀態剖析方法
10.6 小結
10.7 文獻和歷史說明
第11章 特徵與合一
11.1 特徵結構
11.2 特徵結構的合一
11.3 語法中的特徵結構
11.3.1 一致關係
11.3.2 中心語特徵
11.3.3 次範疇化
11.3.4 其他詞類的次範疇化
11.3.5 長距離依存關係
11.4 合一的實現
11.4.1 合一的數據結構
11.4.2 合一算法
11.5 帶有合一約束的剖析
11.5.1 把合一結合到Earley剖析器中
11.5.2 複製的必要性
11.5.3 合一剖析
11.6 類型與繼承
11.6.1 類型的擴充
11.6.2 合一的其他擴充
11.7 小結
11.8 文獻和歷史說明
第12章 辭彙化剖析與機率剖析
12.1 機率上下文無關語法
12.1.1 PCFG的機率CYK剖析
12.1.2 PCFG機率的學習
12.2 PCFG的問題
12.3 機率辭彙化的CFG
12.4 依存語法
12.4.1 範疇語法
12.5 人的剖析
12.6 小結
12.7 文獻和歷史說明
第13章 語言的複雜性
13.1 Chomsky層級
13.2 怎么判斷一種語言不是正則的
13.2.1 抽吸引理
13.2.2 英語和其他自然語言是正則語言嗎
13.3 自然語言是上下文無關的嗎
13.4 計算複雜性和人的語言處理
13.5 小結
13.6 文獻和歷史說明
第三部分 語義的計算機處理
第14章 意義的表示法
14.1 意義表示的計算要求
14.1.1 可能性驗證
14.1.2 無歧義表示
14.1.3 規範形式
14.1.4 推論與變元
14.1.5 表達能力
14.2 語言的意義結構
14.2.1 謂詞論元結構
14.3 一階謂詞演算
14.3.1 FOPC基礎
14.3.2 FOPC的語義
14.3.3 變數和邏輯量詞
14.3.4 推論
14.4 某些與語言學相關的概念
14.4.1 範疇
14.4.2 事件
14.4.3 時間表示
14.4.4 體
14.4.5 信念表示
14.4.6 缺陷
14.5 有關的表示方法
14.6 意義的其他表示方法
14.6.1 作為行動的意義
14.6.2 作為真值的意義
14.7 小結
14.8 文獻和歷史說明
第15章 語義分析
15.1 句法驅動的語義分析
15.1.1 給上下文無關語法規則擴充語義
15.1.2 量詞轄域和複雜項的轉譯
15.2 給英語片斷附加語義分析
15.2.1 句子
15.2.2 名詞短語
15.2.3 動詞短語
15.2.4 介詞短語
15.3 把語義分析結合到Earley剖析中
15.4 慣用語和組成性
15.5 魯棒的語義分析
15.5.1 語義語法
15.5.2 信息抽取
15.6 小結
15.7 文獻和歷史說明
第16章 辭彙語義學
16.1 詞位及其涵義之間的關係
16.1.1 同形關係
16.1.2 多義關係
16.1.3 同義關係
16.1.4 上下位關係
16.2 Wordnet:辭彙關係信息庫
16.3 詞的內在結構
16.3.1 題元角色
16.3.2 選擇限制
16.3.3 基元分解
16.3.4 語義場
16.4 語言的創造性與詞典
16.4.1 隱喻
16.4.2 換喻
16.4.3 隱喻和換喻的計算方法
16.5 小結
16.6 文獻和歷史說明
第17章 詞義排歧與信息檢索
17.1 基於選擇限制的排歧
17.1.1 選擇限制的局限性
17.2 魯棒的詞義排歧
17.2.1 機器學習方法
17.2.2 基於詞典的方法
17.3 信息檢索
17.3.1 向量空間模型
17.3.2 檢索詞加權
17.3.3 檢索詞的選擇和創造
17.3.4 同形關係. 多義關係和同義關係
17.3.5 改進用戶的查詢條件
17.4 信息檢索的其他任務
17.5 小結
17.6 文獻和歷史說明
第四部分 語用的計算機處理
第18章 話語
18.1 所指判定
18.1.1 所指現象
18.1.2 同指的句法和語義約束
18.1.3 代詞解釋中的優先關係
18.1.4 代詞判定算法
18.2 文本的連貫
18.2.1 現象
18.2.2 基於推理的判定算法
18.3 話語結構
18.4 所指和連貫的心理語言學研究
18.5 小結
18.6 文獻和歷史說明
第19章 對話與會話智慧型代理
19.1 什麼使對話出現差別
19.1.1 話輪和話段
19.1.2 對話的共同基礎
19.1.3 會話隱涵
19.2 對話行為
19.3 對話行為的自動解釋
19.3.1 對話行為的計畫推理解釋
19.3.2 對話行為的基於提示的解釋
19.3.3 要點
19.4 對話結構與連貫性
19.5 會話智慧型代理中的對話管理
19.6 小結
19.7 文獻和歷史說明
第20章 自然語言生成
20.1 語言生成導引
20.2 生成的體系結構
20.3 表層實現
20.3.1 系統語法
20.3.2 功能合一語法
20.3.3 要點
20.4 話語規劃
20.4.1 文本說明圖
20.4.2 修辭關係
20.4.3 小結
20.5 其他問題
20.5.1 微規劃
20.5.2 辭彙選擇
20.5.3 生成系統評價
20.5.4 語音生成
20.6 小結
20.7 文獻和歷史說明
第21章 機器翻譯
21.1 語言的相似性和差異性
21.2 轉換模型
21.2.1 句法轉換
21.2.2 辭彙轉換
21.3 中間語的思想:使用意義
21.4 直接轉換
21.5 使用統計技術
21.5.1 流暢性的量化
21.5.2 忠實性的量化
21.5.3 輸出的搜尋
21.6 可用性與系統開發
21.7 小結
21.8 文獻和歷史說明
附錄A 正則表達式的算符
附錄B PORTER STEMMING算法
附錄C 標記集C5和C7
附錄D HMM模型的訓練:向前-向後算法
參考文獻
術語表
作者簡介
Daniel Jurafsky在美國加利福尼亞大學獲計算機科學博士學位, 現於美國科羅拉多大學語言學系和計算機科學系任教, 並在認知科學研究所工作, 主要研究方向為語言的機率模型和語音信息處理. 由於他在語音和語言處理方面的成就, 於1997年獲美國NSF職業獎.
James H.Martin在美國加利福尼亞大學獲計算機科學博士學位, 現任職於美國科羅拉多大學計算機科學系和認知科學研究所, 主要研究方向為計算語義學. 機器學習和信息檢索.
馮志偉國家教育部語言文字套用研究所研究員. 博士生導師. 先後在北京大學和中國科學技術大學獲雙碩士位, 在語音和語言的計算機處理領域具有多年的研究經驗, 曾在多個國家參與研究和教學工作, 主要研究方向為自然語言處理. 計算語言學和機器翻譯, 主要著作有《自然語言的計算機處理》和《數理語言學》等18部。