現代語音信號處理

本書系統介紹了語音信號處理的基礎、原理、方法、套用、新理論、新成果與新技術，以及該研究領域的背景知識、研究現狀、套用前景和發展趨勢。

圖書內容

本書系統介紹了語音信號處理的基礎、原理、方法、套用、新理論、新成果與新技術，以及該研究領域的背景知識、研究現狀、套用前景和發展趨勢。

全書分三篇共17章。第一篇語音信號處理基礎，包括第1章緒論，第2章語音信號處理的基礎知識；第二篇語音信號分析，包括第3章時域分析，第4章短時傅立葉分析，第5章倒譜分析與同態濾波，第6章線性預測分析，第7章語音信號的非線性分析，第8章語音特徵參數檢測與估計，第9章矢量量化，第10章隱馬爾可夫模型；第三篇語音信號處理技術與套用，包括第11章語音編碼，第12章語音合成，第13章語音識別，第14章說話人識別和語種辨識，第15章智慧型信息處理技術在語音信號處理中的套用，第16章語音增強，第17章基於麥克風陣列的語音信號處理。本書體系完整，結構嚴謹；系統性強，層次分明；內容深入淺出，原理闡述透徹；取材廣泛，繁簡適中；內容豐富而新穎；聯繫實際套用。

目錄

第一篇語音信號處理基礎

第1章緒論 1

1.1 語音信號處理的發展歷史 1

1.2 語音信號處理的主要研究內容及發展

概況 3

1.3 本書的內容 7

思考與複習題 8

第2章語音信號處理的基礎知識 9

2.1 概述 9

2.2 語音產生的過程 9

2.3 語音信號的特性 12

2.3.1 語言和語音的基本特性 12

2.3.2 語音信號的時間波形和頻譜特性 13

2.3.3 語音信號的統計特性 15

2.4 語音產生的線性模型 16

2.4.1 激勵模型 17

2.4.2 聲道模型 18

2.4.3 輻射模型 20

2.4.4 語音信號數字模型 21

2.5 語音產生的非線性模型 22

2.5.1 FM-AM模型的基本原理 22

2.5.2 Teager能量運算元 22

2.5.3 能量分離算法 23

2.5.4 FM-AM模型的套用 24

2.6 語音感知 24

2.6.1 聽覺系統 24

2.6.2 神經系統 25

2.6.3 語音感知 26

思考與複習題 29

第二篇語音信號分析

第3章時域分析 30

3.1 概述 30

3.2 數位化和預處理 31

3.2.1 取樣率和量化字長的選擇 31

3.2.2 預處理 33

3.3 短時能量分析 34

3.4 短時過零分析 36

3.5 短時相關分析 39

3.5.1 短時自相關函式 39

3.5.2 修正的短時自相關函式 40

3.5.3 短時平均幅差函式 42

3.6 語音端點檢測 42

3.6.1 雙門限前端檢測 43

3.6.2 多門限過零率前端檢測 43

3.6.3 基於FM-AM模型的端點檢測 43

3.7 基於高階累積量的語音端點檢測 44

3.7.1 噪聲環境下的端點檢測 44

3.7.2 高階累積量與高階譜 44

3.7.3 基於高階累積量的端點檢測 46

思考與複習題 48

第4章短時傅立葉分析 50

4.1 概述 50

4.2 短時傅立葉變換 50

4.2.1 短時傅立葉變換的定義 50

4.2.2 傅立葉變換的解釋 51

4.2.3 濾波器的解釋 54

4.3 短時傅立葉變換的取樣率 55

4.4 語音信號的短時綜合 56

4.4.1 濾波器組求和法 56

4.4.2 FFT求和法 58

4.5 語譜圖 59

思考與複習題 61

第5章倒譜分析與同態濾波 62

5.1 概述 62

5.2 同態信號處理的基本原理 62

5.3 復倒譜和倒譜 63

5.4 語音信號兩個卷積分量復倒譜的性質 64

5.4.1 聲門激勵信號 64

5.4.2 聲道衝激回響序列 65

5.5 避免相位卷繞的算法 66

5.5.1 微分法 67

5.5.2 最小相位信號法 67

5.5.3 遞推法 69

5.6 語音信號復倒譜分析實例 70

5.7 Mel頻率倒譜係數 72

思考與複習題 73

第6章線性預測分析 74

6.1 概述 74

6.2 線性預測分析的基本原理 74

6.2.1 基本原理 74

6.2.2 語音信號的線性預測分析 75

6.3 線性預測方程組的建立 76

6.4 線性預測分析的解法(1)—自相關和

協方差法 77

6.4.1 自相關法 78

6.4.2 協方差法 79

6.4.3 自相關和協方差法的比較 80

6.5 線性預測分析的解法(2)—格型法 81

6.5.1 格型法基本原理 81

6.5.2 格型法的求解 83

6.6 線性預測分析的套用—LPC譜估計和

LPC復倒譜 85

6.6.1 LPC譜估計 85

6.6.2 LPC復倒譜 87

6.6.3 LPC譜估計與其他譜分析方法的

比較 88

6.7 線譜對(LSP)分析 89

6.7.1 線譜對分析原理 89

6.7.2 線譜對參數的求解 91

6.8 極零模型 91

思考與複習題 93

第7章語音信號的非線性分析 94

7.1 概述 94

7.2 時頻分析 94

7.2.1 短時傅立葉變換的局限 95

7.2.2 時頻分析 96

7.3 小波分析 97

7.3.1 概述 97

7.3.2 小波變換的定義 97

7.3.3 典型的小波函式 99

7.3.4 離散小波變換 100

7.3.5 小波多分辨分析與Mallat算法 100

7.4 基於小波的語音分析 101

7.4.1 語音分解與重構 101

7.4.2 清/濁音判斷 102

7.4.3 語音去噪 102

7.4.4 聽覺系統模擬 103

7.4.5 小波包變換在語音端點檢測中的

套用 103

7.5 混沌與分形 104

7.6 基於混沌的語音分析 105

7.6.1 語音信號的混沌性 105

7.6.2 語音信號的相空間重構 106

7.6.3 語音信號的Lyapunov指數 108

7.6.4 基於混沌的語音、噪聲判別 109

7.7 基於分形的語音分析 110

7.7.1 概述 110

7.7.2 語音信號的分形特徵 111

7.7.3 基於分形的語音分割 112

思考與複習題 113

第8章語音特徵參數估計 114

8.1 基音估計 114

8.1.1 自相關法 115

8.1.2 並行處理法 117

8.1.3 倒譜法 118

8.1.4 簡化逆濾波法 120

8.1.5 高階累積量法 122

8.1.6 小波變換法 123

8.1.7 基音檢測的後處理 124

8.2 共振峰估計 125

8.2.1 帶通濾波器組法 125

8.2.2 DFT法 126

8.2.3 倒譜法 127

8.2.4 LPC法 129

8.2.5 FM-AM模型法 130

思考與複習題 131

第9章矢量量化 132

9.1 概述 132

9.2 矢量量化的基本原理 133

9.3 失真測度 134

9.3.1 歐氏距離—均方誤差 135

9.3.2 LPC失真測度 135

9.3.3 識別失真測度 137

9.4 最佳矢量量化器和碼本的設計 137

9.4.1 矢量量化器最佳設計的兩個條件 137

9.4.2 LBG算法 138

9.4.3 初始碼書生成 138

9.5 降低複雜度的矢量量化系統 139

9.5.1 無記憶的矢量量化系統 140

9.5.2 有記憶的矢量量化系統 142

9.6 語音參數的矢量量化 144

9.7 模糊矢量量化 145

9.7.1 模糊集概述 146

9.7.2 模糊矢量量化 147

9.8 遺傳矢量量化 148

9.8.1 遺傳算法 148

9.8.2 遺傳矢量量化 150

思考與複習題 151

第10章隱馬爾可夫模型 152

10.1 概述 152

10.2 隱馬爾可夫模型的引入 153

10.3 隱馬爾可夫模型的定義 155

10.4 隱馬爾可夫模型三個問題的求解 156

10.4.1 機率的計算 157

10.4.2 HMM的識別 159

10.4.3 HMM的訓練 160

10.4.4 EM算法 161

10.5 HMM的選取 162

10.5.1 HMM的類型選擇 162

10.5.2 輸出機率分布的選取 163

10.5.3 狀態數的選取 163

10.5.4 初值選取 163

10.5.5 訓練準則的選取 165

10.6 HMM套用與實現中的一些問題 166

10.6.1 數據下溢 166

10.6.2 多輸出(觀察矢量序列)情況 166

10.6.3 訓練數據不足 167

10.6.4 考慮狀態持續時間的HMM 168

10.7 HMM的結構和類型 170

10.7.1 HMM的結構 170

10.7.2 HMM的類型 172

10.7.3 按輸出形式分類 173

10.8 HMM的相似度比較 174

思考與複習題 175

第三篇語音信號處理技術與套用

第11章語音編碼 176

11.1 概述 176

11.2 語音信號的壓縮編碼原理 178

11.2.1 語音壓縮的基本原理 178

11.2.2 語音通信中的語音質量 179

11.2.3 兩種壓縮編碼方式 180

11.3 語音信號的波形編碼 180

11.3.1 PCM及APCM 180

11.3.2 預測編碼及自適應預測編碼 183

11.3.3 ADPCM及ADM 185

11.3.4 子帶編碼(SBC) 187

11.3.5 自適應變換編碼(ATC) 189

11.4 聲碼器 191

11.4.1 概述 191

11.4.2 聲碼器的基本結構 192

11.4.3 通道聲碼器 192

11.4.4 同態聲碼器 194

11.5 LPC聲碼器 195

11.5.1 LPC參數的變換與量化 196

11.5.2 LPC-10 197

11.5.3 LPC-10e 198

11.5.4 變幀率LPC聲碼器 199

11.6 各種常規語音編碼方法的比較 200

11.6.1 波形編碼的信號壓縮技術 200

11.6.2 波形編碼與聲碼器的比較 200

11.6.3 各種聲碼器的比較 201

11.7 基於LPC模型的混合編碼 201

11.7.1 混合編碼採用的技術 202

11.7.2 MPLPC 204

11.7.3 RPELPC 207

11.7.4 CELP 209

11.7.5 CELP的改進形式 211

11.7.6 基於分形碼本的CELP 213

11.8 基於正弦模型的混合編碼 214

11.8.1 正弦變換編碼 215

11.8.2 多帶激勵(MBE)編碼 215

11.9 極低速率語音編碼 217

11.9.1 400～1.2kb/s數碼率的聲碼器 217

11.9.2 識別-合成型聲碼器 218

11.10 語音編碼的性能指標 219

11.11 語音編碼的質量評價 221

11.11.1 主觀評價方法 221

11.11.2 客觀評價方法 222

11.11.3 主客觀評價方法的結合 225

11.11.4 基於多重分形的語音質量評價 226

11.12 語音編碼國際標準 227

11.13 語音編碼與圖像編碼的關係 228

小結 229

思考與複習題 229

第12章語音合成 231

12.1 概述 231

12.2 語音合成原理 232

12.2.1 語音合成的方法 232

12.2.2 語音合成的系統特性 234

12.3 共振峰合成 235

12.3.1 共振峰合成原理 235

12.3.2 共振峰合成實例 237

12.4 LPC合成 237

12.5 PSOLA語音合成 239

12.5.1 概述 239

12.5.2 PSOLA的原理 240

12.5.3 PSOLA的實現 240

12.5.4 PSOLA的改進 242

12.5.5 PSOLA語音合成系統的發展 243

12.6 文語轉換系統 243

12.6.1 組成與結構 243

12.6.2 文本分析 244

12.6.3 韻律控制 245

12.6.4 語音合成 248

12.6.5 TTS系統的一些問題 248

12.7 基於HMM的參數化語音合成 249

12.8 語音合成的研究現狀和發展趨勢 253

12.9 語音合成硬體簡介 255

思考與複習題 256

第13章語音識別 257

13.1 概述 257

13.2 語音識別原理 260

13.3 動態時間規整 264

13.4 基於有限狀態矢量量化的語音識別 266

13.5 孤立詞識別系統 267

13.6 連線詞識別 270

13.6.1 基本原理 270

13.6.2 基於DTW的連線詞識別 271

13.6.3 基於HMM的連線詞識別 273

13.6.4 基於分段K-均值的最佳詞串分割及

模型訓練 273

13.7 連續語音識別 274

13.7.1 連續語音識別存在的困難 274

13.7.2 連續語音識別的訓練及識別方法 275

13.7.3 連續語音識別的整體模型 276

13.7.4 基於HMM統一框架的大辭彙非特定

人連續語音識別 277

13.7.5 聲學模型 278

13.7.6 語言學模型 280

13.7.7 最優路徑搜尋 282

13.8 說話人自適應 284

13.8.1 MAP算法 285

13.8.2 基於變換的自適應方法 285

13.8.3 基於說話人分類的自適應方法 286

13.9 魯棒的語音識別 287

13.10 關鍵字確認 289

13.11 可視語音識別 291

13.11.1 概述 291

13.11.2 機器自動唇讀 291

13.11.3 雙模態語音識別 293

13.12 語音理解 296

13.12.1 MAP語義解碼 297

13.12.2 語義結構的表示 297

13.12.3 意圖解碼器 298

小結 299

思考與複習題 299

第14章說話人識別 300

14.1 概述 300

14.2 特徵選取 301

14.2.1 說話人識別所用的特徵 301

14.2.2 特徵類型的優選準則 302

14.2.3 常用的特徵參數 303

14.3 說話人識別系統 303

14.3.1 說話人識別系統的結構 303

14.3.2 說話人識別的基本方法概述 304

14.4 說話人識別系統實例 305

14.4.1 DTW型說話人識別系統 305

14.4.2 套用VQ的說話人識別系統 306

14.5 基於HMM的說話人識別 307

14.6 基於GMM的說話人識別 310

14.7 說話人識別中需進一步研究的問題 312

14.8 語種辨識 313

思考與複習題 316

第15章智慧型信息處理技術在語音信號

處理中的套用 317

15.1 人工神經網路 317

15.1.1 概述 317

15.1.2 神經網路的基本概念 319

15.2 神經網路的模型結構 320

15.2.1 單層感知機 320

15.2.2 多層感知機 321

15.2.3 自組織映射神經網路 323

15.2.4 時延神經網路 324

15.2.5 循環神經網路 325

15.3 神經網路與傳統方法的結合 325

15.3.1 概述 325

15.3.2 神經網路與DTW 326

15.3.3 神經網路與VQ 326

15.3.4 神經網路與HMM 327

15.4 神經網路語音識別 328

15.4.1 靜態語音識別 328

15.4.2 連續語音識別 330

15.5 基於神經網路的說話人識別 330

15.6 基於神經網路的語音信號非線性預測

編碼 332

15.6.1 語音信號的非線性預測 332

15.6.2 基於MLP的非線性預測編碼 333

15.6.3 基於RNN的非線性預測編碼 334

15.7 基於神經網路的語音合成 335

15.8 支持向量機 336

15.8.1 概述 336

15.8.2 支持向量機的基本原理 337

15.9 基於支持向量機的語音分類識別 339

15.10 基於支持向量機的說話人識別 340

15.10.1 基於支持向量機的說話人辨認 340

15.10.2 基於支持向量機的說話人確認 340

15.11 基於混沌神經網路的語音識別 342

15.11.1 混沌神經網路 342

15.11.2 基於混沌神經網路的語音識別 342

15.12 分形在語音識別中的套用 344

15.13 智慧型最佳化算法在語音信號處理中的

套用 344

15.14 各種智慧型信息處理技術的融合與

集成 346

15.14.1 模糊系統與神經網路的融合 347

15.14.2 神經網路與遺傳算法的融合 347

15.14.3 模糊邏輯、神經網路及遺傳算法的

融合 348

15.14.4 神經網路、模糊邏輯及混沌的

融合 349

15.14.5 混沌與遺傳算法的融合 349

思考與複習題 350

第16章語音增強 351

16.1 概述 351

16.2 語音、人耳感知及噪聲的特性 352

16.3 濾波器法 354

16.3.1 固定濾波器 354

16.3.2 變換技術 354

16.3.3 自適應噪聲對消 354

16.4 非線性處理 357

16.5 基於相關特性的語音增強 358

16.6 減譜法 359

16.6.1 減譜法的基本原理 359

16.6.2 減譜法的改進形式 360

16.7 基於Wiener濾波的語音增強 361

16.8 基於語音產生模型的語音增強 362

16.9 基於小波的語音增強 364

16.9.1 概述 364

16.9.2 基於小波的語音增強 364

16.9.3 基於小波包的語音增強 366

16.10 基於信號子空間分解的語音增強 367

16.11 語音增強的一些新發展 370

小結 371

思考與複習題 372

第17章基於麥克風陣列的語音信號

處理 373

17.1 概述 373

17.2 麥克風陣列語音處理技術的難點 374

17.3 聲源定位 375

17.3.1 去混響 375

17.3.2 近場模型 376

17.3.3 聲源定位 377

17.4 語音增強 381

17.4.1 概述 381

17.4.2 方法與技術 382

17.4.3 套用 386

17.4.4 本節小結 387

17.5 語音盲分離 387

17.5.1 瞬時線性混合模型 388

17.5.2 卷積混合模型 393

17.5.3 非線性混合模型 395

17.5.4 需進一步研究的問題 396

思考與複習題 396

漢英名詞術語對照 398

參考文獻 407

相關詞條

熱門詞條

聯絡我們