VoIP 語音處理與識別

VoIP 語音處理與識別

《VoIP 語音處理與識別》是2010年5月國防工業出版社出版的圖書,作者是屈丹。

內容簡介

本書從VoIP 通信過程出發,以傳統語音識別技術為基礎,沿著PSTN 網信號處理和IP 包信號處理兩個主線進行研究,以語音識別的前端處理、特徵提取、模型建立、後端處理過程進行組織。針對VoIP 語音識別系統實用化的問題,給出了一些改善語音識別系統性能的關鍵技術,力求使得VoIP 語音識別能走出實驗室,向實用發展。全書共14 章,分為:緒論、VoIP 語音編碼標準、語音信號和話帶數據檢測、VoIP 信道檢測、語音信號的特徵提取、編解碼失配補償、通話模式分析、VoIP 協定分析及數據

圖書目錄

第1 章 緒論 1

1.1 VoIP 的基本概念和系統組成 1

1.1.1 VoIP 基本概念 1

1.1.2 VoIP 基本原理 3

1.1.3 VoIP 系統基本組成 5

1.1.4 VoIP 主要特點 7

1.1.5 VoIP 的關鍵技術 8

1.2 語音識別的基本原理與研究內容 10

1.2.1 語音識別基本原理 11

1.2.2 傳統語音識別 14

1.2.3 VoIP 語音識別 20

1.3 傳統語音識別的發展歷程 23

1.4 VoIP 語音識別的發展歷程 33

參考文獻 36

第2 章 VoIP 語音編碼標準 43

2.1 G.711 語音編碼 43

2.1.1 G.711 語音編碼原理 43

2.1.2 A 律壓縮 44

2.1.3 μ 律壓縮 48

2.2 G.729 語音編碼 51

2.2.1 G.729 編碼原理 51

2.2.2 編碼器實現技術 53

2.2.3 解碼器功能說明 73

2.3 G.723.1 語音編碼 80

2.3.1 編碼器原理 81

2.3.2 編碼器實現技術 81

2.3.3 解碼器原理 95

2.3.4 解碼器實現技術 95

參考文獻 99

第3 章 語音和話帶數據檢測 100

3.1 話帶數據簡介 100

3.1.1 傳真 100

3.1.2 數據機數據 101

3.1.3 單音信號和雙音多頻信號(DTMF) 103

3.2 語音和話帶數據波形的特點 104

3.2.1 語音波形的特點 104

3.2.2 話帶數據信號波形的特點 105

3.3 語音和話帶數據識別的特徵分析 107

3.3.1 能量相關參數 107

3.3.2 過零率相關參數 109

3.3.3 歸一化自相關函式 111

3.3.4 基音周期 111

3.3.5 譜特徵 112

3.4 語音和話帶數據分離方法 112

3.5 語音與話帶數據檢測技術套用 115

參考文獻 117

附錄 118

第4 章 VoIP 信道檢測 121

4.1 聲道參數 121

4.2 語音信號統計參數 123

4.2.1 偏度與峰度 123

4.2.2 LPC 峰度及偏度 124

4.2.3 LPCC 峰度及偏度 125

4.3 靜態信噪比 127

4.4 非自然周期性參數 130

4.4.1 非自然嘟嘟聲 130

4.4.2 機器性參數 131

4.4.3 幀重複性 133

4.5 啞聲參數與中斷參數 133

4.5.1 啞聲參數 133

4.5.2 中斷參數 134

4.6 基於支持矢量機的VoIP 信道檢測方法 135

4.6.1 算法流程 135

4.6.2 支持矢量機 135

4.6.3 算法的具體實現 137

參考文獻 137

第5 章 語音信號的特徵提取 138

5.1 基音周期 138

5.1.1 基音檢測的難點及方法分類 139

5.1.2 自相關法及其改進 139

5.1.3 並行處理法 142

5.1.4 倒譜法 144

5.1.5 簡化逆濾波法 145

5.2 線性預測參數 145

5.2.1 線性預測信號模型 146

5.2.2 線性預測誤差濾波 147

5.2.3 語音信號的線性預測分析 151

5.2.4 線性預測分析的解法 152

5.2.5 斜格法(Lattice Method)及其改進 153

5.3 線譜對(LSP)參數 160

5.3.1 線譜對分析原理 160

5.3.2 線譜對分析的求解 162

5.4 倒譜係數及差分參數 163

5.4.1 LPCC 參數 163

5.4.2 MFCC 參數 164

5.4.3 ASCC 參數 166

5.4.4 差分參數 167

5.5 感覺加權的線性預測(PLP)特徵 168

5.5.1 PLP 參數 168

5.5.2 RASTA-PLP 參數 169

5.6 高階信號譜類特徵 170

5.6.1 WV 譜的定義及其主要性質 170

5.6.2 WV 譜計算式的一些變形 171

參考文獻 173

第6 章 編解碼失配補償 175

6.1 編解碼失配影響 175

6.1.1 VoIP 系統語音傳輸 176

6.1.2 編解碼失配對說話人辨認系統的影響 176

6.1.3 編解碼失配對說話人確認系統的影響 177

6.1.4 特徵參數的編碼失真 179

6.2 常用編解碼失配補償方法 180

6.2.1 失配補償的基本思想 181

6.2.2 經驗補償技術 181

6.2.3 盲補償 182

6.2.4 基於特徵及模型的補償 184

6.3 基於編碼失真的加權GMM 模型算法 188

6.3.1 加權GMM 模型 189

6.3.2 權重矩陣C 的確定 191

6.3.3 實驗及分析 191

6.4 編碼自動匹配方法 192

6.4.1 編碼自動匹配方法的基本思想 192

6.4.2 語音編碼檢測器 193

6.4.3 實驗及分析 193

6.5 統計匹配特徵變換失配補償算法 195

6.5.1 統計匹配的基本思想 195

6.5.2 線性特徵變換式 195

6.5.3 非線性特徵變換式 196

6.5.4 M-step 疊代根的求解 199

6.5.5 基於統計匹配的編解碼失配補償實驗 201

6.6 分數歸一化補償算法 204

6.6.1 分數歸一化算法的基本思想 204

6.6.2 實驗及分析 206

參考文獻 207

第7 章 通話模式分析 210

7.1 通話模式分析的基本概念與研究內容 210

7.1.1 通話模式分析的定義 211

7.1.2 通話模式分析的關鍵技術 211

7.1.3 通話模式分析的研究內容 212

7.2 通話模式分析的基本方法 215

7.2.1 基於KL2 距離的音頻分割算法…………………… 215

7.2.2 基於隱馬爾可夫模型的音頻分割算法…………… 216

7.2.3 基於貝葉斯信息準則的音頻分割算法…………… 217

7.2.4 基於熵變化趨勢檢測的音頻分割算法…………… 219

7.2.5 基於可信度變化趨勢檢測的音頻分割算法……… 221

7.3 多人的說話人識別方法………………………………… 225

7.3.1 多人說話人識別的基本思想……………………… 225

7.3.2 說話人分段……………………………………… 226

7.3.3 說話人聚類……………………………………… 227

7.3.4 彩鈴的檢測與分割算法…………………………… 227

7.4 電信網特有噪聲檢測算法……………………………… 230

參考文獻………………………………………………………… 232

第8 章 VoIP 協定分析及數據獲取…………………………… 234

8.1 VoIP 協定簡介…………………………………………… 234

8.2 SIP 協定通信流程及識別……………………………… 235

8.2.1 SIP 協定的功能…………………………………… 235

8.2.2 SIP 協定的通信方式……………………………… 236

8.2.3 基於SIP 協定的VoIP 信息識別…………………… 237

8.3 H.323 協定通信流程與識別…………………………… 240

8.3.1 H.323 通信流程…………………………………… 240

8.3.2 H.323 協定的動態特徵…………………………… 244

8.3.3 H.323 的識別方法………………………………… 248

參考文獻………………………………………………………… 251

第9 章 丟包處理………………………………………………… 252

9.1 網路丟包模型…………………………………………… 252

9.2 網路丟包對說話人識別的影響………………………… 254

9.2.1 合成語音說話人識別實驗………………………… 254

9.2.2 解碼參數說話人識別實驗………………………… 255

9.2.3 壓縮碼流說話人識別實驗………………………… 256

9.3 網路丟包處理技術……………………………………… 258

9.3.1 丟包恢復技術……………………………………… 258

9.3.2 丟包隱藏技術……………………………………… 261

9.4 語音識別系統中的丟包補償方法……………………… 265

9.4.1 丟包檢測………………………………………… 265

9.4.2 丟包補償………………………………………… 266

9.4.3 有效性分析……………………………………… 268

9.4.4 丟包補償實驗結果………………………………… 268

參考文獻………………………………………………………… 270

第10 章 碼流特徵提取…………………………………………… 273

10.1 碼流語音識別的原理…………………………………… 273

10.2 G.729 碼流特徵提取…………………………………… 274

10.2.1 編碼原理………………………………………… 274

10.2.2 基於解碼參數的G.729 碼流特徵提取………… 275

10.2.3 基於幀結構映射的G.729 碼流特徵提取……… 279

10.3 G.723.1 碼流特徵提取………………………………… 280

10.3.1 編碼原理………………………………………… 280

10.3.2 基於解碼參數的G.723.1 碼流特徵提取……… 281

10.3.3 基於幀結構映射的G.723.1 碼流特徵提取……… 282

10.4 GSM 碼流特徵提取…………………………………… 283

10.4.1 編碼原理………………………………………… 283

10.4.2 基於解碼參數的GSM 碼流特徵提取…………… 284

10.4.3 基於幀結構映射的GSM 碼流特徵提取………… 286

10.5 碼流特徵提取實驗……………………………………… 287

10.5.1 解碼參數實驗…………………………………… 287

10.5.2 基於幀結構映射參數實驗……………………… 288

參考文獻………………………………………………………… 289

第11 章 特徵選擇與特徵變換………………………………… 291

11.1 特徵選擇的基本概念…………………………………… 291

11.1.1 特徵矢量和特徵空間…………………………… 292

11.1.2 特徵的形成……………………………………… 292

11.1.3 特徵的特點……………………………………… 292

11.1.4 特徵的選擇及作用……………………………… 293

11.2 類的可分性判據………………………………………… 294

11.2.1 基於距離的可分性判據………………………… 294

11.2.2 基於機率密度函式的可分性判據……………… 297

11.3 特徵選擇的方法………………………………………… 299

11.3.1 最優搜尋算法…………………………………… 300

11.3.2 次優搜尋算法…………………………………… 301

11.3.3 遺傳算法………………………………………… 303

11.4 線性判別分析———LDA ……………………………… 306

11.4.1 線性判別分析的概念…………………………… 307

11.4.2 廣義線性判別函式……………………………… 308

11.4.3 Fisher 線性判別………………………………… 310

11.4.4 多類問題………………………………………… 314

11.5 主分量分析———PCA ………………………………… 315

11.5.1 基於K - L 變換的主分量分析…………………… 316

11.5.2 隨機矢量的K - L 展開…………………………… 316

11.5.3 基於K - L 變換的降維…………………………… 318

11.6 獨立分量分析…………………………………………… 319

11.6.1 線性獨立分量分析……………………………… 319

11.6.2 線性獨立分量分析算法………………………… 324

11.6.3 獨立分量分析的預處理………………………… 329

11.6.4 非線性獨立分量分析…………………………… 330

11.7 特徵變換舉例…………………………………………… 334

11.7.1 特徵變換方法…………………………………… 334

11.7.2 特徵變換實驗…………………………………… 336

參考文獻………………………………………………………… 337

第12 章 語音識別的模型………………………………………… 339

12.1 動態時間規整…………………………………………… 339

12.1.1 動態時間規整的定義…………………………… 339

12.1.2 動態規劃技術(DP) ……………………………… 340

12.1.3 DTW 算法的改進………………………………… 342

12.2 隱馬爾可夫模型………………………………………… 344

12.2.1 隱馬爾可夫模型的定義………………………… 344

12.2.2 HMM 中的3 個基本問題及其解決方案………… 346

12.2.3 隱馬爾可夫模型的類型………………………… 352

12.2.4 HMM 算法實現的問題…………………………… 352

12.3 分類模型———SVM …………………………………… 362

12.3.1 學習問題………………………………………… 362

12.3.2 學習過程一致性的條件………………………… 363

12.3.3 學習過程收斂速度的界………………………… 365

12.3.4 結構風險最小歸納原理………………………… 367

12.3.5 支持矢量機……………………………………… 370

12.4 人工神經網路…………………………………………… 377

12.4.1 神經元的基本模型……………………………… 377

12.4.2 前向網路………………………………………… 379

12.4.3 反饋網路………………………………………… 382

12.5 高斯混合模型(GMM) ………………………………… 387

12.5.1 高斯混合模型的定義…………………………… 388

12.5.2 參數調整算法———EM 算法……………………… 388

12.6 動態貝葉斯網路………………………………………… 390

12.6.1 貝葉斯網路……………………………………… 391

12.6.2 動態貝葉斯網路………………………………… 393

12.6.3 動態貝葉斯網路在語音識別中的套用…………… 395

12.6.4 基於DBN 的語音識別軟體GMTK ……………… 398

參考文獻………………………………………………………… 400

第13 章 穩健性識別技術………………………………………… 402

13.1 穩健性識別技術概述…………………………………… 402

13.2 語音增強………………………………………………… 405

13.2.1 多帶譜減法

(Multi-Band Spectral Subtraction,MBSS) ………… 406

13.2.2 短時譜估計(Short Time Spectral Estimator) ……… 407

13.2.3 瞬時維納濾波

(Instantaneous Wiener Filtering,IWF) …………… 407

13.2.4 子空間法(Subspace) …………………………… 408

13.3 信道補償………………………………………………… 410

13.3.1 多重風格訓練…………………………………… 411

13.3.2 HMM 分解………………………………………… 411

13.3.3 並行模型組合PMC

(Parallel Model Combination) …………………… 413

13.3.4 矢量泰勒級數(Vector Taylor Series,VTS)方法… 417

13.3.5 雅可比自適應(Jacobian Adaptation) …………… 420

13.3.6 其他補償方法…………………………………… 421

13.4 說話人自適應技術……………………………………… 421

13.4.1 最大似然度線性回歸算法……………………… 423

13.4.2 最大後驗機率算法……………………………… 431

13.4.3 說話人聚類……………………………………… 435

13.5 說話人歸一化技術……………………………………… 442

13.5.1 說話人歸一化技術原理………………………… 442

13.5.2 頻率摺疊因子的選取…………………………… 444

13.5.3 摺疊方法的選取………………………………… 447

參考文獻………………………………………………………… 452

第14 章 語音識別套用…………………………………………… 458

14.1 說話人識別……………………………………………… 458

14.1.1 說話人識別的基本原理………………………… 458

14.1.2 特徵參數的統計評價…………………………… 460

14.1.3 判決規則與性能評價標準……………………… 461

14.1.4 說話人識別系統舉例…………………………… 464

14.2 語言辨識………………………………………………… 465

14.2.1 語言辨識的基本原理…………………………… 465

14.2.2 語言辨識的主要方法…………………………… 466

14.2.3 語言辨識系統舉例……………………………… 471

14.3 關鍵字識別……………………………………………… 473

14.3.1 關鍵字識別的基本原理………………………… 473

14.3.2 關鍵字識別及其與連續語音識別的關係………… 475

14.3.3 關鍵字識別的基本問題………………………… 475

14.3.4 關鍵字識別系統的主要技術難點……………… 477

14.3.5 關鍵字識別系統舉例…………………………… 478

14.4 連續語音識別…………………………………………… 479

14.4.1 連續語音識別的基本原理……………………… 479

14.4.2 連續語音識別中的搜尋策略…………………… 481

14.4.3 連續語音識別系統舉例………………………… 484

14.5 情感識別………………………………………………… 485

14.5.1 情感識別的基本原理…………………………… 485

14.5.2 情感分類………………………………………… 486

14.5.3 情感語音數據採集……………………………… 487

14.5.4 情感特徵分析…………………………………… 488

14.5.5 情感識別方法…………………………………… 489

參考文獻………………………………………………………… 490"

相關詞條

熱門詞條

聯絡我們