內容簡介
本書從VoIP 通信過程出發,以傳統語音識別技術為基礎,沿著PSTN 網信號處理和IP 包信號處理兩個主線進行研究,以語音識別的前端處理、特徵提取、模型建立、後端處理過程進行組織。針對VoIP 語音識別系統實用化的問題,給出了一些改善語音識別系統性能的關鍵技術,力求使得VoIP 語音識別能走出實驗室,向實用發展。全書共14 章,分為:緒論、VoIP 語音編碼標準、語音信號和話帶數據檢測、VoIP 信道檢測、語音信號的特徵提取、編解碼失配補償、通話模式分析、VoIP 協定分析及數據
圖書目錄
第1 章 緒論 1
1.1 VoIP 的基本概念和系統組成 1
1.1.1 VoIP 基本概念 1
1.1.2 VoIP 基本原理 3
1.1.3 VoIP 系統基本組成 5
1.1.4 VoIP 主要特點 7
1.1.5 VoIP 的關鍵技術 8
1.2 語音識別的基本原理與研究內容 10
1.2.1 語音識別基本原理 11
1.2.2 傳統語音識別 14
1.2.3 VoIP 語音識別 20
1.3 傳統語音識別的發展歷程 23
1.4 VoIP 語音識別的發展歷程 33
參考文獻 36
第2 章 VoIP 語音編碼標準 43
2.1 G.711 語音編碼 43
2.1.1 G.711 語音編碼原理 43
2.1.2 A 律壓縮 44
2.1.3 μ 律壓縮 48
2.2 G.729 語音編碼 51
2.2.1 G.729 編碼原理 51
2.2.2 編碼器實現技術 53
2.2.3 解碼器功能說明 73
2.3 G.723.1 語音編碼 80
2.3.1 編碼器原理 81
2.3.2 編碼器實現技術 81
2.3.3 解碼器原理 95
2.3.4 解碼器實現技術 95
參考文獻 99
第3 章 語音和話帶數據檢測 100
3.1 話帶數據簡介 100
3.1.1 傳真 100
3.1.2 數據機數據 101
3.1.3 單音信號和雙音多頻信號(DTMF) 103
3.2 語音和話帶數據波形的特點 104
3.2.1 語音波形的特點 104
3.2.2 話帶數據信號波形的特點 105
3.3 語音和話帶數據識別的特徵分析 107
3.3.1 能量相關參數 107
3.3.2 過零率相關參數 109
3.3.3 歸一化自相關函式 111
3.3.4 基音周期 111
3.3.5 譜特徵 112
3.4 語音和話帶數據分離方法 112
3.5 語音與話帶數據檢測技術套用 115
參考文獻 117
附錄 118
第4 章 VoIP 信道檢測 121
4.1 聲道參數 121
4.2 語音信號統計參數 123
4.2.1 偏度與峰度 123
4.2.2 LPC 峰度及偏度 124
4.2.3 LPCC 峰度及偏度 125
4.3 靜態信噪比 127
4.4 非自然周期性參數 130
4.4.1 非自然嘟嘟聲 130
4.4.2 機器性參數 131
4.4.3 幀重複性 133
4.5 啞聲參數與中斷參數 133
4.5.1 啞聲參數 133
4.5.2 中斷參數 134
4.6 基於支持矢量機的VoIP 信道檢測方法 135
4.6.1 算法流程 135
4.6.2 支持矢量機 135
4.6.3 算法的具體實現 137
參考文獻 137
第5 章 語音信號的特徵提取 138
5.1 基音周期 138
5.1.1 基音檢測的難點及方法分類 139
5.1.2 自相關法及其改進 139
5.1.3 並行處理法 142
5.1.4 倒譜法 144
5.1.5 簡化逆濾波法 145
5.2 線性預測參數 145
5.2.1 線性預測信號模型 146
5.2.2 線性預測誤差濾波 147
5.2.3 語音信號的線性預測分析 151
5.2.4 線性預測分析的解法 152
5.2.5 斜格法(Lattice Method)及其改進 153
5.3 線譜對(LSP)參數 160
5.3.1 線譜對分析原理 160
5.3.2 線譜對分析的求解 162
5.4 倒譜係數及差分參數 163
5.4.1 LPCC 參數 163
5.4.2 MFCC 參數 164
5.4.3 ASCC 參數 166
5.4.4 差分參數 167
5.5 感覺加權的線性預測(PLP)特徵 168
5.5.1 PLP 參數 168
5.5.2 RASTA-PLP 參數 169
5.6 高階信號譜類特徵 170
5.6.1 WV 譜的定義及其主要性質 170
5.6.2 WV 譜計算式的一些變形 171
參考文獻 173
第6 章 編解碼失配補償 175
6.1 編解碼失配影響 175
6.1.1 VoIP 系統語音傳輸 176
6.1.2 編解碼失配對說話人辨認系統的影響 176
6.1.3 編解碼失配對說話人確認系統的影響 177
6.1.4 特徵參數的編碼失真 179
6.2 常用編解碼失配補償方法 180
6.2.1 失配補償的基本思想 181
6.2.2 經驗補償技術 181
6.2.3 盲補償 182
6.2.4 基於特徵及模型的補償 184
6.3 基於編碼失真的加權GMM 模型算法 188
6.3.1 加權GMM 模型 189
6.3.2 權重矩陣C 的確定 191
6.3.3 實驗及分析 191
6.4 編碼自動匹配方法 192
6.4.1 編碼自動匹配方法的基本思想 192
6.4.2 語音編碼檢測器 193
6.4.3 實驗及分析 193
6.5 統計匹配特徵變換失配補償算法 195
6.5.1 統計匹配的基本思想 195
6.5.2 線性特徵變換式 195
6.5.3 非線性特徵變換式 196
6.5.4 M-step 疊代根的求解 199
6.5.5 基於統計匹配的編解碼失配補償實驗 201
6.6 分數歸一化補償算法 204
6.6.1 分數歸一化算法的基本思想 204
6.6.2 實驗及分析 206
參考文獻 207
第7 章 通話模式分析 210
7.1 通話模式分析的基本概念與研究內容 210
7.1.1 通話模式分析的定義 211
7.1.2 通話模式分析的關鍵技術 211
7.1.3 通話模式分析的研究內容 212
7.2 通話模式分析的基本方法 215
7.2.1 基於KL2 距離的音頻分割算法…………………… 215
7.2.2 基於隱馬爾可夫模型的音頻分割算法…………… 216
7.2.3 基於貝葉斯信息準則的音頻分割算法…………… 217
7.2.4 基於熵變化趨勢檢測的音頻分割算法…………… 219
7.2.5 基於可信度變化趨勢檢測的音頻分割算法……… 221
7.3 多人的說話人識別方法………………………………… 225
7.3.1 多人說話人識別的基本思想……………………… 225
7.3.2 說話人分段……………………………………… 226
7.3.3 說話人聚類……………………………………… 227
7.3.4 彩鈴的檢測與分割算法…………………………… 227
7.4 電信網特有噪聲檢測算法……………………………… 230
參考文獻………………………………………………………… 232
第8 章 VoIP 協定分析及數據獲取…………………………… 234
8.1 VoIP 協定簡介…………………………………………… 234
8.2 SIP 協定通信流程及識別……………………………… 235
8.2.1 SIP 協定的功能…………………………………… 235
8.2.2 SIP 協定的通信方式……………………………… 236
8.2.3 基於SIP 協定的VoIP 信息識別…………………… 237
8.3 H.323 協定通信流程與識別…………………………… 240
8.3.1 H.323 通信流程…………………………………… 240
8.3.2 H.323 協定的動態特徵…………………………… 244
8.3.3 H.323 的識別方法………………………………… 248
參考文獻………………………………………………………… 251
第9 章 丟包處理………………………………………………… 252
9.1 網路丟包模型…………………………………………… 252
9.2 網路丟包對說話人識別的影響………………………… 254
9.2.1 合成語音說話人識別實驗………………………… 254
9.2.2 解碼參數說話人識別實驗………………………… 255
9.2.3 壓縮碼流說話人識別實驗………………………… 256
9.3 網路丟包處理技術……………………………………… 258
9.3.1 丟包恢復技術……………………………………… 258
9.3.2 丟包隱藏技術……………………………………… 261
9.4 語音識別系統中的丟包補償方法……………………… 265
9.4.1 丟包檢測………………………………………… 265
9.4.2 丟包補償………………………………………… 266
9.4.3 有效性分析……………………………………… 268
9.4.4 丟包補償實驗結果………………………………… 268
參考文獻………………………………………………………… 270
第10 章 碼流特徵提取…………………………………………… 273
10.1 碼流語音識別的原理…………………………………… 273
10.2 G.729 碼流特徵提取…………………………………… 274
10.2.1 編碼原理………………………………………… 274
10.2.2 基於解碼參數的G.729 碼流特徵提取………… 275
10.2.3 基於幀結構映射的G.729 碼流特徵提取……… 279
10.3 G.723.1 碼流特徵提取………………………………… 280
10.3.1 編碼原理………………………………………… 280
10.3.2 基於解碼參數的G.723.1 碼流特徵提取……… 281
10.3.3 基於幀結構映射的G.723.1 碼流特徵提取……… 282
10.4 GSM 碼流特徵提取…………………………………… 283
10.4.1 編碼原理………………………………………… 283
10.4.2 基於解碼參數的GSM 碼流特徵提取…………… 284
10.4.3 基於幀結構映射的GSM 碼流特徵提取………… 286
10.5 碼流特徵提取實驗……………………………………… 287
10.5.1 解碼參數實驗…………………………………… 287
10.5.2 基於幀結構映射參數實驗……………………… 288
參考文獻………………………………………………………… 289
第11 章 特徵選擇與特徵變換………………………………… 291
11.1 特徵選擇的基本概念…………………………………… 291
11.1.1 特徵矢量和特徵空間…………………………… 292
11.1.2 特徵的形成……………………………………… 292
11.1.3 特徵的特點……………………………………… 292
11.1.4 特徵的選擇及作用……………………………… 293
11.2 類的可分性判據………………………………………… 294
11.2.1 基於距離的可分性判據………………………… 294
11.2.2 基於機率密度函式的可分性判據……………… 297
11.3 特徵選擇的方法………………………………………… 299
11.3.1 最優搜尋算法…………………………………… 300
11.3.2 次優搜尋算法…………………………………… 301
11.3.3 遺傳算法………………………………………… 303
11.4 線性判別分析———LDA ……………………………… 306
11.4.1 線性判別分析的概念…………………………… 307
11.4.2 廣義線性判別函式……………………………… 308
11.4.3 Fisher 線性判別………………………………… 310
11.4.4 多類問題………………………………………… 314
11.5 主分量分析———PCA ………………………………… 315
11.5.1 基於K - L 變換的主分量分析…………………… 316
11.5.2 隨機矢量的K - L 展開…………………………… 316
11.5.3 基於K - L 變換的降維…………………………… 318
11.6 獨立分量分析…………………………………………… 319
11.6.1 線性獨立分量分析……………………………… 319
11.6.2 線性獨立分量分析算法………………………… 324
11.6.3 獨立分量分析的預處理………………………… 329
11.6.4 非線性獨立分量分析…………………………… 330
11.7 特徵變換舉例…………………………………………… 334
11.7.1 特徵變換方法…………………………………… 334
11.7.2 特徵變換實驗…………………………………… 336
參考文獻………………………………………………………… 337
第12 章 語音識別的模型………………………………………… 339
12.1 動態時間規整…………………………………………… 339
12.1.1 動態時間規整的定義…………………………… 339
12.1.2 動態規劃技術(DP) ……………………………… 340
12.1.3 DTW 算法的改進………………………………… 342
12.2 隱馬爾可夫模型………………………………………… 344
12.2.1 隱馬爾可夫模型的定義………………………… 344
12.2.2 HMM 中的3 個基本問題及其解決方案………… 346
12.2.3 隱馬爾可夫模型的類型………………………… 352
12.2.4 HMM 算法實現的問題…………………………… 352
12.3 分類模型———SVM …………………………………… 362
12.3.1 學習問題………………………………………… 362
12.3.2 學習過程一致性的條件………………………… 363
12.3.3 學習過程收斂速度的界………………………… 365
12.3.4 結構風險最小歸納原理………………………… 367
12.3.5 支持矢量機……………………………………… 370
12.4 人工神經網路…………………………………………… 377
12.4.1 神經元的基本模型……………………………… 377
12.4.2 前向網路………………………………………… 379
12.4.3 反饋網路………………………………………… 382
12.5 高斯混合模型(GMM) ………………………………… 387
12.5.1 高斯混合模型的定義…………………………… 388
12.5.2 參數調整算法———EM 算法……………………… 388
12.6 動態貝葉斯網路………………………………………… 390
12.6.1 貝葉斯網路……………………………………… 391
12.6.2 動態貝葉斯網路………………………………… 393
12.6.3 動態貝葉斯網路在語音識別中的套用…………… 395
12.6.4 基於DBN 的語音識別軟體GMTK ……………… 398
參考文獻………………………………………………………… 400
第13 章 穩健性識別技術………………………………………… 402
13.1 穩健性識別技術概述…………………………………… 402
13.2 語音增強………………………………………………… 405
13.2.1 多帶譜減法
(Multi-Band Spectral Subtraction,MBSS) ………… 406
13.2.2 短時譜估計(Short Time Spectral Estimator) ……… 407
13.2.3 瞬時維納濾波
(Instantaneous Wiener Filtering,IWF) …………… 407
13.2.4 子空間法(Subspace) …………………………… 408
13.3 信道補償………………………………………………… 410
13.3.1 多重風格訓練…………………………………… 411
13.3.2 HMM 分解………………………………………… 411
13.3.3 並行模型組合PMC
(Parallel Model Combination) …………………… 413
13.3.4 矢量泰勒級數(Vector Taylor Series,VTS)方法… 417
13.3.5 雅可比自適應(Jacobian Adaptation) …………… 420
13.3.6 其他補償方法…………………………………… 421
13.4 說話人自適應技術……………………………………… 421
13.4.1 最大似然度線性回歸算法……………………… 423
13.4.2 最大後驗機率算法……………………………… 431
13.4.3 說話人聚類……………………………………… 435
13.5 說話人歸一化技術……………………………………… 442
13.5.1 說話人歸一化技術原理………………………… 442
13.5.2 頻率摺疊因子的選取…………………………… 444
13.5.3 摺疊方法的選取………………………………… 447
參考文獻………………………………………………………… 452
第14 章 語音識別套用…………………………………………… 458
14.1 說話人識別……………………………………………… 458
14.1.1 說話人識別的基本原理………………………… 458
14.1.2 特徵參數的統計評價…………………………… 460
14.1.3 判決規則與性能評價標準……………………… 461
14.1.4 說話人識別系統舉例…………………………… 464
14.2 語言辨識………………………………………………… 465
14.2.1 語言辨識的基本原理…………………………… 465
14.2.2 語言辨識的主要方法…………………………… 466
14.2.3 語言辨識系統舉例……………………………… 471
14.3 關鍵字識別……………………………………………… 473
14.3.1 關鍵字識別的基本原理………………………… 473
14.3.2 關鍵字識別及其與連續語音識別的關係………… 475
14.3.3 關鍵字識別的基本問題………………………… 475
14.3.4 關鍵字識別系統的主要技術難點……………… 477
14.3.5 關鍵字識別系統舉例…………………………… 478
14.4 連續語音識別…………………………………………… 479
14.4.1 連續語音識別的基本原理……………………… 479
14.4.2 連續語音識別中的搜尋策略…………………… 481
14.4.3 連續語音識別系統舉例………………………… 484
14.5 情感識別………………………………………………… 485
14.5.1 情感識別的基本原理…………………………… 485
14.5.2 情感分類………………………………………… 486
14.5.3 情感語音數據採集……………………………… 487
14.5.4 情感特徵分析…………………………………… 488
14.5.5 情感識別方法…………………………………… 489
參考文獻………………………………………………………… 490"