基本介紹
內容簡介
本書內容來源於我在德州大學達拉斯分校(UniversityofTexas—Dallas)所講授的語音信號處理課程(我從1999年秋開始講授該課程),同時也是筆者在該領域長期研究工作的結晶。目前,該領域除了少量的適合專家閱讀的一些書籍以外,並沒有一本語音增強方面的教程,因此我在研究生課程中講授語音增強的基本原理的時候感到十分不便。對於那些希望涉足該領域的學生和語音方面的學者而言,相信他們也會因為很難找到一篇指導性的綜述或者介紹性的論文而感到沮喪(最近的一篇綜述性的論文由Lim和Oppenheim於1979年發表在IEEE會刊上)。於是這成為寫作該書的最初動因。我對該領域的興趣來源於我對噪聲抑制算法的研究、,這些算法可以幫助聽障人士(人工耳蝸植入者)在噪聲環境下更好的交流。開發這些噪聲抑制算法的關鍵之處,在於對現有的語音增強算法的局限以及潛力有基本的理解,我相信本書將提供這方面的知識。
本書總共分為十一章,第一章(引言)中對各章節的內容做了概述。全書內容分為三個部分。第一部分介紹了數位訊號處理以及語音信號的基礎知識,為理解語音增強算法做鋪墊。第二部分介紹過去20年中所提出的各類語音增強算法。第三部分介紹評估語音增強算法性能的方法和手段。
書中正文部分專門設計了許多的範例以及圖片,以幫助讀者理解其中的理論。本書附帶的光碟包含了一個語音庫,很適合用於評估經算法處理後的語音質量和可懂度。主要的語音增強算法也以MATKAB代碼的形式隨光碟提供。筆者一直認為,利用MATLAB開發算法代碼,以及利用通用的語音資料庫對新的語音增強算法進行評估,對推動該領域的發展是十分關鍵和必要的。附錄C對光碟的內容進行了詳細的介紹。
本書可以用作語音增強的研究生課程的一學期教材。該課程的先修課程包括數位訊號處理以及機率論基礎,*變數與線性代數。本書也可以作為語音信號處理課程的補充教材,可以選擇第四章到第八章,以及第九章和第十章的部分章節來學習。
《語音增強:理論與實踐》可以用作語音增強的研究生課程的一學期教材。該課程的先修課程包括數位訊號處理以及機率論基礎,隨機變數與線性代數。
作者簡介
作者:(美國)羅艾洲(Philipos C.Loizou) 譯者:高毅 肖莉 鄧方 吳紹煒
羅艾洲(Philipos C.Loizou),教授,1995年獲亞利桑那州立大學電子工程系博士學位,1995年至1996年在該校語音與聽覺科學部擔任博士後研究員,從事人工耳蝸移植相關研究。1996年至1999年在阿肯色大學小石城(Little Rocj)分校任助理教授 現在德州大學達拉斯分校電子工程學院任教授 研究興趣包括信號處理、語音處理以及耳蝸移植等領域。他在耳蝸移植方面的研究受美國國立衛生研究院(NIH)資助,並曾獲得NIH頒發的香農獎(Shannon Award)。Loizou博士曾是IEEE信號處理學會工業技術分會技術委員會委員(2003至2006年),IEEE Transactions on Speech and Audio Processing副主編(1999至2002年)。現任IEEE語音與語言技術委員會委員,以及IEFE Signal ProcessingLetters副主編。
高毅,電子科技大學碩士,曾任中興通訊音頻工程師,摩托羅拉系統DPS工程師,語音功能架構師,發表多篇IEEE論文和國際專利,研究興趣包括語音信號處理,金融時間序列分析,摸式識別等。
肖莉,電子科技大學碩士,曾任電子科技大學講師,摩托羅拉系統項審負責人,DPS架構師,發表多篇國際論文和專利,研究興趣包括音頻/語音信號處理,通信信號處理,通訊軟體架捌等。
鄧方,四川大學碩士,摩托羅拉系統項目負責人,發表多篇國際論文和專利,研究興趣包括語音信號處理,通訊系統與架構等。
吳紹煒,電子科技大學講師,研究方向電子測試與儀器數字通信信號測試分析,自動測試系統、語言信號分析。
圖書目錄
第1章 引言
1.1 了解敵人:噪聲
1.2語音增強算法分類
1.3本書概要
參考文獻
第2章離散時間信號處理與短時傅立葉分析
2.1離散時間信號
2.2線性時不變系統
2.3 2變換
2.4離散時間傅立葉變換(DTFT)
2.5短時傅立葉變換(STFT)
2.6語譜圖分析
2.7總結
參考文獻
第3章語音產生與感知
3.1語音信號
3.2語音產生過程
3.3語音產生的工程模型
3.4語音分類
3.5語音感知的聲學特徵
3.6總結
參考文獻
第4章人類對噪聲的聽覺補償
4.1 多說話人環境下的語音可懂度
4.2影響魯棒性的語音聲學屬性
4.3噪聲環境中聽覺的感知策略
4.4 總結
參考文獻
第5章譜減算法
5.1.譜減的基本原理
5.2譜減的幾何分析
5.3譜減法的缺點
5.4譜減法中使用過減(over subtraction)技術
5.5非線性譜減
5.6多帶譜減法
5.7 MMSE譜減算法
5.8擴展譜減法
5.9使用自適應增益平均的譜減
5.10選擇性譜減
5.11基於感知特性的譜減
5.12譜減算法的性能
5.13 總結
參考文獻
第6章維納濾波
6.1維納濾波原理介紹
6.2時域維納濾波器
6.3頻域維納濾波器
6.4維納濾波器與線性預測
6.5維納濾波器用於噪聲抑制
6.6疊代維納濾波
6.7對疊代維納濾波施加約束
6.8約束疊代維納濾波
6.9約束維納濾波
6.10估計維納增益函式
6.11 維納濾波中加入心理聲學約束
6.12碼本驅動維納濾波
6.13可聽(Audible)噪聲抑制算法
6.14總結
參考文獻
第7章基於統計模型的方法
7.1最大似然估計器
7.2貝葉斯估計器
7.3 MMSE估計器
7.4改進的判決引導法
7.5 MMSE估計的實現和評估
7.6消除音樂噪聲
7.7對數MMSE估計器
7.8頻譜P次方MMSE估計器
7.9基於非高斯分布的MMSE估計器
7.10最大後驗(MAP)估計器
7.11通用貝葉斯估計器
7.12基於聽覺感知的貝葉斯估計器
7.13利用語音不存在機率
7.14語音不存在的先驗機率估計方法
7.15 總結
參考文獻
第8章子空間算法
8.1 導 言
8.2利用SVD進行噪聲抑制:原理
8.3基於SVD的算法:白噪聲
8.4基於SVD的算法:色噪聲
8.5基於SVD的方法:統一的視角
8.6基於EVD的方法:白噪聲
8.7基於EVD的方法:色噪聲
8.8基於EVD的方法:統一的視角
8.9基於感知的(Perceptually—motivated)子空間算法
8.10子空間跟蹤算法
8.11 總結
參考文獻
第9章噪聲估計算法
9.1話音活動檢測與噪聲估計
9.2噪聲估計算法
9.3最小值跟蹤算法
9.4噪聲估計的時間遞歸平均算法
9.5基於直方圖(Histogram—based)技術
9.6其他噪聲估計算法
9.7噪聲估計算法的客觀比較
9.8總結
參考文獻
第10章語音增強算法的性能評估
10.1音質與可懂度
10.2評估增強語音的可懂度
10.3評估處理後的語音質量
10.4音質判斷的信度評估:推薦的測度
10.5客觀音質測度
10.6無參考源(Non—intrusive)客觀質量測度
10.7音質客觀測度的性能指數
10.8客觀質量評估面臨的挑戰以及未來方向
10.9總結
參考文獻
第11章語音增強算法比較
11.1 NOIZEUS:用於音質評估的帶噪語音庫
11.2增強算法比較:語音質量
11.3增強算法的比較:語音可懂度
11.4音質評估的客觀測度的比較
11.5總結
參考文獻
附錄A特殊函式與積分
A.1貝塞爾(Bessel functions)
A.2合流超幾何函式(Confluent hyper geometric functions)
A.3積分
參考文獻
附錄B MMSE估計器的推導
附錄C語音資料庫以及MATLAB代碼
C.1語音資料庫
C.2 MATLAB代碼
參考文獻
附錄D術語表
第一章
第二章
第三章
第四章
第五章
第六章
第七章
第八章
第九章
第十章
第十一章