簡介
在語音模型中,按照激勵源的不同,可把語音分為三類濁音,位於聲門處的準周期脈衝序列清音,位於聲道的某個收縮區的空氣湍流類似於噪聲爆破音,位於聲道某個閉合點處建立起來的氣壓及其突然釋放。根據發聲器官和語音的產生過程,在實際套用中為了簡化語音信號產生的數字模型,激勵源分為濁音和清音兩類,濁音由周期性脈衝序列激勵產生,清音由隨機白噪聲激勵產生,為了使濁音的激勵信號具有聲門氣流脈衝的實際波形,還需要將脈衝序列通過一個聲門脈衝模型濾波器。語音算法簡單來說通過人們的發音來識別和檢索詞語的算法,如Soundex是一種語音算法,利用英文字的讀音計算近似值,值由四個字元構成,第一個字元為英文字母,後三個為數字。在拼音文字中有時會有會念但不能拼出正確字的情形,可用Soundex做類似模糊匹配的效果。例如Knuth和Kant二個字元串,它們的Soundex值都是“K530”。
Metaphone是一個語音算法,主要是用在英語單字或是辭彙發音的標引。Metaphone是由飛利浦、羅倫斯利用Soundex的缺陷來改善的算法。此算法是利用較大的英語發音規則,所以比Soundex更為精準。Metaphone也可作為內建式的工具,在PHP就有相關工具。後來原作者製作新版本的算法“Double metaphone”,比原本的算法還更加精準。該算法會轉換相似的發音。
聲學模型
聲學模型是語音識別系統中最底層的模型並且也是識別系統最關鍵的一部分。聲學模型的目的是提供一種有效的方法計算語音的特徵矢量系列與每個發音模板的距離,因為發音在每個時刻都受到其前後發音的影響,為了模仿自然連續語音中的協同發音的作用和鑑別這些協同發音,通常要使用複雜的聲學模型,聲學模型單元的大小(字發音模型、半發音模型或音素模型)對語音訓練數據量大小、系統識別率、以及靈活性有較大的影響。對大辭彙量語音識別系統來講,通常識別單元小,則計算量也小,所需的模型存儲量也小,但帶來的問題是對應語音段的定位和分割較困難,識別模型規則也變得更複雜。通常大的識別單元在模型中應包括協同發音(指的是一個音受前後相鄰音的影響而發生變化,從發聲機理上看就是人的發聲器官在一個音轉向另一個音時其特性只能漸變,從而使得後一個音的頻譜與其他條件下的頻譜產生差異),這有利於提高系統的識別率,但要求的訓練數據相對增加。近幾十年比較成功的識別方法有:動態時間規整(DTw)技術、隱式馬爾可夫模型(HMM)、人工神經網路(ANN)。
動態時間規整(DT喲技術,由於在訓練或識別過程中,即使同一個人發同一個音時,不僅其持續時間長度會隨機地改變,而且各音素的相對時長也是隨機變化的。因此在匹配時如果只對特徵向量系列進行線形時間規整,其中的音素就有可能對不準。60年代日本學者板倉(tIakura)提出了動態時間歸整算法。算法的思想就是把未知量均勻地伸長或縮短,直到它與參考模式的長度一致時為止。在時間規整過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以便使其特徵與模型特徵對正,DTW的具體實現方法是採用動態歸劃技術(D)P,方法簡單有效,對小詞表孤立詞識別系統非常有效。
隱式馬爾可夫模型(HMM)是80年代引入語音識別的理論,它的出現使自然語音識別系統取得了實質性的突破。HMM方法現已成為語音識別的主流技術,大多數成功的連續語音識別系統都是採用這種方法。HMM是對語音信號的時間系列結構建立統計模型,將其看作一個數學上的雙重隨機過程,一個是用具有有限狀態的Markov鏈來模擬語言信號統計特徵變化的隱含的隨機過程,另一個是與Makrvo鏈的每一狀態相關聯的觀測系列的隨機過程,前者通過後者表現出來,但前者的具體參數(如狀態數)是不可觀測的。人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個客觀測的時變系列,是由大腦根據語法知識和言語需要(不可觀測的狀態)發出的音素的參數流。HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩性和局部平穩性 。
特徵參數
檢測到語音的起點後就可以開始對檢測出來的語音信號段進行分析處理。從中抽取語音識別所需的信號特徵,即對語音信號進行分析處理,去除對語音識別無關緊要的冗餘信息,以獲得影響語音識別的重要信息。語音特徵參數是分幀提取的,每幀特徵參數一般構成一個矢量,因此語音特徵量是一個矢量序列。語音信號中提取出來的矢量序列經過數據壓縮後便成為語音的模板。顯然,特徵的選取對識別效果至關重大,選擇的標準應儘量滿足:(1)能有效的代表語音特徵,包括聲道特徵和聽覺特徵,具有很好的區分性;(2)各階參數之間有良好的獨立性:(3)特徵參數要計算方便,最好有高效的計算方法,以保證語音識別的實時實現。
線性預測這一術語是維納在1947年首次提出的,此後,線性預測套用於許多領域,1967年板倉等人最先將線性預測技術直接套用到語音分析和合成中。線性預測作為一種工具,幾乎普遍地套用於語音信號信號處理的各個方面。這種方法是最有效和最流行的語音分析技術之一。語音信號是一種典型的時變信號,然而如果把觀察時間縮短到十毫秒至幾十毫秒,則可以得到一系列近似穩定的信號。人的發音器官可以用若干段前後連線的聲管進行模擬,這就是所謂的聲管模型,簡單地說聲管模型是指人從喉到嘴邊這一段發音腔是用一序列截面積不同的均勻聲管來模擬,根據聲管的聲學模型,利用物理知識,可以計算出這段聲管模型與信號處理理論中的全極點模型相類似。因此,可以套用信號處理中已有的算法對語音信號進行處理。