簡介
語音識別技術的套用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數據錄入等。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加複雜的套用,例如語音到語音的翻譯。
語音識別技術所涉及的領域包括:信號處理、模式識別、機率論和資訊理論、發聲機理和聽覺機理、人工智慧等等。
歷史
早在計算機發明之前,自動語音識別的構想就已經被提上了議事日程,早期的聲碼器可被視作語音識別及合成的雛形。而1920年代生產的"Radio Rex"玩具狗可能是最早的語音識別器,當這隻狗的名字被呼喚的時候,它能夠從底座上彈出來。最早的基於電子計算機的語音識別系統是由AT&T貝爾實驗室開發的Audrey語音識別系統,它能夠識別10個英文數字。其識別方法是跟蹤語音中的共振峰。該系統得到了98%的正確率。到1950年代末,倫敦學院(College of London)的Denes已經將語法機率加入語音識別中。
1960年代,人工神經網路被引入了語音識別。這一時代的兩大突破是線性預測編碼Linear Predictive Coding (LPC), 及動態時間規整Dynamic Time Warp技術。
語音識別技術的最重大突破是隱馬爾科夫模型Hidden Markov Model的套用。從Baum提出相關數學推理,經過Labiner等人的研究,卡內基梅隆大學的李開復最終實現了第一個基於隱馬爾科夫模型的非特定人大辭彙量連續語音識別系統Sphinx。此後嚴格來說語音識別技術並沒有脫離HMM框架。
儘管多年來研究人員一直嘗試將“聽寫機”推廣,語音識別技術在目前還無法支持無限領域,無限說話人的聽寫機套用。
模型
目前,主流的大辭彙量語音識別系統多採用統計模式識別技術。典型的基於統計模式識別方法的 語音識別系統由以下幾個基本模組所構成
信號處理及特徵提取模組。該模組的主要任務是從輸入信號中提取特徵,供聲學模型處理。同時,它一般也包括了一些信號處理技術,以儘可能降低環境噪聲、信道、說話人等因素對特徵造成的影響。 統計聲學模型。典型系統多採用基於一階隱馬爾科夫模型進行建模。 發音詞典。發音詞典包含系統所能處理的辭彙集及其發音。發音詞典實際提供了聲學模型建模單元與語言模型建模單元間的映射。 語言模型。語言模型對系統所針對的語言進行建模。理論上,包括正則語言,上下文無關文法在內的各種語言模型都可以作為語言模型,但目前各種系統普遍採用的還是基於統計的N元文法及其變體。 解碼器。解碼器是語音識別系統的核心之一,其任務是對輸入的信號,根據聲學、語言模型及詞典,尋找能夠以最大機率輸出該信號的詞串。 從數學角度可以更加清楚的了解上述模組之間的關係。首先,統計語音識別的最基本問題是,給定輸入信號或特徵序列,符號集(詞典),求解符號串使得:
W = argmaxP(W | O) 通過貝葉斯公式,上式可以改寫為
由於對於確定的輸入串 O, P( O)是確定的,因此省略它並不會影響上式的最終結果,因此,一般來說語音識別所討論的問題可以用下面的公式來表示,可以將它稱為語音識別的基本公式。 W = argmax P( O | W) P( W)
從這個角度來看,信號處理模組提供了對輸入信號的預處理,也就是說,提供了從採集的語音信號(記為 S)到 特徵序列 O的映射。而聲學模型本身定義了一些更具推廣性的聲學建模單元,並且提供了在給定輸入特徵下,估計 P( O | uk)的方法。
為了將聲學模型建模單元串映射到符號集,就需要發音詞典發揮作用。它實際上定義了映射的映射。為了表示方便,也可以定義一個由到 U的全集的笛卡爾積,而發音詞典則是這個笛卡爾積的一個子集。並且有:
最後,語言模型則提供了 P( W)。這樣,基本公式就可以更加具體的寫成:
對於解碼器來說,就是要在由,, ui以及時間標度 t張成的搜尋空間中,找到上式所指明的 W。
語音識別是一門交叉學科,語音識別正逐步成為信息技術中人機接口的關鍵技術,語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤,通過語音命令進行操作。語音技術的套用已經成為一個具有競爭性的新興高技術產業。
與機器進行語音交流,讓機器明白你說什麼,這是人們長期以來夢寐以求的事情。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。語音識別是一門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內,語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。語音識別聽寫機在一些領域的套用被美國新聞界評為1997年計算機發展十件大事之一。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重要的科技發展技術之一。
原理
語音識別系統提示客戶在新的場合使用新的口令密碼,這樣使用者不需要記住固定的口令,系統也不會被錄音欺騙。文本相關的聲音識別方法可以分為動態時間伸縮或隱馬爾可夫模型方法。文本無關聲音識別已經被研究很長時間了,不一致環境造成的性能下降是套用中的一個很大的障礙。
其工作原理:
動態時間伸縮方法使用瞬間的、變動倒頻。1963年Bogert et al出版了《回聲的時序倒頻分析》。通過交換字母順序,他們用一個含義廣泛的辭彙定義了一個新的信號處理技術,倒頻譜的計算通常使用快速傅立葉變換。
從1975年起,隱馬爾可夫模型變得很流行。運用隱馬爾可夫模型的方法,頻譜特徵的統計變差得以測量。文本無關語音識別方法的例子有平均頻譜法、矢量量化法和多變數自回歸法。
平均頻譜法使用有利的倒頻距離,語音頻譜中的音位影響被平均頻譜去除。使用矢量量化法,語者的一套短期訓練的特徵向量可以直接用來描繪語者的本質特徵。但是,當訓練向量的數量很大時,這種直接的描繪是不切實際的,因為存儲和計算的量變得離奇的大。所以嘗試用矢量量化法去尋找有效的方法來壓縮訓練數據。Montacie et al在倒頻向量的時序中套用多變數自回歸模式來確定語者特徵,取得了很好的效果。
想騙過語音識別系統要有高質量的錄音機,那不是很容易買到的。一般的錄音機不能記錄聲音的完整頻譜,錄音系統的質量損失也必須是非常低的。對於大多數的語音識別系統,模仿的聲音都不會成功。用語音識別來辨認身份是非常複雜的,所以語音識別系統會結合個人身份號碼識別或晶片卡。
語音識別系統得益於廉價的硬體設備,大多數的計算機都有音效卡和麥克風,也很容易使用。但語音識別還是有一些缺點的。語音隨時間而變化,所以必須使用生物識別模板。語音也會由於傷風、嗓音沙啞、情緒壓力或是青春期而變化。語音識別系統比指紋識別系統有著較高的誤識率,因為人們的聲音不像指紋那樣獨特和唯一。對快速傅立葉變換計算來說,系統需要協同處理器和比指紋系統更多的效能。目前語音識別系統不適合移動套用或以電池為電源的系統。
發展歷史
國外研究
語音識別的研究工作可以追溯到20世紀50年代AT&T貝爾實驗室的Audrey系統,它是第一個可以識別十個英文數字的語音識別系統。
但真正取得實質性進展,並將其作為一個重要的課題開展研究則是在60年代末70年代初。這首先是因為計算機技術的發展為語音識別的實現提供了硬體和軟體的可能,更重要的是語音信號線性預測編碼(LPC)技術和動態時間規整(DTW)技術的提出,有效的解決了語音信號的特徵提取和不等長匹配問題。這一時期的語音識別主要基於模板匹配原理,研究的領域局限在特定人,小辭彙表的孤立詞識別,實現了基於線性預測倒譜和DTW技術的特定人孤立詞語音識別系統;同時提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
隨著套用領域的擴大,小辭彙表、特定人、孤立詞等這些對語音識別的約束條件需要放寬,與此同時也帶來了許多新的問題:第一,辭彙表的擴大使得模板的選取和建立發生困難;第二,連續語音中,各個音素、音節以及詞之間沒有明顯的邊界,各個發音單位存在受上下文強烈影響的協同發音(Co-articulation)現象;第三,非特定人識別時,不同的人說相同的話相應的聲學特徵有很大的差異,即使相同的人在不同的時間、生理、心理狀態下,說同樣內容的話也會有很大的差異;第四,識別的語音中有背景噪聲或其他干擾。因此原有的模板匹配方法已不再適用。
實驗室語音識別研究的巨大突破產生於20世紀80年代末:人們終於在實驗室突破了大辭彙量、連續語音和非特定人這三大障礙,第一次把這三個特性都集成在一個系統中,比較典型的是卡耐基梅隆大學(CarnegieMellonUniversity)的Sphinx系統,它是第一個高性能的非特定人、大辭彙量連續語音識別系統。
這一時期,語音識別研究進一步走向深入,其顯著特徵是HMM模型和人工神經元網路(ANN)在語音識別中的成功套用。HMM模型的廣泛套用應歸功於AT&TBell實驗室Rabiner等科學家的努力,他們把原本艱澀的HMM純數學模型工程化,從而為更多研究者了解和認識,從而使統計方法成為了語音識別技術的主流。
統計方法將研究者的視線從微觀轉向巨觀,不再刻意追求語音特徵的細化,而是更多地從整體平均(統計)的角度來建立最佳的語音識別系統。在聲學模型方面,以Markov鏈為基礎的語音序列建模方法HMM(隱式Markov鏈)比較有效地解決了語音信號短時穩定、長時時變的特性,並且能根據一些基本建模單元構造成連續語音的句子模型,達到了比較高的建模精度和建模靈活性。在語言層面上,通過統計真實大規模語料的詞之間同現機率即N元統計模型來區分識別帶來的模糊音和同音詞。另外,人工神經網路方法、基於文法規則的語言處理機制等也在語音識別中得到了套用。
20世紀90年代前期,許多著名的大公司如IBM、蘋果、AT&T和NTT都對語音識別系統的實用化研究投以巨資。語音識別技術有一個很好的評估機制,那就是識別的準確率,而這項指標在20世紀90年代中後期實驗室研究中得到了不斷的提高。比較有代表性的系統有:IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform語音平台,Microsoft的Whisper,Sun的VoiceTone等。
其中IBM公司於1997年開發出漢語ViaVoice語音識別系統,次年又開發出可以識別上海話、廣東話和四川話等地方口音的語音識別系統ViaVoice'98。它帶有一個32,000詞的基本辭彙表,可以擴展到65,000詞,還包括辦公常用詞條,具有“糾錯機制”,其平均識別率可以達到95%。該系統對新聞語音識別具有較高的精度,是目前具有代表性的漢語連續語音識別系統。
國內研究
我國語音識別研究工作起步於五十年代,但近年來發展很快。研究水平也從實驗室逐步走向實用。從1987年開始執行國家863計畫後,國家863智慧型計算機專家組為語音識別技術研究專門立項,每兩年滾動一次。我國語音識別技術的研究水平已經基本上與國外同步,在漢語語音識別技術上還有自己的特點與優勢,並達到國際先進水平。中科院自動化所、聲學所、清華大學、北京大學、哈爾濱工業大學、上海交通大學、中國科技大學、北京郵電大學、華中科技大學等科研機構都有實驗室進行過語音識別方面的研究,其中具有代表性的研究單位為清華大學電子工程系與中科院自動化研究所模式識別國家重點實驗室。
清華大學電子工程系語音技術與專用晶片設計課題組,研發的非特定人漢語數碼串連續語音識別系統的識別精度,達到94.8%(不定長數字串)和96.8%(定長數字串)。在有5%的拒識率情況下,系統識別率可以達到96.9%(不定長數字串)和98.7%(定長數字串),這是目前國際最好的識別結果之一,其性能已經接近實用水平。研發的5000詞郵包校核非特定人連續語音識別系統的識別率達到98.73%,前三選識別率達99.96%;並且可以識別國語與四川話兩種語言,達到實用要求。
中科院自動化所及其所屬模式科技(Pattek)公司2002年發布了他們共同推出的面向不同計算平台和套用的“天語”中文語音系列產品——PattekASR,結束了中文語音識別產品自1998年以來一直由國外公司壟斷的歷史。
分類
語音識別系統可以根據對輸入語音的限制加以分類。
從說話者與識別系統的相關性考慮
可以將識別系統分為3類:(1)特定人語音識別系統:僅考慮對於專人的話音進行識別;(2)非特定人語音系統:識別的語音與人無關,通常要用大量不同人的語音資料庫對識別系統進行學習;(3)多人的識別系統:通常能識別一組人的語音,或者成為特定組語音識別系統,該系統僅要求對要識別的那組人的語音進行訓練。
從說話的方式考慮
也可以將識別系統分為3類:(1)孤立詞語音識別系統:孤立詞識別系統要求輸入每個詞後要停頓;(2)連線詞語音識別系統:連線詞輸入系統要求對每個詞都清楚發音,一些連音現象開始出現;(3)連續語音識別系統:連續語音輸入是自然流利的連續語音輸入,大量連音和變音會出現。
從識別系統的辭彙量大小考慮
也可以將識別系統分為3類:(1)小辭彙量語音識別系統。通常包括幾十個詞的語音識別系統。(2)中等辭彙量的語音識別系統。通常包括幾百個詞到上千個詞的識別系統。(3)大辭彙量語音識別系統。通常包括幾千到幾萬個詞的語音識別系統。隨著計算機與數位訊號處理器運算能力以及識別系統精度的提高,識別系統根據辭彙量大小進行分類也不斷進行變化。目前是中等辭彙量的識別系統到將來可能就是小辭彙量的語音識別系統。這些不同的限制也確定了語音識別系統的困難度。
基本方法
一般來說,語音識別的方法有三種:基於聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經網路的方法。
基於語音學和聲學的方法
該方法起步較早,在語音識別技術提出的開始,就有了這方面的研究,但由於其模型及語音知識過於複雜,現階段沒有達到實用的階段。
通常認為常用語言中有有限個不同的語音基元,而且可以通過其語音信號的頻域或時域特性來區分。這樣該方法分為兩步實現:
第一步,分段和標號
把語音信號按時間分成離散的段,每段對應一個或幾個語音基元的聲學特性。然後根據相應聲學特性對每個分段給出相近的語音標號
第二步,得到詞序列
根據第一步所得語音標號序列得到一個語音基元格線,從詞典得到有效的詞序列,也可結合句子的文法和語義同時進行。
模板匹配的方法
模板匹配的方法發展比較成熟,目前已達到了實用階段。在模板匹配方法中,要經過四個步驟:特徵提取、模板訓練、模板分類、判決。常用的技術有三種:動態時間規整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術。
1、動態時間規整(DTW)
語音信號的端點檢測是進行語音識別中的一個基本步驟,它是特徵訓練和識別的基礎。所謂端點檢測就是在語音信號中的各種段落(如音素、音節、詞素)的始點和終點的位置,從語音信號中排除無聲段。在早期,進行端點檢測的主要依據是能量、振幅和過零率。但效果往往不明顯。60年代日本學者Itakura提出了動態時間規整算法(DTW:DynamicTimeWarping)。算法的思想就是把未知量均勻的升長或縮短,直到與參考模式的長度一致。在這一過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特徵與模型特徵對正。
2、隱馬爾可夫法(HMM)
隱馬爾可夫法(HMM)是70年代引入語音識別理論的,它的出現使得自然語音識別系統取得了實質性的突破。HMM方法現已成為語音識別的主流技術,目前大多數大辭彙量、連續語音的非特定人語音識別系統都是基於HMM模型的。HMM是對語音信號的時間序列結構建立統計模型,將之看作一個數學上的雙重隨機過程:一個是用具有有限狀態數的Markov鏈來模擬語音信號統計特性變化的隱含的隨機過程,另一個是與Markov鏈的每一個狀態相關聯的觀測序列的隨機過程。前者通過後者表現出來,但前者的具體參數是不可測的。人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據語法知識和言語需要(不可觀測的狀態)發出的音素的參數流。可見HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩性和局部平穩性,是較為理想的一種語音模型。
3、矢量量化(VQ)
矢量量化(VectorQuantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用於小辭彙量、孤立詞的語音識別中。其過程是:將語音信號波形的k個樣點的每一幀,或有k個參數的每一參數幀,構成k維空間中的一個矢量,然後對矢量進行量化。量化時,將k維無限空間劃分為M個區域邊界,然後將輸入矢量與這些邊界進行比較,並被量化為“距離”最小的區域邊界的中心矢量值。矢量量化器的設計就是從大量信號樣本中訓練出好的碼書,從實際效果出發尋找到好的失真測度定義公式,設計出最佳的矢量量化系統,用最少的搜尋和計算失真的運算量,實現最大可能的平均信噪比。
核心思想可以這樣理解:如果一個碼書是為某一特定的信源而最佳化設計的,那么由這一信息源產生的信號與該碼書的平均量化失真就應小於其他信息的信號與該碼書的平均量化失真,也就是說編碼器本身存在區分能力。
在實際的套用過程中,人們還研究了多種降低複雜度的方法,這些方法大致可以分為兩類:無記憶的矢量量化和有記憶的矢量量化。無記憶的矢量量化包括樹形搜尋的矢量量化和多級矢量量化。
神經網路的方法
利用人工神經網路的方法是80年代末期提出的一種新的語音識別方法。人工神經網路(ANN)本質上是一個自適應非線性動力學系統,模擬了人類神經活動的原理,具有自適應性、並行性、魯棒性、容錯性和學習特性,其強的分類能力和輸入-輸出映射能力在語音識別中都很有吸引力。但由於存在訓練、識別時間太長的缺點,目前仍處於實驗探索階段。
由於ANN不能很好的描述語音信號的時間動態特性,所以常把ANN與傳統識別方法結合,分別利用各自優點來進行語音識別。
系統結構
一個完整的基於統計的語音識別系統可大致分為三部分:
(1)語音信號預處理與特徵提取;
(2)聲學模型與模式匹配;
(3)語言模型與語言處理、
語音信號預處理與特徵提取
選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句)、音節和音素三種,具體選擇哪一種,由具體的研究任務決定。
單詞(句)單元廣泛套用於中小辭彙語音識別系統,但不適合大辭彙系統,原因在於模型庫太龐大,訓練模型任務繁重,模型匹配算法複雜,難以滿足實時性要求。
音節單元多見於漢語語音識別,主要因為漢語是單音節結構的語言,而英語是多音節,並且漢語雖然有大約1300個音節,但若不考慮聲調,約有408個無調音節,數量相對較少。因此,對於中、大辭彙量漢語語音識別系統來說,以音節為識別單元基本是可行的。
音素單元以前多見於英語語音識別的研究中,但目前中、大辭彙量漢語語音識別系統也在越來越多地採用。原因在於漢語音節僅由聲母(包括零聲母有22個)和韻母(共有28個)構成,且聲韻母聲學特性相差很大。實際套用中常把聲母依後續韻母的不同而構成細化聲母,這樣雖然增加了模型數目,但提高了易混淆音節的區分能力。由於協同發音的影響,音素單元不穩定,所以如何獲得穩定的音素單元,還有待研究。
語音識別一個根本的問題是合理的選用特徵。特徵參數提取的目的是對語音信號進行分析處理,去掉與語音識別無關的冗餘信息,獲得影響語音識別的重要信息,同時對語音信號進行壓縮。在實際套用中,語音信號的壓縮率介於10-100之間。語音信號包含了大量各種不同的信息,提取哪些信息,用哪種方式提取,需要綜合考慮各方面的因素,如成本,性能,回響時間,計算量等。非特定人語音識別系統一般側重提取反映語義的特徵參數,儘量去除說話人的個人信息;而特定人語音識別系統則希望在提取反映語義的特徵參數的同時,儘量也包含說話人的個人信息。
線性預測(LP)分析技術是目前套用廣泛的特徵參數提取技術,許多成功的套用系統都採用基於LP技術提取的倒譜參數。但線性預測模型是純數學模型,沒有考慮人類聽覺系統對語音的處理特點。
Mel參數和基於感知線性預測(PLP)分析提取的感知線性預測倒譜,在一定程度上模擬了人耳對語音的處理特點,套用了人耳聽覺感知方面的一些研究成果。實驗證明,採用這種技術,語音識別系統的性能有一定提高。從目前使用的情況來看,梅爾刻度式倒頻譜參數已逐漸取代原本常用的線性預測編碼導出的倒頻譜參數,原因是它考慮了人類發聲與接收聲音的特性,具有更好的魯棒性(Robustness)。
也有研究者嘗試把小波分析技術套用於特徵提取,但目前性能難以與上述技術相比,有待進一步研究。
聲學模型與模式匹配
聲學模型通常是將獲取的語音特徵使用訓練算法進行訓練後產生。在識別時將輸入的語音特徵同聲學模型(模式)進行匹配與比較,得到最佳的識別結果。
聲學模型是識別系統的底層模型,並且是語音識別系統中最關鍵的一部分。聲學模型的目的是提供一種有效的方法計算語音的特徵矢量序列和每個發音模板之間的距離。聲學模型的設計和語言發音特點密切相關。聲學模型單元大小(字發音模型、半音節模型或音素模型)對語音訓練數據量大小、系統識別率,以及靈活性有較大的影響。必須根據不同語言的特點、識別系統辭彙量的大小決定識別單元的大小。
以漢語為例:
漢語按音素的發音特徵分類分為輔音、單元音、複元音、復鼻尾音四種,按音節結構分類為聲母和韻母。並且由音素構成聲母或韻母。有時,將含有聲調的韻母稱為調母。由單個調母或由聲母與調母拼音成為音節。漢語的一個音節就是漢語一個字的音,即音節字。由音節字構成詞,最後再由詞構成句子。
漢語聲母共有22個,其中包括零聲母,韻母共有38個。按音素分類,漢語輔音共有22個,單元音13個,複元音13個,復鼻尾音16個。
目前常用的聲學模型基元為聲韻母、音節或詞,根據實現目的不同來選取不同的基元。漢語加上語氣詞共有412個音節,包括輕音字,共有1282個有調音節字,所以當在小辭彙表孤立詞語音識別時常選用詞作為基元,在大辭彙表語音識別時常採用音節或聲韻母建模,而在連續語音識別時,由於協同發音的影響,常採用聲韻母建模。
基於統計的語音識別模型常用的就是HMM模型λ(N,M,π,A,B),涉及到HMM模型的相關理論包括模型的結構選取、模型的初始化、模型參數的重估以及相應的識別算法等。
語言模型與語言處理
語言模型包括由識別語音命令構成的語法網路或由統計方法構成的語言模型,語言處理可以進行語法、語義分析。
語言模型對中、大辭彙量的語音識別系統特別重要。當分類發生錯誤時可以根據語言學模型、語法結構、語義學進行判斷糾正,特別是一些同音字則必須通過上下文結構才能確定詞義。語言學理論包括語義結構、語法規則、語言的數學描述模型等有關方面。目前比較成功的語言模型通常是採用統計語法的語言模型與基於規則語法結構命令語言模型。語法結構可以限定不同詞之間的相互連線關係,減少了識別系統的搜尋空間,這有利於提高系統的識別。
面臨問題
就算法模型方面而言
需要有進一步的突破。目前能看出它的一些明顯不足,尤其在中文語音識別方面,語言模型還有待完善,因為語言模型和聲學模型正是聽寫識別的基礎,這方面沒有突破,語音識別的進展就只能是一句空話。目前使用的語言模型只是一種機率模型,還沒有用到以語言學為基礎的文法模型,而要使計算機確實理解人類的語言,就必須在這一點上取得進展,這是一個相當艱苦的工作。此外,隨著硬體資源的不斷發展,一些核心算法如特徵提取、搜尋算法或者自適應算法將有可能進一步改進。可以相信,半導體和軟體技術的共同進步將為語音識別技術的基礎性工作帶來福音。
就自適應方面而言
語音識別技術也有待進一步改進。目前,象IBM的ViaVoice和Asiaworks的SPK都需要用戶在使用前進行幾百句話的訓練,以讓計算機適應你的聲音特徵。這必然限制了語音識別技術的進一步套用,大量的訓練不僅讓用戶感到厭煩,而且加大了系統的負擔。並且,不能指望將來的消費電子套用產品也針對單個消費者進行訓練。因此,必須在自適應方面有進一步的提高,做到不受特定人、口音或者方言的影響,這實際上也意味著對語言模型的進一步改進。現實世界的用戶類型是多種多樣的,就聲音特徵來講有男音、女音和童音的區別,此外,許多人的發音離標準發音差距甚遠,這就涉及到對口音或方言的處理。如果語音識別能做到自動適應大多數人的聲線特徵,那可能比提高一二個百分點識別率更重要。事實上,ViaVoice的套用前景也因為這一點打了折扣,只有國語說得很好的用戶才可以在其中文版連續語音識別方面取得相對滿意的成績。
就強健性方面而言
語音識別技術需要能排除各種環境因素的影響。目前,對語音識別效果影響最大的就是環境雜音或嗓音,在公共場合,你幾乎不可能指望計算機能聽懂你的話,來自四面八方的聲音讓它茫然而不知所措。很顯然這極大地限制了語音技術的套用範圍,目前,要在嘈雜環境中使用語音識別技術必須有特殊的抗嗓(NoiseCancellation)麥克風才能進行,這對多數用戶來說是不現實的。在公共場合中,個人能有意識地摒棄環境嗓音並從中獲取自己所需要的特定聲音,如何讓語音識別技術也能達成這一點呢?這的確是一個艱巨的任務。
此外,頻寬問題也可能影響語音的有效傳送,在速率低於1000比特/秒的極低比特率下,語音編碼的研究將大大有別於正常情況,比如要在某些頻寬特別窄的信道上傳輸語音,以及水聲通信、地下通信、戰略及保密話音通信等,要在這些情況下實現有效的語音識別,就必須處理聲音信號的特殊特徵,如因為頻寬而延遲或減損等。語音識別技術要進一步套用,就必須在強健性方面有大的突破。
多語言混合識別以及無限辭彙識別方面
簡單地說,目前使用的聲學模型和語音模型太過於局限,以至用戶只能使用特定語音進行特定辭彙的識別。如果突然從中文轉為英文,或者法文、俄文,計算機就會不知如何反應,而給出一堆不知所云的句子;或者用戶偶爾使用了某個專門領域的專業術語,如“信噪比"等,可能也會得到奇怪的反應。這一方面是由於模型的局限,另一方面也受限於硬體資源。隨著兩方面的技術的進步,將來的語音和聲學模型可能會做到將多種語言混合納入,用戶因此就可以不必在語種之間來回切換。此外,對於聲學模型的進一步改進,以及以語義學為基礎的語言模型的改進,也能幫助用戶儘可能少或不受辭彙的影響,從而可實行無限辭彙識別。
多語種交流系統的套用
最終,語音識別是要進一步拓展我們的交流空間,讓我們能更加自由地面對這個世界。可以想見,如果語音識別技術在上述幾個方面確實取得了突破性進展,那么多語種交流系統的出現就是順理成章的事情,這將是語音識技術、機器翻譯技術以及語音合成技術的完美結合,而如果硬體技術的發展能將這些算法進而固化到更為細小的晶片,比如手持移動設備上,那么個人就可以帶著這種設備週遊世界而無需擔心任何交流的困難,你說出你想表達的意思,手持設備同時識別並將它翻譯成對方的語言,然後合成並傳送出去;同時接聽對方的語言,識別並翻譯成已方的語言,合成後朗讀給你聽,所有這一切幾乎都是同時進行的,只是機器充當著主角。
任何技術的進步都是為了更進一步拓展我們人類的生存和交流空間,以使我們獲得更大的自由,就服務於人類而言,這一點顯然也是語音識別技術的發展方向,而為了達成這一點,它還需要在上述幾個方面取得突破性進展,最終,多語種自由交流系統將帶給我們全新的生活空間。
前景套用
在電話與通信系統中,智慧型語音接口正在把電話機從一個單純的服務工具變成為一個服務的“提供者”和生活“夥伴”;使用電話與通信網路,人們可以通過語音命令方便地從遠端的資料庫系統中查詢與提取有關的信息;隨著計算機的小型化,鍵盤已經成為移動平台的一個很大障礙,想像一下如果手機僅僅只有一個手錶那么大,再用鍵盤進行撥號操作已經是不可能的。語音識別正逐步成為信息技術中人機接口的關鍵技術,語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤,通過語音命令進行操作。語音技術的套用已經成為一個具有競爭性的新興高技術產業。
語音識別技術發展到今天,特別是中小辭彙量非特定人語音識別系統識別精度已經大於98%,對特定人語音識別系統的識別精度就更高。這些技術已經能夠滿足通常套用的要求。由於大規模積體電路技術的發展,這些複雜的語音識別系統也已經完全可以製成專用晶片,大量生產。在西方經濟已開發國家,大量的語音識別產品已經進入市場和服務領域。一些用戶交機、電話機、手機已經包含了語音識別撥號功能,還有語音記事本、語音智慧型玩具等產品也包括語音識別與語音合成功能。人們可以通過電話網路用語音識別口語對話系統查詢有關的機票、旅遊、銀行信息,並且取得很好的結果。調查統計表明多達85%以上的人對語音識別的信息查詢服務系統的性能表示滿意。
可以預測在近五到十年內,語音識別系統的套用將更加廣泛。各種各樣的語音識別系統產品將出現在市場上。人們也將調整自己的說話方式以適應各種各樣的識別系統。在短期內還不可能造出具有和人相比擬的語音識別系統,要建成這樣一個系統仍然是人類面臨的一個大的挑戰,我們只能一步步朝著改進語音識別系統的方向一步步地前進。至於什麼時候可以建立一個像人一樣完善的語音識別系統則是很難預測的。就像在60年代,誰又能預測今天超大規模積體電路技術會對我們的社會產生這么大的影響。
相關信息
語音識別的研究工作大約開始於上世紀50年代,當時AT&T的Bell實驗室實現了第一個可識別十個英文數字的語音識別系統——Audry系統。
20世紀60年代,計算機的套用推動了語音識別的發展。這一時期的重要成果是提出了動態規劃(DP)和線性預測分析技術(LP),其中後者較好地解決了語音信號產生模型的問題,對語音識別的發展產生了深遠影響。
20世紀70年代,語音識別領域取得了突破。在理論上,LP技術得到進一步發展,動態時間歸正技術(DTW)基本成熟,特別是提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。在實踐上,實現了基於線性預測倒譜和DTW技術的特定人孤立語音識別系統。
20世紀80年代,語音識別研究進一步走向深入,其顯著特徵是HMM模型和人工神經元網路(ANN)在語音識別中的成功套用。HMM模型的廣泛套用應歸功於AT&T的Bell實驗室Rabiner等科學家的努力,他們把原本艱澀的HMM純數學模型工程化,從而為更多研究者了解和認識。採用ANN和HMM模型建立的語音識別系統,性能相當。
進入20世紀90年代,隨著多媒體時代的來臨,迫切要求語音識別系統從實驗室走向實用。許多已開發國家如美國、日本、韓國以及IBM、Apple、AT&T、NTT等著名公司都為語音識別系統的實用化開發研究投以巨資。
我國語音識別研究工作一直緊跟國際水平,國家也給予了高度重視。鑒於中國未來龐大的市場,國外也非常重視漢語語音識別的研究。美國、新加坡等地聚集了一批來自大陸、台灣、香港等地的學者,研究成果已達到相當高水平。因此,國內除了要加強理論研究外,更要加快從實驗室演示系統到商品的轉化。
語音識別系統可有不同的分類方式。
(1)根據對說話人說話方式的要求,可以分為孤立字(詞)語音識別系統,連線字語音識別系統以及連續語音識別系統。
(2)根據對說話人的依賴程度可以分為特定人和非特定人語音識別系統。
(3)根據辭彙量大小,可以分為小辭彙量、中等辭彙量、大辭彙量以及無限辭彙量語音識別系統。
不同的語音識別系統,雖然具體實現細節有所不同,但所採用的基本技術相似。
語音識別技術主要包括特徵提取技術、模式匹配準則及模型訓練技術三個方面。此外,還涉及到語音識別單元的選取等問題。