簡介
語音識別晶片所涉及的技術包括:信號處理、模式識別、機率論和資訊理論、發聲機理和聽覺機理、人工智慧等等。
語音識別晶片分類
按照使用者的限制而言,語音識別晶片可以分為特定人語音識別晶片和非特定人語音識別晶片。
特定人語音識別
特定人語音識別晶片是針對指定人的語音識別,其他人的話不識別,須先把使用者的語音參考樣本存入當成比對的資料庫,即特定人語音識別在使用前必須要進行語音訓練,一般按照機器提示訓練2遍語音詞條即可使用。
非特定人語音識別
非特定人語音識別是不用針對指定的人的識別技術,不分年齡、性別,只要說相同語言就可以,套用模式是在產品定型前按照確定的十幾個語音互動詞條,採集200人左右的聲音樣本,經過PC算法處理得到互動詞條的語音模型和特徵資料庫,然後燒錄到晶片上。套用這種晶片的機器(智慧型娃娃、電子寵物、兒童電腦)就具有互動功能了。
非特定人語音識別套用有的是基於音素的算法,這種模式下不需要採集很多人的聲音樣本就可以做互動識別,但是缺點是識別率不高,識別性能不穩定。
按照說話方式的連續性,語音識別晶片又可分為非連續語音識別和連續語音識別。
非連續語音識別
對於非連續語音來說,識別所說的每一個字必須分開辨認,要求說完每個字後都要停頓。
連續語音識別
連續語音識別可以一般自然流利的說話方式來進行人性化的語音識別,但由於關係到相連音的問題,很難達到好的辨認效果。
基本原理
嵌入式語音識別系統都採用了模式匹配的原理。錄入的語音信號首先經過預處理,包括語音信號的採樣、反混疊濾波、語音增強,接下來是特徵提取,用以從語音信號波形中提取一組或幾組能夠描述語音信號特徵的參數。特徵提取之後的數據一般分為兩個步驟,第一步是系統“學習”或“訓練”階段,這一階段的任務是構建參考模式庫,詞表中每個詞對應一個參考模式,它由這個詞重複發音多遍,再經特徵提取和某種訓練中得到。第二是“識別”或“測試”階段,按照一定的準則求取待測語音特徵參數和語音信息與模式庫中相應模板之間的失真測度,最匹配的就是識別結果。
語音識別系統的結構
一個完整的基於統計的語音識別系統可大致分為三部分:
(1)語音信號預處理與特徵提取; (2)聲學模型與模式匹配; (3)語言模型與語言處理
語音信號預處理與特徵提取
選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句)、音節和音素三種,具體選擇哪一種,由具體的研究任務決定。
單詞(句)單元廣泛套用於中小辭彙語音識別系統,但不適合大辭彙系統,原因在於模型庫太龐大,訓練模型任務繁重,模型匹配算法複雜,難以滿足實時性要求。
音節單元多見於漢語語音識別,主要因為漢語是單音節結構的語言,而英語是多音節,並且漢語雖然有大約1300個音節,但若不考慮聲調,約有408個無調音節,數量相對較少。因此,對於中、大辭彙量漢語語音識別系統來說,以音節為識別單元基本是可行的。
音素單元以前多見於英語語音識別的研究中,但目前中、大辭彙量漢語語音識別系統也在越來越多地採用。原因在於漢語音節僅由聲母(包括零聲母有22個)和韻母(共有28個)構成,且聲韻母聲學特性相差很大。實際套用中常把聲母依後續韻母的不同而構成細化聲母,這樣雖然增加了模型數目,但提高了易混淆音節的區分能力。由於協同發音的影響,音素單元不穩定,所以如何獲得穩定的音素單元,還有待研究。 語音識別一個根本的問題是合理的選用特徵。特徵參數提取的目的是對語音信號進行分析處理,去掉與語音識別無關的冗餘信息,獲得影響語音識別的重要信息,同時對語音信號進行壓縮。在實際套用中,語音信號的壓縮率介於10-100之間。語音信號包含了大量各種不同的信息,提取哪些信息,用哪種方式提取,需要綜合考慮各方面的因素,如成本,性能,回響時間,計算量等。非特定人語音識別系統一般側重提取反映語義的特徵參數,儘量去除說話人的個人信息;而特定人語音識別系統則希望在提取反映語義的特徵參數的同時,儘量也包含說話人的個人信息。
線性預測(LP)分析技術是目前套用廣泛的特徵參數提取技術,許多成功的套用系統都採用基於LP技術提取的倒譜參數。但線性預測模型是純數學模型,沒有考慮人類聽覺系統對語音的處理特點。
Mel參數和基於感知線性預測(PLP)分析提取的感知線性預測倒譜,在一定程度上模擬了人耳對語音的處理特點,套用了人耳聽覺感知方面的一些研究成果。實驗證明,採用這種技術,語音識別系統的性能有一定提高。從目前使用的情況來看,梅爾刻度式倒頻譜參數已逐漸取代原本常用的線性預測編碼導出的倒頻譜參數,原因是它考慮了人類發聲與接收聲音的特性,具有更好的魯棒性(Robustness)。
也有研究者嘗試把小波分析技術套用於特徵提取,但目前性能難以與上述技術相比,有待進一步研究。
聲學模型與模式匹配
聲學模型通常是將獲取的語音特徵使用訓練算法進行訓練後產生。在識別時將輸入的語音特徵同聲學模型(模式)進行匹配與比較,得到最佳的識別結果。
聲學模型是識別系統的底層模型,並且是語音識別系統中最關鍵的一部分。聲學模型的目的是提供一種有效的方法計算語音的特徵矢量序列和每個發音模板之間的距離。聲學模型的設計和語言發音特點密切相關。聲學模型單元大小(字發音模型、半音節模型或音素模型)對語音訓練數據量大小、系統識別率,以及靈活性有較大的影響。必須根據不同語言的特點、識別系統辭彙量的大小決定識別單元的大小。
以漢語為例:
漢語按音素的發音特徵分類分為輔音、單元音、複元音、復鼻尾音四種,按音節結構分類為聲母和韻母。並且由音素構成聲母或韻母。有時,將含有聲調的韻母稱為調母。由單個調母或由聲母與調母拼音成為音節。漢語的一個音節就是漢語一個字的音,即音節字。由音節字構成詞,最後再由詞構成句子。
漢語聲母共有22個,其中包括零聲母,韻母共有38個。按音素分類,漢語輔音共有22個,單元音13個,複元音13個,復鼻尾音16個。
目前常用的聲學模型基元為聲韻母、音節或詞,根據實現目的不同來選取不同的基元。漢語加上語氣詞共有412個音節,包括輕音字,共有1282個有調音節字,所以當在小辭彙表孤立詞語音識別時常選用詞作為基元,在大辭彙表語音識別時常採用音節或聲韻母建模,而在連續語音識別時,由於協同發音的影響,常採用聲韻母建模。
基於統計的語音識別模型常用的就是HMM模型λ(N,M,π,A,B),涉及到HMM模型的相關理論包括模型的結構選取、模型的初始化、模型參數的重估以及相應的識別算法等。
語言模型與語言處理
語言模型包括由識別語音命令構成的語法網路或由統計方法構成的語言模型,語言處理可以進行語法、語義分析。
語言模型對中、大辭彙量的語音識別系統特別重要。當分類發生錯誤時可以根據語言學模型、語法結構、語義學進行判斷糾正,特別是一些同音字則必須通過上下文結構才能確定詞義。語言學理論包括語義結構、語法規則、語言的數學描述模型等有關方面。目前比較成功的語言模型通常是採用統計語法的語言模型與基於規則語法結構命令語言模型。語法結構可以限定不同詞之間的相互連線關係,減少了識別系統的搜尋空間,這有利於提高系統的識別。
語音識別系統設計
系統硬體設計
對於嵌入式系統而言,語音識別硬體組成要考慮很多其它因素,首先由於成本的限制,一般使用定點DSP,這意味著算法的複雜度受到限制;其次,對產品化有各種嚴格的限制,這就需要一個高度集成的硬體DSP,因此最理想的硬體組成是系統級的晶片。
一般採用的是一個16位結構的微控制器,將MCU、A/D、D/A、RAM、ROM集成在一塊晶片上,具有很高的集成度。同時具有較高運算速度的16×16位的乘法語音和內積運算指令,CPU最高可達時鐘49MHz,因此在複雜的數位訊號處理方面既非常便利又比專用的DSP晶片便宜得多。並具有12位ADC,和14位DAC保證音頻精度,配置帶自動增益控制(AGC)的麥克風輸入方式,為語音處理帶來了極大的方便。既具有體積小、集成度高、可靠性好的特點,又具有較強的中斷處理能力、高性能的價格比和功能強、效率高的指令系統及低功耗、低電壓的特點,所以非常適合用於嵌入式語音識別系統。
以SR160X為核心的嵌入式語音識別系統硬體的電路系統,主要包括麥克風輸入電路、ADC、DAC、功放輸出電路、鍵盤電路和各種通信電路等,語音保存到SPI Flash存儲器中。
系統軟體設計
非特定人語音識別要經過語音訓練後才能識別,將語音訓練過程中建立的參考模式庫和從待識別語音信號中提取的特徵參數都存放在外擴的SPI Flash中,這樣就可以保證掉電後重新開機繼續識別。語音識別系統軟體主程式由語音訓練程式、語音識別程式、語音播放程式、中斷程式、初始化程式等子程式組成。由於嵌入式平台存儲資源少、實時性要求高的特點,因此算法在保證識別效果的前提下要儘可能最佳化。
軟體包括A/D變換、預加重、分幀和加窗、端點檢測、特徵參數提取、放寬端點限制的DTW算法,最後識別結果輸出。
在套用層軟體考慮到用戶的實際需求,增加了能快速開發的虛擬軟體開發技術,能快速完成產品。