定義
語音理解起源於美國,1971年,美國遠景研究計畫局(ARPA)資助了一個龐大的研究項目,該項目要達到的目標叫做語音理解系統。由於人對語音有廣泛的知識,可以對要說的話有一定的預見性,所以人對語音具有感知和分析能力。依靠人對語言和談論的內容所具有的廣泛知識,利用知識提高計算機理解語言的能力,就是語音理解研究的核心。
利用理解能力,可以使系統提高性能:①能排除噪聲和嘈雜聲;②能理解上下文的意思並能用它來糾正錯誤,澄清不確定的語義;③能夠處理不合語法或不完整的語句。因此,研究語音理解的目的,可以說是與其研究系統仔細地去識別每一個單詞,倒不如去研究系統能抓住說話的要旨更為有效。
一個語音理解系統除了包括原語音識別所要求的 部分之外,還須添入知識處理部分。知識處理包括知識的自動收集、知識庫的形成,知識的推理與檢驗等。當然還希望能有自動地作知識修正的能力。因此語音理解可以認為是信號處理與知識處理結合的產物。語音知識包括音位知識、音變知識、韻律知識、詞法知識、句法知識,語義知識以及語用知識。這些知識涉及實驗語音學、漢語語法、自然語言理解、以及知識搜尋等許多交叉學科。
初步研製成功的語音理解系統稱為HEARSAY系統。它是利用一種公用“黑板"作為知識庫,環繞此黑板的是一系列專家系統,分別提取及搜尋有關音位、音變……等各種知識。以後能進一步達到預計目標的系統是HARPY系統,該系統用語言的有限狀態模型,通過唯一的一個統一的網路把彼此分離的各種知識源集中起來,這個統一的網路,稱為知識編譯器。不同理解系統在利用知識的策略或組織方面各有不同的特點。
完善的語音理解系統是人們夢寐以求的研究理想,但這並非短期內能夠完全解決的研究課題。然而面向確定任務的語音理解系統,例如只涉及有限的辭彙量,有一般比較通用的說話句型的語音理解系統,以及可供一定範圍的工作人員使用的語音理解系統,是可以實現的。因此,它對某些自動化套用領域已有實用價值,例如飛機票預售系統、銀行業務、旅館業務的登記及詢問系統等。
語音識別
語音識別(speech recognition) 利用計算機自動對語音信號的音素、音節或詞進行識別的技術總稱。語音識別是實現語音自動控制的基礎。
語音識別起源於20世紀50年代的“口授打字機”夢想,科學家在掌握了元音的共振峰變遷問題和輔音的聲學特性之後,相信從語音到文字的過程是可以用機器實現的,即可以把普通的讀音轉換成書寫的文字。語音識別的理論研究已經有40多年,但是轉入實際套用卻是在數位技術、積體電路技術發展之後,現在已經取得了許多實用的成果。
語音識別一般要經過以下幾個步驟:①語音預處理,,包括對語音的幅度標稱化、頻響校正、分幀、加窗和始末端點檢測等內容。②語音聲學參數分析,包括對語音共振峰頻率、幅度等參數,以及對語音的線性預測參數、倒譜參數等的分析。③參數標稱化,主要是時間軸上的標稱化,常用的方法有動態時間規整(DTW),或動態規劃方法(DP)。④模式匹配,可以採用距離準則或機率規則,也可以採用句法分類等。⑤識別判決,通過最後的判別函式給出識別的結果。
語音識別可按不同的識別內容進行分類:有音素識別、音節識別、詞或詞組識別;也可以按辭彙量分類:有小辭彙量(50個詞以下)、中詞量(50~500個詞)、大詞量(500個詞以上)及超大詞量(幾十至幾萬個詞)。按照發音特點分類:可以分為孤立音、連線音及連續音的識別。按照對發音人的要求分類:有認人識別,即只對特定的發話人識別,和不認人識別,即不分發話人是誰都能識別。顯然,最困難的語音識別是大詞量、連續音和不識人同時滿足的語音識別。
語音識別雖然從原理上看實現並不困難,但在實驗中遇到很多的難點。這些難點主要是:①發音的多變性,不同人發同一音,同一人在不同條件下發同一音,也會有不同的發音參數;②發音的模糊性,在實際的連續語流中語音聲學變數與音位變數之間不存在一一對應的關係;③語流中變化多端的音變現象,這些現象人類聽覺很容易辨認,但機器識別卻遇到很大的難度。
根據不同難度,可以實現不同的語音識別系統。孤立發音、中小詞量、認人的識別技術目前已經比較成熟,已有不少實用產品;連續發音、中小詞量、認人識別也已接近實用;連續發音、大詞量和不認人識別,還在實驗室研究實驗的階段。
語音識別有廣泛的套用領域,如語音打字,語音的計算機錄入,語音的指揮自動化,語音的自動控制操作,說話人身份鑑別,甚至語音的自動翻譯等。