在語音識別中,廣義上,對於發音字典的構造有兩種方法:基於專家知識(knowledge-based)和基於數據驅動(data-driven)。
在基於專家知識的發音字典自適應方法中,字典中的每一個實際發音項由語音學家給出,或者遵循一定的發音變化規則,通過規則的限制,決定一個標準英語音素在非母語背景下的實際發音。基於專家知識的字典自適應方法具有以下優點:
(1)通用性,針對非母語說話人特定的發音特點總結帶有規律性的規則,從而很容易推斷出實際發音;
(2)不需要非母語說話人的語音數據。這是其相對於數據驅動方法的一大優點。在實際套用中,尤其是在沒有非母語說話人的語音數據情況下,通過對規則的套用來生成特定的發音字典,從而達到提高非母語背景話識別率的目的,這是一種高效而又經濟的方法。
也存在一些缺陷:
(1)過於依賴專家的先驗知識。這些知識或者規則是語音專家經過長期觀察得到的,受限於專家人數和研究時間,要得到客觀準確的語音學知識可能很困難;(2)專家知識可能與待識別語音不匹配,畢竟專家知識是通過大量觀察得到的,帶有很強的通用性,而實際情況又是千差萬別的,難免會出現與實際的識別語音不一致的情況;
(3)利用專家知識很難得到準確的發音變化機率,對於這一點,在基於專家知識的方法中一般採用等機率的方式來處理。在基於數據驅動的方法中,發音字典所需要的信息來源於訓練數據,通過一定的策略來獲取實際的發音變化規則。
基於數據驅動的方法有以下優點:
(1)不需要太多的人工干預,節省資源;
(2)能與待識別語音數據很好的匹配;
(3)具有很好的可推廣性,很容易得到不同的非母語國家說的英語與標準英語間的發音變化規律。(
4)能較精確的刻畫發音變化機率。
當然它也存在一些不足:
(1)需要較多的數據,特別是考慮上下文語境的影響,需要刻畫發音變化的規律越精細,需要的數據量也越大。
(2)由於引入大量的發音變化項,導致發音字典的混淆度增加,反而使識別正確率下降。
(3)對訓練數據有很強的依賴性,不同的訓練數據得到的發音字典有所不同。在基於數據驅動的發音字典自適應過程中需要著重解決以下三個基本問題:如何獲得發音變化;如何得到準確的發音變化機率;採用何種剪枝策略。