語音編碼器

語音編碼器

語音編碼器的主要功能就是把用戶語音的PCM(脈衝編碼調製)樣值編碼成少量的比特(幀)。這種方法使得語音在連路產生誤碼、網路抖動和突發傳輸時具有健壯性(Robustness)。在接收端,語音幀先被誤碼為PCM語音樣值,然後再轉換成語音波形。

語音編碼器語音編碼器

語音編碼器的分類

語音編碼器分為三種類形:(a)波形編器;(b)聲碼器;(c)混合編碼器

波形編碼器會儘可能構出包括背景噪單在內的模擬波形。由於波形編碼器作用於所有輸入信號,因此會產生高質量的樣值。然而,波形編碼器工作在高比特率。例如:ITU-G.711規範(PCM)用的比特率為64Kbps。 聲碼器(vocoder)不會再生原始波形。這組編碼器會提取一組參數,這組參數被送到接收端,用來導出語音產生模形。線性預測編碼(LPC)用來獲取一時變數字濾波器的參數。這個濾波器用來模擬說話人的聲道輸出[WEST96]。在電話系統中使用聲碼器,語音質量不夠好。在VOIP中常用的語音編碼器是混合編碼器,它融入了波形編碼器和聲器的長處,它的另一特點是它工作在非常低的比特率(4-6Kbps)。混合編碼器採用合成分析(AbS)。

為了說明問題,考慮人的聲道產生的一個語音模式:當人說話產生語音信號時就會發出濁音(如音素pa、da等)和清音(如音素sh、th)。激勵信號就是由輸入的語音信號導出的,其方法是使合成語音與輸入語音的差別非常小。LPC的用法、激勵的產生以及對合成分析(AbS)系統的誤差檢查均如圖4-1所示。 長話質量編碼器在比特率高於8Kbps時容易實現,如圖4-2所示。長話質量的語音平均意見得分(MOS)必須在分或許分以上。傳統的PCN語音在比特率小於32 Kbps,語音質量會嚴重惡化,在這裡就不討論PCN了。混合編碼和聲碼器在比特率相當低的MOS上的得分是可接受的。在現階段,大多數基於VOIP的編碼器的工作範圍在5.2~8kbps。研究表明,標準的編碼器在比特率為4 Kbps時能提供可接受的NOS得分,一些分用系統在4.8 Kbps的MOS上的得分為3.8。 矢量量化和碼激勵線性預測 一種較好的方法就是用預測存儲的最優參數(碼元矢量)的碼本對輸入語音信號的表示矢量進行編碼,這種技術稱為矢量量化(VQ,vector quantization)。 將VQ和AbS技術結合在一起會進一步提高編碼性能。AbS VQ是技術構成CELP的基礎。VQ和AbS VQ的主要區別在於進行矢量量化碼簿搜尋時採用的量化失真測量定義的不同[WONG96]。

熱門詞條

聯絡我們