傳統的自然音頻編碼
一個基本的概念就是MPEG-4的編碼工具不再僅限於支持碼率的減少,其各種不同的工具支持從智慧型語音到高質量多聲道音頻信號,以及此範圍內的音頻信號的質量。MPEG-4編碼工具支持的其他功能還有:
.速度的變化,允許不改變音調實現時間尺度變化;
.音調的變化,允許不改變時間尺度實現音調改變;
.碼率的可分級性,對比特流的分解可在傳輸或解碼器中進行;
.頻寬的可分級性,代表部分頻譜的比特流的一段可在傳輸或解碼過程中被拋棄;
. 編碼器複雜度的可分級性;
. 強糾錯性等。
MPEG-4標準的自然音頻編碼將碼率範圍規定為每聲道2kbit/s~64 kbit/s。在如此寬的範圍內定義了三種類型的編碼器或叫編碼工具。在最低的碼率範圍2~6 kbit/s之間使用的是參數編碼(parametric coding),最適合於採樣率為8kHz的語言信號;在6~24 kbit/s的碼率範圍內使用的是編碼激勵的線型預測編碼(code excited linear predictive coding)簡稱CELP,支持採樣率為8kHz和16 kHz的語言和音頻信號;在最高的16~64 kbit/s的碼率範圍內使用的是時間/頻率編碼(time/frequency coding)技術,比如MPEG-2 AAC標準,支持採樣率為8~96 kHz的任意音頻信號。
1 參數編碼
參數編碼提供了兩種編碼工具:HVXC和HILN。
諧音矢量激勵編碼HVXC(Harmonic Vector eXcitation Coding)編碼工具允許對語言信號在2kbit/s和4kbit/s之間進行可分級性編碼。HVXC的解碼過程分四步進行:參數的反量化;對聲音幀用正弦合成產生激勵信號和加上噪聲分量;對非聲音幀通過查找碼書產生激勵信號;LPC(線型預測編碼)合成。對合成語言質量的增強可以使用頻譜後置濾波。
HVXC提供了在延遲模式上的可分級性。其編碼器和解碼器可以獨立地選擇低或正常的延遲模式。 諧音和獨立線性加性噪聲HILN(Harmonic and Individual Line plus Noise)編碼工具允許對非語言信號,例如音樂以4kbit/s和更高的碼率進行編碼。HILN支持在速度、音調、碼率和複雜度上的可分級性。其獨立線性基礎解碼器從比特流中重建線性參數頻率、幅度和包絡。增強解碼器使用更好的量化對上述參數進行重建,並且對線性參數相位也進行了重建。信號解碼的速度可以僅通過改變幀長來實現,音調的改變通過在合成之前利用一個比例因子複合每一個頻率參數來實現,而且無須改變幀長,也不會引起相位失真。增強解碼器由於對相位進行重建而帶來了諸多優點,使解碼器輸出的信號近似於編碼器輸入的波形。 可以將HVXC和HILN聯合起來使用以獲得更寬範圍內的信號和碼率。可以在兩者編碼器的輸出之間動態地切換或混合。
2 CELP編碼
CELP的解碼器包括一個激勵源、一個合成濾波器和一個需要時添加的後置濾波器。
激勵源擁有兩種分量,一是由自適應碼書產生的周期分量,另一個是由一個或多個固定碼書產生的隨機分量。在解碼器中,使用碼書索引和增益索引來重建激勵信號。激勵信號接著通過線性預測合成濾波器,最後,為了獲得增強的語言質量,可以使用後置濾波器。CELP支持兩種採樣率:8kHz和16kHz。
當採樣率為8kHz時,碼率的可分級性是通過不斷加上所謂“增強層”(enhancement layer)來實現的。在基礎碼率上以2kbit/s的步長增加,可加的增強層的最大數目是三,意味著可在基礎碼率上加上2,4,6 kbit/s。當採樣率為16kHz時,可以通過只使用比特流的一部分來解碼語言信號,這就提供了在複雜度上的可分級性。還有一些其他支持複雜度可分級的方法,例如簡化LPC、後置濾波器的使用與否等等。複雜度的可分級性依賴於實際的套用而與比特流的語法無關。而當解碼器用軟體實現時,複雜度甚至可以實時地予以改變,以利於在有限容量計算機接口或多任務環境下運行。
頻寬的可分級性在採樣率為8kHz和16kHz時均可實現,是通過在CELP編碼上加一個頻寬擴展工具來實現的。
3 時間/頻率編碼
當碼率為每聲道64kbit/s時就是MPEG-2 AAC編碼標準,此時可以獲得極好的音頻質量。MPEG-2 AAC是MPEG-4時間/頻率編碼的核心。其濾波器的輸出含有1024條或1280條頻率線,通過塊切換來獲得不同的時間和頻率解析度。用時域噪聲整形(TNS)來控制時域量化噪聲的形狀。通過在每一個頻譜係數上使用後向自適應預測器來有效提高濾波器組的解析度。頻譜係數被劃分為近似臨界頻帶結構的所謂比例因子頻帶,每個比例因子頻帶共享一個比例因子使用一個非均勻量化器。編碼器的心理聲學模型控制量化的步階將量化噪聲置於信號閥值之下予以掩蔽。在無噪聲編碼工具下,將量化頻譜係數進行分區,每個區包含整數個比例因子頻帶,每個區的量化係數使用一本碼書以2或3元組進行霍夫曼編碼。
除了AAC外,還有其他的時間/頻率編碼工具。例如比特分片算述編碼BSAC(the bit-sliced arithmetic coding),作為一種無噪聲編碼它能提供從16kbit/s至64kbit/s之間以1kbit/s的步率實現碼率的分可級性。變換域加權插入矢量量化TwinVQ(the transform-domain weighted interleaved vector quantization)作為一種無噪聲編碼和量化工具也是一種選擇,它使用線性預測編碼(LPC)模型來定義量化器步階,對插入和量化的頻譜係數進行矢量量化,特別適用於需要碼率可分級性和強糾錯的系統中。
總的說來,MPEG-4的自然音頻編碼不但提供了寬廣的碼率範圍,更為重要的是提供了在諸多系統係數例如聲道碼率、信號頻寬、信號時間尺度重建、聲音音調、解碼器複雜度等方面的靈活性和可分級性。可以通過一系列的核心編碼器來實現上述的不同的分級特性。
新型的結構音頻標準
從MPEG-4標準制定的開始,其焦點就已經得到擴展,它不光包括傳統的編碼方法,其獨創之處在於提供了有關合成、音視頻場景、合成與自然內容的同步和時空聯合等方面的描述。一種新類型的音頻編碼工具“結構音頻”隨之誕生。結構音頻標準提供了關於合成音樂、聲音效果、互動式多媒體場景下合成聲音與自然聲音的同步等方面有效的、靈活的描述。在MPEG-4的工作計畫中,合成聲音編碼代表了一種極具靈活性的工具,支持其他編碼無法實現的互動式功能。另外,結構音頻的出現有其強烈的時代背景感和技術上的迫切需求感。許多研究者發覺,MIDI等合成技術已不能滿足計算機合成音樂的發展步伐,目前的瓶頸狀況需要改變。今天從電影、電視、互動式媒體中感受到的音樂多為合成音樂且無法覺察到其原始面目。制定一個規範化、高質量的標準在每個終端實現音頻的多媒體套用已是必然。MPEG-4結構音頻工具是基於一種軟體合成描述語言實現的。這種描述的技術基礎近似於先前出現的計算機音樂語言,例如Music V和C sound。結構音頻工具較之前者的典型特點是允許用比特流來有效地傳輸數據。結構音頻工具使用五種主要的元素成分,它們的描述方式統一於總體的解碼框架流程。
結構音頻命令語言
SAOL(the Structured Audio Orchestra Language)
它是標準核心的合成描述語言。SAOL是一種數位訊號處理語言,可使用於任意合成的傳輸描述及部分比特流效果算法的描述,SAOL的語法和語義作為MPEC-4的一部分予以標準化。SAOL語言是一種完全新型的語言,任何目前已知的聲音合成方法都可以用SAOL來描述,凡是能用信號流程網路表示的數位訊號處理過程都可用SAOL來表示。SAOL的特點是具有改進的語法、一系列更小的核心功能、一系列附加的句法,這使得相應的合成算法的編輯變得更加簡化容易。
結構音頻記分語言
SASL(the Structured Audio Score Language)
這是一種簡單記分和控制語言。用來描述在合成聲音產生過程中用SAOL語言傳輸的聲音產生算法是如何運作的;SASL較之MIDI更加靈活,可以表達更加複雜的功能,但其描述卻變的更加簡單容易。
3 結構音頻樣本分組格式
SASBF(the Structured Audio Sample Bank Format)
允許傳輸在波表合成中使用的分組的音頻樣本數據,並描述它們使用的簡單處理算法。
4 規範化程式表
描述了結構音頻解碼過程的運行流程。它把用SASL或MIDI定義的結構聲音控制映射為實時的事件來調度處理,這個過程用規範化聲音產生算法(用SAOL描述)來定義。
5 規範化參考
用於MIDI標準。MIDI可在結構控制中替代SASL語言。儘管MIDI在效果和靈活性上不及SASL,但MIDI對現存的一些內容和編輯工具提供了後向的兼容性的支持。對一些MIDI命令,MPEG-4也將其語義集成到結構音頻的工具中去。
總的說來,不同於以往描述語言的複雜、專業化,結構音頻的觀點在於使合成控制變得更加簡易和方便,但功能卻強大、有效。
同以前的標準一樣,MPEG-4也根據不同的套用定義了幾層框架,在MPEG-4結構音頻的完全標準中定義了三層受限制的框架,其中的每一層框架都是完全標準的子集,其描述語言不同,有各自不同的套用。只有第四層框架才是結構音頻完全的、默認的框架,具有嚴格意義上的規範化。
四 合成/自然混合編碼SNHC
SNHC聯合了自然和合成音頻編碼工具,帶來許多優點。
例如一個音軌可以由兩個單獨的音頻對象組成,音軌可以使用CELP低碼率語言編碼器進行編碼,而背景音樂可以使用結構音頻的合成編碼器。在解碼器終端,這兩部分分量被解碼並混合在一起。這種混合的過程在MPEG-4中定義為場景描述的二進制格式BIFS(Binary Format for Scene Description)。BIFS在概念上類似於虛擬—現實描述語言VRML,但其音頻分量在功能上被擴展了。BIFS作為MPEG-4的系統工具被標準化。使用音頻BIFS,音源可以被混合、分組、延遲、隨同3D虛擬空間進行處理、使用信號處理功能進行譯後處理並用SAOL傳輸作為比特流內容的一部分。
對語言聲音進行自然編碼(例如CELP)可以獲得良好的聲音質量,但遇到回聲、人工音樂等,則音質惡化,解決的辦法則是在用戶端使用SAOL描述的回聲算法進行譯後處理。SNHC綜合了兩者的優點,在頻寬和聲音質量上獲得了滿意的效果。
結束語
MPEG-4作為一種目標定位於未來的、全能的、開放的多媒體方案,將伴隨著未來不斷出現的新的技術、思路、方法得到更深、更廣的發展,成為領導未來多媒體世界的國際標準。