音頻視頻信號壓縮技術

音頻視頻信號壓縮技術

音頻視頻信號壓縮技術 (audio-video signal compression technology) 對聲音和圖象數據進行壓縮的數字編碼技術。它是資訊理論中的通信編碼理論與計算機圖象處理、聲音處理相結合的用於多媒體系統的綜合技術。根據編碼中信息的保持情況可分為有失真和無失真編碼兩大類。

簡介

伴隨著多媒體技術套用的日益普及,要傳輸、處理、存儲包含文本、圖形、圖像、音頻、視頻在內的多媒體數據。音頻視頻信號採用數位化表示後數據量十分龐大,例1秒鐘視頻的彩色數字圖象數據量高達150Mb 左右,對它們進行數據壓縮,是多媒體系統中的關鍵技術。它的主要任務是在保證聲音圖象質量的情況下,儘量減少所需要的數據量(即比特數)。由於在聲音圖象數據中存在著大量的冗餘數據,減少這些冗餘可達到壓縮的效果。另外,利用人的聽覺視覺心理特點,也可用較少的數據表達同樣主觀效果的聲音圖象信息 。音頻視頻信號壓縮技術簡單來說是指對音頻視頻信號進行壓縮編碼的技術,數據壓縮手段可以把信息數據壓下來,以壓縮形式存儲和傳輸,既節約了存儲空間,又提高了通信幹線的傳輸效率,同時也可使計算機實時處理音頻、視頻信息,以保證播放出高質量的視頻、音頻節目成為可能。用於聲音圖象數據壓縮的編碼方法甚多。從壓縮的方法來看,主要可分為變換編碼、預測編碼和統計編碼等三大類。

壓縮的方法

變換編碼

這裡主要指正交變換。它將原先的時域的聲音信號或空間的圖象信號變換到另一個矢量空間(變換域),從而得到變換係數。若係數的分布比較集中,那么可用這些少量的數據同樣表述原有的信息。對這些係數進行量化、編碼,就可以達到壓縮編碼的目的。正交變換應是可逆的,但是由於利用係數分布集中的特點,當捨去集中區域外的那些係數後的逆變換就會產生一定的誤差。一個好的正交變換 ,捨去集中區域外的係數值後,進行的逆變換得到的圖象和聲音與原先圖象和聲音質量相差不大。這就達到了在基本保質的前提下較大的提高數據壓縮率的目的。常用的變換有離散傅立葉變換(DFT)、離散餘弦變換 (DCT)、沃爾什變換、哈爾變換、K-L 變換。其中 K-L 變換是基於統計特性的變換,能量集中、係數相關性好。但是計算非常複雜,難以套用在實時系統中。沃爾什變換和哈爾變換的特點是用方波作為正交函式, 計算簡單,適於計算機處理。而離散的餘弦變換具有 K-L 變換的優點且計算複雜度適中,是用於實時視頻壓縮變換的主要方法。

預測編碼

利用聲音和圖象在時間、空間上相鄰的信號數據相關性較高的特點,把信號的值變換成相對值,這些相對值變化範圍較小,經過量化和編碼後可以用較少的比特數來表示。預測編碼法

中的相對數據並不是簡單的前後相鄰數據之差,而是按一定的預測規則從前面的數據來預測後面的數據,再與實際數據求得相對值。若預測值較正確,則可以得到非常小的數據值。常用的預測編碼方法是差分脈衝編碼調製(DPCM)編碼法。它的優點是結構簡單,效率較高。但是當輸入信號變化較大時,編碼質量會受到影響。具有自動適應輸入變化的預測編碼器稱為自適應差分脈衝編碼調製 (ADPCM)編碼器,它可改善壓縮質量,有時可得到較高的數據壓縮率。

統計編碼

根據被編碼的符號出現機率不同這一特點,對機率大的符號使用較短的代碼,而機率小的符號使用較長的代碼進行編碼,從而使整體上減少比特數。統計編碼又稱熵編碼,常用的統計編碼有 Huffman 編碼,Shannon-Fano 編碼和算術編碼,它們均是變長碼。Huffman 碼是一種普遍使用的熵編碼,它具有計算簡單,便於硬體實現等特點。Shannon-Fano 碼的特性與 Huffman 碼相似。算術編碼計算比較複雜,但具有較高的數據壓縮率,而且不必保存和傳輸碼錶。對數字圖象還有行程碼和等值線碼兩種常用壓縮編碼。前者把圖象(行)掃描過程中相鄰的具有相同數值的象素串用它們的串長度和象素值來表示。等值線碼採用邊界曲線來表示圖象中的具有相同值象素區域。這兩種編碼法同樣對色彩分布均勻的圖象具有較好的壓縮效果。在實際的多媒體系統中,單一的編碼法所產生的數據壓縮率常常不能滿足系統的需要。因此採用多種基本編碼法相結合的方案,稱為混合編碼。好的混合編碼可達到相當高的壓縮率, 同時具有計算量適中,抗干擾能力強的優點。由於音頻和視頻的結構複雜程度不同,數據壓

縮編碼方案亦不相同。音頻信號是隨時間變化的一維信號,它的採樣頻率一般不超過48kHz 左右,由於兩個相鄰的樣本之間有較高的相關性,因此常採用DPCM為主的各種預測編碼法,或與線性預測編碼相結合的混合編碼。前者可獲得較好的音質,壓縮率一般1:3~1:4左右 ,後者在保持音質的同時有較高的壓縮率。視頻信號的特點是數據量大,但空間的冗餘度亦大。它們可分為靜態圖象和動態圖象兩種編碼方案。靜態圖象採用離散餘弦變換 (DCT)、 行程碼和熵編碼相結合的混合編碼方案,減少幀內圖象的冗餘度,壓縮率可達1:10~1:50。而動態圖象採用幀內壓縮與幀間插補相結合的複雜編碼方法,可使壓縮率達1:100~1:200 左右。兩種圖象編碼均有國際標準。由於音頻、視頻壓縮編碼的計算量相當大,一般的計算機很難滿足實時性要求,因此採用專用硬體來實現。特別是專用高速處理晶片將是解決該問題的關鍵技術。而國際標準的制定 , 將會促進這些專用高速晶片技術的研究和開發。

數據冗餘

音頻、圖像和視頻數據中主要包含以下幾種冗餘:

空間冗餘:圖像是由數十萬個像素組成的,每個像素之間具有很大的相關性,在傳送時會出現連續傳送很多相同的數據,這就成為空間冗餘。 這種冗餘可以用某種編碼來去除。

時間冗餘:時間冗餘反映在圖象序列中就是相鄰幀圖象之間有較大的相關性,一幅圖象中的某些物體或場景可以由其他幀圖象中的物體或場景重構出來。音頻的前後值之間也同樣有時間冗餘。

信息熵冗餘:也稱編碼冗餘,它是指一塊數據所攜帶的信息量少於數據本身所產生的冗餘。例如,利用等長碼錶示信息就比不等長碼如 Huffman 編碼表示信息量存在冗餘。

結構冗餘:指圖像各部分結構類似性所產生的冗餘。例如,方格狀的地板,蜂窩,磚牆,草蓆等圖結構上存在冗餘。已知分布模式,可以通過某一過程生成圖像。

知覺冗餘:所謂知覺冗餘就是指人們的視覺或者聽覺分辨力不敏感時,失真處理了一些無關緊要的信息,此時對於圖像和聲音質量的降低人們是感覺不到的。例如,人的視覺對於圖像邊緣的急劇變化不敏感,對圖像的亮度信息敏感,對顏色的解析度較弱等,因此如果圖像經壓縮或量化發生的變化(或稱引入了噪聲)不能被視覺所感覺,則認為圖像質量是完好的或是夠好的,即圖像壓縮並恢復後仍有滿意的主觀圖像質量。

有損壓縮編碼和無損壓縮編碼

根據解碼後的數據與原始數據是否一致進行分類,壓縮方法可被分為有損壓縮編碼和無損壓縮編碼兩大類。

無損壓縮:壓縮後的數據經解壓縮還原後,得到的數據與原始數據完全相同,是一種基於信息熵原理的可逆的編碼方法。其原理是統計壓縮數據中的冗餘部分。適合於由計算機生成的圖像,它們一般具有連續的色調。但一般對數字視頻和自然圖像的壓縮效果不理想,因為這類圖像色調細膩,不具備大塊的連續色調。常用的無損壓縮算法有行程編碼、Huffman編碼算術編碼以及 LZW 編碼等。常用在原始數據的存檔,如文本數據、程式以及珍貴的圖片和圖像等。

有損壓縮:壓縮後的數據經解壓縮還原後,得到的數據與原始數據不完全相同,是一種可逆編碼方法。由於圖像或聲音的頻頻寬、信息豐富,而人類視覺和聽覺系統對頻帶中某些頻率成分並不敏感,有損壓縮以犧牲這部分信息為代價,換取了較高的壓縮比。常用的有損壓縮算法有:PCM、預測編碼、變換編碼、插值與外推等。新一代的數據壓縮方法有子帶編碼、基於模型的壓縮、分形壓縮及小波變換等。幾乎所有高壓縮的算法都採用有損壓縮,這樣才能達到低數據率的目標。其丟失的數據與壓縮比有關,壓縮比越小,丟失的數據越多,解壓縮後的效果越差。

相關詞條

熱門詞條

聯絡我們