相關原理
視頻圖像數據有極強的相關性,也就是說有大量的冗餘信息。其中冗餘信息可分為空域冗餘信息和時域冗餘信息。壓縮技術就是將數據中的冗餘信息去掉(去除數據之間的相關性),壓縮技術包含幀內圖像數據壓縮技術、幀間圖像數據壓縮技術和熵編碼壓縮技術。
去時域冗餘信息
使用幀間編碼技術可去除時域冗餘信息,它包括以下三部分:
- 運動補償
運動補償是通過先前的局部圖像來預測、補償當前的局部圖像,它是減少幀序列冗餘信息的有效方法。
- 運動表示
不同區域的圖像需要使用不同的運動矢量來描述運動信息。運動矢量通過熵編碼進行壓縮。
- 運動估計
運動估計是從視頻序列中抽取運動信息的一整套技術。
註:通用的壓縮標準都使用基於塊的運動估計和運動補償
去空域冗餘信息
主要使用幀間編碼技術和熵編碼技術:
- 變換編碼
幀內圖像和預測差分信號都有很高的空域冗餘信息。變換編碼將空域信號變換到另一正交矢量空間,使其相關性下降,數據冗餘度減小。
- 量化編碼
經過變換編碼後,產生一批變換係數,對這些係數進行量化,使編碼器的輸出達到一定的位率。這一過程導致精度的降低。
- 熵編碼
熵編碼是無損編碼。它對變換、量化後得到的係數和運動信息,進行進一步的壓縮。
視頻編碼框架
H.261
H.261標準是為ISDN設計,主要針對實時編碼和解碼設計,壓縮和解壓縮的信號延時不超過150ms,碼率px64kbps(p=1~30)。
H.261標準主要採用運動補償的幀間預測、DCT變換、自適應量化、熵編碼等壓縮技術。 只有I幀和P幀,沒有B幀,運動估計精度只精確到像素級。支持兩種圖像掃描格式:QCIF和CIF。
H.263
H.263標準是甚低碼率的圖像編碼國際標準,它一方面以H.261為基礎,以混合編碼為核心,其基本原理框圖和H.261十分相似,原始數據和碼流組織也相似;另一方面,H.263也吸收了MPEG等其它一些國際標準中有效、合理的部分,如:半像素精度的運動估計、PB幀預測等,使它性能優於H.261。
H.263使用的位率可小於64Kb/s,且傳輸比特率可不固定(變碼率)。H.263支持多種解析度: SQCIF(128x96)、 QCIF、CIF、4CIF、16CIF。
與H.261和H.263相關的國際標準
與H.261有關的國際標準
H.320:窄帶可視電話系統和終端設備;
H.221:視聽電信業務中64~1 920Kb/s信道的幀結構;
H.230:視聽系統的幀同步控制和指示信號;
H.242:使用直到2Mb/s數字信道的視聽終端的系統。
與H.263有關的國際標準
H.324:甚低碼率多媒體通信終端設備;
H.223:甚低碼率多媒體通信複合協定;
H.245:多媒體通信控制協定;
G.723.1.1:傳輸速率為5.3Kb/s和6.3Kb/s的語音編碼器。
JPEG
國際標準化組織於1986年成立了JPEG(Joint Photographic Expert Group)聯合圖片專家小組,主要致力於制定連續色調、多級灰度、靜態圖像的數字圖像壓縮編碼標準。常用的基於離散餘弦變換(DCT)的編碼方法,是JPEG算法的核心內容。
MPEG-1/2
MPEG-1標準用於數字存儲體上活動圖像及其伴音的編碼,其數碼率為1.5Mb/s。 MPEG-1的視頻原理框圖和H.261的相似。
MPEG-1視頻壓縮技術的特點:1. 隨機存取;2. 快速正向/逆向搜尋;3 .逆向重播;4. 視聽同步;5. 容錯性;6. 編/解碼延遲。MPEG-1視頻壓縮策略:為了提高壓縮比,幀內/幀間圖像數據壓縮技術必須同時使用。幀內壓縮算法與JPEG壓縮算法大致相同,採用基於DCT的變換編碼技術,用以減少空域冗餘信息。幀間壓縮算法,採用預測法和插補法。預測誤差可在通過DCT變換編碼處理,進一步壓縮。幀間編碼技術可減少時間軸方向的冗餘信息。
MPEG-2被稱為“21世紀的電視標準”,它在MPEG-1的基礎上作了許多重要的擴展和改進,但基本算法和MPEG-1相同。
MPEG-4
MPEG-4標準並非是MPEG-2的替代品,它著眼於不同的套用領域。MPEG-4的制定初衷主要針對視頻會議、可視電話超低比特率壓縮(小於64Kb/s)的需求。在制定過程中,MPEG組織深深感受到人們對媒體信息,特別是對視頻信息的需求由播放型轉向基於內容的訪問、檢索和操作。
MPEG-4與前面提到的JPEG、MPEG-1/2有很大的不同,它為多媒體數據壓縮編碼提供了更為廣闊的平台,它定義的是一種格式、一種框架,而不是具體算法,它希望建立一種更自由的通信與開發環境。於是MPEG-4新的目標就是定義為:支持多種多媒體的套用,特別是多媒體信息基於內容的檢索和訪問,可根據不同的套用需求,現場配置解碼器。編碼系統也是開放的,可隨時加入新的有效的算法模組。套用範圍包括實時視聽通信、多媒體通信、遠地監測/監視、VOD、家庭購物/娛樂等。MPEG-4具有很多優點。它的壓縮率可以超過100倍,而仍保有極佳的音質和畫質;它可利用最少的數據,獲取最佳的圖像質量,滿足低碼率
套用的需求;它更適合於互動式AV服務及遠程監控。為了滿足各種套用的需求,MPEG-4標準的使用範圍相當龐大,具有廣泛的適應性和可擴展性。
1、形狀編碼
形狀信息的獲得首先要對圖形進行分析和分割,把各個代表不同內容的目標分割後再用形狀表示。形狀信息通常用二值
Alpha平面來表示。二值Alpha平面可用臨近信息進行算術編碼(CAE);灰度Alpha平面可用運動補償加DCT變換方式類似紋理編碼一樣進行編碼。
其中用於圖像壓縮的變換有離散Forier變換(DFT)、離散小波變換(DWT)、奇異值分解(SVD)、K-L變換、Walsh變換、Hadamard變換、Harr變換、Slant變換、離散餘弦變換(DCT)。其中K-L變換的去相關性最好,而DCT是接近K-L變換效果的最便於實現的變換。和MPEG-1/2一樣,MPEG-4也選擇了DCT。通常,用於數據壓縮的熵編碼方法有霍夫曼(Huffman)編碼、矢量量化、算術編碼、遊程編碼、LZW編碼等。對於紋理編碼,MPEG-4選擇了把遊程編碼、矢量量化和Huffman編碼進行混合編程編碼(VLC)。紋理編碼要經過DCT變換、量化、DC/AC預測、掃描、基於Hufman的VLC編碼。
2、運動估計和補償
MPEG-4中提供了基於塊的運動估計和補償技術來有效地利用各個VOP中視頻內容上的時間冗餘。一般,運動估計和補償可以看作針對任意形狀圖像序列的塊匹配技術的延伸。塊匹配過程對於標準宏塊使用;預測誤差和用於預測的宏塊運動向量一起被編碼;高級運動補償模式支持重疊塊運動補償,可對8×8塊運動向量進行編碼。為了使運動估計得到高編碼效率,預測圖像和被預測圖像越相似越好,所以在運動估計之前要先進行補償。在目標邊界上的MB先用水平填補而後用垂直填補,其餘完全在VOP之外的MB用擴張填補。
3、紋理編碼
紋理指的是I-VOP圖像和P/B-VOP經運動補償後殘留的圖像信息。紋理一般在變換域進行壓縮編碼和熵編碼。準正式編輯已經出版:靜態圖像壓縮編碼標準(JPEG);數字聲像儲存壓縮編碼標準(MPEG-1);通用視頻圖像壓縮編碼標準(MPEG-2)。
隨後,MPEG專家組於1999年2月正式公布了MPEG-4(ISO/IEC14496)V1.0版本。同年底MPEG-4V2.0版本亦告完成,且於2000年年初正式成為國際標準。MPEG-4標準將眾多的多媒體套用集成於一個完整的框架內,旨在為多媒體通信及套用環境提供標準的算法及工具,從而建立起一種能被多媒體傳輸、存儲、檢索等套用普遍採用的統一數據格式,並根據不同的套用需求,現場配置解碼器,開放的編碼系統也可隨時加入新的有效的算法模組。為支持對視頻內容的訪問,MPEG-4提出了“視頻對象”的概念。
4、伸屈性
目前,MPEG專家組又推出了專門支持多媒體信息且基於內容檢索的編碼方案MPEG-7及多媒體框架標準MPEG-21。另外,由ITU-T和MPEG聯合開發的新標準H.264是最新的視頻編碼算法。為了降低碼率,獲得儘可能更好圖像質量,H.264標準吸取了MPEG-4的長處,具有更高的壓縮比、更好的信道適應性,必將在數字視頻的通信和存儲領域得到廣泛的套用,其發展潛力不可限量。
視頻的伸屈性,包括空間伸屈性和時間伸屈性。空間伸屈性可以得到不同的空間解析度,時間伸屈性可得到不同的時間解析度。每種伸屈都有多層,在只有高低2層的情況下,底層指的是基本層,而高層指的是增強層。
5、差錯迴避
VLC碼中的一個比特錯誤會引起同步丟失,而運動補償則會引起錯誤傳遞。MPEG-4的差錯迴避有三個方面:重同步、數據恢復和錯誤隱藏。重同步,是指差錯被檢測後,解碼器和碼流之間重新同步的技術。一般來說,這種方法會將錯誤之前的同步點到重建的同步點之間的數據丟棄。不過這些丟棄的數據可以用其他的技術進行恢復和實施錯誤隱藏。數據恢復工具在解碼器和碼流重新建立起同步後用來恢復丟棄的數據。這些工具不是簡單的用容錯碼恢復,而是用一種差錯迴避手段,即
用可逆VLC碼字進行VLC編碼。錯誤隱藏,在重同步有效地將錯誤定位後可以很容易處理。為了進一步提高錯誤隱匿的能力,有必要增加錯誤定位能力,特別是數據分割可以用來提高錯誤定位能力。
JVT:新一代的視頻壓縮標準
JVT是由ISO/IEC MPEG和ITU-T VCEG成立的聯合視頻工作組(Joint Video Team),致力於新一代數字視頻壓縮標準的制定。
JVT標準在ISO/IEC中的正式名稱為:MPEG-4 AVC(part10)標準;在ITU-T中的名稱:H.264(早期被稱為H.26L)
H264/AVC
H264集中了以往標準的優點,並吸收了以往標準制定中積累的經驗, 採用簡潔設計,使它比MPEG4更容易推廣。H.264創造性了多參考幀、多塊類型、整數變換、幀內預測等新的壓縮技術,使用了更精細的分象素運動矢量(1/4、1/8)和新一代的環路濾波器,使得壓縮性能大大提高,系統更加完善。
H.264主要有以下幾大優點:
- 高效壓縮:與H.263+和MPEG4 SP相比,減小50%比特率
- 延時約束方面有很好的柔韌性
- 容錯能力
- 編/解碼的複雜性可伸縮性
- 解碼全部細節:沒有不匹配
- 高質量套用
- 網路友善
監控中的視頻編碼技術
目前監控中主要採用MJPEG、MPEG1/2、MPEG4(SP/ASP)、H.264/AVC等幾種視頻編碼技術。對於最終用戶來言他最為關心的主要有:清晰度、存儲量(頻寬)、穩定性還有價格。採用不同的壓縮技術,將很大程度影響以上幾大要素。
MJPEG
MJPEG(Motion JPEG)壓縮技術,主要是基於靜態視頻壓縮發展起來的技術,它的主要特點是基本不考慮視頻流中不同幀之間的變化,只單獨對某一幀進行壓縮。
MJPEG壓縮技術可以獲取清晰度很高的視頻圖像,可以動態調整幀率、解析度。但由於沒有考慮到幀間變化,造成大量冗餘信息被重複存儲,因此單幀視頻的占用空間較大,目前流行的MJPEG技術最好的也只能做到3K位元組/幀,通常要8~20K!
MPEG-1/2
MPEG-1標準主要針對SIF標準解析度(NTSC制為352X240;PAL制為352X288)的圖像進行壓縮. 壓縮位率主要目標為1.5Mb/s.較MJPEG技術,MPEG1在實時壓縮、每幀數據量、處理速度上有顯著的提高。但MPEG1也有較多不利地方:存儲容量還是過大、清晰度不夠高和網路傳輸困難。
MPEG-2 在MPEG-1基礎上進行了擴充和提升,和MPEG-1向下兼容,主要針對存儲媒體、數位電視、高清晰等套用領域,解析度為:低(352x288),中(720x480),次高(1440x1080),高(1920x1080)。MPEG-2視頻相對MPEG-1提升了解析度,滿足了用戶高清晰的要求,但由於壓縮性能沒有多少提高,使得存儲容量還是太大,也不適和網路傳輸。
MPEG-4
MPEG-4視頻壓縮算法相對於MPEG-1/2在低比特率壓縮上有著顯著提高,在CIF(352*288)或者更高清晰度(768*576)情況下的視頻壓縮,無論從清晰度還是從存儲量上都比MPEG1具有更大的優勢,也更適合網路傳輸。另外MPEG-4可以方便地動態調整幀率、比特率,以降低存儲量。
MPEG-4由於系統設計過於複雜,使得MPEG-4難以完全實現並且兼容,很難在視頻會議、可視電話等領域實現,這一點有點偏離原來地初衷。另外對於中國企業來說還要面臨高昂的專利費問題,目前規定:
- 每台解碼設備需要交給MPEG-LA 0.25美元
- 編碼/解碼設備還需要按時間交費(4美分/天=1.2美元/月 =14.4美元/年)
H.264/AVC
H.264集中了以往標準的優點,在許多領域都得到突破性進展,使得它獲得比以往標準好得多整體性能:
- 和H.263+和MPEG-4 SP相比最多可節省50%的碼率,使存儲容量大大降低;
- H.264在不同解析度、不同碼率下都能提供較高的視頻質量;
- 採用“網路友善”的結構和語法,使其更有利於網路傳輸。
H.264採用簡潔設計,使它比MPEG4更容易推廣,更容易在視頻會議、視頻電話中實現,更容易實現互連互通,可以簡便地和G.729等低比特率語音壓縮組成一個完整的系統。
MPEG LA吸收MPEG-4的高昂專利費而使它難以推廣的教訓,MPEG LA制定了以下低廉的H.264收費標準:H.264廣播時基本不收費;產品中嵌入H.264編/解碼器時,年產量10萬台以下不收取費,超過10萬台每台收取0.2美元,超過500萬台每台收取0.1美元。低廉的專利費使得中國H.264監控產品更容易走向世界。