MPEG

MPEG

MPEG是活動圖像專家組(Moving Picture Experts Group)的縮寫,於1988年成立。目前MPEG已頒布了三個活動圖像及聲音編碼的正式國際標準,分別稱為MPEG-1、MPEG-2和MPEG-4,而MPEG-7和MPEG-21都在研究中。 MPEG-2是MPEG(Moving Picture Experts Group,運動圖像專家組)組織制定的視頻和音頻有損壓縮標準之一,它的正式名稱為“基於數字存儲媒體運動圖像和語音的壓縮標準”。與MPEG-1標準相比,MPEG-2標準具有更高的圖像質量、更多的圖像格式和傳輸碼率的圖像壓縮標準。MPEG-2標準不是MPEG-1的簡單升級,而是在傳輸和系統方面做了更加詳細的規定和進一步的完善。它是針對標準數位電視和高清晰電視在各種套用下的壓縮方案,編碼率從3 Mbit/s~100 Mbit/s。

簡介

MPEG-2音頻是在1994年11月為數位電視而提出來的,其發展分為三個階段:

第一階段是對MPEG-1增加了低採樣頻率,有16KHZ,22.05KHZ,以及24KHZ。

第二階段是對MPEG-1實施了向後兼容的多聲道擴展,將其稱為MPEG-2 BC。支持單聲道,雙聲道,多聲道等編碼。並附加“低頻加重”擴展聲道,從而達到五聲道編碼。

第三階段是向後不兼容,將其稱為MPEG-2 AAC先進音頻編碼。採樣頻率可以低至8KHZ;而高至96KHZ範圍內的1-48個通道可選的高音質音頻編碼。

技術介紹

剖析MPEG-2視頻編碼器剖析MPEG-2視頻編碼器

MPEG-2制定於1994年,設計目標是高級工業標準的圖象質量以及更高的傳輸率。MPEG-2所能提供的傳輸率在3-10Mbits/sec間,其在NTSC制式下的解析度可達720X486,MPEG-2也可提供並能夠提供廣播級的視像和CD級的音質。MPEG-2的音頻編碼可提供左右中及兩個環繞聲道,以及一個加重低音聲道,和多達7個伴音聲道(DVD可有8種語言配音的原因)。由於MPEG-2在設計時的巧妙處理,使得大多數MPEG-2解碼器也可播放MPEG-1格式的數據,如VCD。

同時,由於MPEG-2的出色性能表現,已能適用於HDTV,使得原打算為HDTV設計的MPEG-3,還沒出世就被拋棄了。(MPEG-3要求傳輸速率在20Mbits/sec-40Mbits/sec間,但這將使畫面有輕度扭曲)。除了作為DVD的指定標準外,MPEG-2還可用於為廣播,有線電視網,電纜網路以及衛星直播(DirectBroadcastSatellite)提供廣播級的數字視頻。

特點

MPEG-2編碼器MPEG-2編碼器

MPEG-2的另一特點是,其可提供一個較廣的範圍改變壓縮 比,以適應不同畫面質量,存儲容量,以及頻寬的要求。

對於最終用戶來說,由於現存電視機解析度限制,MPEG-2所帶來的高清晰度畫面質量(如DVD畫面)在電視上效果並不明顯,倒是其音頻特性(如加重低音,多伴音聲道等)更引人注目。

MPEG-2的編碼圖像被分為三類,分別稱為I幀,P幀和B幀。

1、I幀圖像,或稱幀內(Intra)圖像,參考圖像,相當於一個固定圖像,且獨立於其它的圖像類型。每個圖像組群由此類型的圖像開始。採用幀內壓縮編碼技術減少空間冗餘,不參照其它圖像。

2、P幀圖像,或稱預測(Predicted)圖像,通過參照前面靠近它的I或P圖像預測得到。P圖像減少了空間和時間冗餘信息,相比I圖像可以有更大的壓縮碼率。

3、B幀圖像,或稱雙向預測圖像,根據臨近的前幾幀、本幀、後幾幀的I或者P圖像預測得到,僅記錄本幀與前後幀的不同之處。相比I和P圖像可以有更大的壓縮碼率。

層次

MPEG-2的編碼碼流分為六個層次。為更好地表示編碼數據,MPEG-2用句法規定了一個層次性結構。它分為六層,自上到下分別是:圖像序列層、圖像組(GOP)、圖像、宏塊條、宏塊、塊。

標準

基本介紹

MPEG-2標準目前分為9個部分,統稱為ISO/IEC13818國際標準。各部分的內容描述如下:

一部分-ISO/IEC13818-1,System:系統,描述多個視頻,音頻和數據基本碼流合成傳輸碼流和節目碼流的方式。

二部分-ISO/IEC13818-2,Video:視頻,描述視頻編碼方法。

三部分-ISO/IEC13818-3,Audio:音頻,描述與MPEG-1音頻標準反向兼容的音頻編碼方法。

四部分-ISO/IEC13818-4,Compliance:符合測試,描述測試一個編碼碼流是否符合MPEG-2碼流的方法。

五部分-ISO/IEC13818-5,Software:軟體,描述了MPEG-2標準的第一、二、三部分的軟體實現方法。

六部分-ISO/IEC13818-6,DSM-CC:數字存儲媒體-命令與控制,描述互動式多媒體網路中伺服器與用戶間的會話信令集。

上六個部分均已獲得通過,成為正式的國際標準,並在數位電視等領域中得到了廣泛的實際套用。此外,MPEG-2標準還有三個部分:第七部分規定不與MPEG-1音頻反向兼容的多通道音頻編碼;第八部分現已停止;第九部分規定了傳送碼流的實時接口。

1990年成立的ATM視頻編碼專家組與MPEG在ISO/IEC13818標準的第一和第二兩個部分進行了合作,因此上述兩個部分也成為ITU-T的

標準,分別為:ITU-T H.222.0和ITU-T H.262視頻。

具體解釋

下面我們主要討論一下MPEG視頻編碼系統,即ISO/IEC13818-2部分。MPEG-2視頻編碼

MPEG-2視頻編碼標準是一個分等級的系列,按編碼圖像的解析度分成四個“級(Levels)”;按所使用的編碼工具的集合分成五個“類(Profiles)”。“級”與“類”的若干組合構成MPEG-2視頻編碼標準在某種特定套用下的子集:對某一輸入格式的圖像,採用特定集合的壓縮編碼工具,產生規定速率範圍內的編碼碼流。在20種可能的組合中,目前有11種(下表中標識“√”的項)是已獲通過的,稱為MPEG-2適用點。

簡單類
Simple Profile
主類
Main Profile
信噪比可分級類
SNR Scalable Profile
空間可分級類
Spatially Scalable Profile
高級類
High Profile
Low Level
Main Level
High-1440 Level
High Level

-我們知道,當前模擬電視存在著PAL、NTSC和SECAM三大制式並存的問題,因此,數位電視的輸入格式標準試圖將這三種制式統一起來,形成一種統一的數字演播室標準,這個標準就是CCIR601,現稱ITU-RRec BT601標準。MPEG-2中的四個輸入圖像格式“級”都是基於這個標準的。低級(LowLevel)的輸入格式的像素是ITU-RRec BT601格式的1/4,即352x240x30(代表圖像幀頻為每秒30幀,每幀圖像的有效掃描行數為240行,每行的有效像素為352個),或352x288x25。低級之上的主級(MainLevel)的輸入圖像格式完全符合ITU-RRec BT601格式,即720x480x30或720x576x25。主級之上為HDTV範圍,基本上為ITU-RRec BT601格式的4倍,其中1440高級(High-1440Level)的圖像寬高比為4:3,格式為1440x1080x30,高級(HighLevel)的圖像寬高比為16:9,格式為1920x1080x30。

在MPEG-2的五個“類”中,較高的“類”意味著採用較多的編碼工具集,對編碼圖像進行更精細的處理,在相同比特率下將得到較好的圖像質量,當然實現的代價也較大。較高類編碼除使用較低類的編碼工具外,還使用了一些較低類沒有使用的附加工具,因此,較高類的解碼器除能解碼用本類方法編碼的圖像外,也能解碼用較低類方法編碼的圖像,即MPEG-2的“類”之間具有後向兼容性。簡單類(SimpleProfile)使用最少的編碼工具。主類(MainProfile)除使用所有簡單類的編碼工具外,還加入了一種雙向預測的方法。信噪比可分級類(SNRScalableProfile)和空間可分級類(SpatiallyScalableProfile)提供了一種多級廣播的方式,將圖像的編碼信息分為基本信息層和一個或多個次要信息層。基本信息層包含對圖像解碼至關重要的信息,解碼器根據基本信息即可進行解碼,但圖像的質量較差。次要信息層中包含圖像的細節。廣播時對基本信息層加以較強的保護,使其具有較強的抗干擾能力。這樣,在距離較近,接收條件較好的情況下,可以同時收到基本信息和次要信息,恢復出高質量的圖像;而在距離較遠,接收條件較差的條件下,仍能收到基本信息,恢復出圖像,不至造成解碼中斷。高級類(HighProfile)實際上套用於比特率更高,要求更高的圖像質量時,此外,前四個類在處理Y,U,V時是逐行順序處理色差信號的,高級類中還提供同時處理色差信號的可能性。

MPEG-2壓縮編碼技術原理MPEG-2壓縮編碼技術原理

目前的標準數位電視採用的是MP@ML主類和主級,而HDTV採用的是MP@HL主類和高級。下面,我們以MP@ML為例來說明一下MPEG-2視頻編碼系統原理及關鍵技術。

編碼碼流

綜述

MPEG-2編碼器MPEG-2編碼器

從上至下依次為:視頻序列層(Sequence),圖像組層(GOP:GroupofPicture),圖像層(Picture),像條層(Slice),宏塊層(MacroBlock)和像塊層(Block)。從圖1中可以看到,除宏塊層和像塊層外,上面四層中都有相應的起始碼(SC:StartCode),可用於因誤碼或其它原因收發兩端失步時,解碼器重新捕捉同步。因此一次失步將至少丟失一個像條的數據。

具體介紹

序列指構成某路節目的圖像序列,序列起始碼後的序列頭中包含了圖像尺寸,寬高比,圖像速率等信息。序列擴展中包含了一些附加數據。為保證能隨時進入圖像序列,序列頭是重複傳送的。

序列層下是圖像組層,一個圖像組由相互間有預測和生成關係的一組I、P、B圖像構成,但頭一幀圖像總是I幀。GOP頭中包含了時間信息。

圖像組層下是圖像層,分為I、P、B三類。PIC頭中包含了圖像編碼的類型和時間參考信息。

圖像層下是像條層,一個像條包括一定數量的宏塊,其順序與掃描順序一致。MP@ML中一個像條必須在同一宏塊行內。

像條層下是宏塊層。MPEG-2中定義了三種宏塊結構:4:2:0宏塊4:2:2宏塊和4:4:4宏塊,分別代表構成一個宏塊的亮度像塊和色差像塊的數量關係。

4:2:0宏塊中包含四個亮度像塊,一個Cb色差像塊和一個Cr色差像塊;4:2:2宏塊中包含四個亮度像塊,二個Cb色差像塊和二個Cr色差像塊;4:4:4宏塊中包含四個亮度像塊,四個Cb色差像塊和四個Cr色差像塊。這三種宏塊結構實際上對應於三種亮度和色度的抽樣方式。

編碼方法

在進行視頻編碼前,分量信號R、G、B被變換為亮度信號Y和色差信號Cb、Cr的形式。4:2:2格式中亮度信號的抽樣頻率為13.5MHz,兩個色差信號的抽樣頻率均為6.75MHz,這樣空間的抽樣結構中亮度信號為每幀720x576樣值,Cb,Cr都為360x576樣值,即每行中每隔一個像素對色差信號抽一次樣,如圖3所示,○代表Y信號的抽樣點,×代表Cb,Cr信號的抽樣點。

4:4:4格式中,亮度和色差信號的抽樣頻率都是13.5MHz,因此空間的抽樣結構中亮度和色差信號都為每幀720x576樣值。而4:2:0格式中,亮度信號的抽樣頻率13.5MHz,空間的抽樣結構中亮度信號為每幀720x576樣值,Cb,Cr都為360x288樣值,即每隔一行對兩個色差信號抽一次樣,每抽樣行中每隔一個像素對兩個色差信號抽一次樣。

通過上述分析不難計算出,4:2:0格式中,每四個Y信號的像塊空間內的Cb,Cr樣值分別構成一個Cb,Cr像塊;4:2:2格式中,每四個Y信號的像塊空間內的Cb,Cr樣值分別構成兩個Cb,Cr像塊;而4:4:4格式中,每四個Y信號的像塊空間內的Cb,Cr樣值分別構成四個Cb,Cr像塊。相應的宏塊結構正是以此基礎構成的。

宏塊層之下是像塊層,像塊是MPEG-2碼流的最底層,是DCT變換的基本單元。MP@ML中一個像塊由8x8個抽樣值構成,同一像塊內的抽樣值必須全部是Y信號樣值,或全部是Cb信號樣值,或全部是Cr信號樣值。另外,像塊也用於表示8x8個抽樣值經DCT變換後所生成的8x8個DCT係數。

在幀內編碼的情況下,編碼圖像僅經過DCT,量化器和比特流編碼器即生成編碼比特流,而不經過預測環處理。DCT直接套用於原始的圖像數據。

在幀間編碼的情況下,原始圖像首先與幀存儲器中的預測圖像進行比較,計算出運動矢量,由此運動矢量和參考幀生成原始圖像的預測圖像。而後,將原始圖像與預測像素差值所生成的差分圖像數據進行DCT變換,再經過量化器和比特流編碼器生成輸出的編碼比特流。

可見,幀內編碼與幀間編碼流程的區別在於是否經過預測環的處理。

關鍵環節

餘弦變換DCT

DCT是一種空間變換,在MPEG-2中DCT以8x8的像塊為單位進行,生成的是8x8的DCT係數數據塊。DCT變換的最大特點是對於一般的圖像都能夠將像塊的能量集中於少數低頻DCT係數上,即生成8x8DCT係數塊中,僅左上角的少量低頻係數數值較大,其餘係數的數值很小,這樣就可能只編碼和傳輸少數係數而不嚴重影響圖像質量。

DCT不能直接對圖像產生壓縮作用,但對圖像的能量具有很好的集中效果,為壓縮打下了基礎。

量化器

量化是針對DCT變換係數進行的,量化過程就是以某個量化步長去除DCT係數。量化步長的大小稱為量化精度,量化步長越小,量化精度就越細,包含的信息越多,但所需的傳輸頻帶越高。不同的DCT變換係數對人類視覺感應的重要性是不同的,因此編碼器根據視覺感應準則,對一個8x8的DCT變換塊中的64個DCT變換係數採用不同的量化精度,以保證儘可能多地包含特定的DCT空間頻率信息,又使量化精度不超過需要。DCT變換係數中,低頻係數對視覺感應的重要性較高,因此分配的量化精度較細;高頻係數對視覺感應的重要性較低,分配的量化精度較粗,通常情況下,一個DCT變換塊中的大多數高頻係數量化後都會變為零。

之型掃描與遊程編碼

DCT變換產生的是一8x8的二維數組,為進行傳輸,還須將其轉換為一維排列方式。有兩種二維到一維的轉換方式,或稱掃描方式:之型掃描(Zig-Zag)和交替掃描,其中之型掃描是最常用的一種。由於經量化後,大多數非零DCT係數集中於8x8二維矩陣的左上角,即低頻分量區,之型掃描後,這些非零DCT係數就集中於一維排列數組的前部,後面跟著長串的量化為零的DCT係數,這些就為遊程編碼創造了條件。

-遊程編碼中,只有非零係數被編碼。一個非零係數的編碼由兩部分組成:前一部分表示非零係數前的連續零係數的數量(稱為遊程),後一部分是那個非零係數。這樣就把之型掃描的優點體現出來了,因為之型掃描在大多數情況下出現連零的機會比較多,遊程編碼的效率就比較高。當一維序列中的後部剩餘的DCT係數都為零時,只要用一個“塊結束”標誌(EOB)來指示,就可結束這一8x8變換塊的編碼,產生的壓縮效果是非常明顯的。

熵編碼

量化僅生成了DCT係數的一種有效的離散表示,實際傳輸前,還須對其進行比特流編碼,產生用於傳輸的數字比特流。簡單的編碼方法是採用定長碼,即每個量化值以同樣數目的比特表示,但這種方法的效率較低。而採用熵編碼可以提高編碼效率。熵編碼是基於編碼信號的統計特性,使得平均比特率下降。遊程和非零係數既可獨立的,也可聯合的作熵編碼。熵編碼中使用較多的一種是霍夫曼編碼,MPEG-2視頻壓縮系統中採用的就是霍夫曼編碼。霍夫曼編碼中,在確定了所有編碼信號的機率後生產一個碼錶,對經常發生的大機率信號分配較少的比特表示,對不常發生的小機率信號分配較多的比特表示,使得整個碼流的平均長度趨於最短。

套用

MPEG-2標準特別適用於廣播質量的數位電視的編碼和傳送,被用於無線數位電視、DVB(Digital Video Broadcasting,數字視頻廣播)、數字衛星電視、DVD(Digital Video Disk,數位化視頻光碟)等技術中。

其他事項

信道快取

由於採用了熵編碼,產生的比特流的速率是變化的,隨著視頻圖像的統計特性變化。但大多數情況下傳輸系統分配的頻帶都是恆定的,因此在編碼比特流進入信道前需設定信道快取。信道快取是一快取器,以變比特率從熵編碼器向里寫入數據,以傳輸系統標稱的恆定比特率向外讀出,送入信道。快取器的大小,或稱容量是設定好的,但編碼器的瞬時輸出比特率常明顯高於或低於傳輸系統的頻帶,這就有可能造成快取器的上溢出或下溢出。因此快取器須帶有控制機制,通過反饋控制壓縮算法,調整編碼器的比特率,使得快取器的寫入數據速率與讀出數據速率趨於平衡。快取器對壓縮算法的控制是通過控制量化器的量化步長實現的,當編碼器的瞬時輸出速率過高,快取器將要上溢時,就使量化步長增大以降低編碼數據速率,當然也相應增大了圖像的損失;當編碼器的瞬時輸出速率過低,快取器將要下溢出時,就使量化步長減小以提高編碼數據速率。

運動估計

MPEG-2 編解碼模型圖MPEG-2 編解碼模型圖

運動估計使用於幀間編碼方式時,通過參考幀圖像產生對被壓縮圖像的估計。運動估計的準確程度對幀間編碼的壓縮效果非常重要。如果估計作的好,那么被壓縮圖像與估計圖像相減後只留下很小的值用於傳輸。運動估計以宏塊為單位進行,計算被壓縮圖像與參考圖像的對應位置上的宏塊間的位置偏移。這種位置偏移是以運動矢量來描述的,一個運動矢量代表水平和垂直兩個方向上的位移。運動估計時,P幀和B幀圖像所使用的參考幀圖像是不同的。P幀圖像使用前面最近解碼的I幀或P幀作參考圖像,稱為前向預測;而B幀圖像使用兩幀圖像作為預測參考,稱為雙向預測,其中一個參考幀在顯示順序上先於編碼幀(前向預測),另一幀在顯示順序上晚於編碼幀(後向預測),B幀的參考幀在任何情況下都是I幀或P幀。

運動補償

利用運動估計算出的運動矢量,將參考幀圖像中的宏塊移至水平和垂直方向上的相對應位置,即可生成對被壓縮圖像的預測。在絕大多數的自然場景中運動都是有序的。因此這種運動補償生成的預測圖像與被壓縮圖像的差分值是很小的。數字圖像質量的主觀評價

主觀評價的條件包括:評價小組結構,觀察距離,測試圖像,環境照度和背景色調等。評價小組由一定人數觀察人員構成,其中專業人員與非專業人員各占一定比例。觀察距離為顯示器對角線尺寸的3-6倍。測試圖像有若干具有一定圖像細節和運動的圖像序列構成。主觀評價反映的是許多人對圖像質量統計評價的平均值。

MPEG-2相關專業術語:

1. MPEG-2 over ATM ATM 網傳輸的 MPEG-2 [數據]
2. MPEG-2 layer 3 (MP3) 移動圖像專家組標準2第3層,MP3
3. motion Picture Experts Group 2 ( MPEG-2 ) 活動圖象專家組規範2
4. MPEG version 2 MPEG(活動圖像專家組)標準版本2
5. MPEG-2 Layer 3 MPEG(活動圖像專家組)標準-2 第三層

視頻檔案格式

視頻格式 簡介
MPEG/MPG/DAT Motion Picture Experts Group 的縮寫,包括了MPEG-1,MPEG-2MPEG-4在內的多種視頻格式。其中MPEG-4 Part 14即為MP4格式。
AVI Audio Video Interleaved的縮寫,由微軟發表的視頻格式,調用方便、圖像質量好,壓縮標準可任意選擇,是套用最廣泛、也是套用時間最長的格式之一。
MOV Quick-Time的數字視頻格式,QuickTime是Apple公司用於Mac計算機上的一種圖像視頻處理軟體。
ASF Advanced Streaming format的縮寫,是微軟為了和Real player 競爭而發展出來的一種可以直接在網上觀看視頻節目的檔案壓縮格式,它的圖像質量比VCD 差一點點,但比同是視頻“流”格式的RAM 格式要好。
WMV 一種獨立於編碼方式的在Internet上實時傳播多媒體的技術標準,WMV的主要優點在於:可擴充的媒體類型、本地或網路回放、可伸縮的媒體類型、流的優先權化、多語言支持、擴展性等。
NAVI nAVI是New AVI 的縮寫,是一個名為Shadow Realm 的地下組織發展起來的一種新視頻格式,它是由ASF壓縮算法的修改而來的。
3GP 3GP是一種3G流媒體的視頻編碼格式,主要是為了配合3G網路的高傳輸速度而開發的,是手機中最為常見的一種視頻格式。
REAL VIDEO REAL VIDEO(RA、RAM)格式由一開始就是定位在視頻流套用方面的,也可以說是視頻流技術的始創者。它可以在用56K MODEM 撥接的條件實現不間斷的視頻播放,當然,其圖像質量和MPEG2、DIVX等相比要差不少。
MKV MKV是一種全稱為Matroska的新型多媒體封裝格式在一個檔案中集成多條不同類型的音軌和字幕軌,可以是常見的DivX、XviD、3IVX,甚至可以是RealVideo、QuickTime、WMV 這類流式視頻。
FLV FLV是FLASH VIDEO的簡稱,是一種新的視頻格式。由於它形成的檔案極小、載入速度極快,使得網路觀看視頻檔案成為可能,它的出現有效地解決了視頻檔案導入Flash後,使導出的SWF檔案體積龐大,不能在網路上很好的使用等缺點。
F4V F4V是Adobe公司為了迎接高清時代而推出繼FLV格式後的支持H.264的F4V流媒體格式F4V和FLV在同等體積的前提下,能夠實現更高的解析度,並支持更高比特率,就是我們所說的更清晰流暢。
RMVB RMVB的前身為RM格式,它們是Real Networks公司所制定的音頻視頻壓縮規範,根據不同的網路傳輸速率,而制定出不同的壓縮比率,從而實現在低速率的網路上進行影像數據實時傳送和播放,具有體積小,畫質也還不錯的優點。
WebM Google提出,是一個開放、免費的媒體檔案格式。WebM 影片格式其實是以 Matroska(即 MKV)容器格式為基礎開發的新容器格式,裡面包括了 VP8 影片軌和 Ogg Vorbis 音軌。

熱門詞條

聯絡我們