H.320會議電視系統基本結構
ITU-T H.320標準集(亦稱為 p×64標準)主要用於在ISDN線路中用56kbit/s至2Mbit/s傳送速率的會議電視系統。該系列建議於1990年推出,1996年5月批准。現已成為在ISDN上傳輸會議電視系統的主要標準。
圖1為採用H.320建議的會議電視系統基本結構圖。
H.320建議涉及到以下一系列建議:
· 視頻編解碼器採用H.261建議,建議定義了 p×64kbit/s視頻編解碼器的實現。
· 音頻編解碼器採用G.711、G.722及G.728等建議。
· 數據傳送採用T系列(T.120)等建議。
· 多路復用及解復用器採用H.221建議,建議規定了64~1920kbit/s信道復用的幀結構。
· 系統控制中端至端的信令控制與接口採用H.242等建議,建議定義了兩個終端之間建立通信的過程與協定。
端至網信令及網路接口採用ISDN系列I.400建議。
其他建議還有:
· H.230建議是有關幀同步的控制和指示信號的具體內容。
· H.243和H.231建議是有關多點會議電視網中MCU的建議。
· H.233建議是有關視聽信息加密方面的建議。
· H.224是有關利用數字信道進行單工實時控制的建議。
· H.280是有關遠端攝像機遙控的建議。
從圖1可以看出,輸入輸出信源有視頻、音頻及數據(包括計算機數據)等三種,而在傳輸的碼流中,除上述三種碼流外,還要加上控制信令的碼流。在視頻通道中,輸入設備為攝像機等視頻信源設備,視頻信號經過A/D變換、彩色信號解碼、格式變換及濾波處理後送入H.261視頻信源編碼器,經信源壓縮編碼後組成視頻碼流。而從接收終端傳送來的信號經解復用後的視頻碼流經H.261視頻解碼器,恢復成數字視頻信號,再經格式變換、彩色信號編碼及D/A變換後由圖像監視器顯示。在音頻通道中,音頻輸入信號經拾音器、A/D及音頻處理後經音頻編碼(G.711、G.722、G.728等算法)後組成音頻碼流。接收到的音頻碼流經音頻解碼、音頻後處理及D/A變換後送至揚聲器。音頻通道中的延遲單元補償視頻編解碼器的延遲,以保持圖像與聲音的同步。數據通道提供外部數據、電子白板及傳真媒體的接入,可傳送計算機數據、檔案及靜態圖像等,亦可傳送控制其他終端的攝像機運行狀態及報警信息等數據。系統控制單元執行兩種功能,即通過端到網路信令訪問網路,通過端到端信令實現端到端控制,建立公共操作模式,通知終端作某種操作。
會議電視終端的信號輸入與輸出
視頻信號輸入與輸出
會議電視室內一般使用攝像機產生視頻信號,除了光電導攝像機外,目前使用最多的是CCD攝像機。攝像機可分為廣播級、業務級及家用級三種。對於大型的團組型會議電視系統應選用廣播級或業務級攝像機,而桌面會議電視系統則可採用業務級或家用級攝像機。攝像機的選用應考慮視頻信號失真大小、清晰度高低、彩色逼真程度、噪聲大小及光靈敏度(小於20lx)等指標來進行選擇。除了CCD外,還有CMOS圖像感測器的攝像頭。
在大型會議室內,可設定多台攝像機,主攝像機裝在主顯示器頂部,用來拍攝會場的重要人物和內容。輔助攝像機安裝在會議室的另一個地方,可拍攝會場全景或其他場面。也可以設定一台高精度的文字攝像機或實物投影儀,用來拍攝檔案或圖片。
會議電視編解碼器的視頻信號輸入,可來自多個攝像機的視頻信號輸入。除了攝像機輸入以外,錄像機、磁帶機、光碟機等都可提供視頻信號輸入,但這些設備輸出的必須是標準的複合視頻信號或S-Video信號。通過控制臺,用戶可以採用視頻切換台選擇某路視頻信號的輸入。視頻切換台實際上是一種多路模擬視頻切換開關(若輸入的是數位電視信號,則應選用數字視頻切換台),由用戶控制信號進行選擇,將所需要的視頻信號送入視頻編解碼器。
經過壓縮解碼的數字圖像信號,經D/A變換、視頻編碼後,形成模擬視頻信號。可以輸出PAL制的視頻,也可以輸出NTSC制的視頻。視頻信號的形式可以是複合視頻信號,或S-Video信號或YUV、RGB等形式的分量視頻信號。這樣的視頻信號可以直接送到彩色監視器或電視機的視頻接口上顯示彩色活動的會場圖像。
圖像輸出顯示可使用一台監視器顯示會議的一個主會場。也可使用多台監視器,顯示多個會場的場景,顯示主會議場景的監視器叫做主監視器。除了主監視器外,還有輔助監視器,如可用來顯示正在傳送的本地會場圖像的本地監視器及用來顯示對方檔案攝像機送來的靜止圖像的監視器等。在會議室型的會議電視系統中,一般採用大螢幕(29英寸到34英寸)高清晰度專用彩色監視器。
對於桌面會議電視系統,打開計算機顯示器上的視窗,就能收看到對方會場的活動圖像,視窗尺寸和位置可隨意調整。還可以設定自監視窗,審視自己送出去的圖像;設定靜止圖像顯示視窗,專門用於觀察對方送來的靜止圖像、檔案等。
在會議電視的現場圖像輸出的同時,還可疊加上其他控制或指示信號的文字說明,如會場名稱、會議狀態、控制動作名稱等。這些文字信息的輸出,特別是中文信息的輸出,有助於與會者對會議內容和會議過程的了解,與會者對會場所發出的控制信號也能夠一目了然。
音頻信號輸入與輸出
在會議電視系統中,音頻傳輸質量很重要。即使沒有圖像或在圖像質量較差,甚至不連續時,只要能保持語音信息的暢通,通信就可以繼續進行下去。
語音是通過拾音器輸入的。拾音器有動圈式、電容式和駐極體等多種類型。從傳聲質量指標來看,動圈式拾音器最好;從靈敏度的指標來看,駐極體最好;而電容式的指標居中間。由於會議電視傳送的多為窄帶語音信號,因此採用電容式拾音器就可以了。電容式拾音器的頻響範圍一般為100Hz~13kHz,靈敏度為-50dB左右,輸出阻抗為2kΩ左右,並具有一定的指向特性。所謂指向特性就是指拾音器在各個方向上靈敏度的差異程度。指向性好,可使發言者音量放大,而抑制其他方向來的噪聲干擾信號。在會議室系統中,需要安排多個不同位置的拾音器以供不同的發言者使用。多個拾音器的音頻輸出必須經過音頻混合器,然後送到編碼器經壓縮編碼再傳輸出去,這一任務可由外加的多路模擬音頻混合器完成。在桌面型系統中,駐極體拾音器很合適,靈敏度高,價格低廉,但這是一種輸出阻抗比較高的拾音器。
經解碼器輸出的數字音頻,由D/A變換、音頻功率放大後,成為模擬音頻信號,直接推動喇叭發出聲音。
在本地會場中,拾音器和揚聲器里的解碼輸出語音同處於一個會議室空間,揚聲器中發出的聲音不可避免地會竄到麥克風中。麥克風將這種混合聲音傳送出,使對方好像聽到了自己的“回聲”,影響開會效果。因此在音頻編解碼器前面必須設定一個回聲抑制器,將竄進拾音器的揚聲器的干擾聲消除。因為揚聲器中的聲音是已知的,只要將它反相,取恰當的幅度和時延,然後與拾音器產生的信號相減,就可抵消竄進拾音器的揚聲器的干擾聲,達到回聲抑制的目的。故回聲抑制器,本質上是一個減法器,一般可用數字濾波器實現。
數據信號輸入與輸出
會議電視中數據通道常用來傳輸電子白板、靜止圖像、計算機數據、控制信號等不同種類的數據信號。數據傳輸主要使用H.221建議所定義的低速數據信道(LSD)、高速數據信道(HSD)和多層協定數據信道(MLP)。LSD信道採用H.221的BAS碼所規定的數據格式。MLP信道是H.221所規定的數據通道之一,在該信道上可運行H.224和/或T.120系列建議,它具有某些LSD信道不具備的優點。在一般情況下,數據設備可通過RS232接口和會議電視終端設備連線。
視頻編碼
視頻編碼的主要任務是按H.261會議電視壓縮編碼標準對輸入的數字視頻信號經過壓縮編碼產生H.261碼流。由於可視電話及會議電視業務的需要,CCITT第15研究組在1984年通過了數字基群電視會議編碼標準H.120和H.130建議。在H.120的基礎上,1984年CCITT成立了“可視電話編碼專家組”,並在1988年通過了“ p×64kbit/s( p=1,2,…,30)”視聲服務用的視像編碼標準H.261建議。它是面向通信的新一代視頻編碼方案。
H.261的圖像格式
考慮到可視電話及會議電視通過ISDN在國際間傳輸,必須解決525/30及625/25兩種不同電視制式國家間掃描行數及幀頻的不同而進行轉換的問題。CCITT專家組為H.261找到了一種中間共用格式(CIF,Common Intermediate Format)和四分之一中間共用格式(QCIF,Quarter CIF)。QCIF的行數及像素數均為CIF格式的一半。 CIF格式的亮度信號為352像素×288行,色差信號為176像素×144行,而QCIF格式亮度信號為176像素×144行,色差信號為88像素×72行。這兩種格式都便於與不同電視制式之間的相互轉換。當通信雙方使用不同格式時,規定用速率較低者使用的格式進行通信。
H.261是主要用於在綜合業務數字網(ISDN)上進行可視電話與會議電視傳輸的編碼標準,它又稱 p×64kbit/s標準。當 p=1或2(即碼率為64kbit/s或128 kbit/s)時只支持QCIF格式,每秒幀頻較低的可視電話通信(主要用於傳送人頭和半身像,顯示器小於775px)在64 kbit/s碼率時一般圖像用40kbit/s,餘下16kbit/s給語音。音頻信號按建議G.722模式2編碼,它與控制及標誌信息合併,然後在符合建議H.221“可視音頻電信業務中64kbit/s通道的幀結構”的一個64kbit/s時隙中傳送。在128kbit/s碼率時語音可考慮為16~64kbit/s,相應地圖像編碼為112~64kbit/s。時軸解析度為10~15幀/秒,編碼單程最大時延為250ms,要考慮畫面中嘴唇和話音的同步。當 p≥6時則可支持CIF圖像格式(30幀/秒)的會議電視(要考慮傳送並排坐的三人像或者分螢幕後的六人像)。
對於CIF格式,一幅圖像的有效像素點按幾何位置分為12個塊組(GOB,Group of Block),每個塊組含33個宏塊(MB,Macro Block),每個宏塊包含4個亮度塊(B:,Block)及Cr、Cb色度塊各1個,每個塊由行、列各為8個像素的64個像素組成。
這兩種格式的最大幀頻為每秒30幀(實際為每秒29.97幀)。當每像素為8bit時,CIF及QCIF格式的碼率分別為36.5Mbit/s和9.1Mbit/s,這樣高的碼率要在ISDN信道64kbit/s至2.048Mbit/s上傳輸,需進行高壓縮比的視頻壓縮編碼。
視頻編解碼結構框圖
圖2示出了H.261視頻編解碼器框圖。圖中視頻信源編碼器輸入為CIF或QCIF格式的數字圖像。若輸入的是複合的PAL或NTSC信號,則先經過彩色解碼器,解出模擬Y、Cr、Cb或R、G、B信號,然後經A/D變換為數字的Y、Cr、Cb或R、G、B信號,又經過數字變換轉變為CIF或QCIF格式的圖像信號。
視頻信源編碼器主要完成DCT、量化、運動補償幀間預測編碼等功能。視頻複合編碼器將每幀圖像數據編排成四層次的數據結構,並在各層次中插入各種輔助數據,以便於解碼端解碼,同時對直流DCT係數進行固定字長編碼(FLC),對交流DCT係數進行可變長度編碼(VLC)。傳輸緩衝器是一種存儲量決定於使用碼率的存儲器,當圖像內容變化而使碼率變化時,通過圖中左上角的編碼控制改變信源編碼器的量化步長,實現碼率的自動控制,儘可能保持輸出碼流恆定,同時將步長輔助數據送到圖像複合編碼器供解碼時使用。傳輸編碼器主要功能是插入BCH前向糾錯碼,以使解碼端能檢測和糾正傳輸造成的誤碼,並插入同步碼,使解碼器正常工作。視頻編碼器所輸出的H.261碼流與來自音頻編碼器的碼流及其他數據、控制信號在復用電路中合成一路串列數據流經ISDN信道傳輸出去。
接收端接收來自ISDN信道的復用信號後,通過解復用取出視頻碼流輸出至視頻解碼器,經傳輸解碼、接收緩衝、視頻複合解碼及視頻信源解碼後恢復出CIF或QCIF格式的圖像信號。
傳輸快取器與編碼控制
由於場景變化、運動部分大小不同以及可變長編碼等原因,使輸出到複合編碼器的數據量是隨時間變化的。而在信道上應實現恆定的傳輸速度,這就必須要設定緩衝存儲器以實現數據流的平滑。為使輸出的數據保持為一個恆定的速率,可採用傳輸快取器控制和自適應量化策略,通過調整幀亞抽樣率,改變數化級、調整刷新速率等方法合理分配每個輸出比特,使快取器達到一種動態平衡,從而提高圖像質量,並減小系統延遲。
按H.261建議,快取器的容量B應滿足下式:
B≥4 R/ f+256kbit
式中: R為信道速率, f為幀頻。對於會議電視,若 R取ISDN的上限(2.048Mbit/s), f取30幀/秒,則 B≥(4×2048/30+256)kbit=529kbit或66.1kByte,可取 B為96kByte的快取總容量。而在可視電話中,若 R取128kbit/s, f取10幀/秒,則 B≥(4×128/10+256)kbit=307.2kbit或38.4kByte,可取B為48kByte的快取總容量。H.261對速率控制方法沒有作詳細規定,開發者可自行設計。下面進一步分析編碼控制策略與刷新機制。
(1)基於傳輸快取器占有率的編碼控制策略
設編碼器的傳輸快取器內可存放的圖像的最大幀數為 F,傳輸快取器輸出碼率為信道速率 R,而傳輸快取器輸入的瞬時碼率為 V,若系統工作的幀頻率為 f,(或幀周期 T=1/ f)。在正常工作時應保證傳輸快取器不產生上溢和下溢。設編碼器傳輸快取器的上溢門限 B為 nRT( n為幀數,一般取2< n≤ F),下溢門限 B為 RT。若系統工作幀頻 f=25Hz,快取器存放最大幀數 F=6幀,此時編碼器的延時可控制在 τ= F/ f,約在0.24s以內,再加上解碼器快取器的延時,總延時可控制在0.5s以內。
傳輸快取器的占有率可定義為 γ= B/ B,其中 B為編碼器在第 i幀工作時的快取器絕對容量(即快取器中所存儲的位元組數)。由於編碼器的輸出速率是變化的,因此可採用量化級自適應控制策略,當快取器占有率高時增大量化步長,反之減少量化步長,使傳輸快取器達到動態平衡,這樣快取器可以在輸出恆定碼率的同時不產生上溢和下溢。在輸入編碼數據特多或特少時,可用丟幀來防止上溢,用填充比特來防止下溢。圖3畫出了傳輸快取器占有率 γ及量化步長之間關係的碼率控制曲線。曲線中間有很大的線性區域,在傳輸快取器工作時,工作點就在此線性區域上。線性區域的中點附近(如 γ=40%~60%時)可視為平衡區。當工作點工作在60%至90%時為上溢動態區,此時應增加量化步長,使快取器占有率回到平衡區;相反,當工作點工作在10%至40%時為下溢動態區,此時應減小量化步長,同樣使快取器占有率回到平衡區。當快取器工作在平衡區時,可認為快取器已處於一個動態平衡狀態。
除了檢測快取器占有率自適應調整量化電平外,還可檢測輸入碼流速度 V和輸出恆定碼流速度 R之間的關係來調整量化電平。若令快取器碼流輸入速度與輸出速度之比為 K= V/ R,則當 K=1時,說明輸入輸出碼流處於平衡狀態。當 K<1時,表明編解碼器輸出的碼率小,說明圖像處於緩變或靜止部分,而人的視覺特性對緩變部分的失真比較敏感,故減小量化步長。相反當 K>1時,說明圖像處於劇變部分,人的視覺特性對突變部分不敏感,故可增加量化步長。
當快取占有率已接近上限或下限時,已很難再靠改變數化步長使快取器達到平衡。當快取器占有率達到上限時,採用跳幀(或丟幀)的方法,使快取器占有率回到平衡狀態。當快取器占有率達到下限時,可以用填零的方法來平衡數碼流。
在H.261建議中,由幀內模式來實現強制刷新功能,以避免編碼器誤差的積累。強制刷新的最小速率取為 V=3宏塊/幀。根據信道傳輸速率 R的不同,相應的刷新速率也不同,在 R大時允許較大的刷新速率,而 R小時應相應減小刷新速率。在傳輸速率 R不變時,根據傳輸快取器的占有率的不同亦可相應改變每幀的刷新速率。在快取器占有率允許的條件下提高刷新速率,可以提高系統的抗誤碼能力,且通過刷新速率的調整可以自適應地調節快取器占有率,有利於進一步提高圖像質量。
(2)編碼器的刷新機制
為控制編碼器因誤碼等所引起的誤差積累,必須定期進行強制刷新,即在傳送幾幀幀間編碼的圖像後用一幀幀內編碼的圖像數據對快取器進行刷新。按照圖像質量的要求,刷新周期越短,編碼量化引起的誤差、傳輸誤碼以及DCT反變換的累積誤差越能儘快地消除。但強制刷新期間,數據量大增,容易使快取器溢出,故刷新周期不能太短。實驗證明,刷新周期為31幀是合適的。刷新時可按一幀碼流傳送順序依次進行刷新,即從GOB1到GOB12,每個GOB中從MB1到MB33逐個刷新。這種方法容易用硬體實現,缺點是會在短時間內引起編碼數據輸出的劇增,這樣為了平衡碼流,勢必加大量化步長,使圖像質量下降,人們可覺察到整屏圖像的閃爍。
可以以MB為單位進行刷新,把刷新宏塊均勻分散到一幀中去,這樣不會引起大量數據劇增。若傳送31個MB刷新1個MB,則每一CIF幀共有396個MB。可以證明,當傳送31幀後保證每一個MB均可被刷新一次。實際上任何質數均可作為刷新計數周期。
還可以以GOB為單位進行刷新,此時數據的不均勻性及圖像質量均介於前兩種方法之間,實現起來也容易。
H.261視頻編解碼系統
H.261視頻編解碼系統可以用專用的集成晶片組構成,美國的C-CUBE公司、LSI-Logic公司,英國的GEC公司等均有成套晶片生產。下面介紹英國GEC PLESSY公司生產的H.261集成晶片組。
圖4為H.261視頻編解碼系統的方框圖。該系統主要採用了英國GEC公司的H.261專用晶片 VP261及VP520,視頻A/D及D/A變換、信道編碼及解碼採用了美國BrookTree公司的產品,而系統總控採用了TI公司的高速數字處理晶片TMS320C25,控制邏輯產生則採用了Altera公司的PLD晶片EPM7128E。
圖4(a)為H.261的視頻編碼系統,輸入的是PAL或NTSC的模擬電視信號,該系統中採用了BT819A電視信號A/D變換及彩色解碼積體電路,其輸出為符合CCIR601標準的4∶2∶2、720×576的YUV格式的數字視頻信號。該數字視頻信號經VP520圖像格式轉換積體電路完成從CCIR601至CIF或QCIF格式的轉換。通過設定VP520的控制暫存器和濾波暫存器組,也可實現CIF或QCIF至CCIR601的圖像格式轉換。該積體電路能對輸入輸出圖像作濾波處理,從而可減弱方塊效應。完成圖像格式轉換後的CIF或QCIF數字圖像信號進入視頻信源編碼器VP2611,完成視頻信源編碼及編碼控制等功能。視頻信源編碼後的量化變換係數及其他各種數據進入VP2612視頻複合編碼器,並經BT8510信道編碼器,輸出經BCH(511,493)糾錯編碼的H.261碼流進入ISDN信道或其他各種信道。
圖4(b)為H.261的視頻解碼系統。經由ISDN等信道來的H.261碼流,經BT8510信道解碼器、VP2614視頻複合解碼器及VP2615視頻信源解碼器完成視頻解碼,輸出解碼後的CIF或QCIF數字圖像,最後經VP520格式轉換積體電路轉換成CCIR601數字圖像,並經BT851彩色電視編碼的D/A變換輸出PAL或NTSC模擬電視信號。
系統總控由TMS320C25完成,而各種邏輯控制信號則由PLD集成EPM7128E完成,EPM7128中有128個D型觸發器及2500個有效門,可通過編程產生各種要求的邏輯控制信號。
音頻編碼
音頻壓縮編碼採用表42.1中G.711、G.722、G.728三種標準。要求任何一種會議電視設備均應有G.711的編解碼能力,H.320終端亦應有G.722及G.728的編解碼能力。
圖5是G.711編解碼方框圖。編碼時,模擬音頻輸入經放大、阻抗匹配及低通濾波後,進入A/D變換器,若語音頻寬為300~3400Hz,則抽樣頻率為8kHz,量化精度為14bit。數字音頻信號經µ律或A律壓縮,產生PCM信號,並進行並/串變換,線上路時鐘2.048Mbit/s和時隙時鐘的共同作用下,輸出串列的PCM信號,其碼率為64kbit/s,即一路數字話音的速率。圖5(b)為解碼方框圖,輸入串列PCM信號先變換為並行信號,再經過D/A及低通濾波器後輸出模擬音頻信號。
G.711屬於波形壓縮編碼方法。和圖像壓縮編碼不同的是,音頻壓縮編碼的輸出碼率是固定的,如G.711編碼輸出為64kbit/s,而G.728編碼輸出為16kbit/s,因此語音壓縮編碼不需要緩衝存儲及碼率控制。
在音頻編碼中還需考慮圖像與聲音的同步,因圖像編碼算法複雜,所需時間長,延遲大,故音頻編碼器必須加以延遲,才能保持圖像與聲音的同步關係,即所謂唇音同步。回聲抑制也是音頻編碼器所要解決的問題。
信道復用技術
H.221幀結構
H.320會議電視系統中,視頻、音頻、數據及控制碼流將按時分復用的方式傳送到信道上,H.221建議就是有關時分復用的幀結構的建議。H.221的幀結構是以PCM基群幀結構為基礎的。一個PCM基群幀共125µs,一秒鐘共有8000幀,而每一幀共有32個時隙,從時隙0至時隙31,每個時隙可傳送8bit信息,則每一個時隙每秒鐘可傳送64kbit信息,或一個時隙的信息容量為64kbit/s,這就是通常所說的一個數字話路的信息容量。其中第0號與第16號時隙保留給PCM系統使用。其餘各個時隙可按H.221建議的方法以不同的組合供不同速率的會議電視使用。在H.221幀結構中,可分配 p個時隙給會議電視使用,根據會議電視頻寬要求, p可以取1、2……30,則會議電視的碼流為 p×64kbit/s。若使用 p個時隙傳送會議電視信號,則一般將第一個時隙作為起始時隙,或稱起始通道(I通道),它是一個包含SC(公務子信道)的B(64kbit/s)通道。
圖6中對應於時隙T1的是一個I通道的8bit組。連續80個PCM幀中的T1時隙,組成了一個H.221幀。每兩幀組成一個H.221的子復幀,這兩幀分別為奇幀與偶幀。8個子復幀組成一個H.221復幀。每個時隙的8位中的任一位均組成了一個子信道,如子信道1、……、子信道8。子信道1到子信道7可作為視頻、音頻或數據的承載信道。第8個子信道用來作為公務信道(SC),主要用來承載端到端信令。第8子信道中(即第8數據位所在的信道)從1至8個PCM幀構成的8bit信號為幀定位信號(FAS,Frame Alignment Signal),9至16個PCM幀構成的8bit信號為比特率分配信號(BAS,Bit-rate Allocation Signal),而17至24個PCM幀構成的8bit信號為加密控制信號(ECS,Encryption Control Signal)。SC信道中除FAS、BAS、ECS所占24bit外,其餘56bit又稱為輔助數據信道(AC,Auxiliary Channel)。它可用於攜帶用戶的遠程數據信息或遙控信息,不用時也可以被其他信號(如圖像或語音)占用。
由此看來,H.221的幀結構是一種二維的幀結構,由於SC信道只占用每一PCM幀中的1bit(而且還不是每一幀都有,80幀中只占16或24bit),FAS和BAS碼字只占總傳輸碼字的2.5%,因此這種同步系統的效率很高,工作非常穩定。
FAS、BAS和ECS信號
FAS、BAS、ECS三個8bit信號決定了會議電視系統的各種同步、控制和加密信息。
FAS:位於SC信道的第1~8比特位的FAS是H.221幀同步字(FAW)及其CRC糾錯碼,接收端就按碼流中的FAS信息來保持會議電視信號同步。如表1所示,FAS中除了包括幀同步信號外,還包括復幀同步等信號。幀同步字(FAW)位於奇幀中FAS的比特2到比特8和偶幀中FAS的比特2,其值為00110111。
表1 SC信道中FAS的比特安排
比特位 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
奇幀 | * | 0 | 0 | 1 | 1 | 0 | 1 | 1 |
偶幀 | * | 1 | A | E | C1 | C2 | C3 | C4 |
*:有關復幀同步方面的信息
A:對端復幀同步、失步告警比特
E:信道誤碼指示,由CRC計算給出
C1、C2、C3、C4:為4位CRC校驗碼,用於檢測信道質量
② BAS:位於SC信道的第9~16比特的BAS表示終端間通信的能力碼和命令碼,是會議電視帶內信令的承載通道。在通信初始化過程中,終端將自己的傳輸速率、視頻編碼標準、音頻編碼標準等參數(能力集)通過BAS的8bit編碼通知對方。在會議電視中,終端之間的通信控制主要依靠BAS碼來傳送,所以對BAS的傳輸可靠性要求很高,在H.221中除了一般採用多次重傳外還規定BAS碼的傳輸採用(16,8)雙糾錯編碼,該糾錯編碼是循環碼(17,9)的縮短碼。
H.221偶數幀中8個比特為BAS,見表2,在BAS中的前3位比特b、b和b可表示八類能力(有兩類尚未定義),BAS的後5位b~b,則表示該類能力的具體數值。如一個000 00100的BAS碼,前面的bbb=000表示音頻能力類,後面的b~b=00100表示該音頻為PCM編碼方式的µ律G.711標準。全部的BAS碼的含義可在H.221標準的附錄中查到。起糾錯作用的8個比特安排在奇數幀中。
表2 BAS碼的能力表示
bbb | 能 力 | bbb | 能 力 |
000 | 音頻能力 | 100 | 音頻性能和傳輸速率 |
001 | 速率 | 101 | 視頻、加密和多點能力 |
010 | 視頻、加密和其他 | 110 | 保留 |
011 | 數據(LSD/MLP) | 111 | 換碼 |
③ ECS:位於SC信道的第17~24比特的ECS可用於傳送控制信息給解密單元,以便對方完成對加密數據的解密。除此外,還可傳送初始向量,用於數據加密與解密的同步。如不用加密信息,ECS的位置可安排傳送其他信息。
同步的建立
依靠8kHz FAS的幀同步字來建立H.221幀結構的同步。接收端不斷地檢測所收到的複合數據碼流中的SC信道里的內容,此時處在同步搜尋狀態。如果第一次檢測到的7個比特為0011011,在接下來的FAS位置上,檢測到的7個比特仍為0011011,則認為幀定位已找到,即進入同步狀態。如果連續三次收到FAS有錯,則認為幀同步已丟失或曾中斷,發出失步警告並重新進入同步搜尋狀態。
不同傳輸速率的時隙安排
H.320會議電視系統的傳輸速率為 p×64kbit/s, p可以取1到30,不同的 p值就形成各種不同的傳輸速率。在實際的碼流傳輸中,不但有傳輸速率的不同,而且碼流結構還分為單模方式和多模方式兩種。
(1)單模方式:在這種模式中只有一個包含FAS和BAS的SC信道,如單B、單H、單H/H或任何其他速率的單H模式。
若 p=1,即為單B通道,傳輸速率為64kbit/s,可在TSl中以I信道的方式傳輸。
若 p=6,即為單H信道,傳輸速率為384kbit/s,可選用時隙1、2、3、17、18和19來傳送,只需將TSl定義成I信道。
若 p=24,則為傳輸速率1536kbit/s的單H信道(T1)。
若 p=30,則為傳輸速率1920kbit/s的單H信道(E1)。除TS0和TSl6以外的30個時隙都用於傳輸圖像、語音和數據信息,其中可將TSl安排為I信道。
若 p為其他數,即為傳輸速率 p×64kbit/s的單H信道。
儘管在會議電視中可以有很多不同的傳輸速率,但在實用中,用得最多的是 p=1、 p=2、 p=6、 p=12、 p=24和 p=30這幾種。
(2)多模方式:這種模式包含 n個B或 n個H,即 n×B或 n×H個信道。在它的幀結構中,每個B或H中都包含一個FAS和BAS信道。在多模方式中同時存在I信道(初始信道)和X信道(附加信道),I信道是指第一個B或H信道,其餘的B或H信道叫做X信道。
在會議電視中還有一種不帶幀結構的模式叫未定幀模式,它是一種輸出G.711(64kbit/s)音頻的OU模式,主要用於終端通過電話線進行初始呼叫連線或用於強制O模式。
通信控制和指示
在H.320系統中,H.230建議是傳送幀同步控制和指示信號的一個建議。由於會議電視是在不同的數字通信網上傳輸的,因而在會議電視終端之間有兩類控制信號,即所謂帶內信令和帶外信令。帶外信令就是數字傳輸網路本身為了正常工作而設定的控制和指示信號。如PCM基群數字信道中時隙0和時隙16中的內容就屬於帶外信令,是為網路傳輸系統的管理和控制所設定的,帶外信令的作用請參閱有關網路的規定。而和會議電視有關的控制和指示信號統稱之為帶內信令。帶內信令又分成端到端信令和端到網路信令兩部分。端到網路信令主要用於用戶和網路接口之間的相互通信,體現用戶對網路接口的控制。而端到端信令就是會議電視終端之間的同步控制信號(C)和各種指示信號(I)。H.230建議規範了這一部分信令。
通常將控制和指示信號簡寫為C&I。控制信號可以控制接收設備改變其工作狀態,引起終端工作狀態的變更。指示信號則是將該系統或終端的狀態顯示給用戶看,不產生工作狀態的改變。大部分端到端之間的C&I信號位於會議電視H.221複合碼流的初始信道的SC中,確切地講在初始時隙(起始通道)的第8比特的BAS碼中。提供C&I的方法有兩種,一種是某些幀同步的C&I信號直接由H.221建議中的BAS代碼方式提供,另一種則要求使用表2的最後一行BAS的換碼錶示。這一類C&I代碼用兩個相繼的H.221子復幀進行傳輸,在第一個子復幀的BAS位置傳送代碼(111)[10001],在第二個子復幀中傳送H.230定義的C&I代碼。C&I代碼名稱可以用三個英文字母表示,第一個字母表示代碼名稱的類別,如A表示和音頻有關的信號,V表示和視頻有關的信號等。第二個字母用C或I表示,C表示控制信息,I則表示指示信息。第三個字母表示具體的功能。
C&I信號很多,會議電視系統正是通過這樣一些C&I來維持各種功能的正常進行。C&I信號可分為與視頻有關、與多點控制單元有關、與維護有關及與終端有關等各種類型。常用的C&I信號的主要功能列在表3中。
與視頻有關的C&I信號,如表示視頻“圖像凍結請求”的控制信號VCF,多點控制器在視頻切換之前傳送這個命令,終端解碼器一旦收到這個命令,它應完成當前視頻幀的刷新,隨即顯示凍結圖像,直到收到“圖像凍結釋放”控制信號為止。
用於維護的C&I信號,如表示“視頻環回請求”的控制信號LCV,一旦終端收到這個信號,必須將其視頻解碼器輸出連線到它的視頻編碼器的輸入。
與多點會議有關的C&I(不使用MLP),如指示信號MIV,它由MCU發給某一終端,使其知道其他終端正在收看它的視頻信號(亦稱“正在播放”指示)。再如控制信號MCC(“多點會議”命令),也是由MCU發給某一終端。接收到MCC的終端必須使其輸出的傳輸速率等於它輸入的傳輸速率,而其音頻輸出速率則等於它的音頻輸入速率。與多點會議相關的C&I,還可以採用BAS碼的單位元組擴展(SBE)或多位元組擴展(MBE)符號方式表示。
表3 C&I信號的主要功能
分類 | C&I信號 | C/I | 信源 | 信宿 | 與圖像同步 | 傳送信道 |
視頻 | 圖像格式 | I | 解碼器 | 編碼器 | 否 | BAS |
圖像格式 | C | 編碼器 | 解碼器 | 是 | 視頻碼流 | |
圖像凍結請求(VCF) | C | 編碼器/MCU | 解碼器 | 否 | BAS | |
快速更新請求(VCU) | C | 解碼器/MCU | 編碼器 | 否 | BAS | |
圖像凍結釋放 | C | 編碼器 | 解碼器 | 是 | 視頻碼流 | |
MCU | 多點指示會議MCC/取消MCC | C | MCU | 終端 | 否 | BAS |
多點數據對稱傳輸(MCS) | C | MCU | 終端 | 否 | BAS | |
多點數據對稱傳輸關閉MCN | C | MCU | 終端 | 否 | BAS | |
維護 | 音頻環回請求(LCA) | C | 終端 | 終端 | 否 | BAS |
視頻環回請求(LCV) | C | 終端 | 終端 | 否 | BAS | |
數據環回請求(LCD) | C | 終端 | 終端 | 否 | BAS | |
環路斷開(LCO) | C | 終端 | 終端 | 否 | BAS | |
會議 | 分螢幕顯示 | I | 傳送終端 | 接收終端 | 是 | 視頻碼流 |
多點強制顯像(MCV) | C | 終端 | MCU | 否 | BAS | |
多點顯像指示(MIV) | I | 終端 | 否 | BAS | ||
多點令牌分配 | C | 終端 | MCU | 否 | BAS | |
多點令牌申請/釋放(MCT/MCR) | C | 終端 | MCU | 否 | BAS | |
終端 | 檔案、攝像 | I | 傳送終端 | 接收終端 | 是 | 視頻碼流 |
視頻激活(VIA1、VIA2、VIA3) | I | 傳送終端 | 接收終端 | 否 | BAS | |
音頻激活/靜噪(AIA/AIM) | I | 傳送終端 | 接收終端 | 否 | BAS |
有關命令或指示的詳細含義可參見H.230和H.243等建議。
通信過程
H.242、H.243建議分別具體規定了兩點和多點會議電視終端之間建立通信的方法和過程。通信起始於呼叫連線過程(初始呼叫模式在呼叫期間是所有的終端惟一使用的模式),然後進入能力交換階段,根據終端能力交換的結果建立一個公共的工作模式,正常通信就建立在這個工作模式上。正常通信開始以後,要求終端具有動態模式轉換能力,能從一種工作模式轉換到另外一種工作模式,並保證不影響終端間互通。
在H.242建議中定義了三個信令序列作為通信過程中的程式模組供終端調用,它們分別是能力交換序列A、模式切換序列B和幀恢復序列C。
下面將會議電視的通信過程的幾個階段分別予以介紹。
初始呼叫連線
初始呼叫連線用於為通信雙方建立一條通信線路,或者用於線路出故障時的恢復。終端X和終端Y之間的初始呼叫有三種可能的方式。一種是利用終端提供的電話線路接口,以OU模式呼叫;另一種是利用通信網網管系統進行初始呼叫;此外,還可以利用帶外信道(如利用電話、傳真等)進行人工呼叫。
會議電視為了提供音頻、視頻、數據等多種媒體的業務,就要以多種速率和不同模式工作,使信道適應音頻、數據、視頻和信令傳輸的要求。因此在呼叫時,必須有兼容工作模式的建立過程。
公共通信模式的建立
在初始呼叫建立以後,終端之間開始公共通信模式的建立。公共通信模式的建立階段傳送能力交換序列A。在建立公共通信模式時,所有的會議電視終端都應工作在初始兼容模式上。在約定某個終端為主動終端後,每個終端首先以64kbit/s速率開始傳送和接收BAS能力碼,進行BAS終端能力交換。所謂終端能力,主要指它的音頻能力、視頻能力、數據能力、傳輸速率能力、加密與擴展BAS能力等。所謂能力交換就是指每個終端將自己的終端能力通過本身的能力狀態碼傳送出去,告知其他終端。終端的接收部分始終處於定幀搜尋狀態,當接收定幀後兩端開始交換BAS能力集,隨後由主動終端傳送BAS命令集,以建立一個公共的初始通信模式,該模式主要包括傳輸速率、視頻、音頻、數據命令和參數。初始模式確認後雙方一致切換到此公共模式,並在此模式上建立正確的連線,即按照公共模式建立同步,初始化終端內各單元。能力交換A序列中有一個定時限制,若在此限制的時間內,接收幀尚未同步,則序列啟動失敗,重新回到呼叫連線。能力交換A序列完成,可以開始模式切換B序列。
動態模式切換或轉移
在上述的公共通信模式建立以後,兩個終端之間即可以開始正常的通信過程。在通信期間的任何時刻都允許終端的工作模式進行改變,即可進行動態模式切換或轉移,此模式轉換是利用BAS指令完成的。模式切換在兩個傳輸方向上是相互獨立進行的。切換的內容主要包括:音頻模式的改變,如音頻的通斷、速率的變化、編碼標準的更改等;視頻模式的改變,如視頻的通斷、速率的變化、編碼標準的更改、糾錯方式的選擇、圖像的凍結和釋放等;數據模式的改變,如數據的通斷、速率的改變、傳輸協定的更改等;ECS的改變,如ECS的採用或不採用等;傳輸速率的改變,如從當前的傳輸速率切換到另一個傳輸速率;接收終端的改變,如在多點通信時,由會議X切換到會議Y。在整個呼叫期間,所有接收端必須保持搜尋狀態,準備在各種狀態下進行動態模式轉換。動態切換模式可能會發生模式失配,最後可能因模式失配而要使用幀恢復序列C。
強制O模式
強制O模式是終端主動傳送的一個OU模式,在呼叫期間的任意時刻都可被激活,以便重新建立連線確認和重新進行初始化過程。與此相對應,接收終端應在判斷確已出現故障後自動轉入到OU模式,以便接收發端的OU模式信號。當發生下列情況時,如發現超出終端能力的命令、命令有錯、幀定位丟失、接收中斷,終端將自動啟動強制O模式。
呼叫轉移
在多點會議中,有主叫、被叫和呼叫轉移。主叫開始於一個主席終端或主MCU,被叫是多點會議系統里的一個成員終端或從MCU。呼叫轉移包括主席轉移、廣播轉移、發言者轉移和數據令牌轉移等。
會議的終結
在點對點通信中任何一方都可以“掛機”以結束會議,在多點會議中只有主MCU或主席終端有權結束會議。會議結束後,所有的終端和網路設備必須回到初始呼叫模式或預設模式,以便下次通信的再建立。在通信期間,已連通呼叫的終端可隨時中斷與另一終端的互通。
相關建議
H.320會議電視終端各部分所涉及到的國際建議較多,有的是專門為會議電視套用所制定的,有的則不是專門為會議電視制定的,但是會議電視必須遵守的。表4列出了有關的主要建議及其套用範圍。
表4 與H.320會議電視系統有關的建議
名 稱 | 內 容 |
H.320 | 會議電視終端設備框架性建議 |
H.261 | 視頻信源編解碼器( p×64kbit/s) |
H.221 | 信道幀結構(64~1920kbit/s) |
H.224 | H.221中的LSD/HSD/MLP信道單工套用的實時控制 |
H.230 | 幀同步控制和指示信號(C&I) |
H.231 | 多點控制單元 |
H.233 | 用於H.320的加密系統,提供三種加密方式 |
H.234 | 用於H.320的密鑰管理 |
H.242 | 端到端的通信控制協定 |
H.243 | 多終端和MCU之間的通信協定 |
H.281 | 基於H.224的遠端攝像機控制 |
G.703 | PCM網路數字接口 |
G.704 | PCM基群(E1)幀結構 |
G.711 | 64kbit/s PCM(u律,A律)語音編碼 |
G.722 | 32kbit/s ADPCM語音編碼 |
G.728 | LD-CELP語音編碼(16kbit/s) |
G.735 | 384kbit/s數字接入基群復用特性 |
T.120 | H.320框架內有關聲像會議的建議 |
視頻編解碼器及數據復用
H.320會議電視系統中圖像壓縮編解碼的運算量最大,下面介紹LSI Logic公司的L647系列專用集成晶片完成視頻編解碼的基本電路。圖7及圖8分別為視頻編碼及解碼器的方框圖。視頻編解碼器均做成插卡插入PC中,DSP晶片(TMS320C25)作主控制器,PC及DSP晶片均參與系統的控制,採用軟體與硬體相結合的控制方式增強了系統控制的靈活性與可靠性。
圖 7中,L64760為幀內/幀間預測編碼模式選擇和處理器;L64720為運動估計處理器;L64730實現二維DCT;L64740為自適應量化器;L64750為可變長編碼器;L64715為信道編碼器,實現BCH(511,493)編碼。
L64720運動估計處理器對當前幀Y宏塊在過去幀搜尋窗內進行匹配運算,求出運動矢量及幀間差值,並由主控電路根據系統控制策略控制每個宏塊的幀內/幀間編碼模式。L64760幀內/幀間處理器自動進行幀內/幀間模式選擇,當L64760以幀內模式工作時,將當前幀的宏塊送至L64730進行二維DCT;當L64760以幀間模式工作時,計算出當前幀與過去幀(已存放在幀存中)的幀間差值,再送至L64730進行二維DCT變換。經L64730(DCT)後,DCT變換係數送至L64740自適應量化器進行量化,量化後的數據再經L64750可變長編碼器實現Huffman編碼。L64750編碼後的數據流送至傳輸快取器,以保證輸出碼率為恆定值。量化後的數據經L64740進行反量化及L64730實現二維IDCT變換後,又經L64760進行圖像重建,重建幀存儲在幀存中,供運動補償之用。傳輸快取器輸出的恆定碼率的碼流經L64715實現BCH(511,493)糾錯編碼,糾錯編碼後的碼流送至多路復用/解復器。
圖8為視頻解碼方框圖。從多路復用/解復器送來的數據經L64715進行BCH糾錯解碼後送入解碼器的傳輸快取器中,並經L64751進行可變長解碼及反量化處理後,送至L64730實現IDCT,再由L64760完成幀內/幀間處理,輸出解碼後的圖像數據(CIF或QCIF格式)碼流,並進入圖像顯示卡進行圖像顯示。圖像顯示可使用VGA卡,在計算機CRT上顯示,亦可轉化為常規電視的視頻格式,經D/A變換後轉換成RGB信號或編碼成PAL複合全電視信號在電視監視器上顯示。