產品介紹
由於半導體技術的不斷進步和多媒體數據套用領域的不斷擴大,像素幀巨大的圖像處理套用的計算機體系結構,在嵌入式套用環境的體積與功耗的限制下,目前正面臨著三個要解決的關鍵問題。一是要解決千億次量級的運算速度;二是由於現代的半導體技術的集成度已經很高了,例如,中芯國際0.18mm的CMOS工藝在1cm2的晶片面積上可以集成40,000,000支電晶體,但由於晶片引出頭數目的增加是有限的,因此,必須解決引出頭的數目受限制的關鍵問題;三是由於多媒體數據處理幾乎沒有時間和空間局部性,一幅圖像中的每個像素通常只是被訪問一次,因而不僅要解決運算量大的問題,而且要解決處理器與存儲器之間的數據頻寬問題。
國內的處理器設計現在還主要處於功能仿製階段,有單位正在研製具有MMX指令的奔騰晶片,以及具有數據並行處理能力的TMS 320C6711等晶片。就數據並行性計算來說,高性能奔騰處理器是通過57條MMX指令來支持數據並行性計算的,但其數據並行計算的程度是很低的,只能支持8個8位數據,或4個16位數據,或2個32位數據的數據並行計算。也有單位九五期間自主設計研製了含有64(8×8)個處理元的PE晶片,研製了具有4096個處理元的SIMD協處理器的圖像處理機系統。但是,這些處理器還不能滿足像素幀巨大的嵌入式圖像處理套用的要求。
主要類型
針對上述三個關鍵問題,近十多年來,國外對新一代多媒體處理器體系結構進行了廣泛的研究,有專用多媒體處理器、可程式多媒體處理器、向量處理器以及流處理器等體系結構。
專用多媒體處理器
針對三維圖形套用,SGI公司研製了名為InfiniteReality的專用多媒體處理器系統(1997年公布)。它由4個專用的幾何引擎(Geometry Engine)和80〜320個專用的圖像引擎(Image Engine)構成,能提供每秒11,000,000次三角函式計算和每秒830,000,000個像素的處理。它是以存儲容量的冗餘為代價來提高存儲器頻寬的。最近,NVIDIA公司研製了名為GeForce256的專用單晶片圖形處理器。該處理器能提供每秒15,000,000次峰值運算和每秒480,000,000個像素處理。這些專用多媒體處理器的缺點是只要算法稍有變化,性能就會急劇下降。
可程式多媒體處理器
Chromatic公司研製了名為MPACT的多媒體處理器(1996年公布),Philip公司研製了名為Trimedia(1996年公布)和VSP(1994年公布)的多媒體處理器。它們比專用圖形處理系統要靈活得多。Mpact多媒體處理器有一個4KB的全局暫存器檔案(Register file),並且利用了高頻寬的Rambus DRAM來滿足3-D圖形處理對頻寬的需求。這個相當大的全局暫存器檔案,在很大程度上減小了圖形處理中對工作頁面進行顯式快取所需的頻寬量,進而減少了對存儲器的訪問次數。在奔騰等高性能處理器中,通過MMX,MAX-2,和VIS,增加了多媒體擴展,也就是增加了來自存儲器的預取流數據,並利用這些處理器中可以得到的數據頻寬,增加了浮點數據類型SIMD操作,以支持數據並行性。
向量處理器
向量處理器是通過向量操作來支持數據並行性的處理器。為了有效地利用向量計算中的數據並行性,向量處理器的結構通常包括向量暫存器檔案、深度流水的ALU和一維的SIMD組織形式的多種組合。向量暫存器檔案存儲的是數據向量,而不是單個的數據字,它們是在對向量進行操作時,順序地進行傳送的。不僅圖像處理採用向量處理器技術,當前世界上處理速度最快的超級計算機——日本NEC的《地球仿真測試系統》,也是以0.15mm工藝實現的向量處理器為基礎,由5120個向量處理器(共有640個節點,每個節點有8個向量處理器)組成的。
流處理器
流處理器是直接將多媒體的圖形數據流映射到流處理器上進行處理的,有可程式和不可程式兩種。1995年公布的名為Cheops中的流處理器,是針對某一個特定的視頻處理功能而設計的一種不可程式的流處理器。但為了得到一定的靈活性,系統中也包含一個通用的可程式處理器。從1996年到2001年,MIT和Standford針對圖像處理的套用,研製了名為Imagine 的可程式流處理器。Imagine流處理器沒有採用cache,而是採用一個流暫存器檔案SRF(Stream Register File),作為流(主)存儲器與處理器暫存器之間的緩衝存儲器,來解決存儲器頻寬問題的。流存儲器與SRF之間的頻寬是2GB/s,SRF與處理器暫存器之間的頻寬是32GB/s, ALU簇(ALU Cluster)內暫存器與ALU之間的頻寬是544GB/s,三種頻寬的比例關係為1:16:272。