微體系結構

微體系結構,即英特爾酷睿微體系結構,是一款節能的新型微架構,設計的出發點是提供卓然出眾的性能和能效,提高每瓦特性能,也就是所謂的能效比英特爾酷睿微體系結構面向伺服器、台式機和筆記本電腦等多種處理器進行了多核最佳化,其創新特性可帶來更出色的性能、更強大的多任務處理性能和更高的能效水平,各種平台均可從中獲得以下優勢:伺服器可以更快速,更低的功耗為企業節省大筆開支,創新技術保證安全穩定的運行。

創新要點

台式機可以在占用更小空間的同時,為家庭用戶帶來更多全新的娛樂體驗,為企業員工帶來更高的工作效率。筆記本電腦用戶可以獲得更高的移動性能和更耐久的電池使用時間。以下英特爾酷睿微體系結構的幾大創新點:

英特爾寬位動態執行

英特爾寬位動態執行(Intel Wide Dynamic Execution)
當今衡量一款處理器的性能水平,已經不能再單純的以頻率的高低考量,而是更強調“每瓦特性能”,也就是所謂的能效比。“性能=頻率×每個時鐘周期的指令數”是英特爾提出的對性能的創新理解,英特爾寬位動態執行通過提升每個時鐘周期完成的指令數,從而顯著改進執行能力。
英特爾酷睿微架構擁有4組解碼器,相比上代Pentium Pro (P6) / Pentium II / Pentium III / Pentium M架構擁有3組可多處理一組指令,簡單講,每個核心將變得更加“寬闊”,這樣每個核心就可以同時處理更多的指令。英特爾酷睿微體系結構在提升每個時鐘周期的指令數方面做了很多努力,例如新加入宏融合(Macro-Fusion)技術,它可以讓處理器在解碼的同時,將同類的指令融合為單一的指令,這樣可以減少處理的指令總數,讓處理器在更短的時間內處理更多的指令。為此英特爾酷睿微體系結構也改良了ALU(算術邏輯單元)以支持宏融合技術。
Core擁有3個64-bit整數執行單元(Integer Execution Units),每個單元可以獨立處理一條64-bit整數數據,這樣Core就有了一套64-bit的CIU複雜整數單元(Complex Integer Unit),這和P6構架相同。然後Core另外有2個SIU簡單整數處理單元(Simple Integer Units)來快速運算較簡單的任務,其中一個SIU將和分支執行單元BEU來共同完成部分的宏指令融合micro-ops fusion。對於INTEL的X86 CPU來說,這是首次可以在一周期內完成一階64-bit的整數運算,這使Core已經走到了IBM PowerPC 970的前面-PowerPC 970需要有2個周期的延遲。另外,因為3個IEU整數執行核心使用了各自獨立的PORT數據出口,所以整個Core處理器可以在一周期內同時執行3組64-bit的整數運算。
有著如此強大的整數處理單元,Core在性能上將比現有Pentium 4快的多,它在移動平台、伺服器、3D圖形上4倍於Pentium 4的性能表現將使全世界對INTEL CPU眼目一新。Core構架擁有2個浮點執行單元(Floating-Point Execution Units)同時處理向量和標量的浮點數據,位於PORT 1的FPEU-1浮點執行單元負責加減等簡單的處理,而PORT 2的FPEU-2浮點執行單元則負責乘除等運算,這樣在Core中就將FADD/VFADD和FMUL/VFMUL劃分為兩組,使其具備了在一周期中完成兩條浮點指令的能力。

英特爾智慧型功率能力

英特爾智慧型功率能力(Intel Intelligent Power Capability)
英特爾智慧型功率能力,可以進一步降低功耗,最佳化電源使用,從而為伺服器、台式機和筆記本電腦提供個更高的每瓦特性能。新一代處理器在製程技術方面做出最佳化,採用了先進的65nm應變矽技術、加入低K柵介質及增加金屬層,相比上代90nm製程減少漏電達1000倍。值得注意的是,英特爾加入了超精細的邏輯控制機能獨立開關各運算單元,具體來講,酷睿微體系結構採用先進的功率門控技術。以往功率門控技術實現起來十分困難,因為元件開關過程需要消耗一定的能源,而且由休眠到恢復工作也會出現延遲,但英特爾酷睿微體系結構已經解決這些問題。通過該特性,可以智慧型地打開當前需要運行的子系統,而其他部分則處於休眠狀態,這樣將大幅降低處理器的功耗及發熱。
當INTEL最初兼容128-bit向量執行時,情況可能和編程人員及用戶所預想不太一樣,採用在P6和Banias構架上的SSE、SSE2和SSE3有2個重大的弱點,在ISA指令集架構方面,SSE最主要的缺點就是不支持3指令運算(Three-Operand),而支持Three-Operand的AltiVec則成為了當時更好的ISA。Core前端處理環節新的突出能力是宏指令融合(Macro-Fusion),可以把多個X86指令融合在一起傳送到到一個編譯器轉換為一個Uops微指令。多種指令將可以被融合,其中特別將compare和test指令融合到了分支指令(Branch Instructions)中。4個編譯器都具有融合能力,但整個單元每周期只能完成一次宏指令融合。除了在占用更少ROB和RS的情況下,宏指令融合(Macro-Fusion)還節約了核心前端的頻寬,Core的解碼單元能比過去快的多得清空IQ指令列隊(Instruction Queue),而核心執行頻寬也同樣寬闊了很多,因為單個的ALU能同時執行2個X86指令,這些綜合性能的提高使Core的實際處理效率比P6構架要提高多倍,遠高於其可見的硬體單元增加幅度。

英特爾高級智慧型高速快取

英特爾高級智慧型高速快取(Intel Advanced Smart Cache)
以往的多核心處理器,其每個核心的二級快取是各自獨立的,這就造成了二級快取不能夠被充分利用,並且兩個核心之間的數據交換路線也更為冗長,必須要通過共享的前端串列匯流排和北橋來進行數據交換,影響了處理器工作效率。英特爾酷睿微結構體系結構採用了共享二級快取的做法,有效加強了多核心架構的效率。這樣的好處是,兩個核心可以共享二級快取,大幅提高了二級高速快取的命中率,從而可以較少通過前端串列匯流排和北橋進行外圍交換。
英特爾高級智慧型高速快取還有其他方面的優勢,每個核心都可以動態支配全部二級高速快取。當某一個核心當前對快取的利用較低時,另一個核心就可以動態增加占用二級快取的比例。甚至當其中的一個核心關閉時,仍可以保持全部快取在工作狀態,另外也可以根據需求關閉部分快取來降低功耗。這樣可以降低二級快取的命中失誤,減少數據延遲,改進處理器效率,增加絕對性能和每瓦特性能。
Core的向量執行單元:當INTEL最初兼容128-bit向量執行時,情況可能和編程人員及用戶所預想不太一樣,採用在P6和Banias構架上的SSE、SSE2和SSE3有2個重大的弱點,在ISA指令集架構方面,SSE最主要的缺點就是不支持3指令運算(Three-Operand),而支持Three-Operand的AltiVec則成為了當時更好的ISA。這樣折衷的處理方案使P6構架在處理128-bit數據時增加了一倍以上的延遲,而當時PowerPC G4的AltiVec只需要1個周期就能完成。同樣不幸的是,Netburst的Pentium 4和Pentium M構架也都有這個弱點。
全新的Core終於擁有了一個周期完成128-bit向量運算的能力,INTEL終於把浮點和整數運算的內部頻寬擴大到了128-bit,這不僅改進了延遲一周期的缺點,只有過去半數的微指令處理量也同樣提高了解碼、派址和頻寬利用等多方面的速度。這樣全新構架的CPU將可以把128-bit的大量multiply/add/load/store/compare/jump等6套指令集成在一個周期中全部完成,其運用性能的飛躍幅度可想而知。
P6構架的內部浮點處理和MMX都只有64-bit的頻寬,所以進入SSE執行核心的只能是64-bit數據。為了讓64-bit的SSE來處理128-bit指令,P6構架必須把128-bit的數據切割為2個64-bit的連續部分來處理。INTEL還不能透露Core具體的流水線詳情,不過,Core採用14條流水線-這和 PowerPC 970是一樣的,而之前的Pentium 4 Prescott擁有30條,P6構架為12條。短的流水線意味著Core在頻率上的提升只能是緩慢的,而不能夠像Pentium 4那樣急速上升。也可以這樣猜想,其實Core的流水線設計和P6構架中的流水線是一模一樣的,額外多出來的2條流水線完全是為了預留下CPU頻率提升的空間而已。2條新的流水線各自成為Core流水線的入口和出口,成為了宏指令融合(Macro-Fusion)、微指令融合(Micro-Ops Fusion)等整合技術的輸送站。Core的ROB重排序緩衝區( reorder Buffer)和RS預留快取(Reservation Station)要比過去的Pentium M大了接近一倍,而事實上還必須考慮到新的宏指令融合(Macro-Fusion)、微指令融合(Micro-ops Fusion)等高效率的融合技術,這樣以來,Core的內部轉接速度至少要比Pentium M提高了3倍以上。它內置2組SD簡單編譯器(Simple/fast Decoders)和1組CD複雜編譯器(Complex/slow Decoder),2組SD簡單編譯器負責將簡單X86指令轉換至Uops微指令(Micro-ops)然後傳送到MB微指令緩衝區(Micro-op Buffer)。複雜編譯器可以編譯4個Uops微指令,而一些類似字元串處理的舊式複雜任務還要通過專門的ME微碼引擎(Microcode Engine)來轉換為更加複雜的微指令,這些微指令再同時輸入到MB微指令緩衝區等待下一步重排序。

英特爾智慧型記憶體訪問

英特爾智慧型記憶體訪問(Intel Smart Memory Access)
英特爾智慧型記憶體訪問是另一個能夠提高系統性能的特性,通過縮短記憶體延遲來最佳化記憶體數據訪問。英特爾智慧型記憶體訪問能夠預測系統的需要,從而提前載入或預取數據,反映到用戶的直接使用體驗上,就是大幅提高了執行程式的效率。
以前要從記憶體中讀取數據,就需要等待處理器完成前面的所以指令後才可以進行,這樣的效率顯然是低下的。而英特爾酷睿微體系結構中加入一項名為記憶體消歧的能力,它可以對記憶體讀取順序做出分析,智慧型地預測和裝載下一條指令所需要的數據,這樣能夠減少處理器的等待時間,減少閒置,同時降低記憶體讀取的延遲,而且它可以偵測出衝突並重新讀取正確的資料及重新執行指令,保證運算結果不會出錯誤,大大提高了執行效率。
MIF微指令融合早先在Pentium M構架上就已經採用過,它和MF宏指令融合有著相似的功效,但是原理完全不一樣。SD簡單編譯器(Simple/fast Decoder)把接收的單條X86指令轉譯為兩條微指令,連線的兩條微指令通過ROB傳送到RS後,RS將把兩條微指令分開來傳輸到不同的PORT中,平行的雙通道同時傳輸,也可以是單通道的連續傳輸,這則取決於具體的處理情況。相對舊的MIF微指令融合技術,新的MIF支持了PORT的連續傳輸。Core的三重分支預測單元實際上與Pentium M的預測單元是一樣的,在Core的分支預測核心中存在一個雙模態預測器和一個球型預測器,這些預測器記錄下過去的執行歷史並隨時通知核心前端的ROB和RS,ROB和RS從BTB分支目標緩衝器(Branch Target Buffer)中快速取回所需要的數據地址,常規預測如通知一個分支在循環中僅在奇次疊代發生, 而不在偶次疊代中發生等, 這些在動態執行(P6系列)處理器上的靜態預測技術還有有著長遠的發展空間。分支歷史表(Branch History Tables)不能夠記錄下足夠詳細的循環迴路歷史來準確預測下次的運算,所以每次循環迴路的運行都浪費了大量的亢余時間。 循環迴路預測(Loop Detector)則可以記錄下每個循環迴路結束前的所有的詳細分支地址,當下一次同樣的循環迴路程式需要運算時,核心前端的ROB和RS就可以以100%的準確度來快速完成任務,Core構架擁有一個專門的運算法則來進行這種循環迴路預測。
Core前端處理環節新的突出能力是宏指令融合(Macro-Fusion),可以把多個X86指令融合在一起傳送到到一個編譯器轉換為一個Uops微指令。多種指令將可以被融合,其中特別將compare和test指令融合到了分支指令(Branch Instructions)中。4個編譯器都具有融合能力,但整個單元每周期只能完成一次宏指令融合。間接分支預測(Indirect Branch Predictor)在運用時並不是立即分支,而是從暫存器中裝載需要的預測目標,它實際上是一個首選目標地址的歷史記錄表。在ROB和RS需要間接分支的時候它就可以提供幫助,ROB和RS就可以快速提取到適用的結果,這與P6構架用可預測的條件分支替換間接分支來改善性能是相反的。

英特爾高級數字媒體增強

英特爾高級數字媒體增強(Intel Advanced Digital Media Boost)
上面提到了“性能=頻率×每個時鐘周期的指令數”這個新概念,而英特爾高級數字媒體增強也同樣是為了提高每個時鐘周期的指令數而誕生,它可以提高SIMD流指令擴展指令(SSE/SSE2/SSE3)的執行效率。之前的處理器需要兩個時鐘周期來處理一條完整指令,而Intel酷睿微體系結構則擁有128位的SIMD執行能力,一個時鐘周期就可以完成一條指令,效率提升明顯。
當前SSE指令集已經十分普遍地用於主流的軟體中,包括繪圖、影像、音頻、加密、數學運算等用途,單周期128位SIMD處理器能力令處理器擁有高能效表現。
基於以上這些先進的創新特性,英特爾酷睿微體系結構提供了比前代架構更卓越的性能和更高的能效,為伺服器、台式機和移動平台帶來了振奮人心的全新高能效表現。

相關評論

Intel從NetBurst與K8微架構的戰役中,勇敢地公開反省市場上失利原因,吸取教訓並重新定立未來發展方向,Intel執行長Paul Otellini公開承認,早前處理器產品發展路線上確實出現嚴重的技術性錯誤,例如Tejas及Jayhawk的高時脈處理器計畫,但忽略了製程上可能出現的規限,導致產品嚴重超離量產的可能性,錯誤估計市場的需要,作出了不適當的產品規劃,Paul Otellini表示,Intel已上了寶貴的一課,且保證2006年下半年將挾全新Core微架構捲土重來,並取回領導優勢。
為提高公司的競爭力,Intel已表明加速微處理器架構的改革,以往他們在新微架構開發工作緩慢,直至舊有架構出現瓶頸或無法與對手抗行才改朝換代,但新政策將希望以2年更新一代微處理器架構,不會作出任何保留。計畫中2007年下半年推出45納米的Penryn取代現有的65奈米Merom、Conroe及Woodcrest。2008年上半年推出全新微架構的Nehalen,而2009年下半年將會推出32納米的Nehalen-C,2010年上半年則推出全新微處理器架構Gesher。

相關詞條

熱門詞條

聯絡我們