處理器簡介
這是一種單/雙核心處理器的核心類型,其在套用方面的特點是具有很大的靈活性,既可用於桌面平台,也可用於移動平台;既可用於雙核心,也可用於單核心。Yonah核心來源於移動平台上大名鼎鼎的處理器Pentium M的優秀架構,具有流水線級數少、執行效率高、性能強大以及功耗低等等優點。Yonah核心採用65nm製造工藝,核心電壓依版本不同在1.1V-1.3V左右,封裝方式採用PPGA,接口類型是改良了的新版Socket 478接口(與以前台式機的Socket 478並不兼容)。在前端匯流排頻率方面,Core Duo和Core Solo都是667MHz,而Yonah核心Celeron M是533MHz。在二級快取方面,Core Duo和Core Solo都是2MB,而即Yonah核心Celeron M是1MB。Yonah核心都支持硬體防病毒技術EDB以及節能省電技術EIST,並且多數型號支持虛擬化技術Intel VT。但其最大的遺憾是不支持64位技術,僅僅只是32位的處理器。值得注意的是,對於雙核心的Core Duo而言,其具有的2MB二級快取在架構上不同於所有X86處理器,其它的所有X86處理器都是每個核心獨立具有二級快取,而Core Duo的Yonah核心則是採用了與IBM的多核心處理器類似的快取方案----兩個核心共享2MB的二級快取!共享式的二級快取配合Intel的“Smart cache”共享快取技術,實現了真正意義上的快取數據同步,大幅度降低了數據延遲,減少了對前端匯流排的占用。這才是嚴格意義上的真正的雙核心處理器!Yonah核心是共享快取的緊密型耦合方案,其優點是性能理想,缺點是技術比較複雜。不過,按照Intel的規劃,以後Intel各個平台的處理器都將會全部轉移到Core架構,Yonah核心其實也只是一個過渡的核心類型,從2006年第三季度開始,其在桌面平台上將會被Conroe核心取代,而在移動平台上則會被Merom核心所取代。
Merom相比Yonah,從原來的13級管線增加至14級,在提升頻率方面起到一定的作用 快取方面,Merom分成4MB和2MB的L2兩種版本,與Yonah保持一致的是,不管4MB還是2MB,都由雙核心共享,這樣雙核運算需要的數據就可以共享了。不過在L2快取的訪問入口方面,Merom已經從Yonah的8路提升16路(Athlon 64同樣是16路)。 解碼器方面,Merom比Yonah增加一個Simple解碼器,令解碼效率進一步提高。不過在複雜運算方面,AMD Turion 64內置的3個Complex解碼器會更加優勝(例如在Science Mark 2.0科學運算中); 指令集方面,Merom在Yonah的Micro Fusion(微指令集融合)技術基礎上更上一層樓,添加Macro Fusion(宏指令集融合)技術。這種宏指令集融合技術比微指令集融合技術的套用更為廣泛,如If和Jump指令結合,以增加執行效率; 執行單元方面,Merom比Yonah多出一個FPU和一個IEU(IEU也是我們平常說的ALU),因此在一個時鐘周期里,可以向執行單元傳輸3個微指令集,而Yonah只能傳輸2個。不過這三個FLU當中,是有固定的任務分配的。浮點乘運算必須由第三個FPU執行、浮點加運算只能由第二個只能執行,而浮點減運算則相對自由,只要第二和第三FPU是空閒在下一個周期還是空閒的就被能利用上。除此以外,傳輸通道從Yonah的64位升至128位,這樣要執行一個SSE3的指令的話,就只需要一個時鐘周期了。
技術分析
總體介紹
Yonah雙核心擁有1億5千1百萬電晶體,保持Pentium M較少的14 級流水線架構,因此頻率雖然只有2.16GHz,但效能卻直追3GHz以上的Pentium D雙核心處理器,核心內部擁有2MB L2 Cache供兩顆核心同用,稱為Intel Smart Cache技術,有助減低Intel舊有雙核心架構出現的Cache讀取的嚴重延遲,除此之外,核心特別加強了SSE/SSE2 Micro Ops Fusion運理能力、而且首次在行動處理器中加入SSE3指令集,主要針對多媒體的效能改善,另外Floating Point部分亦有一定程度的強化增強3D遊戲的執行效果。外頻方面,Yonah將會由上代Pentium M Dothan核心533MHz FSB提升至667MHz FSB,以更高的頻寬應付雙核心帶來更大的數據傳送。
Yonah亦是首顆支持Intel Virtualization功能的行動處理器,它可以令系統能夠同時間支持多個作業系統,可惜的是它並不支持EM64T功能,算是唯一的美中不足。雖然65奈米擁有較低的功耗表現,但由於Yonah的雙核心始終因為電晶體數量上升而功耗亦較上代單核心的Dothan較高,為了提高電池的續航能力,Intel亦加入了Enhanced Intel Deeper Sleep功能,以減低不必要的電源消耗,令Yonah雙核心的實際使用時間與上代Dothan大致相當。
接口設計
Yonah核心的Pentium M針腳定義改為478 pins和上代Pentium M的479pins略有不同,就算是單核心版本的Yonah也未必能在i915G/PM晶片組上運行。此外,早前Intel公布有關Yonah處理器數據時,它的處理器接口為mPGA 478或BGA 479,因此不少讀者會誤以為Yonah兼容舊有Socket 478的Pentium 4主機板,但大家留心上圖的對比,Pentium 4處理器的針腳排列和Pentium M Yonah核心並不相同,因此兩者互不兼容。
Pentium M Yonah雙核心處理器,在內部架構上作出了大幅改良,全新的Smart Cache架構有效加強雙核心的效率,傳統的雙核心設計每個獨立的核心都有自己的L2 Cache,但Yonah雙核心的Smart Cache架構則是透過核心內部的Shared Bus Router共享相同的L2 Cache,因此當CPU 1運算完畢後把結果存在L2 Cache時,CPU 0便可透過Shared Bus Router讀取CPU 1放在共享L2 Cache上數據,大幅減低讀取上的延遲並減少使用FSB頻寬,更加入L2 & DCU Data Pre-fetchers及Deeper Write output緩衝存儲器,增加了Cache的命中率。就算是現時K8的雙核心L2 Cache架構,也是比不上Smart Cache設計,因為共享L2 Cache能進一步減少了Cache Misses的情況,當CPU 0在讀取自己的L2 Cache,發現沒有該筆數據才會要求讀取CPU 1的L2 Cache數據,情況等同於CPU 0的L3 Cache,而共享的L2 Cache設計卻沒有以上需要。
優秀的Smart Cache設計
Smart Cache架構還有很多不同的好處,例如當兩顆核心工作量不平均時,如果獨立L2 Cache的雙核心架構有機會出現其中一顆核心工作量過少,L2 Cache沒有被有效地套用,但另一顆核心的L2 Cache卻因工作量重,L2 Cache容量沒法應付而需要用上系統記憶體,要注意的是它並無法借用另一顆核心的L2 Cache空間,但SmartCache卻沒有這個問題,因為L2 Cache是共享的。
Shared Bus Router除了更有效處理L2 Cache讀取外,還會為雙核心使用FSB傳輸時進行排程,新加入的Bandwidth Adaptation機制改善了雙核心共享FSB時的效率,減少不必要的延遲,其實這個Shared Bus Router設計確實有點像K8的System Request Interface及Crossbar Switch的用途。
另外,SmartCache架構用在行動處理器亦有很大的優勢,例如系統工作量不多或是處於閒置狀態,Yonah處理器可以把其中一顆核心關掉,以減少處理器的功耗,不過卻可以保持2MB L2 Cache運是保持工作,而且Shared Bus Router更可以因應L2 Cache的需求量改變L2 Cache的大小,在不必要時關掉部份L2 Cache以減低功耗,但在獨立L2 Cache的雙核心,如果要把其中一個Cache關掉,則必需要把其中一顆核心的L2 Cache數據移交出來,而且Cache亦會和核心同時被關閉,而且更沒法因應需求實時改變或關掉部份L2 Cache的容量以減低功耗。
Enhanced Intel Deeper Sleep技術
新一代Pentium M Yonah雙核心處理器,將會被加入強化的休眠模式稱為Enhanced Intel Deeper Sleep,在C-State閒置狀態中新增加強版C4模式。已往Pentium M處理器可以在處理器被閒至時,由C0的Active活躍狀態進入C1的HALT暫止模式減慢處理器的頻率,再進一步可由C1的HALT進入STOP CLOCK令處理器完全停止工作,當處理器在一段時間在STOP CLOCK狀態沒有被回復過來,系統將會進入C3/C4的Deep Sleep及Deeper Sleep狀態。
Deep Sleep及Deeper Sleep可把在停止工作的處理器電壓降低,進一步減低電力消耗令電池更長壽,但卻不能完全把處理器完全被停止,因為處理器停止工作,但其實處理器內的L1及L2還被儲存著數據,把整顆處理器停掉將令L1及L2數據流失,無法把系統由Deep Sleep狀態下回復至Active,不過新一代Pentium M雙核心處理器Yonah的Enhanced Intel Deeper Sleep支持把L1及L2的數據備份進系統記憶體,因此處理器可以被完全停止,需要時只要把系統記憶體的L1及L2數據,回復至處理器便可,Intel透露Enhanced Intel Deeper Sleep將比Deeper Sleep省電30%以上。
無線網卡配置
在無線網卡上INTEL將現有的2915ABG替換為新型的3945ABG,3945ABG體積更加小巧,只有原來的2915ABG的一半大小,這對於那些輕薄小巧的便攜型筆記本來說確實是好訊息,而對於普通的筆記本電腦意義不大,同時3945ABG的集成度更高,原來製造一塊2915ABG需要將近300個元件,現在在3945ABG上只要90個就可以搞定了。
基本上,3945ABG只是現有2915ABG的改良版,規格細節上差異不大,改良的重點集中在訊號處理及WoWLAN(Wake on WLAN)上,像很多媒體大驚小怪的Cisco Compatible Extensions(Cisco延伸的安全性規範),其實英特爾現在的產品就已經支持了。
不過,對於無線網路而言,好用的軟體其實是非常重要的,卻經常被人所忽略,尤其是現在無線網路的安全問題已經被人所重視,但如果安全設定並不方面易用,導致乏人問津,問題等於沒有解決。
從這個角度而言,3945ABG最重要者,莫過於英特爾PROSet/Wireless Software v10.0,以及支持且採用Cisco Business Class Wireless Suite(商用等級的無線網路軟體套件)與Avaya的SIP Softphone(SIP協定的軟體網路電話),這些將改進安全性、易用性與無線VOIP的可用性。
最佳化電源管理技術
Yonah的產品線基本上包括標準電壓版(SV:Standard Voltage)、低電壓版(LV:Low Voltage)、超低電壓版(ULV:Ultra Low Voltage)三種不同功耗的版本,這與Dothan的劃分相同。Intel對OEM廠家表示TDP將會有所提高,主要是受雙核心的影響,SV版為31W(現時該版本的Dothan為27W)、LV版15W(現時該版本的Dothan為12W)。
不過,影響電池驅動時間的平均耗電與現時的Dothan相比估計沒有太大的變化。如果平台總的平均耗電沒有增大的話,與Sonoma相比其實就是有所改善。支持這種說法的理由主要有幾個,首先Yonah的節電技術是經過大幅改良的,引入了稱為Intel Dynamic Power Coordination的節電技術,通過這一技術,兩個核心切換到節電模式時既可同時控制也可分別進行控制。CPU根據OS的狀態而提供了多個節電模式。如Banias代處理器分為C0(普通使用)、C1(Halt指令生效時的待機狀態)、C2(頻率停止)、C3(睡眠)、C4(進一步的睡眠)等5種狀態。
Yonah的兩顆核心可以根據各自核心的CPU負荷,獨自切換節電模式,而且還可以同時進入到同一個模式。如CPU的處理量並非太大,而處於電池驅動狀態下時,其中一顆核心以C0(普通使用)模式運行而另一顆核心則可以以C2(頻率停止)運行。但是Yonah並未為兩個核心分別配置提供頻率的PLL以及電壓轉換器(VoltageRegulator),因此單個核心無法單獨進入需要降低CPU電壓的C3或C4模式,也無法使用CPU電壓/頻率需要變化的SpeedStep技術,總的來說就是無法使用兩個核心的電壓/頻率需要分別控制的方式進行節電,因為需要2個電壓變換器和PLL。
不支持64bit指令集以及Hyper Threading技術
Yonah支持開發代號為Vanderpool技術的Intel Virtualization Technology,但並不支持總稱為X64的64bit指令集EM64T以及Hyper Threading技術(HT)。
關於這方面Intel移動業務部移動平台組的拉馬解釋,“不支持EM64T和HT技術並非技術層面上的問題,純粹是市場上的原因”,由於現時支持X64的軟體仍相當欠缺,因此Yonah不支持X64也是理所當然的事,同時當初支持X64的64bit軟體也只是以工作站等高端領域為目標。而對於記憶體插槽只有2條的筆記本電腦來說,記憶體容量需要增加到4GB所需過程要比台式機要長的多,因此這樣的選擇是相當合理的。
實際上,在後一代移動處理器Merom 上,已經開始支持這兩項技術。
技術比較
英特爾Yonah與Merom
繼伺服器處理器WoodCrest及桌面處理器Conroe陸續面市後,新一代Core微架構移動處理器Merom亦正式登場,雖然Intel聲稱全新Core微架構整合Mobile架構的省電高效率及上代桌面Netburst的功能,並為多核心套用作出最佳化,但Core微架構卻很難找到半點Netburst的影子,由於其設計接近90%是基於Mobile架構的Yonah而作出改良,僅保留Netburst架構的Prefectching,英特爾此舉明顯希望為上代Netburst的失誤給予完美的下台階。
儘管Intel Core微架構是基於Mobile平台的Yonah核心所設計,但卻有超過7成的架構和線路被重新改良,並加入5項主要的改革,包括Intel Wide Dynmaic Execution、Intel Intelligent Power Capability、Intel Advanced Smart Cache、Intel Smart Memory Access及Intel Advanced Digital Media Boost。
Intel Wide Dynamic Execution -- Merom處理器擁有4組Decoder (3 Simple decoders + 1 Complex Decoders),比上代Yonah核心多出1組(2 Simple Decoders + 1 Complex Decoders) 可多處理1組Simple Coder指令,進一步提升每周期的執行效率及提升處理器的能源效益。
雖然Merom的Pipeline Stage由Yonah的13 Stage輕微上升至14 Stage,但Merom的Branch Predictor Bandwitdh提升20Bytes(Yonah為16Bytes), 因此其分支預測的能力及準確性效率保持相若。
此外,Merom處理器不單保留了Micro-op Fusion技術,並同時追加全新的 Macro-Fusion 技術,在舊世代的微架構中,每個指令被送來時其解碼及執移動作是完全獨立的,但Intel Core微架構可以讓常見的指令組,例如1個Compare指令配隨後擁有1個Jump指令,組合成單一的Micro-Op指令,這令Merom處理器在特定情況下每個周期有運算5組指令,據Intel表示,大部份x86程式,約每10至15個指令就會出現1組可透過Macro -Fusion被組合,因此減少了程式執行所需運算時間、提升性能卻不會增加處理器的功耗,為此Intel亦改良ALU(Arithmetic Logic Unit)部份以支持Macro-Fusion技術。
Intel Intelligent Power Capability -- Merom處理器的電晶體數目對比Yonah大幅提升,功耗消耗亦會相對增加,而為令Merom處理器的功耗表現保持於合理水平,Merom加入Ultra Fine Grained省電設計,細微的邏輯控制機能獨立開關各運算單元,只有需要時才會被開啟,避免閒置時出現不必要的功耗浪費,稱為 Sleep Transistors技術,此外,把核心各個Buses及Array採用獨立控制其VCC電壓,當此部份被閒置時,將會被運作於低功耗模式中,因此Merom處理器在功耗表現可保持和Yonah處理器相約。
Intel Adcanced Smart Cache -- 早在Yonah處理器中,Intel已加入了Smart Cache架構,通過核心內部的Shared Bus Router共享相同的L2 Cache,而Merom進一步加強Prefetch能力,每顆核心均擁有3個獨立Prefetchers (2 Data and & 1 Instruction) 及2個L2 Prefetchers,能同時地偵出Multiple Streaming及Strided Acess Patterns,L2 Cache方面比Yonah倍增至 16-Way 256Bit 4MB容量,但Latechy卻保持在12-14ns之間,令Merom處理的Cache架構性能進一步提升。
Intel Smart Memory Access -- 為了提升記憶體讀取效率, Merom處理器加入全新的記憶體讀取技術稱為Memory Disambiguation,透過Out of Order過程把記憶體讀取次序作出分析,當發現某數據是完全獨立,則可讓它提早執行以減少處理器的等候時間減少閒置,同時減低記憶體讀取的延遲值。
Intel Adavanced Digital Media Boost -- Merom處理器擁有128Bit-SIMD interger arithmetic及128bit SIMD雙倍精準度Floating-Point Operations。傳統的處理器設計只有64Bit的SIMD interger arithmetic及Floating-Point Operations,因此在執行 128Bit的SSE、SSE2及SSE3指令時,需要把指令分拆為2個64Bit指令,並需要2個頻率周期完成,但Core微架構則只需要1個頻率調期便能完成,執成效率提升達1倍,現時SSE指令集已經十分普遍地用於主流的軟體中,包括繪圖、影像、音像、加密及數學運算等用途,單周期128Bit處理器能力以頻率以外的方法提升性能,令處理器擁有高能源效益表現。
英特爾Yonah與Dothan
Yonah相對於Dothan的改進:
Yonah相對於Dothan最明顯的改進是它的雙核心。不過由於Yonah採用的是65nm工藝,因此雖然有兩個核心但是它的尺寸卻和一個核心的Dothan一樣大。換句話說,Intel製造出一個雙核心的Yonah和製造單核心Dothan幾乎是一樣的成本。這樣說的主要原因並不是它的尺寸,事實上Yonah雖然有兩個核心,但是它的二級快取仍然是2M。和Pentium D不同,Yonah的2M 二級快取並不是分離成兩個1M的二級快取,而是雙核心共享一個完整2M二級快取。這是一個非常重要的差別,這意味著Yonah遠不是把兩個Dothan合併在一起那么簡單。
Yonah的主要性能改進圍繞在SIxx FP和FP性能方面,這是目前的Dothan和Pentium 4相比的兩個最大弱點。共有三點改進:首先的改進是,Yonah的解碼器可以解碼SSE指令,而不管指令的類型。改進解碼的寬度可以快速改善處理器的性能。其次是SSE/SSE2運行,目前Yonah可以使用Micro Ops Fusion engine,這可以有益於增強性能和低電量消耗。Yonah的兩個核心都支持SSE3指令,非常類似於Pentium 4 E(Prescott)。第三,Yonah的浮點運算性能也有了一些改進,浮點運算性能的改進對於處理器的遊戲性能有非常大的影響。
Yonah和Dothan的性能對比測試:
Yonah的性能在實際套用中究竟比Dothan有多大的提升,我想這是人們非常感興趣的問題。接下來我們就對Yonah和Dothan的性能進行一個對比測試,不過遺憾的是由於我們的Yonah的頻率是2.0GHz,而用於對比的Dothan的頻率是2.13GHz。因此我們無法獲得同頻率的公平性能對比。
我們首先進行的是快取反應時間測試,使用的是ScienceMark 2.0,這項測試時鐘頻率高低並沒有影響。從圖表中可看到Yonah的一級快取反應時間和Dothan一樣,但是二級快取要比Dothan慢。我認為這可能是由於Yonah採用了最新的二級快取動態調節技術的原因。這項技術是為了節省電能消耗對雙核心共享二級快取進行的最佳化,在系統需求低的時候Yonah會自動調節二級快取的尺寸,從而使二級快取反應時間變慢。
1、最高頻率的Yonah雙核處理器,其性能比Sonoma平台上頻率最高的Dothan核心處理器(2.26GHz)高出68%以上
2、在相同的顯示卡配置下,最高頻率的Yonah雙核處理器在Quake 4測試中幀頻達到76FPS,而2.26GHz的Dothan核心處理器成績只有41FPS——Yonah處理器相比Dothan處理器,在FPS性能上平均提高50%~70%
3、Yonah雙核處理器前端匯流排提高到667MHz,而Dothan核心的處理器只有533MHz
4、在PCMark05測試中,最高頻率的Yonah雙核處理器,得分比Sonoma平台上頻率最高的Dothan核心處理器(2.26GHz)高出31%
5、在3DMark05測試中,最高頻率的Yonah雙核處理器,得分比Sonoma平台上頻率最高的Dothan核心處理器(2.26GHz)高出105%
6、在SPECint測試中(測試處理器整數運算性能),最高頻率的Yonah雙核處理器,得分比Sonoma平台上頻率最高的Dothan核心處理器(2.26GHz)高出68%
雖然Yonah雙核處理器性能強大,不過Intel卻在功耗問題上並沒有明確表態。當被問到Napa平台相比Sonoma平台,電池使用時間是變長還是變短時,Intel表示由於採用Napa平台的筆記本電腦產品還沒有完成,聲稱還不清楚具體結果。不過Intel希望Napa平台在電池使用時間上能超過的Sonoma平台,Intel表示雖然Yonah處理器的功耗更高,但是相關部件的電力利用率提高了28%以上,這為提高電池使用時間創造了有利條件。Intel希望採用Napa平台的14、15英寸的筆記本電腦,能將電池標準使用時間提高到5小時。
測試評價
新的處理器接口
Intel在Yonah上使用了新的接口,因此與Pentium M不兼容。在推出Pentium M的時候,Intel同時推出了一種全新的處理器接口,Socket 479,比當時Pentium 4使用的Socket 478多一根針,就是這一根針徹底打消了將Pentium M用在Pentium 4主機板上的可能性。
儘管Yonah針腳數量與Pentium M是一樣的,都是479根,但是布局完全不同了,這也就以外著兩種處理器根本不可能用在同樣的主機板上,更何況晶片組等也不兼容。
同樣的大小,雙倍的核心
相對於Dothan,Yonah最明顯的改進是雙核心。得益於65nm的製造工藝,雙核的Yonah和單核的Dothan核心面積基本相同,這對Intel意味著生產Yonah比Dothan成本差不了多少。
核面積沒有增大的另外一個重要原因是二級快取沒有增大,和Dothan一樣是2MB。與Pentium D不同,Yonah中2MB的二級快取沒有分成兩個單獨的1MB快取,兩個核心共享2MB二級快取。這是非常重大的不同,意味著Yonah並不是簡單粘在一起的兩個Dothan。
Yonah核心的改進集中於浮點運算,這正是Pentium M比Pentium 4瘸腿的地方。
第一個改進是Yonah的三個解碼器都能夠執行各種類型的SSE指令,處理器解碼器頻寬的增加能極大的提高整體性能。
其次,所有SSE和SSE2操作都能夠使用Yonah中的微操作融合(Micro Ops Fusion)引擎。這項改進能在提高性能的同時保持很低的功耗。但具體的性能細節只能到明年Yonah產品大量上市後才能得到。另一個方面的改進是Yonah的兩個核心都支持SSE3,就象Pentium 4E(Prescott)。
除了這些,Intel還採取了很多措施提高浮點運算性能,而浮點運算主要用於遊戲,可見Intel在Yonah上如此功夫意圖深遠。SSE和浮點運算的改進Intel合稱Digital Media Boost。這個名字將來可能會象MMX一樣好笑,但對於來說還是很有有震撼力。