CHIPKILL

CHIPKILL所屬現代詞,指的是一種新的ECC記憶體保護標準。

Chipkill技術是IBM公司為了解決目前伺服器記憶體中ECC技術的不足而開發的,是一種新的ECC記憶體保護標準。我們知道ECC記憶體只能同時檢測和糾正單一比特錯誤,但如果同時檢測出兩個以上比特的數據有錯誤,則一般無能為力。目前ECC技術之所以在伺服器記憶體中廣泛採用,一則是因為在這以前其它新的記憶體技術還不成熟,再則在目前的伺服器中系統速度還是很高,在這種頻率上一般來說同時出現多比特錯誤的現象很少發生,正因為這樣才使得ECC技術得到了充分地認可和套用,使得ECC記憶體技術成為幾乎所有伺服器上的記憶體標準。
但隨著基於Intel處理器架構的伺服器的CPU性能在以幾何級的倍數提高,而硬碟驅動器的性能同期只提高了少數的倍數,因此為了獲得足夠的性能,伺服器需要大量的記憶體來臨時保存CPU上需要讀取的數據,這樣大的數據訪問量就導致單一記憶體晶片上每次訪問時通常要提供4(32位)或8(64位)比特以上的數據,一次性讀取這么多數據,出現多位數據錯誤的可能性會大大地提高,而ECC又不能糾正雙比特以上的錯誤,這樣就很可能造成全部比特數據的丟失,系統就很快崩潰了。IBM的Chipkill技術是利用記憶體的子結構方法來解決這一難題。記憶體子系統的設計原理是這樣的,單一晶片,無論數據寬度是多少,只對於一個給定的ECC識別碼,它的影響最多為一比特。舉個例子來說明的就是,如果使用4比特寬的DRAM,4比特中的每一位的奇偶性將分別組成不同的ECC識別碼,這個ECC識別碼是用單獨一個數據位來保存的,也就是說保存在不同的記憶體空間地址。因此,即使整個記憶體晶片出了故障,每個ECC識別碼也將最多出現一比特壞數據,而這種情況完全可以通過ECC邏輯修復,從而保證記憶體子系統的容錯性,保證了伺服器在出現故障時,有強大的自我恢復能力。採用這種記憶體技術的記憶體可以同時檢查並修復4個錯誤數據位,伺服器的可靠性和穩定得到了更加充分的保障。

相關詞條

相關搜尋

熱門詞條

聯絡我們