概述
S.M.A.R.T的全稱為“Self-Monitoring,Analysis and Reporting Technology”,即“自我監測、分析及報告技術”。支持S.M.A.R.T技術的硬碟可以通過硬碟上的監測指令和主機上的監測軟體對磁頭、碟片、馬達、電路的運行情況、歷史記錄及預設的安全值進行分析、比較。當出現安全值範圍以外的情況時,就會自動向用戶發出警告。
該技術由Compaq公司率先開發,IBM、希捷、富士通、昆騰等硬碟廠商參與修正,並融合了Compaq公司的IntelliSafe診斷技術和IBM的PFA檢測技術特點。
1995年5月,Compaq公司向Small Form Factor(SFF)委員會提交了IntelliSafe的技術標準報告(SFF-8035i);1996年1月進行1.0版的修正(SFF-8035R2);1996年6月進行了1.3版的修正(SFF-8055),並聯合IBM等公司向SFF正式申請將IntelliSafe技術加入到ATA-3的行業標準中,正式更名為S.M.A.R.T。
S.M.A.R.T.標準
作為行業標準,S.M.A.R.T規定了硬碟製造廠商應遵循的標準。滿足S.M.A.R.T標準的條件主要包括:在設備製造期間完成S.M.A.R.T需要的各項參數、屬性的設定;在特定系統平台下,能夠正常使用S.M.A.R.T;通過BIOS檢測,能夠識別設備是否支持S.M.A.R.T並可顯示相關信息,而且能辨別有效和失效的S.M.A.R.T信息;允許用戶自由開啟和關閉S.M.A.R.T功能;在用戶使用過程中,能提供S.M.A.R.T的各項有效信息,確定設備的工作狀態,並能發出相應的修正指令或警告。在硬碟以及作業系統都支持S.M.A.R.T.技術並且該技術默認開啟的的情況下,在不良狀態出現時S.M.A.R.T.技術能夠在螢幕上顯示英文警告信息:“WARNING:IMMEDIATLY BACKUP YOUR DATA AND REPLACE YOUR HARD DISK DRIVE,A FAILURE MAY BE imminent.” (警告:立刻備份你的數據同時更換硬碟驅動器,可能有錯誤出現。)
S.M.A.R.T.如何工作
S.M.A.R.T信息保留在硬碟的系統保留區(service area)內,這個區域一般位於硬碟0物理面的最前面幾十個物理磁軌,由廠商寫入相關內部管理程式。除了S.M.A.R.T信息表外還包括低級格式化程式、加密解密程式、自監控程式、自動修復程式等。監測軟體通過一個名為“SMART RETURN STATUS”的命令(命令代碼為:B0h)對S.M.A.R.T信息進行讀取,且不允許最終用戶對信息進行修改。
S.M.A.R.T信息表由什麼組成
S.M.A.R.T標準中採用二進制代碼作為S.M.A.R.T的基本指令,並規定寫入標準的暫存器中,形成特定的S.M.A.R.T信息表,以供正常檢測和運行。S.M.A.R.T指令分主指令(Command)和次指令(Subcommands)。主指令主要提供設備是否支持S.M.A.R.T或忽略某一次指令特徵的信息。而次指令則提供支持S.M.A.R.T設備的檢測信息。這些指令主要由設備廠商寫入,一些專業硬碟維修軟體可以通過這些代碼進行設備的檢測。
SCSI系統中的S.M.R.A.T技術
由於目前硬碟領域存在ATA(以及SATA)和SCSI兩種標準,所以不可否認,S.M.A.R.T.技術是同時支持這兩個系列的產品的,只是在一些參數設定上存在一些差異,在關鍵參數上SCSI比ATA硬碟更為複雜。但在實際運作中,由於用戶和使用環境不同,S.M.A.R.T.對ATA/IDE系統的干預比SCSI系統要多一些,而對SCSI故障的判定更為專業和準確些。SCSI硬碟的S.M.A.R.T.技術與ATA硬碟的S.M.A.R.T.技術相比更為複雜,以下僅列舉SCSI硬碟所特有參數中的一部分。
Primary Temp:硬碟盤體的工作溫度
Secondary Temp:PCB板周圍的工作溫度
Min and Max Temp:在一段時間內硬碟盤體的最高和最低工作溫度
Velocity Observer Count:在一段時間內伺服尋道時偏離指定磁軌的次數
12V:12V供電電壓值
5V:5V供電電壓值
MR Res:MR磁頭牡繾柚?
Sectors Read:在一段時間內從硬碟中讀取的扇區數
Sectors Written:在一段時間內數據寫入硬碟中的扇區數
在ATA/IDE環境下,由主機上的軟體對S.M.A.R.T“報告狀態”命令生成的、來自硬碟的報警信號進行解讀。主機對硬碟進行查詢,以檢查這一命令的狀態,如果顯示馬上要發生故障,就將告警信號送至最終用戶或系統管理員。系統管理員就安排關機時間,以備份數據和更換硬碟。主系統除對來自硬碟的“報告狀態”命令進行評估外,還可對屬性和告警報告進行評估。在SCSI環境下,S.M.A.R.T則只報告“狀況完好”或“出現故障”。由硬碟進行故障判斷,再由主機通知用戶採取措施。在SCSI標準中有一個檢測位,當硬碟確定可靠性出現問題時,檢測位就打上標記並通知最終用戶或系統管理員,採取相應措施。
SCSI系統
由於目前硬碟領域存在ATA和SCSI兩種標準,所以不可否認,S.M.A.R.T技術是同時支持這兩個系列的產品的,只是在一些參數設定上存在一些差異,在關鍵參數上SCSI比ATA硬碟更為複雜。但在實際運作中,由於用戶和使用環境不同,S.M.A.R.T對ATA/IDE系統的干預比SCSI系統要多
一些,而對SCSI故障的判定更為專業和準確些。SCSI硬碟的S.M.A.R.T技術與ATA硬碟的S.M.A.R.T技術相比更為複雜,以下僅列舉SCSI硬碟所特有參數中的一部分。
PrimaryTemp:硬碟盤體的工作溫度
SecondaryTemp:PCB板周圍的工作溫度
MinandMaxTemp:在一段時間內硬碟盤體的最高和最低工作溫度
VelocityObserverCount:在一段時間內伺服尋道時偏離指定磁軌的次數
12V:12V供電電壓值
5V:5V供電電壓值
MRRes:MR磁頭的電阻值
SectorsRead:在一段時間內從硬碟中讀取的扇區數
SectorsWritten:在一段時間內數據寫入硬碟中的扇區數
在ATA/IDE環境下,由主機上的軟體對S.M.A.R.T“報告狀態”命令生成的、來自硬碟的報警信號進行解讀。主機對硬碟進行查詢,以檢查這一命令的狀態,如果顯示馬上要發生故障,就將告警信號送至最終用戶或系統管理員。系統管理員就安排關機時間,以備份數據和更換硬碟。主系統除對來自硬碟的“報告狀態”命令進行評估外,還可對屬性和告警報告進行評估。在SCSI環境下,S.M.A.R.T則只報告“狀況完好”或“出現故障”。由硬碟進行故障判斷,再由主機通知用戶採取措施。在SCSI標準中有一個檢測位,當硬碟確定可靠性出現問題時,檢測位就打上標記並通知最終用戶或系統管理員,採取相應措施。
預測效果
通常我們面對的硬碟故障可以分為兩大類:不可預測和可預測。不可預測故障,通常指不可預料的電子和機械故障,這類故障發生在瞬間,如硬碟加電狀態意外碰撞導致硬碟磁頭撞擊碟片,或瞬間電流過大引起的晶片或電路故障。通常是在S.M.A.R.T反映出性能下降之前,硬碟就已經不能工作。而這些只可通過質量、設計、工藝、製造等方面的改進以及使用過程中規範操作來降低不可預測故障的發生率(例如硬碟防震技術的開發和進展,有效降低了硬碟震動物理故障的機率)。
可預測故障具有在硬碟完全不能工作前,其相應的參數會隨時間發生變化的特點。根據這一特點,可以通過S.M.A.R.T此類實時信息檢測技術監測其屬性來進行故障預測、分析和提供建議,從而加以防範。此類故障中包括軟體故障和硬體故障。例如許多機械故障都被看作是典型的可預測故障,S.M.A.R.T技術對於此類故障就有了用武之地,在發生故障之前,可以發出提醒用戶備份數據的通知,保護用戶的數據。
據研究數據表明,利用S.M.A.R.T技術可預測的硬碟故障中,60%為機械性質的,40%左右則是對軟性故障的有效預測。隨著S.M.A.R.T技術及相關技術的漸漸成熟,可預測出的故障種類將越來越多,對故障的防範措施也會變得越來越有效。當然,對不想開啟S.M.A.R.T技術的讀者而言,也可以在BIOS設定的“AdvancedBIOSSetUp”選項中將其關閉
解答
1.組建RAID之後,S.M.A.R.T是否仍然生效?用戶組建RAID之後,S.M.A.R.T功能仍然有效,但是這需要RAID卡控制晶片支持S.M.A.R.T功
能。實際上,RAID卡的S.M.A.R.T報警功能與硬碟在常規狀態下的報錯信息並無太大差別。報警時,相應模組所對應的硬碟指示燈(通常為紅色)會長
亮以起到警示作用。
2.為什麼監測不到USB接口外置硬碟的S.M.A.R.T狀態?
對於一個USB接口外置硬碟而言,系統將它判定為一個USB設備,監測不到S.M.A.R.T信息是因為USB標準中沒有此項規定。此時雖然硬碟自身仍然在記錄S.M.A.R.T狀態,但由於它是USB外設,系統就不會監測它的S.M.A.R.T狀態。
3.S.M.A.R.T功能對系統性能是否有影響?
硬碟記錄S.M.A.R.T信息有兩種方式,第一種是“線上(On-line)”收集,所謂線上收集就是硬碟在工作時,根據硬碟的實際工作狀態收集到的信息,硬碟實時或在指定時間段內更新自身的S.M.A.R.T數據。舉例來說,如果一個ATA硬碟在寫入數據到一個扇區時,
遇到一個不可修正的錯誤,硬碟會及時把這個信息更新到SMART數據中;對於SCSI硬碟,如果它設定的S.M.A.R.T更新周期是4分鐘,則它會把在
4分鐘內收集到的相關S.M.A.R.T信息更新到S.M.A.R.T數據區,然後再開始下一個周期的跟蹤。線上收集狀態對系統性能沒有影響。
第二種是“離線(off-line)”收集,離線收集是硬碟收到主機發來的一些特定指令時而進行自檢測試,此時硬碟會處於“idel”狀態或錯誤修正狀態,在這類情況下,硬碟自身將作大量動作以測試健康狀態,導致硬碟對主機發出的正常要求產生延遲。所以離線收集狀態會造成系統性能的下降。
4.S.M.A.R.T技術對相關信息的記錄是否有周期性?
對於SCSI硬碟而言,記錄S.M.A.R.T信息有周期性,一般情況下周期處於4分鐘~120分鐘之間。這個值在硬碟出廠時就已設定,並且只能通過專業軟體進行修改;而對於ATA硬碟,S.M.A.R.T信息的記錄則沒有周期性。
總結
經過近9年的發展,S.M.A.R.T技術已成為ATA/SCSI規範中不可或缺的部分。目前,硬碟廠商關於數據保護技術的開發和研究,也基本是建立在S.M.A.R.T技術基礎上的。通過本文的分析可以看出,S.M.A.R.T具有被動性的檢測、預警功能,被新興的數據保護技術衍生為可主動修復的功
能。隨著硬碟技術的更新,我們有理由相信,S.M.A.R.T技術將給用戶的數據提供更多保障。