概述
容錯設計簡述
容錯設計來源於這樣的思想:按照機率論,無論多么先進的系統,其故障率必然大於零,要使系統避免失效,就要提供冗餘系統。容錯設計的目的不是避免系統發生故障或提高平均無故障時間,而是在系統發生故障時保證系統正常功能不受或少受影響 。
優勢
這種系統設計思想與不斷提高的軟體、硬體質量結合起來,就能形成具有強大性能的實時不間斷的網路系統。經過容錯設計的網路系統有兩大優勢:
1.故障不停網優勢:容錯網路在伺服器、交換機等關鍵設備故障的情況下也能正常運行。這就為搶救數據、維修設備提供了充足的時間,避免了故障損失的擴大。
2.消除網路瓶頸:容錯網路由於採用了冗餘設計,可以進行負載均衡,使網路瓶頸問題得到解決或緩解。所以,容錯網路的網速更高,堵塞更少 。
硬體的容錯分析
硬體容錯根據它們在網路系統中的位置分伺服器端、網路連線端和工作站端3個方面分析。很多情況下在系統中間同時連入型號、大小一樣的2份設備或元器件,平時1份起作用,1份備用;有的是2份同時起作用,若1份出故障,另1份同時接替故障的設備,不影響系統的運行從而達到容錯的目的。硬體(包括其元件)本身的可靠性也應列入硬體容錯範圍。
網路連線端的容錯分析
網路連線端的設備主要包括網卡、通信電纜、集線器、交換器和路由器等。通常採用的容錯辦法有:一是選擇本身具有一些容錯功能的設備,二是在設計系統時,採用備用設備。另外,網路畢竟是一個系統,容錯設件計時,不僅要考慮設備本身的容錯效果,而且要特別注重所有網路設備連線起來的整體效果 。
伺服器系統的容錯分析
在網路系統中伺服器往往處於中心地位,伺服器的容錯性能影響著整個系統數據完整性和可恢復性。過去常採用的普通微機伺服器不提倡繼續使用,因為普通微機的內部結構幾乎沒有容錯考慮。建議採用專用伺服器,因為專用伺服器通過元件可靠性和冗餘元件等辦法增加了容錯性。但儘管專用伺服器有一定的容錯性,還是滿足不了不停機等系統的容錯要求,但可通過不同的方法把若干台伺服器組合成高容錯性的伺服器系統 。
工作站的容錯分析
工作站的容錯要求相對伺服器來說要低得多,卻又不能完全忽視。對於一些重要的套用站點:一是要考慮備用工作站,注意並不是 1個站點配1個備用工作站,而是多個站配1個備用工作站;二是選用元件可靠性高的機器用做工作站 。
軟體的容錯分析
軟體容錯極為關鍵的是選擇網路作業系統,不同的網路作業系統對整個系統的軟硬體容錯都有很大的影響。
網路作業系統的容錯分析
網路系統中通常包括伺服器、工作站、印表機、集線器、交換器、路由器、軟體及數據等多種設備和資源,對這些設備和資源進行管理就是網路作業系統的基本任務。隨著不停機系統的普及,網路作業系統逐步增加了容錯的處理措施及對容錯軟體的管理。這些措施或軟體包括UPS電源監控保護、熱修復、寫後讀校驗、磁碟鏡像 、磁碟雙工、雙機熱備份、群集和事務跟蹤等。不同的網路作業系統容錯措施及所支持的容錯軟體不同,如Novell NetWare基本上不支持群集技術,而UNIX和Windows NT群集技術在支持伺服器數量上不同,UNIX所支持的伺服器數量多,而且技術成熟,另一方面,UNIX抵禦病毒的能力最強,Novell NetWare最弱。 Windows 95雖然是一個桌面作業系統,但它也可組成簡單的網路系統,如作為網路系統則就沒有多少容錯性能 。
其它軟體的容錯分析
早期版本的軟體較少考慮容錯,這與當時單機 (或小區域網路)環境對軟體容錯要求較低有關。隨著網路系統的越連越大,特別是不停機系統的逐步增多,軟體容錯要求越來越高,如Xbase系列的Dbase和Foxbase沒有考慮事務處理功能,Foxpro開始有所考慮,但還不完善,所以Foxbase在網路系統上運行的效果很差。Foxpro已有所改善,最新發布的Visual Foxpro 5.0在大部分功能上逐步向大型資料庫靠攏。
各種軟體對容錯的適應性不同。Sybase 和Oracle等大型資料庫幾乎都不支持自動熱備份,但支持共享磁碟的群集來提高系統的容錯性;Oracle能比較充分地發揮群集技術的優勢,在系統中做到任務均衡,Sybase則做不到任務均衡。