定義
歸納容錯系統的定義,有以下四種:
(2)規定功能的系統,在一定程度上能從錯誤狀態自動恢復到正常狀態,則稱之為容錯系統。
(3)規定功能的系統,在因錯誤而發生錯誤時,仍然能在一定程度上完成預期的功能,則把該軟體稱為容錯系統。
(4)規定功能的系統,在一定程度上具有容錯能力,則稱之為容錯系統。
一般方法
1、結構冗餘
(1)靜態冗餘。常用的有:三模冗餘TMR(Triple Moduler Redundancy)和多模冗餘。
(2)動態冗餘。動態冗餘的主要方式是多重模組待機儲備,當系統檢測到某工作模組出現錯誤時,就用一個備用的模組來頂替它並重新運行。
(3)混合冗餘。它兼有靜態冗餘和動態冗餘的長處。
2、信息冗餘
為檢測或糾正信息在運算或傳輸中的錯誤須外加一部分信息,這種現象稱為信息冗餘。
3、時間冗餘
時間冗餘是指以重複執行指令(指令復執)或程式(程式復算)來消除瞬時錯誤帶來的影響。
4、冗餘附加技術
冗餘附加技術是指實現上述冗餘技術所需的資源和技術。
設計過程
(1)按設計任務要求進行常規設計,儘量保證設計的正確。
按常規設計得到非容錯結構,它是容錯系統構成的基礎。在結構冗餘中,不論是主模組還是備用模組的設計和實現,都要在費用許可的 條件下,用調試的方法儘可能提高可靠性。
(2)對可能出現的錯誤分類,確定實現容錯的範圍。
對可能發生的錯誤進行正確的判斷和分類,例如,對於硬體的瞬時錯誤,可以採用指令復執和程式復算;對於永久錯誤,則需要採用備份替換或者系統重構。對於軟體來說,只有最大限度地弄清錯誤和暴露的規律,才能正確地判斷和分類,實現成功的容錯。
(3)按照“成本——效率”最優原則,選用某種冗餘手段(結構、、時間)來實現對各類錯誤的禁止。
(4)分析或驗證上述冗餘結構的容錯效果。如果效果沒有達到預期的程度,則應重新進行冗餘結構設計。如此反覆,直到有一個滿意的結果為止。