定義
間歇故障是指故障持續一段有限時間,不經任何修復性維護活動,隨後又自行恢復執行所需功能能力的一種故障。
間歇故障時隨機出現的和消失的故障,它沒有明確的模式或頻率。重複出現和消失,主要由系統內部的缺陷(不穩定的硬體和軟體)引起,而發生與否取決於某些特定的系統條件。間歇故障是一種間歇發生、難以預料的物理現象。一個有間歇故障的系統,在間歇故障活躍期時,系統會產生錯誤結果;在間歇故障不活躍時,系統故障又將輸出正確結果。間接故障的特點是:線上檢測能發現,而離線檢測難以發現。
產生原因
系統中產生間歇故障的原因多種多樣。機電系統中軸承和連桿機構的不均勻磨損、裂隙;齒輪裝置中部分輪齒斷裂、磨損;液壓設備中閥門和汽缸的密閉性不嚴等均會導致間歇故障。在輸配電系統中,開關和繼電器的開合操作,機械應力、化學用腐蝕和人為破壞導致的絕緣層損壞會使得不同電纜之間以及電纜與大地間出現間歇電弧故障,在電子設備尤其是大規模積體電路中,由於製造工藝不佳和不規範使用等導致的晶片管腳和連線鬆動, 以及環境中不同器件之間的電磁輻射和干擾等均會導致間歇故障的發生。在計算機系統中,接口不牢、電磁干擾和軟體缺陷,也會導致系統間歇故障。對於通信系統和感測器網路,信道帯寬約束、量化誤差、網路擁塞和節點競爭等也會使信息傳輸過程出現間歇故障。另外,設備運行過程中溫度、濕度和機械應力等環境條件的變化也會導致間歇故障的發生。
研究意義
間歇故障現象在生產和生活中十分普通,對系統性能和設備安全構成了巨大的威脅。在機電系統中,機內測試(Built-in test,BIT)系統是保證系統可靠性、提高可維護性和降低維修成本的重要裝置,而間歇故障是導致BIT系統出現虛警和影響設備可靠運行的主要原因。在機電動力裝置中經常出現的故障行為也大都是間歇性故障,例如牽引機本的電機系統就經常出現間歇故障;另外,現代工業生產中感應電機的套用非常普遍,消耗了85% 左右的工業電力資源,而間歇故障是其主要的故障形式。另外,輸配電系統中的電弧放電現象。積體電路中電信號不規則波動等均是常見的間歇故障,嚴重影響設備的正常運行。
在電子電路系統中,間歇故障嚴重影響設各性能。例如,數字電子設備功能紊亂主要由間歇故障引起,而異常表現通常會在系統重啟後消失,給故障檢測帯來困難。混合電路中間歇故障發生頻率是永久故障的10~30倍,是造成系統失效的主要原因。數字電路系統中間歇故障占所有可能發生故障的90%,消耗了大部分維修費用,且隨著技術和檢測手段的進步,針對電子數字電路系統永久故障的檢測和維修費用不斷降低,但針對間歇故障的檢測和維修費用卻變化不大。研究中利用實驗表明:在大規模積體電路中,平均每7700小時發生一次永久故障,而平均每100小時就會發生一次間歇故障。在通信系統中,間歇故障也非常普遍,是影響通信質量和縮短設備壽命的重要因素。來自美軍裝備和電子工業的統計數據表明,在戰場維修中,非永久故障(主要是間歇故障)占所有故障的50%以上,是造成不必要的維修、過早的設備更換等,造成了巨大的資源浪費。
除了傳統的機械和電子設備之外,在現代尖端科技領域中間歇故障也時有發生,對設備的可靠性運行造成嚴重影響。例如,在太空飛行器系統中,間歇故障在控制器中時有發生,嚴重影響容錯控制系統的正常工作,甚至導致太空飛行器失穩;在高鐵系統的牽引電機、配電設備和感測器系統中間歇故障也經常出現,對列車安全行駛構成嚴重威脅。
因此,對間歇故障的機理和特性進行深入分析,探究針對間歇故障特點的故障診斷方法對於提高系統的可靠性與安全性、降低維修成本具有重要意義。
分類方法
根據上述對間歇故障發生機理和表現形式的分析,在此對間歇故障進行分類:
1.按照照故障重複出現的方式可以分為:周期性間歇故障和非周期間歇故障;
2.按照故障幅值特點,可以分為:固定幅值故障和時變幅值間歇故障;
3.按照不同時刻故障之間的相關性可以分為:獨立間歇故障和相關間歇故障。
診斷難點
間接故障診斷極具挑戰性,一直是故障診斷領域國內學者極力想解決的難點問題之一。間歇故障的出現可用右圖進行定性地描述。如圖所示,數字“1”表示間歇故障狀態及持續時間,數字“0”表示恢復狀態及持續時間。 和 分別表示第1次和第n次間歇故障爆發的時間、頻率、機率及故障幅值或者說強度都具有一定的隨機性,而且不同產品間歇故障的失效機理不盡相同,有的間歇故障是由接觸不良引起的,而且有的是由於單粒子翻轉引起等。正是由於間歇故障的隨機性,給其診斷帶來了極大的困難。
診斷現狀
定性分析的方法
基於定性分析的故障診斷主要依賴對系統運行機理、故障特性以及故障行為與成因之間因果關係等先驗信息的分析,利用邏輯推理的方法檢測和分離故障。目前,基於定性分析的間歇故障方法可以分為基於圖論的方法、基於Petri網的方法、基於離散時間系統的方法等,另外還有少數從定性分析的角度對間歇故障的可診斷性進行描述的文獻。
定量分析的方法
基於定量分析的故障診斷方法通過對研究對象構建數學模型或者利用系統運行過程的各種測量數據,得到能夠表征故障對系統性能影響程度的殘差信息,然後對殘差進行相應的分析以達到故障診斷的目的。目前基於定量分析的間歇故障診斷方法可以分為基於模型的方法和基於數據的方法兩大類,其中基於模型的方法包括基於解析模型的方法和基於統計模型的方法;基於數據的方法可以分為基於統計特徵分析的方法和基於決策最佳化的方法等。除此之外,還有部分基於實驗方法的間歇故障診斷研究成果也值得關注。
調試
互動式驅動程式調試器是個有效的工具,但是一些故障是依賴於時間的,當使用斷點或單步運行時,這些故障可能會消失,下面介紹幾種解決這種問題的技術。
計數器
可用一對計數器在驅動程式中執行幾種檢測。例如,計數器計算有多少個IRP到達驅動程式且有多少個被傳送到IoCompleteRequest,或者在更高級別的驅動程式中,計算分配的IRP數目和能跟蹤的IRP泄露數目。類似這樣的檢測有助於發現驅動程式中微妙的矛盾。這種方法唯一的缺點是它們不能提供問題的所在位置。
事件位
另一個有用的技術是收集位標誌,位標誌在驅動程式中跟蹤重要事件的發生。每一位代表一個特定的事件、事件發生的時間,驅動程式令相應位置位,計數器全局跟蹤驅動程式行為,事件位提供有關執行代碼部分的信息。
跟蹤緩衝器
事件位和計數器均不能提供有關執行代碼序列的信息,作為備選方案,可添加一個簡單的跟蹤機制,當執行驅動程式的不同部分時,該機制在特殊緩衝器中製作項。在異步或雙工驅動程式中,跟蹤意外作用時,跟蹤緩衝器非常有用。跟蹤緩衝器比計數器和事件位占用更多的CPU時間,這對時間敏感的故障不是很理想。
執行跟蹤緩衝器的基本步驟為:
(1)為驅動程式添加跟蹤緩衝器數據結構,通常結構應出現在設備擴展中,以便在設備基礎上發生跟蹤;
(2)在跟蹤緩衝器中定義宏來製作項,隨著其它調試代碼,把跟蹤宏和條件編輯聲明合在一起;
(3)在驅動程式的不同位置,插入跟蹤宏的調用;
(4)書寫調試器擴展來讀出跟蹤緩衝器的內容。
待解決問題
目前,對間歇故障診斷的研究還很不充分,理論研究尚處於探索階段,缺乏系統性的研究成果;尚未提出針對間歇故障特點的專門故障診斷方法。在對間歇故障的研究中,存在一些亟待解決的問題:
(1)間歇故障的嚴格定義和衡量指標的問題。目前對於間歇故障只有定性的描述,一般把隨機發生、時有時無、可自行消失的故障稱為間歇故障,缺乏統一明確的嚴格定義和衡量指標。
(2)間歇故障特點對故障診斷效能的影響問題。目前的研究大都未考慮間歇故障的可檢測條件,對間歇故障在什麼條件可檢測沒有給出定量的評價指標;另外,現有的成果在間歇故障的隨機性、間歇性等對故障檢測速率和檢測率等的影響方面也缺乏系統性的理論分析。
(3)間歇故障檢測閾值的選取問題。不同於永久故障的檢測,因為間歇故障時有時無的特點,其檢測閾值的設定十分困難。目前尚未見到關於如何設計間歇故障檢測閾值的研究結果。在後續研究中,可以考慮自適應閾值和基於能量的閾值設計方法。
(4)強幹擾條件下間歇故障的檢測。間歇故障對系統狀態的影響與外界擾動和噪聲對系統的影響極為相似,很容易被掩蓋,從而導致診斷的失敗。目前的研究主要利用機率分析的方法來區分外界擾動和間歇故障對系統性能的影響,但需要已知間歇故障發生的機率,這在很多情況下是不可能的。
(5)閉環系統中間歇故障的診斷。目前對間歇故障的研究大都是在開環系統的框架下進行的。而在閉環系統中,由於反饋的補償作用,使得系統對故障具有一定的天然容錯能力,因此閉環系統的故障診斷成為故障診斷領域的研究難點,而間歇故障因為閉環系統自身的容錯能力而更加難以診斷。
(6)微小間歇故障的診斷。目前對間歇故障診斷的研究大都是基於故障幅值或能量在一定界限之上的假定。然而,間歇故障發生在初期,其幅值和能量很小,此時可以稱其為微小間歇故障,既具有間歇性,隨機性(周期性)和反覆性的特點,又受到幅值低、能量小的限制,其檢測和診斷更加困難。然而,微小間歇故障的準確診斷可以有效提高系統的可靠性與安全性,對實際工業過程具有重要意義。