壽命數據統計分析

壽命數據統計分析

數理統計學中處理壽命數據的理論與方法,主要包括以工業產品壽命為對象的可靠性統計和以生物體的生存期為對象的生存分析。

正文

這裡所說的壽命和生存期的含義都是廣義的。對不可修復的產品(如電子管),壽命是指它從開始工作起至喪失其規定功能(稱為失效)為止的工作時間;而對可修復的產品(如計算機),壽命是指它兩次相鄰故障間的工作時間。生物體的生存期是與它生命過程中的某個特殊事件(如患某種疾病)相聯繫的,指從該事件發生起至因此而死亡所經歷的時間。如果將出生作為所考慮的事件的開始而又不區分死亡的原因,則所得的生存期就是通常意義下的壽命。上述在不同場合下使用的壽命或生存期的概念,在數學上有共同點,可以統一處理。
壽命分布及其數學描述  對任一特定個體(產品或生物體),從某個標準時間起在規定時間t內失效(或死亡),是一個隨機事件。因此壽命(生存期)是一個非負的隨機變數,通常記為T,其機率分布稱為壽命分布。描述一個壽命分布,除了通常的分布函式F(t)和密度函式?(t)外,也常用下述兩個更為直觀且與上面兩種函式可以互相轉換的函式:①可靠度函式也稱生存函式,是指個體在t時尚未失效(尚存活)的機率

②危險率函式也稱失效率函式,是指在t時刻尚未失效的個體在t以後的一個單位時間內失效(或死亡)的機率λ(t)。更嚴格地說,λ(t)是在已知T≥t的條件下T的條件密度。它與前述各量之間的關係為

因而可靠度函式也可用危險率函式表示:

式中又稱累積危險率。壽命T的數學期望稱為平均壽命;α分位數稱為可靠度為1-α的可靠壽命。特別,中位數稱為中位壽命,也就是有50%個體所能達到的壽命值,它們都是常用的壽命特徵量。
常見的壽命分布有指數分布、韋布爾分布、對數常態分配和伽瑪分布等(見機率分布)。其中以指數分布最為重要,它是惟一具有恆定危險率,因而具有“無後效性”的分布,即一個尚存活(未失效)的個體,不管它已生存工作了多長時間,其未來的存活時間與一個“新”的個體沒有差別。在一定條件和一定的近似程度之下,許多工業產品的壽命都可以看成是遵循或近似遵循指數分布的。指數分布在壽命數據分析中占有重要地位的另一原因是它的統計分析最為簡單,理論上也最為成熟。
壽命數據特點和壽命試驗種類  一般的壽命數據與統計中通常使用的隨機樣本有很大區別。壽命數據往往是不完全數據,即並不是每一個觀測到的值都是確切的壽命值。某些數據可能只表示相應個體的壽命不小於該數值,而並不知道其確切壽命的數值,這樣的數據稱為截尾數據。如從現場收集的壽命數據,由於在統計時某些產品尚未失效,或因多種原因中斷觀測,這些產品的實際壽命應比已觀測到的時間長。生存期數據一般也具有這種特點。就是在可以人為控制的產品壽命試驗中,由於試驗費時較長,費用較高,往往不能將試驗進行到所有受試樣品都失效時為止。因此必須在達到規定的時間或在失效的樣品達到規定數目時終止試驗。這種試驗稱為截尾試驗,前者稱為定時截尾試驗,後者稱為定數截尾試驗。對某些長壽命的產品,為進一步縮短試驗所必須的時間且獲得足夠的失效數據,試驗時常採用加大應力(諸如熱應力、電應力,機械應力等),以促使產品加速失效。這種試驗稱為加速壽命試驗。此外,根據試驗中是否用“新”的樣品替換已失效的樣品,壽命試驗還可以分成有替換試驗和無替換試驗兩類。
統計分析方法  對於非截尾的(完全)壽命數據,可以套用一般的統計分析方法;對於截尾壽命數據,則必須用特殊的分析方法,常用的有如下方法。
① 基於次序統計量(見統計量)的分析方法 如果壽命分布的類型已知,則對於定時或定數截尾的壽命數據,根據次序統計量的統計推斷方法可以對有關分布參數或壽命特徵量進行估計或檢驗,例如對指數分布,不論何種截尾形式,也不論試驗有無替換,平均壽命θ的最大似然估計都為=S/r,式中r為試驗中出現的失效數,S為所有試驗樣品的試驗時間的總和。還可進一步對θ進行區間估計。對其他的壽命分布,其參數或壽命特徵量的估計與檢驗,要比指數分布複雜得多。例如威布爾分布,為求參數的最大似然估計,必須用疊代法解似然方程組。為此發展了許多線性估計方法,使用方便,但需用大篇幅的圖表。
有關壽命數據的假設檢驗的主要問題之一,是確定壽命分布的類型。此時就需要用適用於截尾樣本的分布擬合優度檢驗的特殊方法。例如為檢驗總體服從指數分布的假設,Б.Β.格涅堅科等提出以下一種檢驗方法:如果t1,t2,…,tr是全部投試的n個樣品中前r(r≤n)個失效的定數截尾壽命數據,那么當總體分布為指數分布時,統計量服從自由度為2k1,2k2的F分布,式中而t0=0。在實際套用中常見的另一類檢驗問題是兩組壽命數據的比較,即檢驗兩個壽命總體的可靠度(生存)函式是否相等,在已知分布類型時,可以化成關於分布參數或某些壽命特徵量的假設檢驗問題。
② 壽命表分析和乘積限估計以及其他非參數方法當壽命分布類型未知時,可採用各種非參數統計分析方法。壽命表分析適用於大樣本的壽命(生存)數據,它脫胎於人口統計中的人口壽命表,但經過修改可適用於各種壽命數據。數據按大小分組,通過對截尾數據的校正,可得出各組的可靠度函式、密度函式和危險率函式的估計,以及平均壽命等壽命特徵量的估計,並可計算這些統計量的方差的近似值。乘積限估計適用於小樣本數據,其思想和方法與壽命表分析相似。
關於假設檢驗,也有許多非參數方法可以採用,例如對兩組壽命數據的比較,可用廣義威爾科克森檢驗和時序檢驗等。
③ 危險率的回歸模型 在實際中, 個體的失效受到它本身某些固有因素和外界因素的影響。為此有必要對壽命數據進行統一的定量分析,以便在儘可能排除個體差異的情況下,對感興趣的因素的作用進行考察。在數學上,就是要考慮若干定性或定量因素Z1,Z2,…,Zp對壽命的影響。一種有效的方法是將它們的影響表現在對危險率λ(t)的關係中,考慮λ(t)或logλ(t)對諸因素的回歸模型。討論最多的是所謂比例危險率模型

式中λ0(t)是當Z1=Z2=…=Zp=0時的基準條件下的危險率,而β1,β2,…,βp是待估計的回歸係數。根據λ0(t)的類型是否已知,模型又可分為參數與非參數兩種。無論對哪種類型,都可以對β1,β2,…,βp以及λ0(t)的類型及所包括的參數進行估計,並對有關的βj的假設進行檢驗。
發展簡史  很早以來人們就有一些處理壽命數據的方法。壽命表就是最早套用的一種統計分析的工具,它的使用可追溯到300多年前。由於人口統計學的發展,特別是人壽保險數學的發展,壽命數據的分析逐漸採用現代統計理論和方法,且壽命的概念也逐漸從人和生物體的壽命擴大到工業產品的壽命。W.韋布爾發現Ⅱ型極值分布可以廣泛地擬合各類壽命數據以後,壽命數據分析的手段就更為有效。特別是在第二次世界大戰期間,由於複雜武器及電子設備的發展使產品可靠性問題愈來愈突出,因而產生了可靠性這個綜合了工程、物理、數學和統計學內容的邊緣性學科(見可靠性數學理論),並在戰後得到迅速發展。從可靠性統計中發展起來的壽命數據分析方法又反過來套用於醫學和生物學,從而又促使生存分析的發展。由於生命過程更為複雜,個體差異更大,因此必須考慮某些更為複雜的模型,而這些模型及其處理方法又可套用到可靠性問題中去。在這個意義上說,可靠性和生存分析是兩個既有聯繫又各具特點的分支學科。它們所研究的具體對象不同,所考慮的模型也有區別,但它們的統計分析是有共性的。
參考書目
N.R.Mann, R.D.Schafer and N.D.Singpurwalla,Methods for Statistical Analysis of Reliability and Life data,John Wiley & Sons, New York, 1974.
A.J.Gross & V.A.Clark,Survival Distributions: Reliability Applications in the Biomedical Sciences,John Wiley & Sons, New York,1975.

相關詞條

相關搜尋

熱門詞條

聯絡我們