篩選差異基因

"(1)

篩選差異基因

中文名稱:篩選差異基因
英文名稱:Differencesgenetic screening
定義:用統計學的方法對高通量的基因數據進行篩選,挑出樣本間有顯著性差異的基因
套用學科:分子生物學(一級學科),核酸與基因(二級學科)

簡介

微陣列技術和測序技術可同時獲得大量基因的數據,已廣泛套用於生物醫學研究。基因表達譜數據具有高維和樣本量小的特點,如何挖掘其中所蘊含的海量基因信息,深層次研究基因功能,已成為微陣列技術發展和套用的瓶頸。目前,基因表達譜數據分析方法的研究已成為生物與醫學統計學研究領域的重要任務和熱點問題。基因表達譜數據篩選差異表達基因的關鍵是控制多重檢驗錯誤率(假陽性率) ,同時要保證較高的篩選效率。針對微陣列數據篩選差異表達基因問題,國內外學者提出了多種方法,如:適用於不同研究設計和資料類型基因表達譜數據篩選差異表達基因的SAM ( significanceanalysis of microarrays)方法、兩樣本t檢驗、Bonferroni校正法、BH 方法等。

方法

SAM 法

SAM方法由Tusher、Tibshirani、Chu於2001 年率先提出,是一類用於微陣列基因表達譜數據篩選差異表達基因的統計分析方法。SAM方法適用於不同設計和資料類型的微陣列數據差異表達基因的篩選。SAM方法一般採用permutation 算法估計假髮現率( false discoveryrate , FDR) ,達到控制多重檢驗錯誤率的目的。Storey(2001)針對基因表達譜數據統計分析中的多重檢驗問題,提出了一種新的第Ⅰ類錯誤測度陽性假髮現率(positive falsediscovery rate, pFDR) ,並就該測度的合理性進行了論證。Storey (2002)改進了控制重檢驗錯誤率的方法,提出了一種直接方法,即先憑藉經驗固定拒絕域,然後估計pFDR,若某基因的pFDR小於檢驗水準,則認為該基因為差異表達基因。多重檢驗為控制總Ⅰ類錯誤率( family-wise error rate,FWER)或FDR,可通過多種方法計算校正的P值; pFDR也有類似定義, Storey將其定義為q值。對於一個檢驗統計量T = t的q值定義為:
q - value ( t) = inf{Γα: t∈Γα}pFDR (Γα )
其中,Γα為拒絕域。由上式看出: q值為該假設剛好被拒絕所犯的最小第Ⅰ類錯誤。假定對m 個相同假設H1 , H2 , …, Hm 進行檢驗, T1 , T2 , T3 , …, Tm 為檢驗統計量,且Ti 是獨立同分布,拒絕域為Γ,那么檢驗統計量T = t的q值可表示為:
q - value ( t) = inf{Γα: t∈Γα}pr(H = 0 | T∈Γα ) 。
而P值的定義為:
p - value ( t) = inf{Γα: t∈Γα}pr( T∈Γα |H = 0)
可見q值與P 值很相似。在獨立同分布的條件下, q值就是一個Bayesian版的P 值,稱為後驗Bayesian P值。SAM方法以q值< 0.05作為篩選差異表達基因的標準。

兩樣本t檢驗

兩樣本t檢驗,即兩組獨立樣本t檢驗。t檢驗法是確定兩組間差異表達基因的最簡單統計推斷方法。t檢驗的標準誤可用單個基因數據進行估計, 也可用所有基因數據進行估計。前者雖然可以避免各基因組間方差齊性的限制,但微陣列數據樣本量小,因此估計的標準誤不穩定、檢驗效能低。後者需要滿足所有基因組間方差齊性,但實際工作中該條件往往不能得到滿足。t檢驗方法的標準誤採用單個基因數據進行估計,以P <0.05作為篩選差異表達基因的標準。

Bonferroni校正法

Bonferroni校正法是控制FWER最常用的方法之一,屬於Single-step 方法。設同時檢驗m 個原假設:H01 , H02 , …, H0m,相應的單假設檢驗的P值為: P1 , P2 ,…, Pm 。α為需要控制的檢驗水準。Single2step 方法不考慮原始P 值的大小順序,平等的對待所有原假設。Bonferroni校正的P值為.Pi =min(m Pi , 1) 。此方法等價於:如果.Pi ≤α,則拒絕H0 i。

Sidak校正法

Sidak校正法也是控制FWER常用的方法,屬於Single-step方法。假設如前,當原始P值獨立且服從均勻分布U &#91; 0, 1 &#93;時,Sidak方法可控制FWER,若Pi ≤1 - (1 -α) 1 /m, 則拒絕H0 i。Sidak方法校正的P值為.Pi = 1- ( 1 - Pi ) m 。此方法等價於:如果.Pi ≤α, 則拒絕H0 i。

Hochberg法

Hochberg法是控制FWER的Step-up方法。Step-up方法基於順序P值,將原始P值按照大小排序P(m )≥P(m 21)≥…≥P(1),從最大的(最不顯著的) P值向最小的(最顯著的) P 值尋找域值^k, 拒絕所有的P(1),P(2), …, P(^k)對應的原假設,使得多次檢驗所犯第Ⅰ類錯誤的機率小於檢驗水準α。假設如前,Hochberg法算法如下:
第一步:計算m 次假設檢驗對應的P值。
第二步:按照原始P值大小排序得到: P(1)≤P(2)≤…≤P(m ), 相對應的檢驗原假設為H0 (1), H0 (2) , …,H0 (m) 。
第三步:令^k =max{ k:P( k) ≤α/ (m- k + 1) },從k=m 開始,然後k =m - 1, 直到第一個滿足P( k)≤α/(m - k + 1)的k,記為^k,拒絕所有的P(1), P(2), …, P(^k)對應的原假設。如果沒有滿足條件的k,則不能拒絕所有的原假設。
Hochberg法校正後P值為: .P( i) =mink = i, …, m{min( (m- k + 1) P( k), 1) }。

BH法

用FWER作為第Ⅰ類錯誤測度過於保守,為此Benjamini和Hochberg( 1995)提出了一種新的錯誤測度FDR。在檢驗統計量相互獨立且有連續分布,即原始P值相互獨立,且服從均勻分布U &#91;0, 1 &#93;條件下,Benjamini和Hochberg(1995)提出了一種將FDR控制在水平m0α/m的方法(以下簡稱為BH法) ,從而也可將FDR控制在水平α。BH法如下:
第一步:計算m 個假設檢驗對應的P值。
第二步:按照原始P值大小排序得到: P(1)≤P(2)≤…≤ P(m ), 對應的檢驗原假設為H0 (1) , H0 (2) , …,
H0 (m) 。
第三步:從P(m )開始,估計^k =max{ k:P( k) ≤kα/m}。
第四步:如存在^k,拒絕所有的P(1), P(2), …, P(^k)對應的原假設。如果沒有滿足條件的k,則不能拒絕所有的原假設。
BH方法校正的P值為.P( i) =mink = i, …, m{min(mP( k) /k,1) }。
Benjamini和Yekutieli( 2001)發現在檢驗統計量之間存在相依結構時,即檢驗統計量在相應於原假設的統計量集合上具有PRDS(positiveregression depend-encyon single variable) ,BH方法仍可控制FDR在水平m0α/m。該發現具有重要的實際套用價值,因為在實際問題中,統計量間往往存在相依結構。
Bonferroni校正法、Sidak 校正法、Hochberg法、BH法,均以校正的P值.Pi <0.05作為篩選差異表達基因的標準。

方法比較

Bonferroni校正法、Sidak 校正法和Hochberg 法可將FWER、FDR控制在很低的水平,但是篩選出的差異表達基因數比較少,不適用基因表達譜篩選差異表達基因的數據分析。相同樣本量和方差條件下, 成組t檢驗方法篩選的差異表達基因數最多,但是不能有效地控制FW ER、FDR 水平, 篩選出的差異表達基因假陽性數過多。通過模擬實驗發現, SAM 方法和BH 法篩選差異表達基因數、假陽性數、FWER 和FDR 均相差不大,均篩選出較多的差異表達基因,且控制了多重檢驗錯誤率。相同樣本量和方差條件下, SAM 方法篩選出的差異表達基因數、約登指數略高於BH法,假陽性數略低於BH法。因此, SAM 方法適用於基因表達譜數據篩選差異表達基因的數據分析。

小樣本差異基因篩選

在小樣本和方差較大情況下,SAM 方法的診斷水平一般,約登指數較小。
當樣本重負數量少於5個樣本時使用常態分配T檢驗、F檢驗和方差分析將大大增加差異基因篩選的假陽性率和假陰性率。
(TwoclassDif,MultiClassDif,TwoFactorRVM)基於小樣本數據的隨即方差模型(RVM,2003發表於Bioinformatics)校正的T檢驗、F檢驗和方差分析方法,可準確地篩選出顯著性差異基因或者microRNA,篩選結果經擴大樣本檢測後仍為差異表達。小樣本差異表達基因篩選適用於每組樣本3-5次隨機重複的高通量監測數據。

熱門詞條

聯絡我們