ld[連鎖不平衡]

連鎖不平衡 (Linkage disequilibrium)分析在連鎖不平衡程度的評估,複雜疾病精細定位以及研究人類的歷史和遷移中得到了越來越廣泛的套用。連鎖不平衡又稱等位基因關聯(allelic association),其原理其實很簡單。假定兩個緊密連鎖的位點1,2,各有兩個等位型(A,a;B,b),那么在同一條染色體上將有四種可能的組合方式:A—B,A—b,a—B,和a—b。假定等位型A的頻率為Pa,B的頻率為Pb,那么如果不存在連鎖不平衡(如組成單倍型的等位型間相互獨立,隨機組合)單倍型A—B的頻率就應為PaPb。而如果A與B是相關聯的,單倍型A—B的頻率則應為PaPb+D,D是表示兩位點間LD程度的值。如果位點2上的等位型B與疾病易患性有關,那么將會觀察到等位型A的頻率在病人群體中高於對照群體。換句話說,等位型A與該疾病性狀相關。事實上,可以檢測遍布基因組中的大量遺傳標記位點,或者候選基因附近的遺傳標記來尋找到因為與致病位點距離足夠近而表現出與疾病相關的位點,這就是等位基因關聯分析或連鎖不平衡定位基因的基本思想。

等位基因(alleles):同一位點上可能出現的基因,例如ABO血型基因

基因型(genotype):同一位點上兩個等位基因的組合。

基因頻率(allele frequency):人群中一個等位基因占該位點全部基因的比例。

基因型頻率(allele frequency):人群中特定基因型占該位點全部基因型的比例。

如同一位點上兩個等位基因分別為A和a,則A的頻率(p)和a的頻率(q)的之和為1。即p +q=1A基因的頻率為p,a基因的頻率為q。該位點的基因型有三種,分別是AA,aa和A a。基因型為AA的頻率=p×p基因型為aa的頻率=q×q基因型為Aa的頻率=2×p×q

單倍型也叫單體型,單體型(haplotype)是指一條染色體上緊密相連的兩個或兩個以上基因座一組等位基因的基因型,通常作為一個單位遺傳不同基因座位的各等位基因在人群中以一定的頻率出現。在某一群體中,不同座位上某兩個等位基因出現在同一條單元型上的頻率與預期的隨機頻率之間存在明顯差異的現象,稱連鎖不平衡 (Linkage disequilibrium) 。由於 HLA 不同基因座位的某些等位基因經常連鎖在一起遺傳,而連鎖的基因並非完全隨機地組成單元型,有些基因總是較多地在一起出現,致使某些單元型在群體中呈現較高的頻率,從而引起連鎖不平衡。

假設在同一染色體上有臨近的兩個雙等位基因位點A和B,4個等位基因的頻率分別為PA、Pa、PB和Pb。如果兩個位點之間完全獨立分離,那么單倍型AB的頻率的期望值為PA*PB,而如果觀察到的實際頻率為PAB ,那么兩個位點之間的連鎖不平衡程度可以表達為如下式子:

D=PAB-PA*PB

雖然D能夠很好的表達LD的基本含義,但是由於其嚴格依賴於等位基因頻率(allele frequency),故不適合套用於表述實際的LD強度尤其是進行不同研究的LD值的相互比較。

幾個常用於度量LD的符號中,最重要的是D’和r2,兩者都是基於D,各有各的特點及用途。他們的數學表述如下式子:

D’和r2值為零時,連鎖完全平衡;

D’和r2值為1時,連鎖完全不平衡

D’=D/DMax Dmax=min(PAPb,PaPB)

D’=D/Dmax 對於A、B兩個位點,AI、BI兩個等位基因連鎖出現的頻率為PII,AI、BI、A2、B2的頻率分別為p 1,q 1,p2,q2; 其中D=PII-pIqI,Dmax=min(p1q2,p2qI)

r2 =D/ PA*PB*Pa*Pb

當兩個位點組成的可能4種單倍型只出現其中3種時,D’=1,即兩個位點處於“完全連鎖不平衡(complete LD)”。而D’<1的時候,D’的數值究竟表征了多大程度的連鎖不平衡,是很難做出準確判斷的。另外,D’一個的重要特點是嚴格依賴於樣品量的大小。如果樣品量太小,D’值的實際含義很容易被“誇大”,尤其某個位點的其中一個等位基因的頻率很低的時候。因此,較高D’值的背後,實際上可能是連鎖不平衡程度很低的兩個位點。統計學上較高D’值僅僅暗示了重組發生率較低。而普通程度的D’<1不適合於度量LD,以及比較不同研究之間的LD程度。因此,使用D’作為LD程度的度量,需要做謹慎的評估和判斷。如果用P值來描述LD,更須謹慎。因為P值嚴格依賴於樣品量大小,故也不宜用於不同研究之間的比較。

相關詞條

相關搜尋

熱門詞條

聯絡我們