定義
在遺傳流行病學上,全基因組關聯研究(Genome Wide Association Studies,GWAS)是一種檢測特定物種中不同個體間的全部或大部分基因,從而了解不同個體間的基因變化有多大的一種方法。不同的變化帶來不同的性狀,如各種疾病的不同。在人類中,這種技術發現了特定基因與疾病的關聯,如被稱為年齡相關性黃斑變性的眼部疾病和糖尿病。在人類中,數百或數千人通常用於單個DNA突變(單核苷酸多態性或SNPs)進行測試,約600人通過GWAS來檢查150 疾病和相關性狀,發現800個SNP具有關聯性。他們在發現疾病的分子途徑時非常有用,但是通常在發現預測疾病風險的基因時卻不是很有用。
這些研究通常比較兩組參與者的DNA:有疾病的人(病例)和相同條件的無該疾病的人(對照)。每個人都提供些作為樣本的細胞,如從口腔內側擦下的表皮細胞,可以從這些細胞中提取DNA,並塗布在基因晶片上,該晶片上可以讀取上百萬個DNA序列。這些晶片被讀入計算機,在那裡通過生物信息學技術對其進行分析,而不是閱讀的全部DNA序列,這些系統通常讀的是各個SNP,這些SNP便是成組的DNA變異(單倍型)的標記。
如果在患者中某基因型的變異很頻繁,那么就說該變異與該疾病“相關”。相關的遺傳變異所在的人類基因組區域被視為標示點,基因組的該區域可能是致病原因的所在。有兩種方法用來尋找疾病相關的突變:假設驅動和非假設驅動的方法。假設驅動的方法為一開始假設一個特殊的基因可能與某種疾病有關,並試圖找出關聯。非假設驅動的研究用蠻力的方法來掃描整個基因組,看哪些基因與該病有關聯。GWAS一般採用非假設驅動。
令人驚訝的是,與疾病相關的SNP變異大多不是在編碼蛋白質的DNA區域。相反,他們通常位於染色體上編碼基因間的大型非編碼區域上,或者位於編碼基因的內含子上,該內含子通常在蛋白質的表達過程中被剪下掉。這些是有控制其他基因能力的可能的DNA序列。但通常,他們的蛋白質功能是不知道的。
GWAS為人們打開了一扇通往研究複雜疾病的大門,將在患者全基因組範圍內檢測出的SNP位點與對照組進行比較,找出所有的變異等位基因頻率,從而避免了像候選基因策略一樣需要預先假設致病基因。同時,GWAS研究讓我們找到了許多從前未曾發現的基因以及染色體區域,為複雜疾病的發病機制提供了更多的線索。
分析原理
基於無關個體的關聯分析
病例對照研究設計:主要用來研究質量性狀,即是否患病。
基於隨機人群的關聯分析:主要用來研究數量性狀。
基於家系的關聯研究
在研究基於家系的樣本時,採用傳遞不平衡檢驗(TDT)分析遺傳標記與疾病數量表型和質量表型的關聯可以排除人群混雜對於關聯分析的影響,但其在發現陽性關聯的檢驗方面不如相同樣本量的病例對照研究有效。
FBAT是運用十分廣泛的基於家系的統計分析工具,能夠分析質量性狀及數量性狀、調整混雜因素、分析基因-環境相互作用、分析單倍型、調整多重比較等。
單倍型分析研究的必要性:多位點單倍型分析能夠發現單倍型-疾病表型之間的關聯,這種關聯要明顯強於單個位點-疾病表型之間的關聯。
單倍型分析能夠發現非TagSNPs與疾病之間的因果關係。
表型選擇
選擇遺傳度較高的疾病或者表型進行檢測能夠提升遺傳學關聯研究的把握度。
由於有時病症很難測量或是多種病症混雜在一起造成疾病狀態的分辨困難,研究疾病相關的數量表型要優於研究疾病狀態。
由於測量數量表型的難易程度和該表型的遺傳度相關,通過控制測量誤差、噪音和總體變異能夠加強數量表型變異與遺傳因素的比例關係,因此一般選擇測量簡單準確並且遺傳度相對較高的數量表型。
設計類型
單個階段研究
單個階段研究即在有了足夠大的病例和對照樣本數量後,一次性地對其所有選中的SNP進行基因分型,然後分析每個SNP與疾病的關聯,計算其關聯強度和OR值。由於樣本數量需求量大,單階段研究基因分型一般耗資巨大。
兩個或多個階段研究
採用小樣本數量進行第一階段的全基因組範圍SNP基因分型,統計分析過後一般能夠篩選少量陽性SNPs,之後的第二階段再在更大數量的樣本中對這些陽性SNPs進行基因分型,最後整合兩個階段的結果進行分析。研究證明DNA pool和微陣列試劑盒均能夠降低基因分型的工作量,能夠進行低成本高效益的SNP篩選。
多重假設
Bonferroni校正法
遞減調整法(Step-Down Adjustment)
模擬運算法(Permutation)
控制錯誤發現率法(False discovery rate)
研究重複
由於GWAS研究的各種研究設計方法以及遺傳統計方法無法從根本上消除人群混雜、多重比較造成的假陽性,我們需要通過重複研究來保證遺傳標記與疾病間的真關聯。
通過增大樣本數量來提高檢驗效率,增加與疾病相關聯的SNPs的機率。
在兩個人群中分別對樣本中所有的SNP進行基因分型,之後再交換重複測量對方得到的陽性SNPs。這樣做首先保證了低假陰性率,隨後在較大樣本中重複陽性結果又最大程度地避免了假陽性的產生。
存在問題
人群混雜(Population Stratification)是在大樣本研究中導致假陽性、假陰性結果出現的重要原因之一。使用分層分數法(Stratification-score approach)控制人群分層、運用統計分析手段控制人群混雜的影響、採用基於家系的關聯研究均能夠避免人群混雜對關聯結果分析的影響。
解釋基因-變異-環境因素之間的相互作用關係需要使用GWAS對更多微效的與疾病關聯的基因變異進行研究。
數據共享是使用GWAS得到遺傳標記與疾病確切關聯的必要手段,儘管難度很大,但是在研究複雜疾病的遺傳變異中能夠發揮重要的作用。