HapMap計畫將由日本、英國、加拿大、中國、奈及利亞和美國的科學家們合作完成【見參加機構】。項目正式開始於2002年10月27-29日的HapMap計畫第一次會議(http://genome.gov/10005336),預計進行3年。
遺傳多態性和單體型圖的用途
大多數常見的疾病,如糖尿病、癌症、中風、心臟病、抑鬱症、哮喘等,客群多基因以及環境因子共同作用。儘管任意兩個不相關的人的DNA序列有99.9%是一致的,剩下的那0.1%由於包含了遺傳上的差異因素而非常重要。這些差異造成人們罹患疾病的不同風險和對藥物的不同反應。發現這些與常見疾病相關的DNA序列上的多態位點,是了解引起人類疾病的複雜原因的最重要途徑之一。在基因組中,不同個體的DNA序列上的單個鹼基的差異被稱作單核苷酸多態性(SNPs)。例如,某些人的染色體上某個位置的鹼基是A,而另一些人的染色體的相同位置上的鹼基則是G。同一位置上的每個鹼基類型叫做一個等位位點。
除性染色體外,每個人體內的染色體都有兩份。一個人所擁有的一對等位位點的類型被稱作基因型(genotype)。對上述SNP位點而言,一個人的基因型有三種可能性,分別是AA,AG或GG (請參考http://www.dnaftb.org/dnaftb/ 了解基本的遺傳學知識)。基因型這一名稱即可以指個體的某個SNP的等位位點,也可以指基因組中很多SNPs的等位位點。檢定一個人的基因型,被稱作基因分型(genotyping)。
人類的所有群體中大約存在一千萬個SNP位點,其中稀有的SNP位點的頻率至少有1%。相鄰SNPs的等位位點傾向於以一個整體遺傳給後代。位於染色體上某一區域的一組相關聯的SNP等位位點被稱作單體型(haplotype)。大多數染色體區域只有少數幾個常見的單體型(每個具有至少5%的頻率),它們代表了一個群體中人與人之間的大部分多態性。一個染色體區域可以有很多SNP位點,但是只用少數幾個標籤SNPs,就能夠提供該區域內大多數的遺傳多態模式。
單體型圖將描述人類常見的遺傳多態模式。它包括染色體上具有成組緊密關聯SNPs的區域,這些區域中的單體型,以及這些單體型的標籤SNPs。同時,單體型圖還將標示出那些SNP位點關聯不緊密的區域。
研究者一般通過比較患者和非患者來發現影響某種疾病例如糖尿病的基因。在兩組單體型頻率不同的染色體區域,就有可能包含疾病相關基因。理論上,研究者通過對全部一千萬個SNP位點都進行基因分型,也能夠尋找到這樣的區域。但是,目前用這種方法進行檢定的成本是過於昂貴。通過單體型圖計畫將鑑定出20~100萬個標籤SNP位點,從而提供與一千萬個SNP位點大致相同的圖譜信息。這樣將大幅度地減少成本使研究易於進行。
人群和樣品
大多數常見的單體型存在於所有的人類群體中,但它們在不同人群中頻率不同。因此,為了選擇標籤SNPs,有必要獲得幾個人群的數據。先期的研究發現,單體型頻率在奈及利亞(Yoruba)、日本、中國和美國(1980年由Centre d'Etude du Polymorphisme Humain 【CEPH】 採集並曾用於其它人類遺傳圖譜研究的北歐和西歐後裔的樣品)人群樣本中有著顯著的差異。這些差異性保證了通過對這些人群進行大規模的單體型分析的合理性,因而自上述人群的繪製的單體型圖應當對世界上所有的人群有益。然而,增加其他人群會獲得多少更多信息將通過一項檢查其他樣品的若干染色體區域的單體型的平行研究做出確切回答。用於構建單體型圖計畫的DNA樣品共有270份,分別來自90個奈及利亞Ibadan的Yoruba人(30個父母加一個後代組成的三體家系),45個東京的日本人(無關個體),45個北京的漢族(無關個體),和90份CEPH樣品(30個三體家系)。樣品的數目能使通過單體型圖計畫發現幾乎全部頻率大於5%的單體型。在經過恰當的社群參與(community engagement)或公眾諮詢以及個人的知情同意後,本項目所有新樣品的採集程式都獲得了相應的倫理委員會的批准。設計社群參與的目的則是為了對具有不同文化背景的取樣社群產生的對知情同意和樣本採集程式的特殊疑問有所理解和反饋。
CEPH樣品是從非盈利的Coriell醫學研究所獲得(http://locus.umdnj.edu/nigms/)。2004年,經相應的倫理委員會批准後,Coriell將為進一步的研究提供其他血樣的DNA或細胞系。樣品中只有人群和性別的標識而沒有醫學或個體的可辨別信息。每一個採集新樣品的社群將成立一個諮詢委員會,以保持同Coriell的聯絡並確保這些樣品將來的使用與知情同意書上的條款是一致的。
倫理學問題:
這一項目包含若干倫理學問題。因為所研究的樣本並不包含捐獻者的個人標識,所以泄漏個人信息的風險很小。不過,為了以後研究者能夠針對所研究人群選擇最佳的標籤SNPs,每一個樣本將按人群標記。標籤SNPs的選擇將以單體型頻率為基礎。如果基因組中某些特定區域的單體型在不同的人群中有顯著不同的頻率,那么這些區域的標籤SNPs也可能因人群而異。所以,每個人群的SNP和單體型頻率將被計算和用於比較研究。
在這種情況下,如果在一個人群中發現了一個高頻的疾病相關的變異位點,而且與此位點相關的疾病風險在該人群中高於所有或大多數其他人群,就有可能產生對這個群體的誣衊和歧視。本研究另一個潛在的顧慮是人群的含義來自祖先的居住地域,這可能導致“種族”的劃分,而這種更多具有社會含義的劃分常被錯誤地以為是有準確的生物學含義的。項目將通過社群參與來了解目標人群對這些問題的看法或疑問。
科學策略
為了構建單體型圖,要對樣本的至少100萬SNPs進行全基因組規模的基因分型檢測。在本研究計畫起步時,dbSNP公共資料庫中共有280萬個SNPs。然而,很多染色體區域的SNPs太少,另有很多SNPs則因為頻率太低而無法使用。所以,構建單體型圖還需要數百萬更多的SNP位點。截止到2003年9月,本項目又發現的280萬SNPs。現在這項工作仍在繼續進行。
整個SNP分型工作將由加拿大、中國、日本、英國和美國的10個研究中心進行。每箇中心將針對所承擔的染色體對所有的研究樣本進行基因分型檢定。這些中心共採用了5種檢定分型技術。項目的初期目標(至2004年6月左右)是構建出一個約由60萬個在人類基因組中均勻分布的SNPs構成的圖譜,其SNP密度約為每5000個鹼基一個位點。然後將針對需要定義單體型邊界的區域進行更多的SNP位點的檢定。分型結果的質量將通過重復樣本、所有中心對一組同樣SNPs進行檢測、以及對一定數量的已檢定結果進行不同中心的互相檢測來保證。
數據分析
此項研究的基本數據是各人群總計270個樣品的SNP等位位點的頻率和基因型。為了構建單體型和選擇標籤SNP位點,本研究將採用標準的SNP連鎖分析如D'和r2 ,同時發展新的分析方法。因為本研究的所有數據將免費共享,其他研究者也可以用另外的手段來分析數據或是改進分析方法。
本研究產生的數據將顯示常見的人類基因組遺傳的多態模式,包括個體間遺傳多態位點的數量,人群間具有不同單體型頻率的區域和不同染色體區域SNPs的連鎖範圍。
獲得數據和智慧財產權政策
HapMap項目將向公眾公布所有的實驗數據,以讓任何研究者利用這些信息。新的SNP位點、SNP基因分型實驗設計、SNP檢定結果和頻率,以及構建的單體型一經產生,將很快發布。當對染色體區域進行了足夠的SNP分型來確定緊密連鎖的區域時,這些區域的單體型、個體的基因型和標籤SNPs將無條件地公開發布。然而,對那些還沒有足夠分型密度數據的區域,要獲得個體的基因分型結果,就要遵守數據訪問政策。這項政策只有很小的約束,既使用者必須同意不能使其他人訪問這些數據有所減少,同時只能與也同意這個政策的人士共享這些數據。這個暫時性的政策的唯一目的就是為了保證項目的所有數據能被公眾所享有。項目完成時,任何還未發布的數據都將公開。
本研究項目不包含將遺傳多態性落實到表現型的有特殊利用價值的研究,如疾病易感或對藥物的反應。項目的參加者認為將還未有產生特殊用途的SNP位點、基因型或單體型用於專利發明是不適當的。只要使用者不影響其他人獲得本研究的數據,數據訪問政策不阻止使用者對他們已經顯示有特殊利用價值的SNP位點或單體型圖申請專利。在數據公布以前,項目參加者不會將本項目的數據用於自己實驗室的其它研究。
內部數據訪問政策
在數據發布至dbSNP資料庫(如SNP位點、SNP檢測設計、等位位點及其頻率)或數據協調中心的基因型資料庫(如個體的基因型和單體型)之前,國際“人類基因組單體型圖計畫”的參加者不能將本項目的數據用於自己實驗室的其它研究項目(包括他們自己產生的數據)。
國際“人類基因組單體型圖計畫”的參加者使用與其他使用者一樣的數據訪問政策。對於基因型和單體型數據來講,也使用公眾數據訪問政策的協定。所有參加者已經確認他們接受與其他使用者一樣的許可協定。
如果沒有確認的用途/功能(即與表現型相關),項目參加者不能對本研究產生的SNP位點或單體型申請專利。參加者如果有功能證據或其他已確認的用途,可以對與疾病或功能相關的SNP位點或單體型申請專利。但是,因為HapMap計畫不含有產生功能或套用信息的研究,所以這些結果只能通過HapMap項目以外的研究獲得。如果項目參加者想使用本計畫的數據進行其它研究,只能通過已對外公布的dbSNP庫或數據協調中心的資料庫獲得信息。如果參加者申請了專利並獲得批准,他們不能就此妨礙其他人訪問HapMap的數據。