簡介
IBM和國家地理協會展開的基因地理工程(Geographic Project)耗資4000萬美元,將在接下來五年內在全世界土著居民中收集十萬個DNA樣本,創建世界上最大的基因樣本資料庫。目標是:從今天返回人類物種起源追蹤人類根源,並希望由此繪製出人類種族歷史的圖譜。
我們自身的歷史
我們來自何方, 我們的祖先是誰?IBM 和國家地理協會正在創建世界上最大的基因樣本資料庫,由此繪製人類歷史族譜,以研究全人類的遷徙史。
"基因地理工程(Genographic Project)" 是一個五年研究計畫,這個項目使用尖端的 DB2 資料庫在從成百上千個志願者身上採集到的 DNA 樣本中尋找規律。
IBM 與美國國家地理學會共同尋求線索——我們是誰?我們來自何方?
我們從哪裡來?我們怎么來到這裡的?大多數科學家都同意,人類很可能是在 50,000 年前始於非洲的。然而對於第二個問題,回答就遠沒有那么肯定了。最初在中心位置的數千人,是如何發展成遍布全球的 65 億人的?
IBM 的科學家和工程師正在與國家地理學會(National Geographic Society)合作,探索這些基本問題的答案。“基因地理工程(Genographic Project)” 是一個五年研究計畫,這個項目使用尖端的 DB2 資料庫在從成百上千個志願者身上採集到的 DNA 樣本中尋找規律。
雖然每個人的 DNA指紋是獨一無二的,但是我們的 DNA 中有一些被稱作 “遺傳標記(genetic marker)” 的部分,它們一代接一代原封不動地遺傳下來,很少有突變。基因工程項目重點研究兩種遺傳物質中的標記:一種是線粒體 DNA,由母親傳給孩子;另一種是 Y 染色體,由父親傳給兒子。科學家正在使用先進的數據挖掘技術和算法來跟蹤世界各地人體中的這些遺傳標記,以便創建一棵 “家族樹”,從而跟蹤人類的完整歷史。
“最偉大的歷史書就藏在我們的 DNA 當中”,項目帶頭人 Spencer Wells 博士如是說。
在項目早期,國家地理學會的科學家就意識到,他們需要一個技術夥伴。在他們的科學家和核心參與小組的建議下,國家地理學會找到了 IBM。
研究人員最初只是期望 IBM 為項目的技術性挑戰提供解決方案。然而,當兩個小組之間舉行了幾次會議之後,大家發現除了用於項目的硬體和軟體之外,IBM 還可以做出遠遠超出預期的貢獻。“在這個項目中,IBM 是真正的合作夥伴 —— 而不僅僅是一個贊助商,” 國家地理的項目主任 Alex Moen 解釋道。“他們在項目的每一個方面都有人參與,包括科學方面。”
實際上,Ajay Royyuru 博士和他在 IBM 生物計算中心(紐約約克鎮 T. J. Watson 研究中心的一部分)的小組正在幫忙創建使整個項目可行的算法和分析技術。“誠然,對於一家公司研究機構中的科學家,不應該每天都要求他們參與一個尋求跟蹤數萬年前人類遷移模式的項目,” Royyuru 說道。“幸運的是,這家公司在巨大的挑戰面前沒有退縮,所以我們才得以抓住這難得的機遇。”
雖然基因地理工程本身是一項獨一無二的任務,但該項目的 IT 小組所面臨的問題與各地的系統設計人員面臨的問題是類似的:即保證敏感數據的安全,建立標準,在資料庫性能與靈活性之間取得平衡,以及處理巨大的工作負載。
工程進展
遠程安全性
住在地球最偏遠地區的當地人特別值得注意,因為他們的遺傳與其他人群是相互隔離的。為了獲得這些重要的樣本,野外研究人員已經完成了對寮國、查德和俄羅斯的考察,並正在計畫更多的旅行。
然而,與偏遠地區的隔離人群打交道需要面臨一些特有的安全方面的挑戰。研究人員需要在荒蕪地帶仍可維持的移動計算電力,還需要在小偷猖獗或者對遺傳信息有嚴格法律保護的地區能保護成員隱私的健壯的基礎設施。
為了滿足這些需求,由 11 名首席調查員帶領的野外研究人員小組裝備了強大的 IBM ThinkPad 手提電腦,這些手提電腦使用生物鑑定掃描器來驗證用戶的身份。這些 ThinkPad 配有定製的數據採集應用程式 DB2 UDB Personal Edition V8,以及用於存儲和傳輸採集到的數據的 WebSphere 軟體,此外還有用於與同伴協作的 wiki 和 IM 軟體。為提高安全性,存儲在科學家手提電腦中的所有敏感數據都經過加密。
IT 小組還採取特殊的預防措施,確保科學研究不受黑客的攻擊。在進入野外之前,研究人員為即將到來的考察預訂一批預先生成的 ID 號碼,即 GPID。由於每個 ID 都與特定的考察和首席調查員相關聯,因此任何人都不可能通過猜測 GPID 將虛假數據輸入到系統中。
在野外,研究人員為每個參與者分配一個 GPID,並使用一個特別設計的應用程式記錄表格化數據;即每個人的語言、種族、地點、身體特徵等。
完成初始的數據採集之後,當記錄還處在草稿模式下時,科學家可以在 ThinkPad 上的 DB2 資料庫中更正數據錯誤和拼寫錯誤。一旦記錄被保存為提交模式,它們會通過一個虛擬專用網(VPN)被自動傳輸到一個本地數據分析庫(DAR)中。之後,本地數據又被傳輸到華盛頓的中央 DAR,這個項目的所有科學家可以在那裡訪問這些數據。
位於澳大利亞、巴西、中國、法國、印度、黎巴嫩、俄羅斯、南非、西班牙和美國的十個地區實驗室對 DNA 進行提取和排序。樣本保留在地區實驗室,而結果則通過 VPN 被安全地傳輸到 DAR。
IBM 將中央 DAR 構建在運行基於 Linux 的 DB2 實例和 WebSphere MQ 的刀片伺服器上。目前,DAR 有一萬億位元組的存儲空間,但是小組計畫在年前增加更多的存儲。“由於安全性的考慮,我們把[基因地理工程系統]構建得就像銀行系統,” IBM 傑出工程師、IT 基礎設施設計小組帶頭人 Peter Rodriguez 解釋道。每條記錄都保存為一個事務,系統使用多階段提交,以便在傳輸過程中發生意外時,科學家可以在本地恢復他們的數據。
標準自由度
除了解決安全性方面的挑戰外,IBM 小組還必須解決做研究的科學家們獨特的要求。“最大的一個挑戰就是建立尚不存在的標準,同時滿足已存在的標準,” Rodriguez 說道。
每個科學家都有做事的獨門方法,他們都希望在記錄數據時擁有很大的靈活性。例如,科學家只想要格式自由的欄位,而不是為他們的條目預設的列表。由於他們可能遇到之前不認識的語言和種族,因此需要能夠創建新的條目。
然而,從信息管理的角度來看,所有這些格式自由的數據都可能帶來問題。拼寫上的細微差別都可能使最終的數據分析毫無意義。
作為妥協,Rodriguez 和他的小組為數據採集軟體設定了預定義的列表,但是也允許科學家創建格式自由的條目。“自由度對於科學家來說非常重要,” Rodriguez 笑道。“即使他們不用,我們也要確保他們有這個自由度。”不過,為了鼓勵科學家使用預定義的列表,當科學家輸入一兩個字母之後,電子表格就會自動填充欄位中剩下的部分。
靈活性與性能的較量
這個項目的另一個關鍵挑戰在於 DAR 資料庫的設計。“在每一個信息管理場景中,都存在性能與靈活性之間的劇烈衝突,” Rodriguez 說道,“我們通過使用兩個不同的資料庫來解決這個問題 —— 如果算上備份,實際上是四個資料庫。”
主 DB2 UDB for Linux 資料庫包含 Rodriguez 所說的 “神聖的財寶”:整個項目的主記錄。為了取得最大的靈活性,表被設計成可以針對一個地方更改數據模型,而不會影響其他地方的數據。例如,在印度的研究人員可能想記錄關於種姓的數據,但是那些信息對於在澳大利亞工作的研究人員來說毫無意義。主資料庫接受用於印度記錄的種姓數據,但是不為澳大利亞的參與者添加該欄位。
不幸的是,以這種方式存儲的數據具有異構性,當科學家分析數據時,性能要受到影響。由於這個原因,小組只使用主資料庫來存儲信息,絕不對它進行分析。為了便於分析,小組使用 WebSphere MQ 來填充另一個 DB2 資料庫,即 GenoSci,這個資料庫執行查詢非常快。
公眾參與
除了對本土人的研究外,基因地理工程還從大眾當中採集 DNA。只需支付大約 100 美元,任何人都可以從基因地理工程網站(見參考資料)購買一個參與工具包。在執行完一次無痛的面頰擦洗之後,再將完成的工具包發回基因地理工程。德克薩斯州休斯頓的 Family Tree DNA 將處理這些工具包,然後將加了條形碼編碼的樣本傳送到亞利桑那大學進行提取和排序。結果被送回 Family Tree,後者對數據進行編碼,並將其傳送到 DAR。
公眾參與者可以跟蹤他們樣本的處理進度,並通過在 Genographic 網站輸入他們的 GPID 查看分析結果。結果並沒有提供典型的基因地理信息,例如個人的出身或種族關係。相反,它識別每個人的類群(具有相同遺傳標記的一群人),並從 60,000 年前開始遷出非洲的我們共同的祖先開始,粗略地描繪類群的遷移。
“在這裡,您有機會成為實時發生的研究項目的參與者,” 國家地理學會的 Moen 說道。“如果公眾參與者繼續在網站上查看他們的 GPID,那么他們可能看到結果更加精確了。”
雖然國家地理學會沒有向公眾真正開放參與工具包的市場,但熱情的回響還是勢不可擋。“最初,我們計畫五年期間賣出 100,000 個公共參與工具包,” Moen 報告說,“但我們到第一年就賣出超過 100,000 個參與工具包。” 幸運的是,小組已經能夠擴大工具包的生產和處理,以滿足需求。
迄今為止,大約有來自 125 個國家的 160,000 人購買了工具包,其中大約有 140,000 人返回了他們的工具包。通過野外研究人員的齊心協力,還有上萬個其他樣本也被收集到。
這個項目 “使人們的眼睛突然一亮,” Rodriguez 總結到。“我們都是同一個家族的成員。它拉近了人們之間的距離。”
人類的足跡
60,000 年前
當人類第一次走出非洲時,他們留下的遺傳足跡至今可見。將現代人體中遺傳標記的出現和頻率畫出來,就可以弄清楚古人何時出現遷移,移到了什麼地方。
200,000 年前
人類的開端:“1924 年,南方古猿(australopithecus)” 的發現受到了歡呼,因為它是猿和人類之間缺失的環節,因其種類中最著名的成員 —— 露西而聞名於世。
60,000 年前
亞當:“亞當” 是世上每個男人共同的男性祖先。大約 60,000 年前他居住在非洲,這意味著至少那時所有人都還住在非洲。
50,000 年前
撒哈拉之門:在氣候發生變化的古代某個時期,“撒哈拉之門” 可能使人類能夠走出非洲,隨後又關閉起來。
40,000 年前
猛獁獵人:40,000年前,當人類向北移居到西伯利亞大草原時,他們可能是在追隨最大的食物源 —— 成群遷移的猛獁。
30,000 年前
克魯馬努人:克魯馬努人 —— 歐洲最先出現的現代人 —— 留下了相當先進的用石頭、骨頭和象牙做成的工具。
20,000 年前
冰川時代:由於海平面比當前低 300 英尺,為人類的遷移創造了條件。
故事
現在,神奇的基因測試工具讓普通人能找到自己的遠古祖先。人類的共同點往往遠遠多於不同點。儘管我們有很多不同,但我們之間卻有很多超乎想像的聯繫。在我們每個人的體內,都清晰記載著我們的過去,而一項震驚世界的研究,卻揭示出了一些我們過去從未想到的事情。IBM和國家地理協會展開的基因地理工程(Geographic Project)耗資4000萬美元,將在接下來五年內在全世界土著居民中收集十萬個DNA樣本,創建世界上最大的基因樣本資料庫。目標是:從今天返回人類物種起源追蹤人類根源,並希望由此繪製出人類種族歷史的圖譜。
一般來說,只要提供一份臉頰黏液細胞,並支付100美金左右,基因測試公司就會將你的DNA標誌繪進你的基因模式里――稱作單模標本,然後分辨出你隸屬哪個”單模群”或人類”基因樹”上的哪個主要分支。
基因地理工程主管斯賓塞·韋爾斯親自來到紐約中央車站參與收集DNA樣本的工作。幸運的是,紐約中央車站匯集著各種各樣的人,是一個開展基因研究的理想場所。只要隨即抽取四名陌生人,就可發現他們的個人歷史,和他們彼此之間的關聯。
最終,主管斯賓塞·韋爾收集了Dee、Frank、Cecile和J.W.這四個人的基因,僅需幾周后,他們四個人就會得到各自的聖誕禮物——他們各自DNA測試的結果並發現自己過去的秘密。
到目前為止,基因地理工程以收集了二十多萬個樣本,IBM的計算生物學團隊一直在協助我們作分析。“IBM是我們接觸的第一家公司。現在看來,這一決策相當正確,因為他們具有很多獨特的優勢。他們不僅能夠提供硬體,硬碟以及我們用來存儲資料庫所需的一切,除此之外他們還能夠幫助我們分析數據。” 斯賓塞韋爾斯說道。
紐約市的警察J.W.和妻兒住在布魯克林。他的DNA結果驗明他是波多黎各西班牙和古非洲人的後裔。不過這還並不是完整的血統。
“令我吃驚的是我們是第一批從事種職業的人類的後代,是我們開創了巨大的農業文明,大大改變了人類的生活狀態。我的祖父母就是農民,我好像看到了其中的淵源,真的很有趣。”J.W.說道。
這次調查將得到的最有趣的結果不是找到了某個人的祖先,而是揭開了人類共同的祖先的秘密。通過識別DNA標誌和計算時間,研究員們確認我們共同的祖先就是亞當和夏娃。
Dee的基因也顯示她也來自於非洲,很多年以前,同世界上其他人一樣。大約45000年前,他們當中的一小群人去了中東,而他們就是你們的直系祖先。四萬年以前,您的祖先剛剛離開非洲不久,突然間就接觸到這個冰凍的荒原,四周都是野獸,人們開始想辦法殺死他們好讓自己活下去。
Cecile Nepal的測試結果非常罕見。
“這太讓我驚訝了,我的祖先竟然是菲律賓人。這讓我太驚訝了。”
現在,Cecile在紐約生活和工作。不過,她仍然覺得自己和故鄉菲律賓有了很多的聯繫。
“我們是一些非常非常非常古老的人種,這簡直令我難以置信。”
住在南加利福尼亞的Frank就要退休了,也正期待著每天打打高爾夫。他發現他的祖先跨國白令海峽,在上一次冰河時期就成為第一批定居在美洲的人類。
“這很有趣,在15000到20000年前,我們的祖先,具有極強的適應能力,他們使用精細打造的武器和小石刀求得生存。這讓我理解了為什麼我覺得自己是一個倖存者。”
J.W.則說道,“我之所以能感覺到某種聯繫是因為我們都起源於東非。無論我們的外表看起來是什麼樣子,無論我們的口音有多么不同,我們的習慣、節日有怎樣的不同,但現在的一切都是從東非開始的,我們彼此都會有聯繫。”
現在,科學家們正在拼湊的就是人類歷史的第一卷。