生物大數據

生物大數據

“大數據”一詞最初起源於網際網路和IT行業,然而隨著“人類基因組計畫”的完成,帶動了生物行業的一次革命,高通量測序技術得到快速發展,使得生命科學研究獲得了強大的數據產出能力,包括基因組學、轉錄組學、蛋白質組學、代謝組學等生物學數據,這些數據具有數據量大(Volume)、數據多樣化(Variety)、有價值(Value)、高速(Velocity)等特點。

定義

“大數據”一詞最初起源於網際網路和IT行業,然而隨著“人類基因組計畫”的完成,帶動了生物行業的一次革命,高通量測序技術得到快速發展,使得生命科學研究獲得了強大的數據產出能力,包括基因組學、轉錄組學、蛋白質組學、代謝組學等生物學數據,這些數據具有數據量大(Volume)、數據多樣化(Variety)、有價值(Value)、高速(Velocity)等特點。

特點

生物大數據不僅帶有“大數據”的特點,而且具有生物數據自身的特性,下面將結合大數據的“4V”特點一一具體闡釋:

1、數據量大:上個世紀末進行的“人類基因組計畫”是由6個國家花費30億美元10幾年的時間才得以完成,如今,只需花費幾千美元幾個小時即可完成一個人基因組的解析。如此低廉高效的研究方式得到生物科學家們的青睞,大量的物種得以測序解析,使得生物研究家們進入的生物數據的海洋。據不完全統計,截止到2013年6月,深圳華大基因研究院僅原始的測序相關的數據量就達到12PB,並且以每月60TB的速度增長,預計未來幾年內每月的原始數據增量會超過2PB。

2、數據多樣化:由於測序儀器種類繁多(比如常見的高通量測序儀器CG測序儀、illumina hiseq、Roche 454、Ion Torrent等),產生的數據格式也各不相同。同時,利用不同的生物信息分析軟體或分析流程處理得到的結果也是千差萬別。

3、價值高:隨著生物信息學的發展,越來越多有價值的信息從生物數據中挖掘出來,這些價值不僅體現在其在生物科研領域,而且已套用於農業、健康和醫學等領域。

4、高速:這主要體現在數據的急劇增長速度,不僅體現在數據的量上,而且在數據的多樣化和價值上。

套用

“十一五”以來,國務院批准發布《促進生物產業加快發展的若干政策》和《生物產業發展“十一五”規劃》,大力推進生物技術研發和創新成果轉化。

生物大數據本身好比一塊有待開發的土地資源,我們基於大數據的“4V”特點,推進其在醫療健康、農業和食品等領域的快速套用 ,比如基因檢測、優良農作物品種培育等。

2018年11月,中國科學院北京基因組研究所生命與健康大數據中心針對生命科學一些重要研究領域,開發了系列特色專業資料庫,將為科研人員進一步破解生命奧秘提供重要數據支持。當前,生命科學研究和套用已進入大數據時代,生物大數據爆發使原來假說驅動的傳統研究模式轉變為大量數據與假說共同印證的系統研究模式。

相關詞條

熱門詞條

聯絡我們