科學大數據

在科學研究數據與日俱增的今天,我們把與科學相關的大數據稱之為科學大數據, 科學大數據一般來自於物理世界,內容為科學實驗數據或感測數據,特點是有一定的科學規律可循,採集的代價比較高。科學大數據集複雜性、綜合性、全球性和信息與通信技術高度集成性等諸多特點融於一身,其研究方法也正在從單一學科向多學科、跨學科方向轉變,科學大數據正在使科學世界發生變化,科學研究已經進入一個全新的範式——數據密集型科學範式。

發展歷程

隨著大數據時代的來臨以及大數據在各領域的廣泛套用,科學發現的模式將發生重大變化。繼實驗科學、理論科學、計算科學之後出現了被稱為“數據密集型科學”的第四種科學發現新模式,採集、存儲、管理、分析和可視化數據成為科學研究的新手段和新流程。這一科學發現新模式強調數據作為科學發現的基礎,並以數據為中心和驅動、基於對海量數據的處理和分析去發現新知識為基本特徵。如中科院生物所破解伊波拉病毒入侵機制;海量DNA數據認識生命,在1萬億個事例中發現上帝粒子-希格斯粒子,全球碳監測網路,ARIGO海洋浮標,科研眾籌(FOLDIT、GALAXYZOO、POLYMATH)等。

科學大數據的發展

2001年底,中國啟動科學數據共享工程,涉及24個領域。

2004年7月,科技部啟動國家科技基礎條件平台建設。

2007年,圖靈獎得主、關係資料庫的鼻祖JimGray提出“第四範式:數據密集型科學發現”。

2010年6月,面向數據密集型負載的全球超算排名GRAPH500項目啟動。

2013年3月,國際研究數據聯盟成立,推動全球研究數據共享交換。

2014年,CODATA中國全國委員會舉辦首屆科學數據大會。

2015年3月,中科曙光發布“數據中國”戰略,提出“讓全社會共享數據價值的”願景理念;8月,國家《促進大數據發展行動綱要》指出要大力發展科學大數據。

2016年4月,中科曙光發布數據中國加速計畫,布局科學大數據;7月,國家《十三五國家科技創新規劃》發布;10月中科曙光科學大數據一體化引擎發布。

科學大數據面臨的問題

科學大數據的發展面臨著科學數據中心建設薄弱、管理水平低、服務不規範、法規不完善、數據資源分散、數據質量參差不齊、全球影響力弱、數據流向國外、重複投資建設、核心技術受制於人、高水平複合型人才缺乏等問題。

科學大數據對IT系統的需求與挑戰

行業特點:

1、數據量大且變化快

2、分散式異構多源

3、數據多維關聯

4、計算分析一體化

5、跨區域協作

6、學科領域差異大

系統需求:

1、分散式異構多源數據存儲管理

2、PB級/EB級數據處理能力

3、實時計算處理能力:億級數據毫秒級查詢

4、“高性能計算+數據分析挖掘”一體化融合

5、面向數據處理分析全流程提供服務接口

6、實現數據的多維度可視化

7、實現國際化分散式計算環境

8、靈活支持多種計算模式

中科曙光全面進軍科學大數據領域

科學大數據 科學大數據

2015年初,曙光正式發布了數據中國加速計畫,目標是加速網路布局,加速數

1、 FAST射電望遠鏡:目前世界上口徑最大、最具威力的單天線射電望遠鏡,以曙光計算集群對海量數據的傳輸、存儲、分析能力為基礎,開展對宇宙的探索。

2、 地球數值模擬裝置:集高性能計算機、軟體工具、支撐技術、地球數值模擬套用軟體等於一體,能夠實現對海量數據快速處理,可還原、預測地球自然變化過程,促使我國地球科學向大數據時代邁進。

3、 空天大數據:曙光攜手中科院電子學研究所成立中科星圖公司,為多領域提供解決方案。

4、 人工智慧:曙光與NVIDIA成立深度學習聯合實驗室,與中科寒武紀科技有限公司簽署戰略合作協定,有利於打通數據中國中的技術閉環、完善產業生態,還將為曙光在未來智慧型時代中的布局奠定基礎。

5 、環境大數據:曙光堅持以“天藍、水清、土淨(三清)”為使命,致力於大氣、水、土壤污染的預報預警、治理評估和應急,環境監測一體機的套用,能夠對污染情況進行精準預測,為防治提供依據。

E級計算與科學大數據

大數據時代,高性能計算機的發展一日千里,而數據累積與增長的速度,也超出人們的預估。為了滿足高能核物理、材料化學、生命科學等大規模套用在計算能力方面的超高需求,高性能計算正向著E級階段發展。

作為國家“十三五”規劃中的重要部分,E級高性能計算機原型系統項目是國家重點研發計畫重大專項,由中科曙光牽頭研製。曙光將憑藉深耕高性能計算20餘年的豐富經驗,在體系結構、計算、存儲、網路、系統軟體、系統冷卻和可靠性等方面對未來E級超算的建設進行有益探索。原型系統的實施將為未來國產E級機的研製奠定堅實的技術基礎,促進中國高性能計算產業成果走向世界,推動全球基礎科學研究、工業轉型升級、數位化行業發展等,為全人類的發展做出貢獻。

相關詞條

相關搜尋

熱門詞條

聯絡我們