發展歷程
隨著大數據時代的來臨以及大數據在各領域的廣泛套用,科學發現的模式將發生重大變化。繼實驗科學、理論科學、計算科學之後出現了被稱為“數據密集型科學”的第四種科學發現新模式,採集、存儲、管理、分析和可視化數據成為科學研究的新手段和新流程。這一科學發現新模式強調數據作為科學發現的基礎,並以數據為中心和驅動、基於對海量數據的處理和分析去發現新知識為基本特徵。如中科院生物所破解伊波拉病毒入侵機制;海量DNA數據認識生命,在1萬億個事例中發現上帝粒子-希格斯粒子,全球碳監測網路,ARIGO海洋浮標,科研眾籌(FOLDIT、GALAXYZOO、POLYMATH)等。
科學大數據的發展
2001年底,中國啟動科學數據共享工程,涉及24個領域。
2004年7月,科技部啟動國家科技基礎條件平台建設。
2007年,圖靈獎得主、關係資料庫的鼻祖JimGray提出“第四範式:數據密集型科學發現”。
2010年6月,面向數據密集型負載的全球超算排名GRAPH500項目啟動。
2013年3月,國際研究數據聯盟成立,推動全球研究數據共享交換。
2014年,CODATA中國全國委員會舉辦首屆科學數據大會。
2015年3月,中科曙光發布“數據中國”戰略,提出“讓全社會共享數據價值的”願景理念;8月,國家《促進大數據發展行動綱要》指出要大力發展科學大數據。
2016年4月,中科曙光發布數據中國加速計畫,布局科學大數據;7月,國家《十三五國家科技創新規劃》發布;10月中科曙光科學大數據一體化引擎發布。
科學大數據面臨的問題
科學大數據的發展面臨著科學數據中心建設薄弱、管理水平低、服務不規範、法規不完善、數據資源分散、數據質量參差不齊、全球影響力弱、數據流向國外、重複投資建設、核心技術受制於人、高水平複合型人才缺乏等問題。
科學大數據對IT系統的需求與挑戰
行業特點:
1、數據量大且變化快
2、分散式異構多源
3、數據多維關聯
4、計算分析一體化
5、跨區域協作
6、學科領域差異大
系統需求:
1、分散式異構多源數據存儲管理
2、PB級/EB級數據處理能力
3、實時計算處理能力:億級數據毫秒級查詢
4、“高性能計算+數據分析挖掘”一體化融合
5、面向數據處理分析全流程提供服務接口
6、實現數據的多維度可視化
7、實現國際化分散式計算環境
8、靈活支持多種計算模式
中科曙光全面進軍科學大數據領域
2015年初,曙光正式發布了數據中國加速計畫,目標是加速網路布局,加速數
1、 FAST射電望遠鏡:目前世界上口徑最大、最具威力的單天線射電望遠鏡,以曙光計算集群對海量數據的傳輸、存儲、分析能力為基礎,開展對宇宙的探索。
2、 地球數值模擬裝置:集高性能計算機、軟體工具、支撐技術、地球數值模擬套用軟體等於一體,能夠實現對海量數據快速處理,可還原、預測地球自然變化過程,促使我國地球科學向大數據時代邁進。
3、 空天大數據:曙光攜手中科院電子學研究所成立中科星圖公司,為多領域提供解決方案。
4、 人工智慧:曙光與NVIDIA成立深度學習聯合實驗室,與中科寒武紀科技有限公司簽署戰略合作協定,有利於打通數據中國中的技術閉環、完善產業生態,還將為曙光在未來智慧型時代中的布局奠定基礎。
5 、環境大數據:曙光堅持以“天藍、水清、土淨(三清)”為使命,致力於大氣、水、土壤污染的預報預警、治理評估和應急,環境監測一體機的套用,能夠對污染情況進行精準預測,為防治提供依據。
E級計算與科學大數據
大數據時代,高性能計算機的發展一日千里,而數據累積與增長的速度,也超出人們的預估。為了滿足高能核物理、材料化學、生命科學等大規模套用在計算能力方面的超高需求,高性能計算正向著E級階段發展。
作為國家“十三五”規劃中的重要部分,E級高性能計算機原型系統項目是國家重點研發計畫重大專項,由中科曙光牽頭研製。曙光將憑藉深耕高性能計算20餘年的豐富經驗,在體系結構、計算、存儲、網路、系統軟體、系統冷卻和可靠性等方面對未來E級超算的建設進行有益探索。原型系統的實施將為未來國產E級機的研製奠定堅實的技術基礎,促進中國高性能計算產業成果走向世界,推動全球基礎科學研究、工業轉型升級、數位化行業發展等,為全人類的發展做出貢獻。