研製
中國“魔方”的研製,要追溯到2007年。這年年底,曙光和微軟結成戰略合作夥伴,在高性能計算機領域展開全面的合作。2008年6月,在一系列緊張而有序的前期準備工作之後,曙光和微軟聯合工程師團隊開始向全球超級電腦10強進軍。同月,在首台安裝Windows HPC Server 2008的伺服器上進行的單節點測試中,運算效率達到了86%,為同期各類作業系統中最高;7月,微軟工程師在曙光天津產業基地進行的32節點測試中,運算效率達到84%,各個伺服器之間協同工作效率非常好。
2008年9月12日,工程師團隊正式進駐中科院計算所地下車庫二層臨時搭建的數據中心,開始對全部1920個節點7680個CPU進行大規模測試和最佳化。
2009年5月15日,這台百萬億次超級計算機由北京運抵上海超級計算中心。經過一個月的安裝調試,“魔方”於2009年6月15日正式開通運行。
命名
上海超級計算中心對這台超級計算機採用雙命名形式,除已有的產品序列名稱“曙光5000A”外,特地向公眾徵集個性名稱。活動歷時3個月,經過幾輪的篩選,最後命名為:魔方(Magic Cube)。魔方代表了對未知的探索和大自然的無窮變化,魔方的變化多樣性正體現了現代超級計算機的可重構特性。在魔方轉動過程中尋求規律、最終達致完美幾何圖形,與科學研究工作者在看似無序的世界中尋求物質本質和自然規律的特徵十分契合。
設計特點
外觀
“曙光5000A”由67個兩米左右高、一米左右寬的黑色柜子組成,它們並排站在100平方米左右的玻璃櫃裡,柜子上各色小燈閃爍,頭頂上是交錯密布的電線。“曙光5000A”非常怕熱,超算中心在房屋設計上充分考慮到散熱的要求,大量的空調降溫設備使“曙光5000A”的環境保持在22℃左右。此外,“曙光5000A”還要求24小時不斷電,需要配備十幾個工程師照顧它。
“曙光5000A”算得神速、算得精準,源於CPU晶片的高密度集成。這67個像黑色電話亭似的大傢伙就是曙光5000A的若干機櫃。每個機櫃都相當於800台普通家用電腦的運算能力。另外,曙光5000A還有15個存儲機櫃,全機總存儲容量達500千萬億位元組,相當於50萬個1G的隨身碟。
性能
曙光5000A高性能計算機採用最新的四核AMDBarcelona(主頻2.0GHz)處理器,採用基於刀片架構的HPP體系架構,共有約30000顆計算核心,大於100TB海量記憶體,700TB數據存儲能力,採用低延遲的20Gb的網路互聯,其設計浮點運算速度峰值為每秒230萬億次,Linpack測試速度預測將達到160T,效率大於70%,是目前國內運算速度最快的高性能計算機。曙光5000一天完成的工作量,相當於全中國所有人每天24小時、每年365天利用手持計算機不停地進行計算,46年時間的工作量。
曙光5000採用4路刀片節點和8路胖節點設計,大幅提高了系統並行套用度及實用性。CPU核心內部採用直連記憶體訪問技術,可在節點內實現無阻塞得記憶體訪問頻寬及延遲。刀片節點單CPU核最大支持64GB記憶體,胖節點單CPU核最大支持128GB,可滿足特殊行業挑戰性需求。
曙光5000採用了基於ConnectX的DDRInfiniband互聯,二叉樹無阻塞設計,實現了20Gb的傳輸速率,1.3us的業界最低通信延遲。曙光5000的高效並行檔案系統,可以提供70GB/s的磁碟I/O訪問頻寬。
高密度
曙光5000全球首次採用了4路4核的刀片伺服器設計,在7U高度的機箱內可部署了40顆CPU,實現160個計算核心的計算密度。曙光5000的單機櫃內可以部署5個7U高度機箱,這意味了曙光5000單機櫃即可實現200顆CPU,800個計算核心的超高計算密度,理論計算峰值7.5萬億次。
曙光5000所採用的刀片伺服器套用了全內置的ConnectXDDR二層交換模組,管理Ethernet網交換模組;
可靠性
機群計算節點之間的高速互連網路是構建高性能機群系統的關鍵技術,是影響機群系統整體性能的關鍵因素。因此,曙光5000的高速互聯是高性能計算機成功的關鍵。
曙光5000採用了全冗餘刀片伺服器設計,使系統中無單一故障點,較機架式Cluster減少了70%以上的系統電纜連線。
曙光5000採用了全冗餘的網路設計,機群內部採用了全無阻塞的InfinibandCLOS網路構建計算存儲網路,冗餘萬兆級聯的無阻塞Ethernet網際網路。
曙光5000的全內置ConnectXDDRInfiniband二層交換,減少了50%的Infiniband連線,全面採用光纖傳輸技術,降低高速信號衰減。
曙光5000採用的液冷機櫃擁有冗餘的製冷風扇,並採用智慧型散熱控制,能有效避免系統過熱帶來的系統停機。
曙光5000A採用了曙光自主開發的GridView集群管理管理系統。該管理系統提供統一的集中式監控平台,具備可擴展性、集成性、可靠性和易用性。使得當部署運行環境等發生異常時系統能夠運行在可控的範圍內,並進行準確的異常定位提示。
低能耗
目前的高性能計算機能耗都非常大,動輒兆瓦級別,曙光5000在功耗方面與其他品牌兩百萬億次計算機相比具有絕對優勢。
曙光積極回響國家“節能減排”、“建設節約型社會”的號召,在曙光5000中採用了多項具有大量的尖端節能措施,即使在滿負載運行的狀態下,功耗也僅為其他品牌同級別高性能計算機的六分之一,不帶水冷系統運行時功耗為720千瓦,帶水冷系統運行時功耗為1000千瓦。
曙光5000由於採用了以下世界領先技術,可為用戶節約大量耗電量。
1)低功耗CPU設計,比常規CPU節約30%耗電,全系統因採用低功耗CPU產生的節電規模超過200KW;
2)標準DDR2記憶體設計,比採用FBDDDR2記憶體節約60%耗電,全系統因採用DDR2記憶體產生的節電規模超過300KW;
3)全系統刀片設計,比常規機架式節電節約10%耗電,全系統因採用刀片架構產生的節電規模約60KW;
4)液冷系統散熱技術,比常規空調製冷節約30%空調耗電,全系統因採用液態製冷技術產生的節電規模約60KW;
5)節能軟體的利用,採用節能軟體和作業調度相結合,系統全年預計可節約20%的耗電。
結論:曙光5000超級計算機的節能技術,每年可為用戶節約用電700萬度,折合人民幣700萬元左右!
低價格
高性能伺服器的價格一直讓人望而卻步,但曙光5000的價格“平易近人”。百萬億次計算規模的曙光5000售價還不到高效能1億元人民幣,為當前其他廠商同等規模高性能計算機的1/6-1/7。同時曙光5000年運營(含空調系統)耗電約800萬度。
曙光將為曙光5000提供3年全免費保修,並終身提供免費技術服務。
曙光5000具有全系統統一的智慧型監控管理系統,能有效減少人工干預。
自主智慧財產權
曙光5000高性能計算機的體系架構、主計算單元的刀片伺服器及胖節點,刀片主機板,散熱及信號仿真,基於ConnectX的DDRInfiniband交換模組完全由曙光公司在中科院計算所的支持下自主設計,全部達到了國際領先水平。首次採用的水冷系統也擁有部分智慧財產權。在設計過程中完全符合中國自己的刀片伺服器標準。在自主創新的研製過程中,曙光取得了多項業界第一,並在系統研發設計階段獲得50餘項自主專利。
業界最早實現了4路4核的高密度刀片系統;
業界最早實現了同等尺寸的8路4核SMP主機板設計;
業界最早實現了基於IOE的通用刀片系統,
業界最早實現了ConnectX的DDRHCA和Infiniband交換的刀片內集成
高可套用性
曙光5000不僅像其他品牌高性能計算機一樣可以套用於高性能計算,還可以套用於信息服務,電子政務,網路遊戲等常見商業套用。
曙光5000可廣泛運行證券指數計算、電力安全評估、建築工程抗震性評估、天氣預報、石油地震資料處理、核能開發利用、汽車碰撞、電磁輻射、計算流體力學、基因匹配與拼接、蛋白質結構分析和材料科學等20多個套用領域。
在商業套用方面,由於曙光5000A使用suselinux和WCCS,可廣泛運行目前Linux和Windows下的主流的行業軟體,用戶不需要對普通平台上開發的軟體進行任何更改,既可使用。
套用領域
曙光5000A投入套用後,將為氣象、海底隧道、環保、船舶、大飛機製造、汽車、建築、鋼鐵、石油、機電、高校、科學院等領域提供強有力的計算服務,為城市減災防震提供安全保障。
“曙光5000A”既可以對物理現象仿真和模擬,也可以用於我們日常生活用品的設計。拿目前中國正在研製的“大飛機”項目來說,以往主要依靠風洞試驗,在特定場所用鼓風機模擬高空飛行的狀態,來測試飛行的各項數據。一次試驗的花費就超過千萬,而整個研製過程需要很多次試驗。現在有了曙光5000A,整個試驗過程都可以通過電腦模擬。
目前國內的天氣預報只能預報3天,而已開發國家可以預報10天,有了“曙光5000A”後也可以達到這個水平。在預報個性化服務上,超算也能顯身手,比如可為爬山的人提供山上和山下不同的溫度預報,甚至可預報馬路上水坑的水量。
世界排名
在2008年11月17日最新公布的全球高性能計算機TOP500強排行榜中,由中科院計算所國家智慧型計算機研究開發中心、曙光信息產業(北京)有限公司、上海超級計算中心聯合研製,並由曙光公司定型製造的集群超級計算機--曙光5000A以峰值速度230萬億次、Linpack測試值180萬億次的成績排名世界超級計算機第10,截止2010年8月11日,排名為第24位。這一成績讓中國成為世界上第二個可以研發生產超百萬億次超級計算機的國家。
使用效率
"魔方"自2009年6月正式落戶上海超級計算中心一年多來,使用率不斷攀升,尤其是進入2010年以來,使用率逐漸接近飽和,在2010年7月“魔方”使用率首破 80%,達到83.67%,累計開設用戶賬戶達到248個。