成功案例
印度理工學院坎普爾分院(IITKanpur)成功案例。
印度理工學院坎普爾分院在紅帽企業Linux(RHEL)上設定了任務關鍵的高性能計算動力中心(HighPerformanceComputingpowerhouse)。
使用32個節點和96個節點的集群系統支持開展國家重點研究項目。
挑戰
除了提供正規的本科生和研究生課程外,印度理工學院坎普爾分院對印度的研究開發工作也做出了重要的貢獻。目前該學院在維護其現代化研究設施方面面臨著巨大的挑戰。這些研究設施為學校師生參加國家科研項目提供了巨大的支持。
科研項目涉及到流體力學、分子模擬、語音識別等領域的複雜套用開發。過去該學院主要採用可以運行各種不同UNIX系統的RISCSMP伺服器來運行這些極其耗費資源的套用。
隨著時間的流逝,印度理工學院坎普爾分院使用的獨立的SMP伺服器數量日益龐大,它們正以很快的速度達到極限。除了需要購買昂貴的編譯器和專有軟體組件外,這樣一個封閉環境所能提供的靈活性非常有限。同時,由於基礎架構需要全天候運行,能否找到本地支持人員也成了學院關心的一大問題。萬一失敗,尋求校外IT外包支持是一個痛苦的過程。
在這種狀況下,能夠處理大量串列或並行數據的高級高性能計算集群(HPCC)成為燃眉之需。
印度理工學院坎普爾分院CSE系教授DheerajSanghi說:“為了滿足高性能計算需求,我們正在尋找一個具有頂級性能和穩定性,同時又可以高度支持運行複雜工作需求的作業系統。”
Sanghi補充說:“在校園中開發的某些複雜套用需要連續運行一個多月。如果哪一天系統崩潰了,你可以想像損失會有多大。這不但會使研究項目延期,而且還意味著徹底浪費了幾周的計算時間。我們需要一個支持整個校園使用的主流平台,它應該可以將我們對外部服務提供商的依賴程度降為幾乎為零。”
解決方案
印度理工學院坎普爾分院於2002年年底開始在高性能計算集群系統(HPCC)前端試用Linux。在用16個PentiumIII伺服器在紅帽Linux7(RedHatLinux7)上設定了第一個試驗用Beowulf集群後,使用開源平台的好處就顯露出來。最初,該集群只是用來作為運行並行套用的試驗床。
印度理工學院坎普爾分院計算機中心高級計算機工程師BrajeshPande先生說:“在此之前,我們只是在非關鍵業務中使用紅帽Linux來運行web伺服器、郵件伺服器、代理、DNS等套用。”
他補充說:“然而,我們在高性能計算集群試驗床上很快看到了令人滿意的結果,這充分證明了我們在研究設施中使用高級Linux集群這一投資行為的正確性。”
2004年中期,該學院在由32個低成本x86/32位伺服器支持的紅帽Linux9(RedHatLinux9)平台上設定了第一個工作用Beowulf集群。由於市場上可以購買到低成本的64位AMD處理器以及嵌入到紅帽企業Linux(RHEL)平台中的強大的64位功能,該學院開始考慮購買新的64位設備來添加一個功能更強大的集群。
Sanghi解釋說:“由於紅帽提供了一個穩定的、通過認證的基礎作業系統,而且該系統可與眾多64位硬體相兼容,因此在第二個集群項目中我們自然而然採用了紅帽Linux。此外,紅帽Linux還通過GCC全面支持各種不同的編譯器平台。”
2005年,該學院用98個AMD64Opteron伺服器設定了自己的第二個96個節點的集群,其中的伺服器採用了紅帽企業Linux3(RedHatEnterpriseLinux3)系統。同時,學院還指定了兩名工程師對這兩個集群進行全天候管理。
Sanghi補充說:“對我們來講,沒有購買昂貴的RISC-UNIX64位伺服器,而是使用了紅帽企業Linux支持的低價位AMD64Opteron設備是一個明智的選擇。因為紅帽是市場上最流行的Linux產品,校園中每個人都非常清楚它的複雜精妙之處。實際上,從紅帽推出紅帽Linux5(RedHatLinux5)開始,我們就一直在使用紅帽產品並緊跟其發展步伐。”
收益
對印度理工學院坎普爾分院來說,在使用專有的UNIX-RISC伺服器時,對高性能計算基礎架構進行升級的費用太高。然而,通過使用在非RISC硬體上運行的企業Linux,該學院找到了一個可以提供同樣性能、沒有任何影響的低成本、可升級解決方案。
Sanghi說:“由於紅帽產品風靡校園,不論是老師,還是學生都可以在他們的Fedora或紅帽設備上使用開放的標準靈活開發套用。這些套用在開發完畢後,他們可以將其無縫地遷移到高性能計算集群(HPCC)環境中進行計算。”
Sanghi補充說:“紅帽還賦予了我們擺弄作業系統的極大自由,而在以前的專有環境中根本做不到這一點。如果系統崩潰,校園中會有人很快搞定。使用紅帽系統後,我們徹底擺脫了對專有軟體提供商電話支持的依賴性。”
Pande補充說:“使用通過認證的平台(如企業Linux)還有另外一個好處,即,在運行用於資源分配和節點管理的第三方高性能計算集群軟體(HPCC)時不會出現任何問題。”
設定這兩個Linux集群時有一個關鍵的需求――增加用戶數量。當前,該學院共有100名用戶訪問高性能計算(HPC)實驗室。下半年,這一數字預計會增加到300人。
Sanghi解釋說:“在設計解決方案的時候,我們想確認一下是否我們可以最大限度地使用系統的處理能力。由於企業Linux與學院高速伺服器的完美結合,我們可以同時支持多個套用和用戶。”
使用紅帽企業Linux(RHEL)支持的64位高性能計算集群(HPCC)系統這一新環境,計算時間降低了一半。他補充說:“以前套用要運行3~4周,而現在只需要不到兩周。”
未來計畫
在用已經到位的6TBSAN來支持64位集群後,印度理工學院坎普爾分院的存儲需求正在快速成比例減少。
Sanghi補充說:“紅帽全球檔案系統(RedHatGFS)將是一個值得擁有的不錯檔案系統,我們正在積極考慮這個系統。而且,我們也熱切盼望著在下一個紅帽版本中能夠添加Xen虛擬化(Xenvirtualization)、statelessLinux和systemtap等新技術。”
結論
由於紅帽企業Linux(RHEL)所提供的自由度和靈活性,印度理工學院坎普爾分院設定了兩大全國最流行的Linux高性能計算集群(HPCC),這些集群對下一代研究項目的成功起到了重大的作用。
研製微衛星
為加強災難管理的信息流動,印度理工學院坎普爾分院(IITKanpur)將與印度太空研究組織(ISRO)聯合研製一顆微衛星。
衛星僅重7千克,將利用本國技術製造。這顆微衛星將提供農業狀況精準信息、自然災害(如洪水和饑荒)預警信息,這將對災難管理有極大幫助。同時,該衛星還將扮演其他衛星通信設備的角色。
ISRO原則上批准了該項目,IIT科學家將在本月末造訪ISRO進行最後磋商。雙方已就此項目進行了為期四個月的談判。
項目期為18個月,衛星建成後將轉交ISRO發射。ISRO已為項目提供了啟動資金,其餘資金將在諒解備忘錄簽署後提供。