空手一方客

收獲了一種恬靜的生活, 像一條波瀾不驚的小河, 流過春夏 流過秋冬
個人資料
  • 博客訪問:
正文

再從“天河二號”五連冠說起

(2015-07-15 00:22:11) 下一個
每半年,業界都會回顧一下超算的發展現狀。 過去兩年半,建立高性能超算機的趨勢,不是看誰用的CPU/GPU多,而是看誰的連接性能/能耗比優。因此,312萬個核心的天河就沒人去比。而實際使用層次是什麽,就不用多說。
 
說“高性能的超級計算機HPC是一個國家綜合科技實力的體現”,實在有點過。因為目前的HPC都是超聯分布集群,就是用高性能刀片互聯在一起。完全體現了年代的特征:有錢就任性,和國家綜合"科技"實力可以說毫無關係。

最新的沙特的Shaheen II,其性能/能耗比目前應該是最好的 --- 沙特有什麽“綜合科技"實力可體現?很快這些都會被IBM的新型號比下 ---正在進行式 --那才是等級的飛躍。

Titan的性能/能耗比也較優:NVIDIA的Tesla K20/AMD-Opteron-76xx。Tesla K20加速卡比Intel-Phi 31好,甚至好過Intel-51。AMD-16核的能耗也好於Intel 2692-V1。 但這個結構目前沒有進一步更新的可能:因為過去兩年AMD沒有新的CPU出現,隻有nVidia有Tesla K40/K80提速。

天河使用的是Intel-Xeon/Intel-GPU結構,因為Intel被要求“大批量”禁運給天河,天河2的升級被截斷了。

天河2的Intel-Xeon是E5-2692-V1, 現在有更優的E5-2697-V3,E5-2698-V3,但天河拿不到;
天河2的Intel-GPU是31, 現在51都被Intel當白菜,更優的71大批在市,但天河拿不到;

天河2不能升級到天河3,天河4,顯然就是核心產品問題。不管你認為是什麽,但你一定承認:不是錢的問題。--- 常言說,錢能解決的問題就不是問題。--- 雖說這核心產品是錢完全能解決的問題,但偏偏目前就是問題。

就目前的狀況,那天河的出路在哪裏?

目前隻能是:減少節點數。不必追求最高浮點,而是要追求性能/能耗比。這樣就可以用:
AMD-Opteron(用最高級型號)/NVidia-K40/K80結構  或者 Intel-Xeon(次一級型號)/NVidia-K40/K80結構

過去我們說韜光養晦,忍辱負重;現在可以繞道迂回,曲線救已。

同比,清華花大錢指望買下Micron,其含意就重大了。


這個圖是一個基本的超算1U,兩路Xeon V3 結構;使用DDR4-ER,可達1TB; 可以裝三個GPU: Intel Phi-31/51/71; Tesla-K10/K20/K40/K80。帶有兩個10GB-LAN口,可以加裝兩個40GB-IB超導口。你隻要
加上10G-Switch 或 40GB的InfiniBand-Switch, 就可以連接非常實用、非常高效的超算集群了。
 
超算1U的配置價位:基本配置的話1萬美元,頂級滿載配置要6萬多美元。所以建超算,就是壘錢。誰的錢多就累得高,和技術的關係不大。我見過的最高壘是512個節點,和人家天河比,就個嬰兒科。這裏所謂的頂級,就是按沙特Shaheen II的目前配置。
 
天河的配置,非常浪費。其性能/能耗比,放在目前,隻能打分65分 ---及格而已。錢多,燒的。其正麵意義:提升士氣;幫助GDP。



--------- 附錄:  超級計算機天河二號五連冠超級計算機500強超級計算機排名2015

第45屆全球超級計算機500強排行榜今天正式公布,中國“天河二號”連續第五屆拔得頭籌,進一步刷新了自己創造的曆史記錄。

天河二號已經進入穩定應用期,正為我國各行各業的計算提供超高加速能力,係統本身已經不再有什麽變化,性能方麵還是最大33.83PFlops(千萬億次 浮點計算)。它使用了Intel至強E5-2692 12核處理器及Xeon Phi 31S1P加速卡,總計擁有312萬個核心,整機功率也達到了17808千瓦。

就整體而言,天河二號繼續奪冠並不見得就是好事兒,因為由於經濟、技術等各方麵的原因,如今的頂級超算已經進入了停滯期,這一次前六名都沒有任何變化,而半年前的第44屆更是前九名都巋然不動。

      全球超算排行榜每半年發布一次,兩年來,天河二號超級計算機實現“五連冠”。不過這次的500強排行榜上,中國的超級計算機入圍數量從上一次的61台下降到了37台,而收購IBM服務器業務的聯想公司成為黑馬,已經成為第三大超算供應商,總計有23套超算入圍500強。

美國入圍500強的超級計算機從上次的231台微增到233台,歐洲地區從130台增加到了141台,亞洲地區的超算數量從120降低到了108台,日本從則上次的32台增加到了39台。

如果說天河二號是五次冠軍,那麽“泰坦”計算機就是5年老二了,它使用的是NVIDIA的Tesla K20加速卡及AMD 16核處理器,浮點性能17.59PFLOPS。

本次前10強中隻有一套新係統,那就是位列第七的“Shaheen II”(沙欣II),位於沙特阿拉伯的阿卜杜拉國王科技大學,基於Cray 公司XC40超算係統,采用了12288顆Intel Haswell Xeon E5-2698 v3 2.3GHz 16核心處理器,最大性能5.53699PFlops,相當於天河二號的六分之一。這也是超算500強名單22年來首次有中東地區的計算機進入前十名。

他們的上一代超算Shaheen基於經典的IBM藍色基因/P,65536個核心,最大性能才190.9TFlops,第二代一下子提升了29倍。

前十名中,美國有五套,中國、日本、瑞士、沙特阿拉伯、德國各一套。使用Intel Xeon Phi加速方案的兩套(1/7),使用NVIDIA GPU加速方案的兩套(2/6)。

詳細名單將在德國法蘭克福國際超級計算機會議上公布。

第45屆全球超級計算機500強排行榜前10名

國家數量、性能份額

國家排序:中國目前數量第四,但性能可以排第二

 

中國超算曆史趨勢

本屆排行榜其他亮點:

1、500強總性能361PFlops,比半年前提升16.8%,比一年前提升31.8%,比以往明顯放緩。

2、性能超過1PFlops的係統有68套,比半年前增加了18套。

3、使用加速方案的有88套,比半年前增加13套。其中,52套使用NVIDIA,33套使用Intel,4套使用AMD,4套混合了Intel、NVIDIA。

4、97%的係統處理器核心數量達到或超過6個,87.8%的達到或超過8個。

5、惠普擁有最多的178套,比半年前少了1套;IBM 111套次之,比半年前多了42套。另外,Cray仍然是71套。

6、中國入圍37套,而半年前有61套,一年前更是創紀錄的76套,不過整體性能變化不大,說明淘汰的都是一些小型超算。或許也是因為,中國的超算建設更加理智了,不再盲目上馬新項目。

延伸閱讀:

“中國十億億次”超級計算機曙光7000開始研發

曙光公司總裁曆軍近日在接受記者采訪時表示,繼千萬億次超級計算機曙光“星雲”之後,“十億億次”超級計算機曙光7000已開始研發。

曆軍介紹說,曙光7000是曙光公司為適應未來市場需求設計的新一代超級計算機係統,從處理器、高速通信網絡、大規模存儲係統、係統軟件到應用軟件全麵采用自主技術,安全可控。

“曙光7000不是通用機,它是為某種應用而量身定製的大型機,要想‘吃透’應用,難度很大,周期會很長。”曆軍說。

曆軍同時表示,作為國內高性能計算機領軍企業,近年來,曙光公司一直注重高性能計算的應用,並正在逐步向雲計算服務提供商邁進。轉型後,曙光將成為“信息+數據管理”服務供應商,並通過合作夥伴形成應用生態係統,構建覆蓋全國的信息化、大數據管理服務網絡。

“截至目前,曙光已經在無錫、深圳、重慶等全國10個城市建設了雲計算中心試點。從試點的效果來看,確實給城市的管理能力帶來了大幅度提升,發揮了重要作用。”曆軍說。

以中國科學院計算所等機構為技術依托的曙光公司,成立於1996年,實現了國產高性能計算機的產業化生產,構建起集研發、設計、製造於一體的服務器產業鏈。2008年,該公司推出了我國首款百萬億次超級計算機。

[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.