空手一方客

收獲了一種恬靜的生活, 像一條波瀾不驚的小河, 流過春夏 流過秋冬
個人資料
  • 博客訪問:
正文

對Intel Xeon --〉美國商業部 --〉 中國超級計算的初步看法

(2015-04-21 00:36:27) 下一個
這隻是個人思考的幾個問題,不構成文章, 隻是記錄下來,供自己參考。因為沒有實地看過天河的係統大結構,隻是憑感覺,所以可能有錯。

1。天河二號, TH-IVB-FEP型

目前廣州中心的TH2配置是:共170個機櫃,每個機櫃4個框,每個框裝16塊主板。每個主板有兩個計算節點。
由於一些框位用於交換機/備用電源/線組,還有4096個前端節點,所以,留下的空間給16,000個計算節點。

每個計算節點:用雙路主板,裝兩顆Xeon E5 12core CPU,外加三個Xeon Phi 57核的GPU運算加速卡(俗稱協處理器)。

16,000個計算節點用了32,000顆Xeon E5 CPU和48,000個Xeon Phi協處理器,達到312萬個計算核。
每個CPU配置16GB RAM,每個節點32G, 再加上每個Phi還有8GB。

每組計算節點(目前TH2應該是4個一組)還有一個前端處理器,用於任務排程管理。現在共有了4096顆國防科大研發的FT1500,1.8ghz, 16核SPARC V9架構,40nm製程,功耗65瓦,峰值144GFLOPS。

2。從時間看,機器是2013年底交付廣州中心的,所以,Xeon E5 12core CPU應該是Intel Ivy-Bridge的 E5-2692 V2 ,算很新的了,一般足夠用。

目前,北美的用的是更新的Haswell E5-26xx V3,性能/低能耗都比v2好。而Intel馬上要發布交付的是 Broadwell E5-2xxx V4,參數不詳。

廣州中心申請升級的應該是什麽,不清楚。美國商業部4月11日拒絕Intel對廣州中心的升級申請,說的是什麽,也不清楚。一定含有Broadwelld的, 但含不含Haswell 呢?

3。這個升級必要嗎?

首先從價格看,從V2 到V3,Intel改了Socket, 就是說要升級的話,其實就是所有的主板要全換,成本之高,可以想見;
從V2 到V3,Intel是從DDR3改到了DDR4。雖說TH2的主板內接留有DDR3/DDR4口,但板麵應當沒有空間去實現,所以RAM也得換;
這就是說, 除了交換機/線路/備用電源/製冷以外,要全換,這種升級和新作一台,就差一個機框的價格。合算嗎?

再從功能看, 所謂比IBM的快,快在哪? 其實就是新了至少一代的CPU/GPU和內聯交換口。
IBM出的早,用的類似Intel的V1 CPU,接口20GB/40G,還有GPU 是三年前的 Phi3,或 Kepler係列;
TH2出的晚,用的Intel較新的V2 CPU,接口20GB/40G,還有GPU 是一年前的 Phi5,(或 可以用Tesla係列);

從功效比看, HT2 的CPU/GPU都應該比IBM的更省電,但爆出來的數據不理想,這一點我還沒想到問題出在哪裏。目前TH2的峰值為55PFLOPS(peta flops的縮寫,每秒10的15次方次, 即每秒5.49億億次)。
 
即使前台的4096顆FT1500,性能也不錯,目前真沒必要升級。

可見,從實際出發,目前升級無必要。除了爭第一的價值,看不到其他意義。

4。天津飛騰的FT-1500A,和國科大的FT-1500的關係

總經理穀虹說FT-1500是64位通用CPU,兼容ARM V8指令集,28nm製程,包括4核和16核兩款,目標在實現對Intel中高端“至強”服務器芯片的替代。

其中4核處理器 麵向桌麵終端和輕量級服務器,主頻2GHz,功耗15W,兩個DDR3-1600存儲通道,支持電源關斷、DVFS等低功耗技術,適用於構建台式終端、一體機、便攜筆記本、微服務器等產品;
而16核處理器芯片麵向服務器領域,主頻2GHz,功耗35W,4個DDR3-1600存儲通道,支持虛擬化功能,適用於構建網絡前端接入服務器、事務處理服務器、郵件服務器、數據庫服務器、存儲服務器等產品。

5。蘇州盛科網絡的“智橋”SDN智能高密度萬兆交換芯片CTC8096

總經理“千人計劃”專家孫劍勇介紹,是其自主研發的第四代交換芯片,目標是快速響應雲計算、大數據、網絡功能虛擬化的市場趨勢,芯片具有性能優、功能強、功耗低和高可靠、高性價比等特點。該芯片由9.4億人晶體管構成,具有1.2T的交換容量;配圖了96個10G端口,24個40G端口,4個100G端口,支持L2/L3/MPLS/OpenFlow和數據中心功能等特性集合。

這些交換接口的指標不錯,未來幾年應該都夠用。

6。目前,軟係統、應用開發,應該比升級更重要。中國超級計算應當下的大功夫,除了計算芯片外,應該就是係統設計和應用開發,都是耗費時日的工作。有時候還出力不討好。按論文行賞/職稱的概念需要改變,否則沒有獻身的。精神和經濟都重要。

目前的TH2隻要用好了, 可以再“領先”兩年,因為沒人喜歡去用幾萬個CPU/GPU作個大物件放那當擺設。

7。國科大的任務是國防科技,中國應當把民用的發展放在曙光/浪潮,就名正言順了。當然,地方上的相互不買帳,要先處理好。

8。還有一個描述: 各運算陣列中,每塊主板上分為APU和CPM兩塊,APU部分支撐5個Xeon Phi,CPM支撐1個Xeon Phi 和4顆Xeon E5。 APU和CPM之間以CPU內部提供的PCI-E 3.0 16x介麵連接,但實際由於Xeon Phi的限製,僅支援PCI-E 2.0 16x,所以每個通道的數據傳輸為10Gbps。
 
這說明TH2可以單獨升級GPU到目前北美的3.0級接口。每個約$3000以上,可以對付48,000個。

9。從目前Intel Xeon的性能看,TH2從55到100PFLOPS的升級,應該是可以做到的。隻要美國政府容許Intel 放行。
Broadwell(還沒有發布具體指標),
Haswell E5-2699-V3, 18core, 2.3ghz,45MB,22nm 
對比現在用的E5-2692-V2, 12core, 2.2ghz,30MB,22nm 

10。美國政府不放行,而Intel希望交貨,Intel的股東也希望交貨, 那是幾個億的買賣。但國家和公司兩者矛盾。
 
美國對中國的部分禁運,應當說意義不大。表麵的政治作用,大於實際的技術作用。

11. 中國的芯片現狀: 根據IC Insights的數據,2013年海思位居世界無晶圓廠IC設計企業第十二位,2014年海思發布的麒麟920芯片性能據測試軟件安兔兔的數據超過了聯發科和高通的同檔次芯片,基帶支持LTE CAT6技術是世界第一個支持該技術的基帶。在64位處理器成為熱點後,海思隻是比高通和聯發科遲了2~3個月就在12月推出64位的處理器。在采用生產工藝上,海思比高通、聯發科更激進,已經采用台積電16nm FINFET工藝生產網通芯片。從技術上看海思無疑是中國的領頭羊,隻是目前海思的手機芯片還隻是供給兄弟企業華為手機。

紫光在並購展訊和RDA後獲得了INTEL的投資入股,並獲得X86架構的授權。2013年據IC Insights的數據展訊在世界無晶圓廠IC設計企業排名第十四位,而2012年是第18位上升迅猛;另外據Strategy Analytics的數據在2014年第一季度展訊在全球基帶芯片市場超過INTEL據世界第三;目前展訊的TD-LTE芯片已經被聯想和酷派等采用。RDA在2012年開始推出GSM基帶芯片並在當年8月起每月出貨量達到1000萬片以上,在當時已經形成了對展訊的威脅,這也是紫光將他並購以免它威脅展訊的原因。在整合RDA和展訊後紫光將強化在手機芯片市場的優勢。

瑞芯微在平板芯片市場崛起,2014年一季度居中國平板芯片市場份額第一,借助與INTEL的合作獲得了通信基帶,將能穩固在平板市場的份額,並有機會進軍手機市場。INTEL在出售了采用ARM架構的XSCALE業務後,一再努力進軍移動市場,但是始終難有起色,於是與瑞芯微合作並將X86架構授權給瑞芯微,希望借助瑞芯微的成本和功耗控製能力幫助INTEL解決撓頭的成本和功耗問題,而從首款芯片XMM6321來看看瑞芯微的表現也沒有讓INTEL失望。2015年瑞芯微將推出整合LTE基帶的Sofia芯片,進入目前火熱的LTE市場,INTEL的領先工藝、X86架構強大的性能與瑞芯微的成本和功耗控製能力結合或為雙方帶來希望。

 
 
幾萬顆芯片對INTC塞牙縫都不夠。而其他商用CPU賣中國估計超過1一億顆都不止!龍芯原來誇海口賣給學校1百萬台做低檔機後來白... - 寒流 - 給 寒流 發送悄悄話寒流 的博客首頁寒流 的個人群組 (359 bytes) (85 reads) 04/21/2015 01:42:50

賣給中國的商用CPU估計超過一億顆都不止。不錯,這才是主流應用。不能本末倒置。 - 楊子 - 給 楊子 發送悄悄話楊子 的博客首頁楊子 的個人群組 (0 bytes) (1 reads) 04/21/2015 08:04:04

目前中國對超算依賴不大 - 笨狼 - 給 笨狼 發送悄悄話笨狼 的博客首頁笨狼 的個人群組 (120 bytes) (14 reads) 04/21/2015 06:59:45

建的那麽多超算中心,使用率不高。不過是練手的好場地,會促進國家高檔設備的研發與跟進。 - 楊子 - 給 楊子 發送悄悄話楊子 的博客首頁楊子 的個人群組 (0 bytes) (0 reads) 04/21/2015 08:02:05

一個很實在的例子:   4月20日,中國發射首枚使用“龍芯”北鬥衛星計算機開機
3月31日,中國北鬥衛星導航係統多了一位新成員。作為第17顆北鬥衛星,這位新成員接過了“自主可控”的接力棒。據該衛星總設計師、來自上海微小衛星工程中心的林寶軍介紹,這顆由中科院負責研製的新一代導航衛星大量使用國產化器部件,並首次使用中國製造的“龍芯”中央處理器(CPU)。

4月20日上午,新一代北鬥衛星上裝著“中國芯”的計算機正式開機,意味著我國衛星導航係統在自主可控的征程上邁出關鍵一步。 性能好過“買來的” 據媒體報道,在最近發射的新一代北鬥衛星上,部件的國產化率達到95%,而作為最核心的元器件,CPU的自主化也受到較高關注。

“此次搭載的處理器是‘龍芯’的兩款芯片——龍芯1E和龍芯1F抗輻照處理器。”中科院國家空間科學中心研究員、中科院複雜航天係統電子信息技術重點實驗室副主任安軍社在接受《中國科學報》記者采訪時說。 安軍社表示,新一代北鬥衛星上有3個被稱為“單機”的黑盒子,每個約有4本400頁的32開圖書摞起來那麽大。

其中兩個黑盒子裏,每個裝了2片龍芯1E芯片和4片龍芯1F芯片。 “這兩個黑盒子的主要任務是用於完成星間鏈路的數據處理,即支持北鬥各顆衛星之間的通訊數據處理任務。龍芯1E負責進行常規運算,龍芯1F完成數據采集、開關控製、通訊等處理功能。”安軍社說。 “目前,與我們在國際上能買來的芯片相比,龍芯1E和龍芯1F的性能還是要更好一些,處理能力和可靠性也與國際上能買到的持平。”


美國的禁運包括技術, 所有生產該類芯片所用的技術應該都在禁運之列。禁運主要是最前沿的半導體光刻相關設備,那個是美國控製的。X86芯片過去沒在禁運範圍。“IBM,SUN,SGI,MIPS等很多高端CPU都在禁運的名單上,但這幾家芯片現在都基本不在市場上了”。這更說明,美國部分禁運,也是對美國本土公司的不負責任。害人也害己的事,美國天天作。


這個圖不應該出現在媒體,因為參與會議的人是簽過保密協議的,既然出來了,就借用一下。
我們可以看到,中國天河的差距巨大,核心全是基於Intel/nVidia等級技術的。


Intel的Aurora超級計算機

我們再來詳細看下Intel的Aurora超級計算機的架構組成,要想實現高達18-45億億次的性能(對比的Mira是目前的HPC),Aurora得 使用新一代硬件,其中Intel已經證實Xeon處理器在其中隻起到管理作用,計算主力是新一代的Xeon Phi處理器,代號為Knights Hill,詳情不多,但今年的Knights Landing已經使用了14nm工藝,這個Knights Hill加速卡不出意外將使用2018年的10nm工藝,單卡性能估計在4-4.5TFLOPS之間,目前Knights Landing加速卡的性能約為3TFLOPS。


Aurora超級計算機將使用新一代Xeon Phi加速卡 ---這個資料也應該被保密在一範圍內的。

整套HPC將有超過5萬個節點,基於Cray公司的Shasta新一代HPC平台設計,板載內存容量超過7000TB,內存帶寬高於30PB/s,每個節點的帶寬超過2.5PB/s,帶寬超過500TB/s。存儲係統則會使用Intel第一、第二代Omni-Path架構,容量不低於150PB,文件吞吐 量1TB/s。

整套係統功耗為13兆瓦,比目前的Mira計算機的4.8兆瓦高了1.7倍,但其性能是後者的18倍還多,因此整體的每瓦性能比實際上從2GFLOPS/W提升到了13GFLOPS了,能效比提升了5倍多。

 

[ 打印 ]
閱讀 ()評論 (1)
評論
笨狼 回複 悄悄話 楊兄,

對此也關心。論壇上大家吆喝的多,有熱情,但思考的人不多。高人不少,但具體談的不多。

我其實是外行,搜了一番,對此的結論是美國禁運是大有道理的,用張雲泉的話,就是掐了中國的軟肋。

我說中國目前對此依賴不高,基於不但自發芯片落後,而且軟件更落後,基本上沒法將超型計算中心的任何技術有效地應用在開發上。所現在虛的多。

另一方麵,中國企業在硬碰硬的競爭上,還是不行,大家嚷的凶,做的少,政府導引、強迫目前還是主導,故此悲觀。

不過,中國要發奮,在這方麵也不晚,問題是是不是真的發奮。

搜集了一大堆報道,讀了結論較清楚。接鏈:

http://blog.wenxuecity.com/myblog/66653/201504/19582.html

你要是有感想,分享分享。
登錄後才可評論.