計算機硬件101 Computer Hardware 101

Try to post some articles regarding computer hardwares...

首頁文章列表博文目錄

個人資料

ganjiang_fl

給我悄悄話

博客訪問：

AMD 計劃推出其旗艦AI加速器MI325

(2024-09-19 23:31:19) 下一個

AMD 計劃在今年晚些時候推出其旗艦AI加速器MI325X，該產品旨在與Nvidia的H200競爭，並提供更高的帶寬。

此次發布表明，AMD正效仿Nvidia的做法，轉向“Instinct”加速器係列的年度發布節奏。

根據目前掌握的資訊，Instinct MI325X與Nvidia的H200非常相似。它是AMD在去年12月的“Advancing AI”活動中詳細介紹的GPU的HBM3e增強版。該組件由八個計算晶片、四個I/O晶片和八個記憶體晶片組成，採用2.5D和3D封裝技術組合而成，是迄今為止最複雜的組件之一。

儘管CDNA 3 GPU晶片驅動著即將推出的晶片，但在FLOPS方麵並沒有實質性的變化。該晶片仍然具有1.3 petaFLOPS的BF/FP16計算性能，或者在降至FP8時達到2.6 petaFLOPS。需要指出的是，MI325X在任何給定精度上都比H200更快。

AMD似乎在擴大其相對於Nvidia的記憶體優勢。發布時，192GB的MI300X擁有比H100多兩倍的HBM3記憶體，比即將推出的H200多51GB。MI325X將加速器的記憶體容量提升至288GB，比H200多兩倍，比Nvidia在今年春季GTC上展示的Blackwell晶片多50%。

轉向HBM3e還將使MI325X的記憶體帶寬提高至6TB/秒。儘管與MI300X的5.3TB/秒相比增加了1.3倍，但與最初希望達到8TB/秒的目標相比，仍然有所差距，這在與Nvidia的Blackwell GPU相比時尤為明顯。

關於MI325X的記憶體配置，更多詳情需要等待今年晚些時候的發布。

記憶體容量和帶寬已經成為AI推理的主要瓶頸。在運行8位精度時，每十億參數需要約1GB的記憶體。因此，MI325X能夠容納2500億參數模型，或者在八個GPU係統中接近2萬億參數模型，並且仍然有空間存儲關鍵值快取。

儘管硬體支持FP8是MI300X發布時的主要賣點之一，但AMD在其基準測試中通常專注於半精度性能。去年底，與Nvidia就AMD基準測試的真實性進行爭論時發現，很多基準測試中，AMD依賴於vLLM——一個對FP8數據類型缺乏穩定支持的推理庫。這意味著在推理中，MI300X隻能使用FP16。

除非AMD能夠克服這一限製，否則在H200上運行FP8模型將需要在MI325X上使用兩倍的記憶體，從而抵消其288GB大容量可能帶來的任何優勢。更重要的是，H200在FP8浮點性能上將比MI325X在FP16時更高。

儘管AMD更願意與Nvidia的Hopper一代產品進行比較，但更值得關注的是Blackwell係列，據稱該係列將在今年晚些時候進入市場。在其B200配置中，1000W的Blackwell晶片承諾提供高達4.5 petaFLOPS的FP8和2.25 petaFLOPS的FP16計算性能，配備192GB的HBM3e記憶體，並且具有8TB/秒的帶寬。

儘管如此，使用FP/BF16數據類型進行訓練和推理仍然具有一定的價值。今年春天早些時候發布的Gaudi3擁有192GB的HBM2e記憶體和雙晶片設計，能夠輸出1.8 petaFLOPS的FP8和FP16計算性能。這使其比H100/200高出1.85倍，比MI300X/325X高出1.4倍。

當然，這種情況並不總是如此。相當多的努力已經投入到訓練稀疏模型中，特別是在Nvidia和晶圓級競爭者Cerebras方麵。至少在推理方麵，支持稀疏浮點計算最終可能對AMD和Nvidia有利。

MI300A屬於一個獨特的類別。Nvidia的Grace Hopper和Grace Blackwell超級晶片則是完全不同的產品——它們不共享記憶體，也不太依賴先進的封裝技術。與此同時，Intel的Falcon Shores XPU原計劃像AMD的MI300A一樣將CPU和GPU共同封裝，但最終改為Habana-Gaudi加上Xe圖形處理器。

儘管人工智慧熱度很高，但至今還沒有看到哪家公司因為人工智慧服務真正盈利。自動駕駛在2017年時曾預測幾年後可以商用，但現在仍未真正商業化。與其投身於人工智慧，不如選擇購買GPU，比如這種商業模式——Sell Used GPU。

轉自博客文 AMD 計劃推出其旗艦AI加速器MI325

[ 打印 ]

[ 加入書簽 ]

閱讀 () ┆ 評論

評論

目前還沒有任何評論

登錄後才可評論.