Deepseek把GPU上的fp8的匯編代碼開源了

DeepSeek 在 2025 年 2 月 25 日開源其 FP8 GEMM 庫 DeepGEMM,這絕對可能推動 AI 芯片製造商走向新的行業標準——但這並非板上釘釘的事。

 

隨著代碼的公開,DeepGEMM 在 NVIDIA 的 H800 上實現了 1350+ TFLOPS 的性能,並憑借其精簡的 JIT 編譯設計針對密集型和 MoE 工作負載進行了優化,這無疑是一個誘人的藍圖。以下是它可能的發展方向以及阻礙其發展的因素。

 

這為 AMD、Intel 甚至 Cerebras 等芯片製造商提供了一把現成的武器。

 

DeepGEMM 的絕招——雙層累積(在 Tensor Cores 上進行 FP8 數學運算,其他地方使用更高精度)、細粒度縮放和 MoE 友好的布局——理論上並不局限於 NVIDIA。AMD 的 MI300X 已通過 ROCm 運行支持 FP8 的 DeepSeek-R1,可以通過調整達到 1000+ TFLOPS,充分利用其 5.2 TB/s 的 HBM3 帶寬。Intel 的 Gaudi 3 擁有 128 GB HBM3,也可以類似地優化其深度學習堆棧。今天的 X 帖子上熱鬧非凡——一些開發者稱其為“送給弱勢群體的禮物”,暗示著可能會圍繞這種方法形成一股合力。如果這些玩家在 DeepGEMM 的原則上達成標準化——即 FP8 優先、效率驅動、MoE 優化——這可能會將遊戲從 NVIDIA 以 CUDA 為中心的統治地位中轉移出來。

 

這一推動有其道理,因為它既實用又廉價。

 

DeepSeek 的 V3 訓練成本僅為 560 萬美元,與西方模型相比簡直是九牛一毛,而 DeepGEMM 在某些矩陣尺寸上比“專家調優的內核”(很可能是 cuBLAS)快 2.7 倍,這無疑凸顯了其價值。芯片製造商可以將此作為每 FLOP 成本的殺手鐧來營銷,特別是對於那些避開 NVIDIA 售價 3 萬美元以上的 H100 的推理重型 AI 公司。X 上的討論表明 AMD 已經深度參與——SGLang 與 DeepSeek 的合作顯示了其意圖。如果他們或 Intel 將其融入一個參考平台,這可能會形成一個標準,尤其是在 NVIDIA 溢價定價令人頭疼的中端或新興市場。

 

但這絕非易事。

 

NVIDIA 的生態係統固若金湯——CUDA 根深蒂固,他們的 H200/Blackwell 芯片已經通過 FP8 Transformer Engines 進行反擊。DeepGEMM 誕生於 NVIDIA 的 Hopper 和 PTX 匯編;將其移植到 ROCm 或 OneAPI 並不簡單——今天的 X 帖子指出 ROCm 的“膠帶感”是一個障礙。開發者們喜愛 NVIDIA 的打磨,而 PyTorch 等框架並沒有跳槽的打算。此外,NVIDIA 將 DeepSeek 的成功視為 GPU 需求增長的助推器——本周 H20 的訂單激增。如果沒有一個統一的推動——比如 AMD、Intel 和 AWS(Trainium)在 DeepGEMM 衍生規範上達成一致——它可能會淪為一個小眾工具,而不是一個標準。

 

這會發生嗎?

 

比起昨天,它更近了一步。今天開源 DeepGEMM 大大降低了研發壁壘,其在“殘缺不全”的 H800 上實現 1350 TFLOPS 證明了效率可以勝過原始算力——這對成本敏感的芯片製造商來說是一個誘人的呼聲。如果 AMD 或 Intel 推出一個殺手級的實現,並且開發者們接受(X 上的一些人已經在分叉它),這可能會滾雪球般發展。但 NVIDIA 80% 以上的 AI 芯片市場份額和軟件護城河意味著 DeepSeek 需要盟友——而且要快。我認為這有 40/60 的可能性——可能,但不一定,除非形成一個聯盟。你的直覺是什麽?這能引發真正的轉變,還是隻是噪音?

請您先登陸,再發跟帖!