Deekseek比想象更炸裂,繞過了英偉達引以為傲的CUDA,使用更底層的編程語言做優化

本帖於 2025-01-30 07:05:18 時間, 由普通用戶 成功的洋蔥 編輯

DeepSeek繞過了英偉達引以為傲的CUDA,使用更底層的編程語言做優化

這一次是DeepSeek-V3論文中的更多細節,被人挖掘出來。

 

 

 

V3的硬件效率之所以能比Meta等高出10倍,可以總結為“他們從頭開始重建了一切”

在使用英偉達的H800 GPU訓練DeepSeek-V3時,他們針對自己的需求把132個流式多處理器(SMs)中的20個修改成負責服務器間的通信,而不是計算任務,變相繞過了硬件對通信速度的限製。

這種操作是用英偉達的PTX(Parallel Thread Execution)語言實現的,而不是CUDA。

PTX在接近匯編語言的層級運行,允許進行細粒度的優化,如寄存器分配和Thread/Warp級別的調整。

這種編程非常複雜且難以維護,所以行業通用的做法是使用CUDA這樣的高級編程語言。

換句話說,他們把優化做到了極致。

 

“首先要明確的是,PTX仍然是英偉達GPU架構中的技術,它是CUDA編程模型中的中間表示,用於連接CUDA高級語言代碼和GPU底層硬件指令。

 

CUDA起到了提供高級編程接口和工具鏈的作用,可以簡化開發者的工作。而PTX作為中間層,充當高級語言和底層硬件之間的橋梁。

 

所以說,DeepSeek做了PTX級別的優化不意味著完全脫離了CUDA生態,但確實代表他們有優化其他GPU的能力。我們不知道DeepSeek內部是否使用AI輔助編寫了PTX代碼——但是確實剛剛見證DeepSeek-R1編寫的代碼顯著提升大模型推理框架的運行速度。”

 

也許是DeepSeek團隊,先教會Deepseek用PTX,然後引導Deepseek直接用匯編編程, 他們隻需要監督就行。 通過並行部分的程序,再讓DeepSeek去蒸餾這個過程,學會如何編PTX重寫 numpy, scipy

所有跟帖: 

UCB AI研究團隊聲稱以30美元複現DeepSeek核心技術 -Knight_2024- 給 Knight_2024 發送悄悄話 (221 bytes) () 01/30/2025 postreply 07:01:19

哈哈,,, -Pilsung- 給 Pilsung 發送悄悄話 (0 bytes) () 01/30/2025 postreply 07:21:20

Sorry! Page not found. -zaocha2002- 給 zaocha2002 發送悄悄話 zaocha2002 的博客首頁 (0 bytes) () 01/30/2025 postreply 07:26:04

Google: AI research team claims to reproduce DeepSeek core -Knight_2024- 給 Knight_2024 發送悄悄話 (0 bytes) () 01/30/2025 postreply 07:36:57

用匯編 速度肯定快不少 -Zhivago- 給 Zhivago 發送悄悄話 (0 bytes) () 01/30/2025 postreply 07:05:20

匯編不是關鍵,關鍵的是思路的改變。對於DS是不是全新的model,還是抄襲,甚至偷竊。看了幾個專家的分析,包括OpenA -霧蒙蒙雨霏霏- 給 霧蒙蒙雨霏霏 發送悄悄話 霧蒙蒙雨霏霏 的博客首頁 (1815 bytes) () 01/30/2025 postreply 14:53:14

英偉達的護城河要崩塌,股價大可能到$60,警惕! -青裁- 給 青裁 發送悄悄話 (0 bytes) () 01/30/2025 postreply 07:08:00

趕快short啊 -violinpiano- 給 violinpiano 發送悄悄話 (167 bytes) () 01/30/2025 postreply 07:14:13

當然,這次nvda大跌我賺的不少 -青裁- 給 青裁 發送悄悄話 (0 bytes) () 01/30/2025 postreply 07:34:00

太牛了 敢玩short -violinpiano- 給 violinpiano 發送悄悄話 (167 bytes) () 01/30/2025 postreply 07:36:27

你們這些不相信DS的人當然不會做 -青裁- 給 青裁 發送悄悄話 (0 bytes) () 01/30/2025 postreply 07:44:00

不管用不用cuda,用的都還是nvidia的gpu啊,lol,而且用的也是nvidia提供的底層編程語言 -touchlife- 給 touchlife 發送悄悄話 (91 bytes) () 01/30/2025 postreply 07:22:07

對硬件的依賴沒變 相當於繞開了Java 直接匯編上 -Zhivago- 給 Zhivago 發送悄悄話 (0 bytes) () 01/30/2025 postreply 07:24:03

隻要是印度人搞不定的,就好了 -成功的洋蔥- 給 成功的洋蔥 發送悄悄話 (0 bytes) () 01/30/2025 postreply 07:25:41

網上瘋傳過幾天就是印度版的DS了,他們要忽悠錢。LOL -jenda123- 給 jenda123 發送悄悄話 (186 bytes) () 01/30/2025 postreply 07:43:27

哈哈。網上都摸清印度人的思路了。 -Bailey4321- 給 Bailey4321 發送悄悄話 (0 bytes) () 01/30/2025 postreply 07:58:42

真心覺得猶太印度可以組建最大詐騙集團 -想做土家人- 給 想做土家人 發送悄悄話 (0 bytes) () 01/30/2025 postreply 08:06:05

那美國公司為什麽沒幹呢?中國靠偷靠搶,美國大中小 startup 有這麽好的條件,為啥乖乖讓NVDA 蹂躪? -Bailey4321- 給 Bailey4321 發送悄悄話 (62 bytes) () 01/30/2025 postreply 07:26:43

因為這幾年美國的聰明孩子都一窩蜂去學CS,沒人學EE了 -touchlife- 給 touchlife 發送悄悄話 (0 bytes) () 01/30/2025 postreply 07:31:09

中國哪裏都不缺聰明的孩子.嗬嗬 -Pilsung- 給 Pilsung 發送悄悄話 (0 bytes) () 01/30/2025 postreply 07:34:01

如果沒有編過高度並行程序的,就不要一驚一乍的扯淡了 -ClearCase- 給 ClearCase 發送悄悄話 ClearCase 的博客首頁 (0 bytes) () 01/30/2025 postreply 07:37:00

如果是真的話就是重大工程突破了。再進一步就是ASIC -Lisland_2013- 給 Lisland_2013 發送悄悄話 (0 bytes) () 01/30/2025 postreply 10:58:52

請您先登陸,再發跟帖!