其實具體邏輯,從12月deepseek v3到這周的r1,我們前前後後分析過很多次了,不妨總結梳理下
1. 海外廣泛引用的550萬美金是v3,而不是r1的訓練成本,且550萬隻是v3實際訓練成本的零頭。v3論文原話:上述成本僅包括DeepSeek-V3 的正式訓練,不包括與架構、算法、數據相關的前期研究、消融實驗的成本。社群內一位算法工程師就曾說“v3用了幻方自己的r1模型生成數據,這個部分的反複嚐試要不要算在成本裏呢?”一個意思。
2. 前沿探索和後發追趕,所需要的算力本就不是一個量級。表現為訓練同一代模型所需算力每隔N個月就是指數級降低。原因包括算法本身的進步(FP8、混合MoE)、算力的持續通縮、複現方法如蒸餾等對數據的濃縮。最關鍵的是,探索就意味著會有浪費,而後發追趕“站在巨人肩膀上”本就可以規避浪費。就比如o1的訓練成本肯定遠超GPT-4,幻方r1的訓練成本肯定也超過v3。而從o3到o4/o5,從r1到r2/r3,訓練算力隻會更多。
3. 單次訓練降本了,不代表整體訓練成本會下降。訓練效率提高,實驗室就減少投入嗎?不會,真實邏輯是:基於更高效率,榨幹算力,去攫取更大收益。就拿幻方來說,infra優化降本能力這麽強、提前囤卡也挺多、沒怎麽擴張API服務專注於研究與訓練的情況下,依然還在缺卡。橫向對比之下,北美某些花了更多錢的實驗室,的確顯得很尷尬...但他們之後就降本增效嗎?不會。消化吸收幻方開源的方法+比幻方多得多的算力=攫取智能的更大提升。訓練算力最應該擔心的是撞牆,算力使用效率提高,反而可能是提高了模型本身的天花板。
4. 幻方代表的是整個開源相對閉源的一次勝利。對社區的貢獻會快速轉化為整個開源社區的繁榮。如果真的說利空的Loser,那可能是閉源模型。中國這一點已經提前經曆了,被Llama支配的恐懼,跑不過Llama3的中國閉源模型公司被迫倒閉、轉應用、轉開源。而今天中國開源打到了北美閉源...如果現在還不如r1(以及即將到來的r2 r3),那這家公司的API價值基本歸0。但說實話這個過程的確會讓模型訓練參與方快速縮減。
5. 最關鍵的,以上討論都是訓練,而未來顯然更大需求來自推理。有一點被大家忽略了,幻方對推理成本的消減,比訓練來的更為震撼。今天大家都看到了AMD宣布支持幻方v3,用我們嘉賓Y博的話就是:DeepSeek架構的優雅之處就在於,和標準的transformer架構比較起來, 並沒有引入特殊的算子。理論上可以相對輕鬆支持各種類型卡...(這也是被GPU禁運逼出來的)大家體會下這句話的分量,以及對於CUDA的啟示...幻方這幫人都是手擼算子的天才...
推理成本降低,對算力是利好還是利空?比訓練更好理解。請對比:剛推出來貴到沒人用的o1,以及掀起API價格戰之後的豆包。推理成本的降低大概率會帶來應用的繁榮,反而會拉動更大的算力需求。
這裏再引用下星球Y博的評論,現在回頭看非常前瞻:DeepSeek-V3將支持私有部署和自主微調,為下遊應用提供遠大於閉源模型時代的發展空間。未來一兩年,大概率將見證更豐富的推理芯片產品、更繁榮的LLM應用生態。
6. 如何平衡北美仍在瘋狂的基建,和過去浪費的投資?美國的確CSP仍在瘋狂搶電,都搶到2030年去了。其實各大CSP過去2年千億美金砸下去,沒有一家單純是為了訓練,基本都是自身業務需求+推理業務增長驅動。隻有微軟為OpenAI準備的算力credit、AWS算力租賃給了下遊客戶用於訓練、Meta/xAI部分算力用於自身訓練,但算力大頭都是因為自身的推薦係統業務/自動駕駛業務本身需求。以及微軟已經相當於拒絕了Sam Altman繼續All in的訴求,轉而聚焦回報更確定的推理(Satya親口這麽說)。
因此幻方這件事對北美CSP來說,客觀來講,過去某些訓練投入的確是打水漂了。為冒險、探索新市場付出的必要成本。但看未來,開源的整體繁榮一定最終是利好這些“中間商”。之前我們闡述過,他們其實不是親自冒險的礦工,他們隻是鏟子的搬運工,以及基於這些模型(無論開源or閉源)建立更具商業價值的應用生態。卡並不隻是用於訓練,越來越大比例會挪到推理。假如訓練的高效讓模型更快進步,應用生態更加繁榮,他們怎麽可能不繼續投呢?
最後,繼續引用下《the bitter lesson》:長遠來看,算力才是真正的決勝因素。曆史的經驗一次又一次地告誡我們,AI研究者常常試圖將人類的知識灌輸到AI算法中,這種做法在短期內通常有效,並且帶來個人成就感和虛榮心。但長遠來看,它會造成瓶頸,甚至阻礙進一步發展。最終的突破性進展往往源於一種截然不同的思路,即通過搜索和學習來擴展算力規模。而那些最終的成功往往伴隨著苦澀,難以被下咽,因為算力的成功,意味著對我們以人類為中心的固有思維和虛榮心,是一記響亮的耳光。