如果非要用一句話概括當前所處階段,可能是:星辰大海第一步。DS的探索和貢獻都值得肯定,但隱藏的問題以及帶來的問題,和取得的進展一樣多。
大年初一原本說啥也不幹,除夕寫到一半的這篇分析暫時擱置了一下,沒想到事態發展比預期還快。原本推測的其中三個可能(數據剽竊指責、啟動安全調查、指出芯片算力作假)沒有隔夜老美就扔出來了。年都不讓人好好過了真是,那就直接進入其它部分的沙盤推演。接下來事態發展的22個可能,立貼為證(都隻是可能不是事實,不過可能會有一半以上的命中率)。
1.這事與23年的流浪氣球事件、某次產品發布相仿,大洋此岸認為是風口上的自然現象,彼岸緊張兮兮如臨大敵,貌似過度反應實則有些情緒醞釀已久。有關方麵原本盡力舒緩的空氣會因此緊張,會放大、提前、加速一些問題的進程。且氣球隻是隔空影響,短期事件。而AI對老美的衝擊卻是實實在在,短中長期必將持續。新版中國威脅論近幾個月其實明顯抬頭且正在醞釀和推動新一輪動作,DS這一波正好在特朗普周期的起點與之碰撞發酵,互為燃料。
2.
新冷戰經濟主戰場,從貿易爭端回合進入AI爭端回合。貿易爭端以終極關稅收尾,AI爭端從芯片算力、數據權利、模型原理開始。AI爭端實質上既是科技戰2.0、脫鉤2.0的發端,也是科技戰2.0、脫鉤2.0的核心,主權AI與AI主導權的混合體?多極世界,AI浪潮,大洋此岸有自己要走的路,不必唯老美馬首是瞻,更不必被彼岸帶節奏,但在準確評估的基礎上控製進程,預判彼岸的預判,把握好自己的節奏,有更智慧的成本費效比更好的博弈和發展策略,以及務實精進,是必要的。
3.中國背景大模型等AI產品技術服務全麵禁絕進入美國市場,對人工智能會采取比TikTok類互聯網服務更嚴厲管製政策,無論開源閉源大小體量均在禁絕之列。
4.用其它模型蒸餾也好,從其它模型獲取數據也好,這方麵監管政令與立法也會出台。安全、數據、知識產權等是藉口。OpenAI等從數據保護角度可能采取訴訟等方麵動作,但大概率因為無法跨境執行會無果而終。從根本上美國AI頭部企業這方麵的重點會是推動政令、立法。變相蒸餾無法徹底去除痕跡,也會體現在模型output上,構成不利。但OpenAI扒了整個互聯網的數據也是問題,全球互聯網數據是全人類幾千年文明成果,幾十億現存地球人類共同形成的知識信息財富,OpenAI為這些知識付費了嗎,為這些數據取得授權了嗎。“竊取”全人類、全網、億萬用戶數據,恐怕是幾乎所有AI基座模型共同的原點、“原罪”。
5.
聯合盟友力量禁入全球其它市場是第二步。四五天前討論過,當時原話是:如果DS這件事能起到這樣的作用,讓老美意識到AI-芯片-算力脫鉤政策失效並且管製還不如不管製,算是DS有重要貢獻,這事高調的收益為正,應該更高調才對。但如果DS這事包括AI、智能新能源汽車、機器人等整體上成為新的中國威脅論的重要支點,起到適得其反的作用,讓老美意識到更應該進一步收緊上下遊更應該生態級遏製,讓中國科技難以形成全球循環失去規模效應,因而高成本低收益進而影響到技術迭代能力,那麽這事的收益為負。所以,核心問題是評估這事的收益,而不僅是技術水準到底如何。評估清楚這個問題的走向和得失正負,就知道到底是應該高調自信造勢,還是低調務實精進。
6.芯片算力必然進一步收緊,這方麵拜登禁令大概率不會被撤銷,而且會加碼到更低階的AI算力卡比如H20,觀察這方麵問題的一個標誌,是看字節跳動能不能拐彎拿到清單上的英偉達芯片。無論芯片水進來,還是海外自建算力中心,又或者租用第三方算力中心,三條路大概率都會被堵死。中國背景的企業、大模型,最終會被外力內力一起推到國產芯片算力這條道上來,生態分岔點就在2025,利好國產算力但國產算力必須加快迭代速度。
7.消費級算力卡的下限未來可能會從RTX5090下沉,Project
DIGITS可能不會在中國上市,AMD、Apple的一些消費級工作站級高算力產品也可能受限。
8.自研通用GPU、ASIC芯片的離岸代工製造,以及委托博通、Marvell等開發ASIC芯片以及這些芯片的海外代工,這些路徑接下來可能也會被完全切斷。
9.限製代工製造的取向,有從AI大模型訓練推理芯片,向汽車、機器人等領域的AI算力-SoC芯片擴大的趨向。
10.AI技術與知識產權保護方案也會有追責或訴訟等動作,相關保護政令甚至法案大概率;更進一步,AI方麵會成為中美知識產權問題交涉、博弈的焦點;這方麵的實質影響,可能比蒸餾意義上的數據爭端要大一點。
11.以上事態加速AI世界更進一步向兩個生態體係分裂,對國產芯片算力、國產大模型等相對有利,對國產AI應用開發者利用老美等國AI大模型尤其基座模型不利。因為即使科學上網,因為彼岸禁絕力度加強,注冊使用賬號、API都變得更為困難。
12.前麵第6點說了利好國產算力,不過對國產芯片算力、國產大模型等也有不利,就是前麵第5點說的,這事會升級,老美策略重點也在轉變。會從科技脫鉤轉為“科技脫鉤+生態遏製”,讓中國科技難以形成全球循環,失去規模效應因而高成本低收益,市場造血機能受限,進而影響到技術迭代能力。他的生態要搞得大大的,成為全球基礎設施,你的生態邊界要給你壓縮到小小的,彼岸要以大生態圍合壓製小生態。一個世界,兩套生態。
13.開源世界走向分裂,一個生態的開源進入不到另一個生態,高階開源模型將紛紛主動被動收緊開放程度,主權AI理念的國家紛紛收緊對開源模型的管製,且AGI千後會進一步加大促使高階開源模型走向閉源的力度。不過頭部大平台,尤其是原來隻做閉源的平台,也會紛紛推出開源模型。個中原因,不僅僅在於開源與閉源之爭,更在於智能未來的分布形態必然是端雲結合公私兼有開源閉源互補,大平台必須從模型體係角度適配未來的生態,尤其是中心化與分布式結合。
14.中美AI
合作越來越沒有基礎,也不會真的走向深度合作。拜登周期對AI監管對齊相對重視,合作還有些基礎。特朗普周期放鬆監管。“AI軍控”基本上會失去最重要的兩個AI生態之間的國際協同。在人類共同挑戰層麵的禮貌性互動大概率。
15.
DS到底是不是隻用了很少的芯片算力,這方麵信息會越來越顯露出一些。DS的確在較大程度上節約了算力,相當於上一個階段同體量模型算力消耗的七八分之一,這也符合這個領域模型量效比的演進規律。訓練和推理的單位算力成本實際上在DS現象之前就已經在非常顯著的持續下降了,推理成本普遍目前已經降至早期的千分之一不到,訓練方麵成本效率從A100到B300結合模型技術也有百倍提升。DS的算力節約是這個演進過程的一部分。
不過也不能完全排除誇大、減除、隱藏了一些狀況,DS的技術報告和各渠道披露出來的信息,也有的部分。而原因或許是:可能性之一,基於母模型部分成果,訓練公開麵市的模型產品,隱藏了母模型數據與訓練等方麵信息。可能性之二,模型數據準備和訓練存在幾個不同階段,技術報告隻涉及中後段情況。可能性之三,減除訓練算力和芯片數量,有以此為亮點的傳播考慮,也有不得已而為之的難言之隱。有一定概率FP8之前存在FP16的過程,以及一個隱藏在V3和R1後麵的不完全體。
16.
幾個常識下的LLM老周期與物理模型等新周期:RL增強學習其實更消耗算力;模型從預訓練後訓練蒸餾到不同量化程度下的不同體量模型交付,從數據、算法、訓練、蒸餾、量化的精度來說,必然是做加法在前做減法在後,FP8訓練也不是不可以但大概率FP16過程在前;蒸餾是信息衰減知識衰減能力衰減而不是增益,隻不過得失、體量、算力、效率之間會綜合權衡;頭部大模型整體到了“高可用”階段,DS的高可用不是獨有現象。如果橫向使用各類模型較多,會發現在DS上體驗到的那些驚豔,在其它模型上也會通過其它問答體驗到,一百一千一萬個問題問下來,不同模型都會對一些錯一些且統計差距不大,表現優異的部分和比較平庸的部分,分布在不同問題上。DS不比其它頭部模型整體更差,不過也沒比其它頭部模型整體更好。DS
V3和R1實質上都處於LLM也就是大語言模型這個周期,多模態不具備,而產業整體已經開始進入時空智能、麵向現實世界的物理世界模型的新周期。另外,DS今天達到的高度,其它國產大模型之前在不同階段也曾經從SOTA等角度達到過,隻不過是當時的高度,到今天為止各個國產大模型也是差距甚微,不分伯仲,不同問題上互有所長。發布以來,V3的官方版、R1渠道版都已反複使用,700億參數的R1-Distill-Llama-70B在本機安裝使用,手機裏的1.5B的8bit蒸餾版也下載體驗了,綜合質素不錯,實感符合以上信息。
17.近期國內在AI其它幾個方麵的進展,其實才是真正處於前沿且有創新有探索。比如一些視覺理解模型、實時語音智能、基於物理法則的視頻生成模型、世界模擬器(盡管距離真正的世界模型其實還差十萬八千裏)、比如生成與理解雙向的多模態模型、AI
Agent的一些新探索、具身智能與機器人3.0、傳感融合與端到端下的Transformer自動駕駛2.0。避免廣告植入嫌疑不提具體企業和模型名稱。無論千問、豆包、元寶、文心、Kimi、智譜、MiniMax等,其實哪一家的探索、進展、貢獻、成就,都不比DS低。AI中國的崛起是全方位的,不是DS一個單點。
18.
DS對芯片算力以及英偉達是不是構成衝擊,這事的重要性已經排在末位,但總體事態是因這事而起,所以還不能無視。實際上:預訓練算力資源有節約,但算力節約方麵是有下限的,後訓練R1實際上比PRM+search更消耗資源,推理方麵DS的R係列也好OpenAI的o係列也好,未來整體會越來越耗費資源。
前天英偉達大漲時我的反向看法:有一天英偉達PE掉到30-40倍不奇怪,而從目前的五六十倍掉到三四十倍,原因會是至少三個因素的耦合,一是算力需求增長拉動營收業績成長從而拉低PE,二是虛高的價值預期都會波動回調,這一點會反映在股價上,三是算力尤其推理算力供給走向多元化。但這三個原因裏沒有一個是:有一天AI不需要那麽多算力了。股市以外,同樣需要回調的是OpenAI飄了的心態和Pro賬戶高達200美元的每月金額。
上前天英偉達大跌時我的反向看法:LLM單位訓推算力消耗本來就在下降,但LLM周期後麵是時空智能、具身智能、物理現實世界模型等新周期,這還不包括三個億萬卡時代。算力存在向上和向下兩個曲線,一個曲線拚效率拚成本拚價格,對AI普及貢獻大但對AI走向AGI的貢獻微乎其微甚至可以忽略,另一個曲線拚算力拚模型原理拚腦能力進化從大語言模型走向物理現實世界模型,過程中力摘一個又一個AI聖杯。算力總體需求依然大幅增長。大跌是多因素耦合,是芯片算力股本身的回調、吐納、換手需求,不能把所有下跌的賬都記到DeepSeek的功勞簿上。不過英偉達驚嚇得不輕,驚嚇對擠泡沫有幫助。
股市漲跌是市場對PE的重新計算,算力漲跌是各方對AI的重新評估。DS開啟了產業市場對芯片算力價值基本麵的重新評估,好事。但頭部企業因為大多已經同時處於上一個周期的成熟期和下一個周期的前端,所以推理服務需求劇增導致算力投資大增,數據和算力消耗高出幾個數量級的新原理模型訓練也需要巨額算力基礎設施投資,訓練更好的新的大模型還是需要更高的算力。所以今年頭部企業基礎設施投資大都在百億美金以上甚至五六百億美金這個水平。
19.有文章說因為CUDA不夠高效,DS訓練已經繞過CUDA了,有點意思。拋開PTX不說,在另外一個層麵,實際上理論上每家開發的大模型,都可以定製專門的ASIC架構芯片來訓練,且一定比英偉達的通用算力更高效,但ASIC架構芯片開發成本高迭代周期長,推理可以等但訓練往往等不了。隻有資金和技術能力更強的大平台才有空間玩這個循環,比如Google自研自用的TPU,也提供給Apple用來訓練模型了。
20.中外互聯網都有記憶,DS技術報告提到的方法哪些是原創,哪些是采納整合,哪些是別人也用過,哪些是第一次用,隻要深度搜索都能了解到,不一一而足。這方麵DS所開啟的可能性到底是什麽,以及創新到底是什麽,時間是最好的答案。
21. DS有沒有short做空英偉達,無從考證,這方麵的可能性留給大家。
22.
不完全是自然傳播,不同推手各自不同考慮,其評估、把握、預設值得商榷。隻能說各種情緒都利用到了,引爆感也夠強,但可控感差一些,也沒有站在更高層麵把握走向。
如果非要用一句話概括當前所處階段,可能是:星辰大海第一步。DS的探索和貢獻都值得肯定,但隱藏的問題以及帶來的問題,和取得的進展一樣多。輿論太希望一個麵成功的時候,容易對某一個點寄予過多希望,因為這個點是符號是載體也是心理象征。一些流量操作過度解讀也有自身考慮。但這些容易誤導各方。實際上應該對人工智能領域的重要方麵給予全麵關注,對升維競爭的創新前沿予以重點關注。生態創新才能實現可持續創新。這是一個端邊雲網感算數智多要素互相催化的複雜生態,一蹴而就、一夜變天、單點突破的思維,不符合發展規律,也沒好處。
縱觀整個事態,山雨欲來的新版中國威脅論及時利用了適時出現的它,有做空和回調需求的金融市場也巧妙地利用了它。渴望崛起的我們有沒有被利用先且不論,這件事的背後存在一個隱約可見的產業、科技、社會輿論場等角度相互發酵的動力機製,一切並非偶然。
中國AI必然全方位崛起,老美等必然全力遏製。還是那句話,中國必須走自己的路,不必看老美行事,AI發展的指揮棒和話語權屬於全球人類,不屬於老美。但過程中要預判他們的預判,這樣有助於走好自己的路。此外唯一需要斟酌的是,高調與低調之間,何種策略的收益為正,何種路徑對整個產業而不僅是其中一家企業相對更為有利?此外,實事求是、務實精進更有利於發展,還是言過其實、勢大於實更有利於發展?所有高出實際價值的信用透支最終都會轉化為成本,隻不過成本由誰來支付。水到渠成、實至名歸的實力出擊,一定好過於過早短兵相接,更好過於過早沽名釣譽(這裏並非指DS,而是過往存在的個別浮誇現象)。華為式的務實精進,是可以參考的現實模版。
但是從業態、競爭角度,DS給產業市場帶來了活力,有希望發揮鯰魚效應,尤其在影響大廠方麵。更多的競爭,是用戶的福音。盡管算力節約有下限,未來主要還是靠算力往上走模型原理往前走,但DS在App
Store全球免費下載榜躍升為第一,還是一件非常提氣的事。從這段時間小米、華為、OV等應用市場的下載量分析,目前DS還是比其它頭部AI的App少一兩個零。破圈效應在轉化為市場實地方麵,實效不夠,還需加力。尤其慕名而來的網民批量湧入的情況下服務一再出現卡頓問題,對流量轉化為用戶影響較大。推理服務方麵的算力部署,需要及時擴大投資了。