正文

英偉達真正的對手是誰

(2025-12-22 10:12:15) 下一個

算力是人工智能最重要的基礎設施和發展引擎。AI算力的代表企業英偉達(NVIDIA)憑借性能先進的產品和難以複製的生態,在AI訓練及推理芯片領域建立起了近乎壟斷的領導地位,成為地球上價值最高的上市公司。截至2025年11月,英偉達的市值約為4.5萬億美元,2025年第三季度營收的同比增長約為62%。

英偉達並不缺少挑戰者,在美國有傳統芯片巨頭安謀(AMD)和英特爾,也有穀歌的TPU、亞馬遜的Trainium(訓練芯片)和Inferentia(推理芯片)等科技巨頭的自研算力,還有Cerebras、Groq等專注機器學習優化架構的新銳挑戰者;中國市場也有華為、寒武紀、燧原等快速成長的AI算力芯片廠商。但到目前為止,他們都很難稱得上是英偉達的對手,難以撼動其領導地位。不過,未來這一點未必不會改變。

競爭壁壘

AI算力芯片有兩個主要應用場景:訓練和推理。訓練是模型從大量數據中學習知識(調整神經網絡的參數),推理是把訓練好的模型用在實際場景中。

在大模型發展的初期和中期,訓練算力是核心瓶頸,決定了模型的高度,是算力芯片的戰略製高點。因此,我們在此著重討論訓練。

英偉達在訓練算力上有統治性的地位。這種優勢來自兩個方麵:先進的技術和生態的壟斷。

主流大模型的參數規模已達千億、萬億級別,訓練時要對海量數據進行大規模計算,單機算力早已遠遠不夠,必須依托大規模芯片集群完成訓練;要令這複雜而成本高昂的訓練易於展開、效率高、穩定可靠,還需要一整套的軟件係統和工具來作為連接訓練工程師、算力芯片和模型的橋梁。

因此,我們大致可以將訓練對算力芯片的要求拆解成單芯片性能(單卡性能)、互聯能力和軟件生態三部分。

單芯片性能原本主要指計算能力(FLOPS,每秒浮點運算次數)。訓練大模型需要加載海量參數、進行大量的數據快速吞吐,所以還需要為訓練芯片配置大容量高帶寬的存儲(HBM)。

因為工藝的差異,廠商通常會把顯存和算力芯片做成獨立的芯片,然後封裝在一起或在電路板上進行集成,所以叫單卡性能更準確。用戶們會關注單卡的計算能力、顯存容量與帶寬、計算精度、功率與能效等。

英偉達在單卡性能上處於行業頂尖水平,但競爭對手也在追趕,尤其是AMD的最新產品在主要性能指標上已經達到接近英偉達同期產品的水平。不過,對於AMD等企業的壞消息是:單卡的性能迫近英偉達,並不足以撼動其在AI訓練領域的領先優勢。

互聯能力對大模型訓練非常重要。大模型訓練本質上是分布式並行計算問題,互聯就是分布式的血管與神經。前沿大模型的訓練已經要求數萬張算力卡的互聯並行工作,這對大模型廠商是極具挑戰的工程,對算力芯片廠商的要求也極高。

英偉達憑借專有互聯技術NVLink、高性能的通信交換硬件NVSwitch等做到了萬卡級的高效、穩定互聯。其他AI芯片企業實際落地的集群規模大部分仍停留在千卡規模,且很多是采用切割成多個小規模集群的方式進行部署,與英偉達的純萬卡並行計算集群差距很大。

互聯的規模、質量、穩定性對算力利用效率、訓練時間、訓練成本甚至訓練成功與否都有顯著影響,選擇次優方案帶來的潛在損失,可能遠大於成本的節省,這令英偉達方案有極大的吸引力。這導致即便其他廠商的互聯技術能有提升,其缺乏大規模的落地商用實踐去發現問題和優化方案,無疑加大了他們在互聯能力上挑戰英偉達的難度。

除了技術上的優勢之外,英偉達更重要的優勢在於對算力生態的統治地位。這個生態優勢來自軟件,而不是硬件。和硬件不同,軟件有很強的網絡效應,因此能對用戶產生巨大的黏性。

CUDA是英偉達有20年積累的GPU並行計算的編程平台,這個平台上提供了成熟的開發和調試工具、豐富且經過充分驗證的軟件庫和函數庫、海量的文檔和教程支持,讓開發者的工作變得更簡單、高效。400多萬開發者通過貢獻開源庫和工具、反饋bug(漏洞)和提供最佳實踐,又令CUDA的軟件生態變得更好。

英偉達的其他軟件和工具又能和CUDA生態配合,對用戶形成更強粘性,如英偉達提供的大模型開發框架NeMoFramework、幫助企業快速部署AI的NVIDIAAIEnterprise等。

除了開發者,學術界研究員發表的最新AI論文(如Transformer架構的變體),其開源代碼通常隻在英偉達GPU上驗證過。如果用其他芯片,研究者可能需要自己去寫底層適配代碼,才能跑通新模型。這意味著使用英偉達,研究者能最早用上最先進的技術。

更進一步,全球的高校計算機專業、AI實驗室,教學和實驗用的設備幾乎全是英偉達的GPU。一個剛畢業的AI工程師,大概率已經熟練掌握了CUDA編程。如果一家公司決定使用非英偉達芯片,他們可能需要花費巨大的成本來培訓員工學習新的開發環境。

這種生態優勢有很強的延展性,會吸引眾多玩家的深度參與。比如,Py-Torch和TensorFlow是最流行的深度學習框架,分別由Meta和Google主導,但卻和英偉達的CUDA有深度的生態協同。某種程度上,它們是生長在CUDA這個生態係統上的,將CUDA的生態組件像積木一樣構建在自己的底層中。它們憑借CUDA的並行計算能力觸達百萬開發者,又反過來作為生態的一部分鞏固了CUDA和英偉達的競爭優勢。

生態優勢實際上是一種網絡效應。在自然市場中,弱網絡很難和強勢網絡競爭,因為隨著網絡規模增長,網絡價值/競爭力呈現超線性的增長(梅特卡夫定律描述為網絡的價值和用戶數的平方成正比)。英偉達一旦在這種強網絡效應的競爭中勝出,就有了非常深的護城河。

相對弱勢領域

一個萬卡訓練的超大模型,在部署做推理的時候是不需要這麽多卡的,通常僅需要幾張到幾十張卡互聯。因為訓練時要計算前向傳播、反向傳播、梯度計算、參數更新的任務,推理時隻需要計算前向傳播;顯存的存儲任務也大幅減少。

這意味著人們對推理芯片的互聯能力要求大幅降低,甚至在一些應用場景下,人們還會把模型蒸餾、量化,使其更小以便可以通過單卡完成部署,智能駕駛芯片就是典型例子。

相較於訓練場景,推理場景下英偉達的生態優勢就沒有那麽顯著了。模型訓練完成時就已經是一個算法框架確定的成品了,對英偉達豐富的開發生態依賴度降低。

此外,行業已經發展出成熟的跨平台遷移辦法,可以把英偉達芯片訓練好的模型轉換成ONNX等中間格式,再編譯部署到其他的算力平台進行推理工作。

因此,理論上,英偉達在大模型推理領域的統治力遠不如在訓練領域,但這也隻是比較而言。實際上,英偉達在推理市場仍占據超過70%的市場份額,因為綜合考慮性能、價格、穩定性、開發成本、學習成本、遷移成本等,英偉達在推理芯片領域的性價比仍很有競爭力。

根據我們對某大廠工程師的訪談結果,將模型從英偉達平台遷移至其他品牌集群,可能會導致開發周期延長6個月,成本增加40%。

誰能挑戰英偉達

任何與英偉達的競爭都必須麵對來自技術和生態兩方麵的挑戰。

由於生態的壁壘遠高於技術的壁壘,要想成功,競爭者就隻有兩種選項:如果不能避開生態的劣勢,競爭者就必須在技術上有非常大的超越;如果技術上沒有很大的超越,就必須利用經濟以外的方法,人為形成一個保護性的市場,避開與英偉達在生態上的正麵競爭。

在美國,英偉達的挑戰者主要來自技術方麵定製AI芯片(ASIC芯片)。近期,穀歌發布的表現優異的大模型Gemini3,就是完全基於穀歌TPU訓練的。ASIC和GPU的競爭前景取決於犧牲靈活性換取的計算效率是否劃算。

從CPU到GPU再到TPU為代表的ASIC發展,有些像物種的演變,從通用到適應環境和需求的特化。CPU有最高的適應性,幾乎支持運行任何程序和代碼。GPU為圖形渲染這個生態位演化,大幅簡化了核心,犧牲了在複雜控製邏輯和高度不規則任務上的效率,但通過堆疊數千個簡單的核心,擅長同時處理大量相似的計算任務,後來發現這一點也適合用於AI計算。ASIC芯片更進一步,隻保留和優化支持AI計算(矩陣乘法、卷積計算等)的電路,去除所有不必要的單元。自然,ASIC芯片在做AI計算時效率、功耗等方麵就更有優勢,但一旦模型結構/算法範式變動太大,就容易過時。

這種來自技術的挑戰,在短期內不會對英偉達產生實質性影響,因為技術上的跨越並非巨大,但生態上的劣勢卻是全方位的。

在中國市場,英偉達遇到的挑戰更為根本。

隨著美國政府禁止英偉達將先進的芯片出售給中國市場,中國市場就被動地變成被保護的市場,英偉達的生態優勢無處發力。

中國的大模型廠商、雲廠商、廣大開發者、技術人員原本都是英偉達生態的一部分,但現在即使他們想用CUD-A,也麵臨很大限製。

禁令使中國AI產業中短期麵臨陣痛,因為國產算力芯片和生態還不成熟,要麵對算力效率下降的局麵。對於中國算力芯片企業而言,這又是重大的發展機遇期。因為在正常的市場情況下,華為很難說服開發者放棄好用的CUDA,改用不成熟的CANN(ComputeArchitec-tureforNeuralNetworks)生態。

如今,很多開發者開始轉向學習CANN等平台,也出現不少抱怨之聲,包括平台的技術問題、需要付出很多學習成本、需要經曆踩坑之路等等。但這也意味著,隨著更多開發者投入,這些生態會逐漸成熟。等到學習、遷移成本被消化,未來即使禁令解除,他們也不一定願意回去了。

這種地緣政治造成的舊霸主網絡效應失效和新生本土網絡崛起的故事,在互聯網時代屢見不鮮,中國大部分互聯網巨頭的崛起都與此有關。芯片和互聯網有所差異,技術突破困難得多,但其生態的網絡效應邏輯高度類似。

因此,美國對中國的芯片禁運,目的本是為限製中國AI技術的發展,但副作用卻是給英偉達催生了一個長期的強勁對手。

在我們本次研究即將完成之際,美國政府對中國出口英偉達芯片的最新政策發生了重大轉變。2025年12月8日,美國政府批準了英偉達向中國市場出售較為先進的H200芯片,但附帶了政府收入分成和客戶審查的條款。這反映出美國意識到原來的禁運做法會削弱英偉達的長期競爭力,轉而通過梯度管控的做法保持芯片技術代差的同時,維持英偉達的生態影響力。

中國市場和政府該如何接招?原來的特供版H20和國產領先AI芯片處在大致相當的性能區間,而H200的算力大約是H20的6倍,顯存容量約為1.5倍,綜合來看訓練時的表現大概領先數倍到十倍以上。

理性的應對策略既不是一禁了之,也不是無條件放開。為了更大的大局人工智能領域的競爭力,必要的采購應該被允許,比如短期內國產芯片無法滿足的核心AI項目、前沿大模型的訓練和探索性研究等。但另一方麵,完全的市場競爭可能令剛剛起步的國產AI芯片不堪重負,中國需要設計一套機製來鼓勵和扶持國內AI芯片企業的發展,讓他們有機會在一個相對或局部被保護的市場發展自己的生態。

戰略考量

需要提醒的是,在看待包括AI技術在內的科技競爭時,人們容易犯的一個錯誤是國產替代思維,但如果僅僅用國產替代來解決卡脖子問題就會引發一個新的問題:世界上其它國家會不會也做同樣的事情,對來自中國的技術產生卡脖子的擔憂?如果其它國家也采取國產替代的策略來排擠中國科技,我們豈不是又回到了自我封閉的道路?

和英偉達的競爭一定是生態與生態之間的競爭,所以開源思維是最優解。

開源的戰略意義在於構建一個遠超14億人的全球性網絡,放大人才數量和創新效率,打破脫鉤陷阱。

華為在今年8月宣布將其對標CUDA生態的CANN和Mind工具鏈全麵開源開放,正是這種思維的體現。

開源生態可以快速匯聚全球開發者的智慧,更快地發現並修複錯誤,貢獻代碼,提出新的功能和優化辦法。因為是開源的,理論上國內外的其他芯片廠商也可以加入到這一生態(實際因為芯片架構、指令集差異,目前較為困難),這就能更有凝聚力地打造一個開放、有競爭力的生態。

[ 打印 ]
評論
目前還沒有任何評論
登錄後才可評論.