AI推理爆發前夜,英偉達打出另一張“王牌”
公眾號記得加星標??,第一時間看推送不會錯過。
一夜之間,網絡成為了AI時代的新寵,幾乎所有參與數據中心的企業,近幾個月來都在談論網絡。GPU依舊火熱,但AI網絡似乎受到了更多關注,從矽穀巨頭到初創新企,大家樂此不疲地講著AI網絡的多元應用與廣闊前景。
這一現象的背後,是“AI工廠”與“AI雲”的崛起,其中,AI工廠是指專門處理大量數據並生成智能的超級計算機或數據中心。它將“AI開發”流程比作工業製造工廠:如同工廠將原材料轉化為產品,AI 工廠則將原始數據轉化為“智能”或“解決方案”;而AI雲則是在公有雲或私有雲平台上提供彈性、可擴展的AI服務,用戶無需自建基礎設施即可調用模型和算力,強調靈活性與普適性。
從傳統數據中心轉型而來的它們,不再隻是處理和存儲數據,而是將海量原始數據轉化為實時洞察與價值,肩負著“製造智能”的重要任務。
顯然,過往老舊的底層網絡架構已難以支撐這樣的需求。
也正因如此,AI巨頭英偉達的網絡優勢開始全麵顯現,除了廣為人知的InfiniBand技術外,其專為 AI 打造的以太網架構Spectrum-X正備受矚目。
IDC報告顯示,在Spectrum-X以太網網絡平台的強勁推動下,英偉達數據中心以太網交換機收入從2024年第四季度到2025年第一季度實現了183.7%的驚人增長,在整個以太網交換機市場中占據12.5%的份額,在數據中心細分領域更是達到21.1%的市場占有率。
依靠著發布僅兩年多的Spectrum-X以太網網絡平台,英偉達不僅成功躋身全球數據中心以太網市場前三甲,更在快速崛起的AI以太網市場中搶占先機,確立了無可爭議的領導地位。
盡管外界依然習慣將英偉達定義為GPU巨頭,但在聚光燈照不到的地方,這家公司正以驚人的速度重塑著AI時代的數據中心網絡版圖。
4萬億的真正底氣
對於英偉達而言,它在AI網絡上的布局遠早於其他巨頭。
2020年9月30日,為了慶祝以太網規範誕生40周年,英偉達創始人兼CEO黃仁勳專程采訪了以太網的發明者鮑勃·梅特卡夫。
訪談中,兩人探討了一個耐人尋味的問題:英偉達的核心競爭力,在於GPU本身,還是GPU之間的互連技術?
這一問題的背景,是英偉達2020年4月方才完成的一樁收購,其以69億美元的報價收購芯片設計公司Mellanox,這家企業不僅開發了一係列基於InfiniBand標準的計算網絡產品,還推出了基於開放以太網標準的Spectrum交換機。
而不論是InfiniBand,還是Spectrum以太網,都屬於服務器之間互連的一種技術方向,InfiniBand技術專注於極致的高性能和即插即用,Spectrum以太網則是高性能與傳統雲應用場景的完美融合,英偉達將Mellanox納入囊中,就意味著其自此擁有了GPU服務器直接互連的兩張王牌,兼顧了性能、擴展性和服務性的市場迫切需求。
麵對這一問題,梅特卡夫篤定地指出,英偉達真正的底氣,就是GPU互連。
五年後的今天,英偉達市值飆升至4萬億美元,躋身全球最具價值的企業前列。支撐這一驚人成就的背後,除了目前炙手可熱的Blackwell芯片外,還有它早已獨步於天下的GPU服務器互連技術——即AI網絡。
這時候新的疑問誕生了,AI網絡市場的競爭者這麽多,為什麽唯獨英偉達能夠贏得眾多巨頭的“歡心”呢?
讓我們先從InfiniBand說起。
作為一種功能強大的網絡架構,InfiniBand被專門設計用於支持高性能計算和AI數據中心基礎設施的I/O連接,它的獨特之處在於既可作為 “盒內” 背板解決方案(PCB 上的組件互連),也可通過銅纜或光纖實現 “盒外” 設備互連,統一了傳統總線與網絡互連的功能。
除此之外,InfiniBand的高帶寬、低延遲、低功耗以及可擴展性等特性,讓它與AI數據中心形成了天作之合,例如最新的InfiniBand XDR網絡帶寬可達800Gb/s,其發展速度遠超PCIe的發展速度,目前的x86服務器都還未支持PCIe6.0來滿足其對於帶寬的需求,需要通過Multi Host或者Socket Direct 等技術來達到XDR網絡對於800Gb/s上行帶寬的需求;業界第一種支持RDMA(遠程直接內存訪問)技術的網絡,在大約20年前就實現了無需 CPU 幹預就能實現網絡的線速數據傳輸;也是業界最先實現了網絡計算的網絡,可以將HPC和AI工作負載中複雜的集合通信計算卸載到網絡交換機上,有效提升了通信性能和降低了網絡擁塞。
形象一點來說,InfiniBand就像是一條特殊設計的專用公路,速度很高,同時可以有效避免擁堵,它的獨特架構可以在實現高帶寬的同時大幅降低延遲,對比傳統網絡架構有著非常大的優勢,其非常適合那些訓練各類大語言模型(LLM)的AI工廠。
而英偉達在2023年推出的Spectrum-X 網絡平台,則是專門麵向AI應用場景,對傳統以太網的進一步的優化和升級,是一種從網卡到交換機協同設計的端到端AI網絡技術。
首先是傳統以太網被詬病最多的延遲問題,Spectrum-X最大限度通過端到端的優化設計顯著降低了AI業務的通信時延,通過源於InfiniBand網絡的RDMA技術,實現了GPU顯存和GPU顯存之間的直接通信,大幅降低通信延遲並為用戶的通信優化提供了更多的方向;而在網絡擁塞與丟包問題上,Spectrum-X則加入了在InfiniBand網絡上已經成熟應用的動態路由技術(Adaptive Routing),根據網絡負載情況,實時調整數據傳輸路徑,最大化網絡帶寬的利用率。
同時,Spectrum-X也具備了InfiniBand網絡的性能隔離技術(Performance Isolation),該技術確保在多租戶的多任務環境中,不同租戶的應用之間的網絡流量互不幹擾,即使一個業務出現了突發流量,也不會影響到其它業務,確保各個任務都能在最優環境中運行,實現Bare Metal的性能。
與InfiniBand不同的是,Spectrum-X麵向的是AI雲市場,它也兼顧了以太網的靈活性和安全性,讓傳統的以太網用戶可以在不改變使用習慣的情況下,實現快速向AI數據中心網絡的遷移。數據中心走向AI數據中心(AI工廠和AI雲)已經是大勢所趨,AI模型正在逐漸取代傳統的應用模式,Spectrum-X的出現,實現了傳統雲基礎設施走向AI的平滑升級擴展,滿足了更多雲服務提供商對大規模生成式AI等應用需求。
事實上,目前在AI訓練方麵,英偉達網絡已穩居主導地位:微軟Azure、OpenAI和Meta等AI巨頭早已采用InfiniBand來訓練自己的大語言模型,而Spectrum-X也在過去的一年迅速爭取到了大量新老客戶,實現了在網絡發展史上罕見的爆發性增長,成為了數據中心網絡的王者。至此,NVIDIA通過NVLink網絡為AI業務在縱向擴展(Scale Up)上提供了堅實的基礎,通過Spectrum-X網絡和InfiniBand網絡提供了在橫向擴展(Scale Out)的無限可能,通過與業界領先的各種GPU技術的結合,最終實現了AI業務在計算和通信上的閉環,為AI數據中心走向高性能和無限可擴展鋪平了道路。
但AI發展顯然不會拘泥於訓練這一個領域,能夠撐起英偉達4萬億市值的核心,始終是其對AI發展趨勢的前瞻洞察與先發製人的戰略眼光。
從訓練,邁向推理
在今年3月舉辦的GTC大會上,英偉達釋放出了一個重要的行業信號:隨著AI產業在大規模模型訓練方麵的需求增長逐漸趨緩,加之DeepSeek等公司在推理技術上的突破性創新,整個AI行業正迎來從訓練時代向推理時代的關鍵轉折點。
這一轉變背後,瞄準的是一個規模遠超訓練市場的全新藍海——推理市場。如果說訓練階段是AI能力的“鑄造”過程,那麽推理階段則是這些能力的“實戰”,其市場潛力和商業價值將呈現指數級增長。
但新的問題接踵而至。
一方麵,隨著推理模型複雜度提升,原本隻需在單GPU或者單節點處理的任務,開始向多GPU和多節點並行轉移。推理已不再是傳統意義上的“一問一答”,而是進入“Test-time Scaling”階段——在每次請求中模擬多條解答路徑,並選出最優解。這種推理邏輯本質上是一種實時的深度推演,需要在毫秒級完成大量token處理與上下文回溯。這也意味著推理係統對延遲、帶寬、同步機製的要求大幅上升。
另一方麵,當前推理任務日益體現出“P-D分離”的趨勢,即將Prefiling與Decoding任務部署在不同硬件節點,以實現資源最優化利用,避免Prefiling與Decoding階段出現計算和通信資源的衝突。但這也使得在Prefiling與Decoding之間的數據交換成為瓶頸。
除此之外,大模型推理(特別是基於MoE的推理大模型)還高度依賴KVCache(鍵值緩存),其存儲規模往往隨著輸入token數量的增加而快速增加,這就導致了KVCache可能被存放於GPU顯存,或者CPU內存,或者GPU服務器本地SSD,或者遠端的共享存儲。由於KVCache需要在多GPU間頻繁共享與更新,這對網絡提出“雙向壓力”:東西向需實現GPU間通過RDMA的方式高速共享KV,南北向則要求GPU與存儲、CPU間能低延遲調度和高性能傳輸數據。
英偉達針對這部分推理中所遇到的現實難題提供了高效的解決方案:
在分布式推理上,英偉達目前已有的InfiniBand與Spectrum-X以太網架構,構建了具備RDMA、智能擁塞控製和QoS能力的網絡層,為其提供所需的“高速公路”。
而在PD分離的通信瓶頸上,英偉達通過NVLink/NVSwitch構建了高速互連通道,並借助Grace CPU實現CPU與GPU之間的深度耦合,在統一的共享內存域下,極大減少主存數據搬運與延遲,大幅提升推理效率。
最後是KVCache存儲結構所麵臨的雙向挑戰,英偉達引入了BlueField SuperNIC(Super Network Interface Card)與BlueField DPU(Data Processing Unit)的雙引擎協同架構。前者作為一種專為AI負載設計的高性能智能網卡,在KVCache場景中可加速GPU節點間的KV共享操作,確保跨節點token處理時延最低、帶寬最大化;而後者則是在CPU與GPU之間建立了一條智能的“數據高速公路”,將傳統由CPU承擔的KVCache搬運、調度、訪問控製等任務轉移到DPU上執行,有效降低延遲、釋放CPU資源,並提升整體IO吞吐效率。
以上幾大問題是推理所遇到的網絡問題,而在大型推理集群中,還有著不同的難點。
很多人原本認為推理是單節點即可完成的輕量任務,但現實完全相反,越來越多企業將訓練集群直接轉用於推理,尤其在Agentic Reasoning(自主智能體推理)場景中,每個Agent都需要獨立數據庫與長上下文處理能力,算力與網絡資源消耗更勝訓練。
為應對這一趨勢,英偉達推出了AI Fabric網絡架構,通過NIXL(NVIDIA Inference Xfer Library)和Dynamo推理框架的配合,可支持動態路徑選擇與GPU級別資源調度,使得推理係統在大規模部署下依然具備靈活性與實時性,解決了大型推理集群的資源編排瓶頸。
互連設備的功耗與穩定性則是另一個企業頭疼的大難題,隨著推理所需GPU的數量迅速增長,網絡互連成為整個係統能耗的關鍵組成,傳統的電連接(如銅纜)受限於連接距離的影響,已經成為了擴展瓶頸,光互連成為了AI數據中心的主流。
為此,英偉達推出了CPO(Co-Packaged Optics,光電一體化封裝)技術,將光模塊集成入交換芯片封裝中,有效降低功耗並提升可靠性。據了解,與傳統光模塊相比,CPO可帶來30%-50%的網絡能耗節省,相當於在超大規模數據中心中釋放出數十兆瓦電力用於GPU計算。
值得一提的是,CPO還帶來了運維層麵的好處——光模塊數量減少、手工插拔模塊時引發的故障率降低、激光器減少四倍,這都在提升整體係統韌性的同時,支持更高密度部署。
可以看到,英偉達網絡正以訓練時代的技術積澱,為推理時代構築全新底座:從BlueField SuperNIC、BlueField DPU,到Spectrum-X, AI Fabric、CPO光電一體化網絡交換機,再到全棧優化的軟件生態,其推理基礎設施版圖已經成型。
掌握網絡,就是掌握未來
2020年9月那場與梅特卡夫的交流中,黃仁勳還說了這樣一句話,客戶不關心你采用什麽技術,更關心如何解決他們的問題。
在他的眼裏,英偉達的真正突破,不僅在於GPU的性能優勢,而在於它早早把GPU重新定義為一種平台級組件——就像DRAM、CPU一樣,可被嵌入到解決方案中,麵向具體問題構建完整係統,數據中心成為了計算機,而網絡決定了數據中心的性能、擴展性和效率。這種係統思維,是英偉達從圖形處理走向AI數據中心供應商的核心底層動力。
在最初,沒有人相信GPU有如此廣闊的未來。“專注於CPU無法解決的問題?那市場要麽根本不存在,因為沒有解決方案,要麽市場非常小,而且是一個超級計算機的市場,都不可能成功。”黃仁勳回憶當年質疑者時曾這樣說。但英偉達的洞察更深一層:真正的市場往往誕生於需求尚未成型時。
這一邏輯,正複製在今天的AI網絡平台之上。就像當年的3D遊戲離不開以太網,今天的推理模型、Agent智能體、生成式AI也同樣離不開高速、穩定、智能化的網絡——遵循的,依舊是梅特卡夫定律:連接越多,平台價值越大。
未來,隨著大型推理集群的加速部署,AI平台的“終局戰場”不再是某一顆芯片的性能之爭,而是整個係統、生態、網絡的協同效率之爭。在這個新的戰場上,英偉達不僅已經上場——它正在引領方向。