英偉達向中國客戶交作業:第三代“閹割芯片”近5萬元

美國實施的芯片出口管製正在對英偉達造成持續衝擊。

數據顯示，今年前兩個季度，英偉達在中國市場的損失預計達到 125 億美元，其市場占有率也從巔峰時期的95%大幅下跌至目前的50%。

英偉達CEO黃仁勳反複強調中國市場的戰略價值，表麵上是因為營收和市場份額的考量，深層原因則是其絕對市場主導地位正在受到挑戰——中國本土芯片廠商的快速成長正在打破原有格局。

在H20出口許可遲遲無法兌現的情況下，英偉達計劃於7月份推出應對方案，通過減配、“閹割”的形式繞過出口管製，由B20、B40/B30來替代H20，試圖重新奪回市場份額，以扭轉在華業務的下滑趨勢。

特朗普此前在社交平台上稱，會盡快向英偉達發許可證

6月中旬，本營國際（AceCamp）公開了一份專家調研紀要，稱英偉達預計7月份針對中國市場推出 H20 繼任者 B20 和 B40/B30 芯片，單卡售價6500美元~8000美元，服務器預計80000美元~100000美元之間。

本營國際在該紀要中指出，新的B20、B40/B30基於GB202 GPU，該GPU曾用於消費級的RTX 5090和專業級的RTX Pro 6000保持一致。內存采用了GDDR7 ，分為 24GB、36GB、48GB 等版本。互聯方麵，B20通過NVLink總線連接到CX-8芯片，形成一個相當於PCIe卡的離散模塊，以實現PCIe互聯，帶寬 800Gbps，即100GB/s，適合 8-16 卡小規模集群的推理和小模型後訓練；B40/B30 直接支持 NVLink 互聯，帶寬900GB/s，采用OAM 形態，可用於 NVL72 等高密度集群，但受計算性能和帶寬限製，集群性能不及 H20（~85%）。

圖片由AI生成，提示詞：黃仁勳穿著標誌性黑色皮衣，站在一個明亮冷色調的現代手術室，麵前是一張高科技手術台，台上放著一塊拆開的 GPU 芯片。黃仁勳神情專注，手裏握著一把手術刀，正小心切割 GPU 芯片內部，背景有微微散焦的高科技儀器和冷光源，整體畫麵具有賽博朋克科技感，細節銳利，4K 寫實風格。

01 第三代中國“特供”：大廠買B40、平價IDC選B20

受美國出口管製動態調整的影響，英偉達過去幾年持續不斷地調整產品SKU，以應對禁令。

如果B20按期上市，將成為第三代中國“特供產品”，前兩代分別是基於Hopper架構的H20、H800以及Ampere架構的A800。

相比上一代的H20，這代產品取消了HBM高帶寬內存，內存帶寬從4.8TB/s(HBM3e版，HBM3版為4.0TB/s)，下滑至1.5TB/s-1.7TB/s，直接影響就是支持的並發數減少。

GDDR7替換HBM是出於合規需要，與美國商務部的出口管製條例更新有關。2024年，美國商務部將HBM內存定義為先進計算和人工智能應用的存儲器進行特殊管控，其要求內存帶寬密度在每平方毫米 2GB/s 及以上的 HBM 產品，其出口、再出口均受管製，覆蓋HBM2、HBM2e及更先進的產品。

盡管內存縮水屬於被動調整，但GDDR7應該是現階段避開管製線的最優選擇。千芯董事長陳巍指出，“GDDR7帶寬預期可以超過1.5TB/s，雖不如HBM3e，但一般比A100的HBM2e的表現更好，可視為4090的IDC版。”

對於改配GGDR7的B20芯片，一位資深國產GPU從業者則給出相反的評價，“算力有點低，內存大小和帶寬都上不去，性能弱於國產頭部。”

相比之下，英偉達B40/B30在國內市場可能更受關注，關鍵在於它保持了與H20相同的NVLink互聯功能，最大帶寬可達900GB/s。上述國產GPU從業者解釋：“通過NVLink可以實現Scale Up擴展，像NVL72、NVL144等，類似華為Cloudmatrix 384的架構。”

作為特供中國的版本，每次在上市初期都會引發質疑，H20和H800都經曆過這個階段，但最終由於客戶可選擇的替代方案有限，隨著產品供應逐漸穩定，質疑聲逐漸消退，“真香定律”開始發揮作用——一些企業甚至通過大批量采購，躋身英偉達全球前五大客戶行列。

2024年12月，金融時報援引市場機構Omdia的數據稱，微軟2024年總計采購了48.5萬張英偉達Hopper芯片，字節跳動憑借23萬張位列第二。今年4月份，路透社報道稱，包括字節、阿裏在內的中國科技公司於今年一季度總計采購了超過160億美元的H20芯片，折合人民幣超過1160億元。

一位大廠算法工程師表示，“B40（性能）應該不如H20，價格上也是這個定位，作為選擇不多可以買的卡，還是有需求的。”

陳巍認為，基於目前的消息判斷，在B20、B40/B30的選擇上，不同客戶會存在不同的傾向，“B20組網的有效帶寬低於B40/B30，考慮到模型大小變大的趨勢，B40/B30會是有錢大廠的選擇，平價IDC廠可能傾向於B20。”

02 英偉達的焦慮、國產的難題

黃仁勳和整個矽穀都在焦慮，強調過度管製會影響美國芯片的競爭力，給來自中國本土的競爭對手創造機會，其市場份額從95%，下滑至50%是一個非常直觀的量化指標。

受特供版芯片硬件芯片不斷縮水的影響，上述國產GPU從業者透露，一些大廠在綜合權衡之後，已經在加速陪跑國產生態，“如果考慮今後的供應安全和供應穩定，一定要盡早導入國產，但目前企業對英偉達的供應都還抱有一定僥幸。”

在他看來，企業在國產生態門外徘徊，與切換國產生態所需要的額外成本、業務落地速度有關，“本來好好地采用英偉達方案，導入（國產）新方案可能帶來額外投入，還不見得有太多額外收益，就可能有顧慮。”

英偉達的產品性能縮水給國產帶來機會，但國產也有自己的難題。

上述大廠算法工程師表示，“國產卡算力還是可以的，就是生態和集群還有些地方需要進步。”

英偉達的生態，核心關鍵詞即CUDA，它提供了統一的編程模型、豐富的代碼庫，對英偉達的硬件體係、主流的AI框架，都具有良好的兼容性，開發者容易對其形成依賴。目前，國產GPU基本都在推動對CUDA生態的兼容，幫助開發者遷移。

“NV的生態壟斷還在，”陳巍說，但他認為國產中高端GPU的挑戰還包括先進工藝產能。

根據公開資料，目前國產GPU的工藝製程的上限為7nm，受禁令的影響，自去年台積電自查事件開始，其已經無法為大陸客戶的7nm AI芯片提供代工服務。

“中高端國產卡短期受限於工藝和產能，最近連EDA工具都有波動。”陳巍說。

EDA工具的波動則與日前新思科技、楷登電子、西門子三大巨頭暫停對中國大陸供應的傳聞有關。作為“芯片之母”，EDA軟件不僅用於半導體設計，也廣泛用於晶圓製造、封裝測試的多個環節，包括良率預測、信號分析等，如果上述環節的EDA工具管製收緊，也會影響到國產GPU的產能。

03 算力的A、B麵：數字石油、吞金獸

一台8卡B40/B30服務器，單價預計在10萬美元左右（約合人民幣70萬元），由於支持NVL72拓展，構建一台B40 NVL72機櫃，硬件成本將超過人民幣600萬元。

“B40的TCO（總擁有成本）跟H20差不多，吸引力不高了。”上述國產GPU從業者表示。

H20作為特供中國的上一代芯片，今年初受DeepSeek熱潮的推動，一度受到互聯網公司、金融機構的瘋搶，“8卡H20服務器價格，一路從88萬元漲到了105萬元，由於成本低、合規，大廠都是成千台的采購。”一位GPU分銷商此前透露。

如果按服務器運行狀態分，不管是B40的70萬元，還是H20的88萬元，都屬於靜態成本，一旦開機運行，伴隨巨大尖銳刺耳的轟鳴聲而來的，還有高昂的動態成本。

一台B40 NVL72機櫃機的動態成本，按費用項目拆分涉及質保、運維、軟件授權、能耗等，預計在700萬元以上。僅電費一項，按單機櫃能耗50千瓦來預估（對標H20單卡400瓦+CPU+交換機等硬件功耗），每年的能耗就接近44萬度，按一度電1元的均價算，就達到44萬元。

靜態成本+動態成本，按年合計接近1300萬元，平均到每天的成本超過3.6萬元，假設B40的算力能達到H20的85%，後者單卡FP16算力為0.148P，B40 NVL72的總算力大概在9P左右。

年成本1300萬元對應的還僅僅是B40 NVL72這類算力受限的方案，如果更換成H100，靜態+動態成本將大幅飆升。

按此前ServeTheHome披露的信息，馬斯克旗下Colossus AI超算集群采用超微基於HGX H100服務器定製的機櫃，單個服務器容納8張H100 GPU，每個機櫃可容納8個服務器，總計64張H100 GPU，可以提供64P的FP16算力，其靜態的硬件成本即超過2000萬元。

以此來算，矽穀巨頭們頻繁提及的萬卡H100集群，靜態成本就超過30億元，堪稱矽基時代的吞金獸。

高昂的成本讓算力更趨向於科技巨頭們的遊戲，一些院校、科研機構和初創企業則很難構建大規模的自有算力體係。

今年的智源大會上，智源研究院理事長黃鐵軍教授透露，“現在學校沒有那麽多算力，百卡可能都沒有，學生們沒有那麽多實踐的機會，智源雖然有一定的算力，但也隻有1000P，千卡級別，這個資源和一個大模型公司比還差很多。”

黃鐵軍說，“智算平台建設起來之後，給學校、給這些人才更多基礎資源條件，特別重要。這跟物理、化學、生命前沿研究一樣，沒有尖端的儀器，很多工作沒法開展。”

04 誰會背著硬盤出海？

中國市場上的智算中心建設如火如荼，但先進算力仍然麵臨出口管製，企業開始嚐試在海外訓練大模型以提升效率。

日前，華爾街日報報道稱，一家中企利用海外分部租賃當地服務商300台服務器，安排工程師通過硬盤轉運4800TB的企業數據到海外進行模型訓練。

利用子公司/海外分部/關聯公司等租賃當地算力訓練模型示意圖來源：WSJ

利用企業數據訓練自有模型技術上可行，但這種行為是否會觸及美國的出口管製條例？

2024年早期，拜登政府曾討論過要評估實施限製，阻止中國企業獲取美國雲計算服務，但最終並未推行，而特朗普政府於今年5月份在廢除“AI擴散規則”時，在新聞稿中明確提及，如果IaaS（基礎設施即服務）提供商知曉客戶在AI模型訓練且用途敏感需要申請許可證。換句話說，隻要訓練模型不用於敏感用途，即屬於合規範疇。

“這個風險目前主要限製軍事相關的模型訓練，一般民用的不受限製。”一位合規領域從業者表示。

租賃海外雲廠提供的先進算力需要合規支撐，而中國企業的數據出境也同樣需要做合規。

北京豐禮律師事務所合夥人劉星認為，就華爾街日報報道的案例來看，企業攜帶自有數據出境行為並不違法，“特定數據出境需申報安全評估，如不涉及“重要數據”和個人信息，一般不會觸發評估要求。”上述合規領域從業者也認同這種說法，在他看來，企業按照法規要求做好脫敏即不構成隱私和敏感數據。

“基因數據、測繪數據、出口管製的技術數據、安防數據等都屬於重要數據。”劉星補充道。

利用海外算力訓練大模型這種路徑，雖然技術、法規上都存在可行性，但實際能匹配到的業務場景有限。

“目前大模型訓練這波演進趨勢，都是主要的幾個大玩家在玩（沒有使用海外算力的需求），智駕算法訓練現在雖然在卷，但使用海外的CSP，像AWS、Azure這種，折騰的風險太大，即便是走合規路徑出海，操作上也不具備可行性。”上述國產GPU從業者表示。

劉星認為，互聯網大廠很多都是“關鍵信息基礎設施運營者”，符合《數據出境安全評估辦法》規定的申報情形，“國家管理更嚴格，大廠做（出海訓練模型）這類事估計會更謹慎。”

而在陳巍看來，攜帶數據出海做模型訓練，好處是可以接觸到更先進算力，數據不走互聯網，一般不需要擔心數據泄露的風險，更適合做行業大模型的中小廠。

“原文寫得是300台，初步猜測是H100，大概2400卡的規模，”陳巍說，“DeepSeek就是用2048卡訓練的，而大廠可能會用萬卡集群做訓練。”