最近幾天,特朗普同意把H200 芯片銷往中國的決定在美國各界引起了很多爭議。共和黨和民主黨的一些人都指責特朗普出賣美國安全利益。其實這些人都“冤枉” 特朗普了。 英偉達 CEO黃仁勳之所以能說服特朗普,可不是全靠答應把銷往中國的H200 芯片的 25% 的銷售額上貢給美國政府,對中國銷售 H200 芯片的主要目的是打壓華為的 CloudMatrix 384係統。 (見參考資料 1, 2.)
華為新的 CloudMatrix 384 係統和英偉達新的 GB200 NVL72 係統比較在算力上領先了1.6 – 1.7 倍 (300 PFLOPS 比 180 PFLOPS),而且係統價格更便宜。 注意,這裏的 GB200 NVL72 係統是基於仍然對中國禁運的比H200 領先一代的B200 GPU芯片。
華為 CloudMatrix 384 係統采用的昇騰 910C 芯片性能遠遠低於英偉達 GB200 NVL72係統采用的 B200 芯片。 華為 CloudMatrix 384 係統是靠數量來取勝的。 CloudMatrix 384 用了384 顆 910C芯片,而GB200 NVL72隻用了72顆B200 芯片。
但是如果認為華為隻是靠在機櫃裏麵多塞進一些芯片來取勝,那就把事情想的太簡單了。 係統芯片多了,芯片之間通訊所化的時間會大大的減少係統的效率。 所以穀歌的 TPU 係統就沒有象英偉達那樣依靠傳統的銅線來進行芯片間的通訊,而是用MEMS(微鏡片係統)做為光交換器把芯片用光信號連接起來。 (原來我以為穀歌不是光學公司,大概是用了 TI 的DLP 光學芯片。仔細一查才發現穀歌居然為自己的AI係統自己開發了一個光學芯片,讓人不得不佩服。)而華為則構建了自己的光學係統 - 利用數千個矽光 LPO 收發器,在 384 個昇騰 NPU 之間創建了直接、高吞吐量的全網狀互連係統.(作者本人做過幾年DLP, 所以能看懂穀歌的光學係統,對華為這個係統則是不懂,但是我猜想華為的網狀結構直接連接任意一對芯片,應該比穀歌讓所有芯片通過一個中央交換器來連接更加有效。這點 請內行指正。)
盡管華為 CloudMatrix 384 係統在算力和價格上有優勢,但是一個大缺點就是耗電量太大。盡管中國電費比美國便宜,仍然比在美國用英偉達係統要多花很多電費。
美國同意向中國銷售 H200 芯片的目的還不光是擠壓華為CloudMatrix 384 係統短期的市場份額,更重要的是通過擠壓華為的市場,阻止華為係統生態圈的發展。 英偉達對包括穀歌在內的競爭對手一個很強的優勢就是英偉達的生態圈。早在2010年,英偉達就開始資助大學教CUDA編程,多年來培養了一大批能在英偉達GPU芯片上編程的工程師,還培養了很多合作夥伴。 如果美國再對中國禁運幾年英偉達產品,逼迫中國工程師和大學生去熟悉華為係統,華為的 AI 係統就能形成一個龐大的生態圈。一旦華為和其它幾家中國公司的AI係統壯大了, 過幾年就可能開始蠶食英偉達的國際市場了。到時候如果幾家中國AI公司再象現在的電動車企業那樣開始惡性競爭,把AI係統弄成白菜價, 那才是英偉達真正的噩夢了。
可以預料的是,盡管美國對中國開放了H200 的銷售, 中國政府出於扶持本土產業, AI係統生態圈建設,數據安全與供應鏈安全的原因,會限製H200 的進口。當然中國政府仍然會允許已經深度綁定 CUDA 生態的國內科技巨頭如百度、阿裏、騰訊等進口 H200. 美國媒體也認為中國會限製H200 的進口。(見參考資料 3。)
參考資料: