AI算力生態裂變,“開放聯盟”挑戰英偉達

文章來源: - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
(被閱讀 次)

在大模型的淘金浪潮中,賣“鏟子”的英偉達卻成為了舞台上最閃亮的主角。

它為摩拳擦掌的淘金者準備了所有好用的工具、設計了最便捷的路徑。所有“淘金者”都不敢錯過英偉達這家“鏟子商店”,錯過的代價可能是在競爭路上更慢、更弱,從而落後。

市場研究機構Gartner表示,英偉達在全球人工智能芯片市場的市占率預計最高可能已經達到了90%,創下新高紀錄,牢牢坐穩AI算力領域的王座。

AI愛英偉達,但是AI也開始“怕”英偉達。

這種“怕”,開始成為英偉達最大的隱憂。AI的市場太大,大到所有人都無法看清楚它的邊界。在這個新的商業世界尚未形成之時,英偉達已經創造了巨大的”生態引力“,沒人能繞過英偉達的高性能計算,無論大小公司,幾乎所有參與者都成為了英偉達的客戶,然後成為了其算力生態係統中的一部分。

近幾年來,人們逐漸意識到,作為AI時代的基礎設施,係統級的AI算力,對於平台級企業的商業利益和大國地緣政治與未來經濟至關重要。在這樣的態勢下,英偉達所構建的競爭壁壘,反而成為其要麵臨的最大挑戰。大型互聯網平台企業、雲計算公司、AI企業,在擔心英偉達抄其後路,傳統計算芯片公司與AI芯片創業企業,在努力尋找競爭突破口,中國、中東與歐洲,都在努力扶持自己的AI芯片企業,力圖徹底掌握AI時代的主導權。

當前,中國、英美、歐洲,以及近年來異軍突起的中東,是AI的主要地緣玩家。從新質生產力的角度,AI的算力建設成了新時期的軍備競賽,在國家實力允許的條件下,在塵埃落定之前上得了牌桌並成為重要玩家,這本身就具備巨大的價值。我們可以看到,我國將算力與算力網絡上升到了國家戰略,而中東也通過招商、投資的方式在建設自己的智算產業鏈。

英偉達不是在進行單純的技術與商業競爭,而是麵臨著商業模式競爭與地緣政治角力的雙重挑戰。除非可以一直保持著量級提升的產品迭代速度,迫使業界與國家在AI產業與AI算力間做取舍,不然英偉達的統治地位必然在彼時動搖。

一、英偉達的護城河

討論是否可以非英偉達的算力生態形成,我們要先看清楚英偉達的強大具體在哪幾個方麵:

●係統層麵:一個典型的計算係統包含三大基石:計算、存儲和通信,英偉達在計算、存儲與通信技術方麵都是行業領先。如果再把產業鏈當做係統來看,英偉達不僅在技術開發上,而且在產業鏈上下遊的影響力上也是優勢突出。

●計算:我們對於英偉達的最強印象在於它的GPU,而實際上,在通用計算領域也很強。觀察發布的超級計算機係統,其Grace產品作為世界頂級的ARM CPU,搭配其GPU形成的超級計算機,實現了異構計算的超級整合。除此之外,英偉達還具有著相當性能的DPU

●存儲:姑且不論英偉達在其GPU、CPU上所具備的各級緩存技術,僅僅就其對HBM這一技術的推進與運用,也屬於領導級別。這項由AMD會同海力士發起研發的新型存儲技術,並未能助力AMD超越英偉達的顯卡業務,卻很快使得英偉達後來居上,取代AMD而和海力士聯合研發,進一步加速了英偉達在AI計算的優勢;

●通信:在2022年美國更新針對AI芯片的出口管製時,限製的一項指標就是芯片間互聯帶寬,這具體到英偉達的產品上,主要指的就是NVLink,一種可以將英偉達GPU計算卡連接在一起的技術標準。而在更早之前的2020年,英偉達收購了InfiniBand網絡芯片公司Mellanox,從而獲得了並行計算中至關重要的網絡通訊協議和技術,加強了集群運算能力。後來英偉達的DPU,也是來自於這場收購。有意思的是,Infiniband字麵直譯的意思是:無限帶寬。

上麵提到的任意一項單一技術、甚至是產品,可能會有部分創業企業可以努力追趕,可是AI計算作為一個係統級的事情,需要在這三大方麵都要追齊,這難度就是三次方;任一方麵的缺失,都會在激烈的競爭中處於不利地位。

更何況,英偉達在產業鏈上、下遊的布局、地位和影響力巨大。多年來積累下非常多的IP和重要的技術棧,通過投資與收購,不斷擴充著技術優勢與前瞻布局。與此同時,其龐大的商業帝國和市場能力,反哺了其在供應鏈和產能的控製力。更重要的一點是,在一定程度上,英偉達作為AI基礎設施屬性對AI技術和行業框定了發展的方向,學術界、AI產業界和最終用戶所構成的產業生態,是建立在英偉達係統之上的。

●軟件棧層麵:英偉達構建的軟件係統,是從圖形處理到科學計算、從高性能計算到AI計算,是將近花費三十年時間、經曆了多次信息計算浪潮所積累的數學庫與各種工具。到今時今日不僅可以滿足絕大部分的AI與各種科學計算用戶需求,其友好且業界熟知的開發平台也深深地吸引著各領域的科研與工程人員。這種由軟件棧和工具鏈所帶來的正是為大眾所熟知的軟件生態優勢。

其中最為大眾所知曉的,就是CUDA及由CUDA構建的生態。而實際上,英偉達還有許多業界趁手的工具,除了廣泛用於AI訓練、推理和開發以及提供支撐能力的集群管理工具之外,在大模型時代,也及時推出了針對LLM的各種工具與方案。如圖是英偉達的AI企業套件:

●商業層麵:所謂生態,本質是建立在商業的互利互惠上的。

自由市場的各企業、機構和開發者,做出決策的唯一理性依據就是是否可以獲得商業價值。毫不誇張地說,在AI領域,對於絕大多數通過自由市場獲利的企業、機構和開發者來說,英偉達是其最優選項。因此,如何打破商業利益鏈、重構價值權重,是任何一個試圖要挑戰領先地位的創新者,都必須要麵對和解決的事情。

即便諸如Google、Amazon、Meta、Elon Musk旗下公司,甚至國內的華為、騰訊和字節,雖然都有自己研發AI芯片,但同時都在囤積英偉達算力卡,在英偉達的算力係統與生態中守住並最大可能地拓展自己的AI領地。這實際上是在試圖平衡自身AI芯片開發與自身主營業務二者的發展。畢竟,如果為了打磨AI芯片而影響了業務,很可能最終兩者都會丟失。放在國家層麵上也是一樣,這也正是不論中國還是中東,都在大力提倡自主可控的同時,繼續大量采購英偉達GPU。

二、科技大廠和初創公司的擾動

AI時代下,科技大廠早早布局,而創業公司也是層出不窮,都在試圖有所突破,占據牌桌一席之地。

1. 科技大廠

在這場AI大模型淘金浪潮中,全球科技大廠是絕對的主力,基於對供應鏈安全及未來的戰略布局,我們不斷看到科技大廠重金入局“造芯”的消息。目前,Meta、AWS都已經部署了自己的芯片在許多的推理場景下。這也反映了,各家大廠的可能路徑,通過場景優勢,逐步從推理AI計算向特定場景的訓練與通用訓練滲透。

但是短期來說,暫時還不會有什麽影響。英偉達的產能是非常緊張的,全部產能釋放也無法滿足市場的需求。從這個角度看,Google即便此刻沒有TPU,英偉達也沒有更多的產能可以分給Google,這也可以看出,此刻的各家大廠的AI芯片還無法真正對英偉達有實質性的擾動。

但是,從長期來看,任何一家立誌成為AGI平台的企業或機構,都意識到了計算係統的重要性。在這裏我沒有用GPU或者AI芯片來提,是因為這是一個係統級的戰略資源。因此,類似於Meta、微軟、AWS,甚至是國內的阿裏巴巴、字節這樣的公司,都會在通用與專用計算芯片、通訊技術與雲基礎設施上加大投入,並在不久的將來形成競爭基石與優勢。

經曆了這幾年英偉達高端AI芯片的產能緊張,以及大模型和AIGC對算力近乎無上限的需求預期,業界都萌生了自己開設Foundry廠來掌控產能的念頭,OpenAI所謂的7萬億投資的邏輯,正在於此。

當然,走的更遠的,也許是華為。科技發展的趨勢正是用更少的能量,傳輸、處理和存儲更多的信息。訓練複雜的AI模型以及將模型部署在實際應用進行推理計算都需要極大的計算資源,這對應著極高的能源消耗,某種意義上說,算力的本質是能量。新型能源的高效開發、轉化、存儲與結構,是算力競爭的底層邏輯。

我國有著巨大的太陽能儲量優勢,華為很早就通過逆變器切入了光伏產業,基於這一核心部件構建其在光伏產業的技術和商業生態布局,屬於戰略製高點,對華為AI算力乃至AI產業的發展至關重要。

2. 英偉達傳統競爭對手:AMD和intel

目前市場上關注較多且比較高調的競爭對手AMD。雖然AMD的MI300從SPEC(產品規格)上已經比H100要更強,但是從市場份額來看,仍無法有效挑戰英偉達。撼動市場領導者地位的事情,既要靠自己的努力,也要靠對手的犯錯,甚至還需要等待大環境的變化。

然而很多目標的達成都不是一蹴而就的,但是可以觀察過程。在 2023年10月BIS新規出來之前,事實上在國內的互聯網大廠裏,已經有三家完成了對AMD芯片的測試驗證,有一家開展了相當長一段時間intel/Habana的Gaudi係列產品在推理應用的測試驗證。

更早一點,在2022年,多家互聯網頭部廠商都已經嚐試測試、改進華為的產品,來應對可能的算力供應危機。在2023年10月新規之後,AMD項目的推進受到了一定程度的負麵影響,而華為的進度被進一步加速,甚至出現了期貨產品半年以上交期、價格翻倍的情況。

3. 創業公司

短期來講,初創公司很難在技術上對英偉達產生多實質威脅,即便業界寄予厚望的光計算、存內計算等新型計算方式,都在其最有優勢的領域裏嚐試著產品落地,但距離產業化還有一段距離。部分人認為,這種不在原有賽道上和英偉達競爭的計算方式,雖然現在較為初級,但潛力巨大,有的一拚。這些公司當前要解決的是不斷的造血和存活問題。隻有從市場策略和戰略上尋求自己合適的定位,通過長久的經營,實現市場占有量與份額的拓展。

●每年英偉達擺在我們麵前的大套餐,並不是其產品和技術方向的全部,而是暫時勝出者,甚至是當前符合英偉達市場節奏的最優解。也就是說,其他創業者所謂的新架構、新技術路線,在英偉達內部也存在,甚至在技術和工程上更深入;

●即便有創新是英偉達不具備的,其依然可以用自己的人才儲備、資金能力以及在產業鏈中巨大的能量快速趕上。因此,從技術上來講,隻能等英偉達犯錯(這對大公司來說其實是常有的事情),創業公司快速突破,迅速積累起自己的護城河(可能是要結合市場策略、戰略合作以及場景優勢來構建)

●英偉達不僅僅是在AI芯片和對應的軟件棧(比如CUDA、Triton、TensorRT等)上有著領先的優勢,更在通訊技術、通用計算以及高端製程上,擁有著技術、工程以及產業鏈資源上的雄厚積累。AI計算是個係統工程,幾個關鍵環節上,英偉達通過自己的研發工程投入和產業並購,積累了巨大的優勢。甚至可以說,英偉達實際上引領了現在AI產業,並在部分領域引領了技術發展與演進方向,這是小創業公司無法比擬的。

這些挑戰者麵臨的問題依然存在,軟件棧的成熟度、應用場景的泛化能力、係統級的產品開發與交付能力,有些還要麵對產能的困境。從市場上來看,全球範圍內,英偉達的產品依然是硬通貨,Meta、微軟這些互聯網巨頭已經將今年和明年Q2前的產能鎖定。在國內,互聯網與平台公司依然在想辦法搶購。

但是,AI的市場實在是太、太、太大,場景也足夠豐富,英偉達一家是吃不完的,這就給了創業公司市場空間。比如沙特最近就表示將會啟動基於Groq的智算中心建設項目,目標就是大規模AI推理計算。中國也在積極鼓勵國、央企以及相關企業,將AI場景開放給國內AI芯片創業公司,並在智算中心的建設中,多加考慮產品能力較好的國產AI芯片。

隨著時間的推移、AI產業的進一步發展,自由市場將會逐步篩選出真正的佼佼者,來瓜分、挑戰甚至逐步替代英偉達,這是科學規律,芯片領域並無特殊。

三、生態破局希望何在

1. 先來介紹一位隱形的AI芯片大佬。

這家公司,外界對其的討論幾乎和AI算力不相關,似乎是隱形的存在,但是在未來“英偉達”和“非英偉達”的新競爭格局形成的過程中,這家公司不得不被提到,它就是Broadcom。截止寫作本文時,還未有文章專門分析過Broadcom在AI算力係統中的真實戰略。

Google的TPU和Meta的AI芯片,甚至是國內某AI芯片公司的產品,都或多或少由Broadcom協助設計。

Broadcom的傳統優勢在網絡通信技術,Broadcom在通信協議、底層IP、Phy、Switch以及以太網相關技術和產品上,都屬於世界頂級的存在。舉例來說,就像賽車的引擎需要高效的燃油係統來輸送能量一樣,AI係統需要高速的數據傳輸來快速處理信息,SerDes技術就像是為信息傳輸打造的高速管道,確保數據能夠在芯片內、芯片間快速、穩定地流動。

雖然傳統上來說,Broadcom的計算芯片較為弱勢。但是近年來積累了相當多的AI 芯片設計經驗與各種IP,結合其在通信技術的絕對優勢,以及通過各種收購所具備的數據中心級基礎與應用軟件(比如收購VMware),使得Broadcom非常有機會通過提供AI芯片設計服務、構建企業與數據中心級軟件服務、並加大開放合作,來構建以Broadcom為主導的AI算力係統及生態。

一個有著超級計算芯片、超級計算機與自有算力中心的英偉達、一個可以自我閉環的英偉達,和一個集合了業界同盟與多家平台公司的Broadcom,非常類似於Macintosh與Wintel聯盟、蘋果與Android的故事。

2. 再來談談業內人言必稱的CUDA生態(這已經成為英偉達軟件生態的代名詞了)

在構建生態的路上並無捷徑,隻能通過把每一項工作都完成好來追趕,麵對具備先發優勢並且依然在高速發展的英偉達,開放與合作倒是一條有跡可循的路。在計算的曆史上,麵對Apple的封閉,Win-Tel的聯合走出了PC機的硬件生態,進一步地,Linux通過開源,全世界的程序員一起合作,實現了操作係統的三分天下,甚至可以說,ARM的成功,也得益於Linux所構建的開源合作生態,這進一步在移動互聯網時代誕生了iOS和Android一封閉一開源的生態係統;

3. 為此我們再來關注一則新聞。

就在英偉達GTC大會剛剛結束後不久,2024年3月底,路透社發布了一則簡短的新聞

“高通、穀歌和英特爾等科技公司參與的UXL基金會計劃開發一套軟件和工具,為多種類型的人工智能加速器芯片提供支持。

這個開源項目旨在讓計算機代碼能夠在任何機器上運行,無論其采用何種芯片和硬件。高通人工智能和機器學習主管Vinesh Sukumar接受采訪時表示:‘我們實際上是在向開發者展示如何從英偉達平台遷移出來。’據報道,UXL的最終目標是在長期支持英偉達的硬件和代碼。”

短短的幾句話中,有兩個值得關注的要點,為“多種類型的人工智能加速芯片提供支持”,“向開發者展示如何從英偉達平台遷移出來。”

這個項目的參與者包括以高通、英特爾、穀歌等眾多科技公司。這預示著,巨頭公司為了突破英偉達的壟斷,開始通過多變合作的方式,開發可為多種不同AI芯片用的軟件棧與工具鏈,構建開放的生態。

也許哪一天,突然爆出一則新聞,Intel或AMD會開放指令集、部分芯片架構與IP,尤其是關乎到編譯器與算子優化的硬件部分。這種可能性越來越大了,畢竟,RISC-V已經在這麽做了。

曾經在Macintosh和IBM PC機間、在Windows和Linux間、在X86和ARM間、在iOS和Android間上演的劇情,現在又要在AI時代上演了。

未來的某一天,人們會意識到,在AI新商業世界形成的過程中,正是這些舉動,推動AI算力的生態,開始裂變為英偉達和非英偉達兩個部分。