最近穀歌用其TPU基礎設施,訓練出了最強大模型Gemini
3,在ChatGPT橫空出世3周年之際,這一事件具有裏程碑的意義。它意味著,用英偉達GPU在微軟Azure上訓練出來的GPT係列最前沿大模型的範式,正在被打破;而且,大模型、雲和AI芯片,是在穀歌內部渾然一體的。
這一事件,足以影響對整個AI競爭格局的判斷。我們知道,三年前ChatGPT發布之時,第一個最大的受益者是微軟,它的股價暴漲,市值達到全球第一。接著是英偉達,它憑借GPU和CUDA稅,股價一路上揚,成為史上第一家市值超過5萬億美元的公司。第三家就是OpenAI,它的估值也超過了5000億美元,成為史上最有價值的非上市企業。
但這一切,正在被TPU改變。當穀歌上揚時,壓力傳遞到英偉達、微軟、以及大量接受英偉達投資並采購GPU的其他企業,如甲骨文和其他新雲企業。對OpenAI的直接影響,是市場上普遍開始更看好TPU+Gemini在性能和成本上的長期競爭優勢
,要勝過OpenAI。而OpenAI在其星門計劃中的巨額投資,在Gemini的壓力之下,其商業可行性和可持續性,也受到市場的質疑。
不是AI恐懼,而是OpenAI恐懼

難怪穀歌垂直整合的AI,其長期價值受到了巴菲特的看好,最近大舉入股,是其一生之中除蘋果之外,投資的第二家科技企業,也是唯一一家AI企業。
ChatGPT3周年,更值得看的是穀歌過去的3年。它經曆了2023年的危機,即GPT-4超過了穀歌在AI領域的優勢,微軟等企業將用AI搜索顛覆穀歌的壟斷地位,以及Llama開放權重模型推出時,穀歌內部驚呼“沒有護城河”。到了2024年,穀歌開始真正反擊,除了推出原生多模態的Gemini大模型之外,它的基礎設施也引起了我們的關注。
Gemini與TPU的協同,正是穀歌AI王者歸來的核心。可以說,真正奠定穀歌戰略反攻的,一個是合並DeepMind和穀歌大腦,由哈薩比斯擔任穀歌DeepMind
CEO,廢除Bard等模型,集全穀歌AI人才死磕Gemini;第二個就是TPU的迭代升級的強大支撐。它們的對手,相當於OpenAI+英偉達+微軟。
2023年底,穀歌發布Gemini,同步發布了TPUv5p,此時已經可以建立起幾萬張卡的推理集群,但訓練還是依靠英偉達的H100/200。
Gemini
發布的喧囂中,值得注意的是穀歌雲發布了TPUv5p,訓練大模型每刀效率提升2倍以上。不管Gemini是否碾壓了GPT-4,但有一點是肯定的,穀歌擁有比微軟更強大的大模型訓練和推理平台。
而且穀歌將使用TPU進行推理,因此不必像OpenAI和微軟那樣支付給NVIDIA
70%的利潤(直到他們的芯片準備好並投入生產)。
——雙子座Gemini vs. GPT
2024年底,穀歌發布Gemini
2,正式宣布完成對OpenAI的追趕。此時,穀歌除了宣布競爭的重心,將從深度學習進入到發揮其強化學習優勢的智能體之外,代號為Trillium的第六代TPU,是真正的幕後功臣。
當時穀歌專為Gemini 2
推出了Trillium即TPUv6,並且建立了10萬張卡的算力集群,徹底實現了100%的訓練和推理自由。
2025年起,更多大廠將用自家研發的下一代定製芯片,構建10萬卡級別的算力集群,100%地用於自家下一代大模型的訓練和推理,追求高於英偉達GPU的性價比。顯然,穀歌的TPU正在從定製向通用加速芯片轉變。英偉達,要瑟瑟發抖了嗎?
——哈薩比斯:2025將是AI代理的一年。
2025年4月,在穀歌雲Next
'25峰會上,穀歌發布了搭建下一代高能效算力基礎設施的Ironwood,提供高性價比推理的新一代主力模型Gemini 2.5
Flash,以及實現爆發中的智能體互操作的新標準Agent2Agent。穀歌在上一代Trillium解決訓練問題的基礎之上,隨著今年應用token數消耗量的爆發,開始重點解決推理成本和能源效率問題。
而且TPUv7已經開始全麵對標英偉達最新一代芯片B200,英偉達必須要迅速推出下一代Rubin,才能保持黃仁勳所說的“領先一代”的優勢。
推理正朝著統一多模態與思維鏈的方向發展,需要完成越來越多能源與數據密集任務。除了單卡性能要足夠強大外,芯片能效與內存也是升級重要方向。Ironwood足以與去年的B200相媲美。FP8精度下峰值算力,單個Ironwood芯片達到4,614萬億次浮點運算,與B200相當,稱得上當前最強水平。它的單芯片的HBM內存容量達到了192GB,是Trillium的6倍;HBM帶寬達到7.2Tbps,是Trillium的4.5倍,也均與B200旗鼓相當。不過,Ironwood要等今年晚些出貨,屆時,英偉達下一代Rubin架構芯片最快也會量產。
——Ironwood與A2A,穀歌AI生態的王者氣象

(Ironwood超節點,連接了9216顆TUPv7芯片,來源:穀歌雲)
所以,未盡研究的讀者,在過去的兩年中,應該對於穀歌TPU的崛起,不會感到意外,正如我們今年曾預言穀歌的市值將會超過微軟,甚至英偉達一樣:
穀歌披露了第七代TPU
Ironwood更多細節。這是穀歌首款專為大規模AI推理設計的TPU,突破點覆蓋了“性能、擴展、能效、可靠性”所有維度。單個基於Ironwood的超節點縱向最多可容納9216顆芯片,總算力達到42.5
Exaflops,並共享1.77PB可直接尋址HBM;同時,它還能夠橫向擴展至數十個超節點。每瓦性能是上一代穀歌TPU
Trillium的2倍。
——Hot Chips 2025:最硬核幹貨,徹底分享
穀歌正在開放自己的TPU市場。它現在已經是除了英偉達GPU之外的硬通貨。全球最頂尖的前沿大模型廠商OpenAI與Anthropic都用上了TPU;OpenAI正在自研AI芯片,但奧特曼挖人,還是更信得過在TPU團隊幹過的。蘋果也用過穀歌TPU訓練自家AI,xAI則迷上了TPU的JAX框架。還有傳言稱,穀歌正在設法接近Fluidstack等新興AI雲服務商,將TPU部署到它們的數據中心裏;它們此前屬於英偉達陣營。
——穀歌突破3萬億美元,趕超英偉達隻是時間問題
英偉達麵臨的最大問題,是其高達75%左右的毛利率,越來越難以維持。對於前沿大模型實驗室,英偉達隻能通過提供股權投資而非降價,來鞏固其主導地位,因為降價會降低毛利率並引發投資者恐慌。
股權投資的做法,也意味著OpenAI們能從中獲得打折優惠。據業內分析;OpenAI 甚至還沒部署
TPU,就已經在其整個實驗室的英偉達設備組中節省了約 30% 的成本。這表明 TPU 的性價比優勢非常顯著,即使在這些實驗室啟用
TPU 之前,也能立即獲得收益。
至今沒有一家芯片設計廠商,從穀歌到華為,都難以挑戰英偉達的單芯片性能,但是,係統級工程設計,使得 TPU
堆棧在性能和成本效益方麵都與英偉達不相上下。這也是中國的一些科技企業,從華為到互聯網巨頭接下來要走的路。
“係統比微架構更重要”,過去兩年的發展也印證了這一點。Anthropic 的大量 TPU
訂單,直接驗證了該平台的技術實力。與此同時,GPU 生態係統也在改變自己。GB200
代表著一次重大飛躍,推動英偉達向真正的係統公司轉型,能夠設計完整的服務器,而不僅僅是內部的芯片封裝。
對比一下,英偉達直到GB200才實現機架級互連方麵的巨大創新,但常常被忽視的是:自2017年TPU
v2發布以來,穀歌就一直在機架內部和機架之間擴展TPU!穀歌的ICI擴展網絡,是英偉達NVLink唯一真正的競爭對手。
正如開篇所說,穀歌最近推出的 Gemini 3 被公認為目前最先進的模型,這一結果有力地證明了 TPU
的強大性能以及穀歌在基礎設施方麵的整體優勢。具有諷刺意味的是,OpenAI
CEO奧特曼在公開點讚之後,就在內部警告,因為GPT大模型正在失去領先優勢,將麵臨著嚴峻挑戰。
2024年9月,OpenAI以o1引領了推理模型,把關注點集中在推理和後訓練的硬件上,然而,對前沿模型進行預訓練仍然是人工智能硬件領域最困難、資源消耗最大的挑戰。TPU平台已經徹底通過了這一考驗。這與競爭對手形成了鮮明對比:自2024年5月GPT-4o發布以來,OpenAI的頂尖研究人員,尚未成功完成任何大規模部署的新前沿模型預訓練,這進一步說明,穀歌TPU集群克服了重大技術障礙。
穀歌一向是一家軟件公司、互聯網公司,其核心業務以往並非硬件業務。但是,穀歌麵臨硬件的挑戰,悄然強勢進軍,堅持長達十年的投入,最終確立了係統性能領先地位,正在重新定義自己的AI軟件競爭優勢。這個過程中,3年前遭遇過危機,但今天已經完全扭轉過來了。
所有這些對於英偉達意味著什麽?從一定意義上說,AI芯片和基礎設施格局,正在從英偉達的壟斷性霸主地位,向“一超多強”的格局轉變。應該承認,英偉達依然是AI芯片和基礎設施超級大廠。
穀歌在TPU上的強勢崛起,帶來如下重要的啟示,包括我們引述了幾點對Semianalysis一篇文章的總結:
第一,AI 軟件時代的“護城河”,正從“模型”延伸到“基礎設施”。
誰能在芯片、係統、網絡和軟件棧上協同優化,誰就能把單位有效 FLOPs
的成本壓得更低,從而在模型訓練、推理定價和產品形態上更有回旋空間。穀歌通過 TPUv7 和 Gemini
3,已經證明自己並非隻會做搜索和廣告。
第二,TPU 不隻是“自用武器”,而是正在成為一條完整的商業路線。
通過與 Anthropic 的百萬 TPU 合同,以及新雲服務商、加密礦企的三方合作結構,穀歌把原本封閉的 TPU
體係,從內部機房搬到了第三方數據中心,讓整個行業第一次有了真正能和英偉達係統性競爭的替代品。
第三,軟件生態仍是 TPU 的短板,但穀歌已經開始“補課”。
在 PyTorch 原生後端、vLLM / SGLang 集成、SparseCore
可編程性等方麵,穀歌投入了大量工程力量;但在 XLA 編譯器、運行時和多 Pod 訓練代碼的開源上,還沒有邁出最後一步。未來 TPU
能否在開發者心智中真正站穩腳跟,很大程度要看這一塊會不會徹底打開。
第四,未來幾年,很可能是“多極算力世界”。
英偉達、穀歌、亞馬遜、AMD,以至於其他雲廠商的自研芯片,將在不同客戶、不同負載、不同商業模式下各展拳腳。OpenAI
自研芯片團隊也開始“動真格”,進一步說明頭部實驗室不願把命運完全交給單一供應商。
第五,在這個多極算力世界中,一定會有中國企業的至少一席之地。
