
Alphabet兼穀歌首席執行官桑達爾·皮查伊
文丨無忌
編輯丨蘇揚
股價“跌跌不休”,英偉達都不得不站出來表態,“我們領先了全行業一代”。
事情要從巴菲特“謝幕之作”說起——伯克希爾·哈撒韋公司首次建倉穀歌母公司Alphabet股票,隨後更勁爆的是市場又傳出英偉達大客戶Meta考慮2027年在其數據中心部署穀歌TPU,並於2026年通過穀歌雲租用TPU算力。
英偉達在緊急聲明中,強調GPU在性能、通用性和可移植性方麵“遠優於”ASIC(專用集成電路),並重申自研TPU無法替代 GPU的靈活性。穀歌發言人也表示繼續和英偉達保持合作關係,並強調公司致力於同時支持TPU和英偉達GPU。
TPU,從一個10年前為了解決AI計算效率瓶頸的“救命項目”,如今已經發展成為穀歌的“經濟支柱”。
作為自研ASIC芯片的代表,TPU已經具備動搖英偉達根基的潛力,隻不過穀歌的邏輯不是和英偉達比單卡性能,而是在用一套完全不同的超大規模係統哲學,重新定義AI基礎設施的未來。
一切都要從10年前,TPU誕生的那一刻說起。
01 TPU的前世今生

TPU v1
穀歌在2015年啟動TPU項目,這並非出於炫技,更不是為了彰顯技術實力,而是被逼入了一個“不自研將難以支撐未來業務規模”的現實。
隨著深度學習在穀歌內部的應用不斷擴散,穀歌工程團隊當時意識到一個關鍵問題正在逼近——包括搜索、廣告等穀歌核心服務都涉及巨量用戶請求,如果全麵采用深度學習模型,那麽穀歌全球數據中心的功耗將暴漲至難以承受的程度,即使采購再多GPU也無法滿足需求,更不用說成本上的激增。
彼時GPU更適合訓練大規模神經網絡,但其能效並非針對實時在線推理設計。
穀歌內部甚至出現過預測:如果未來所有核心業務上線深度模型,全球數據中心的電力成本會增長十倍。內部高層意識到,繼續依賴 CPU和GPU的現有路線不可持續。
因此,穀歌決定自研ASIC加速器,目標不是造一個“最強通用芯片”,而是造一個“可大量部署在數據中心、用於特定矩陣運算的高能效芯片”。
最終,TPU v1在2016年正式投入使用,用於支持穀歌翻譯以及部分搜索功能,證明了ASIC方案具備可行性。
2017年Transformer論文發表後,穀歌幾乎在同一時間意識到:這個新架構的計算模式高度規則、矩陣密度極高、並行度驚人,簡直是為TPU量身定做的。與其讓外部硬件廠商慢慢跟進,不如自己把軟件框架、編譯器、芯片架構、網絡拓撲、散熱係統全部握在手裏,形成全棧閉環。
於是,TPU不再是一個孤立的芯片,而升級為穀歌AI基礎設施的底座:既要訓練出世界最強的模型,也要讓AI以最低成本滲透到公司每一條產品線。
從v2、v3開始,穀歌逐步開放TPU給穀歌雲客戶,正式進入商業化階段。
雖然早期生態和兼容性仍遜於GPU,但穀歌用XLA編譯器、高效Pod架構、液冷數據中心、軟硬件深度共設計,硬生生蹚出一條差異化道路。
2021年,TPU v4橫空出世,第一次把4096顆芯片組成一個超節點,靠自研的環形拓撲網絡(2D/3D torus)實現近乎無損的跨芯片通信。這套係統讓數千顆加速器像一顆“巨型芯片”一樣協同工作,直接把穀歌帶入超大規模AI時代,PaLM 540B模型正是在v4 Pod上訓練完成的。
穀歌用實際行動證明:隻要集群規模夠大、互聯效率夠高,模型性能就會隨著計算量近乎線性增長,而TPU的網絡拓撲和調度係統,正是實現這一規律的最關鍵硬件支撐。
2023到2024年,TPU v5p成為轉折點。
它首次大規模進入穀歌廣告係統、搜索核心排序、YouTube推薦、地圖實時預測等賺錢產品線,性能較v4翻倍,同時推出彈性節點架構,讓企業客戶可以按需擴展到近9000顆芯片的規模。
Meta、Anthropic等頭部模型公司開始認真評估並采購TPU v5p,這標誌著TPU終於從“內部黑科技”成長為“生態可選項”。
2024年發布的第六代TPU v6(代號Trillium)則徹底亮明態度:穀歌未來的主戰場不再是訓練,而是推理。推理成本正在成為全球AI公司最大的單項支出,v6從架構到指令集全部圍繞推理負載重新設計,FP8吞吐暴漲、片上SRAM容量翻倍、KV Cache訪問模式深度優化、芯片間帶寬大幅提升,能效比上一代提升67%。
穀歌公開表示,這一代TPU的目標是成為“推理時代最省錢的商業引擎”。
從2015年為了解決AI計算的效率瓶頸被迫自研,到2025年即將把TPU部署到客戶自有數據中心,穀歌用十年時間,把一個“不得不做的救命項目”,一步步打造成可能撼動英偉達霸權的戰略級武器。
TPU從來不是為了和誰比性能,而是為了讓AI真正跑得起、賺得到錢。這正是穀歌與眾不同的打法,也是它最可怕的地方。
02 從“實驗項目”到“數據中心命脈”

TPU v7,代號Ironwood
2025年,穀歌推出的第七代TPU(TPU v7,代號Ironwood)成為全球AI基礎設施領域最受關注的硬件產品。
這一代在架構、規模、可靠性、網絡與軟件係統上的一次全麵重構。
Ironwood的誕生,正式宣告TPU從“追趕者時代”邁入“進攻時代”,也標誌著穀歌將推理時代視為未來十年的決戰主戰場。
Ironwood之所以特殊,首先在於它是TPU曆史上第一款專用推理芯片。與此前以訓練為主的v5p和以能效為主的v6e不同,Ironwood從第一天起就鎖定超大規模在線推理這一終極場景,並在多項關鍵指標上首次與英偉達Blackwell係列實現正麵交鋒。
單芯片層麵,Ironwood的FP8稠密算力達到4.6 petaFLOPS,略高於Nvidia B200的4.5 petaFLOPS,已躋身全球旗艦加速器第一梯隊。內存配置為192GB HBM3e,帶寬7.4 TB/s,與B200的192GB/8 TB/s僅一步之遙。芯片間通信帶寬9.6 Tbps,雖數字上不及Blackwell的14.4 Tbps,但穀歌走的是一條完全不同的係統級道路,單純數值對比已失去意義。
真正讓Ironwood成為裏程碑的,是其超大規模擴展能力。
一個Ironwood Pod可集成9216顆芯片,構成一個超節點,FP8峰值性能超過42.5 exaFLOPS。穀歌在技術文檔中指出,在特定FP8負載下,該Pod性能相當於最接近競品係統的118倍。這不是單芯片差距,而是係統架構與拓撲設計的碾壓。
支撐這一規模的核心,是穀歌十年磨一劍的2D/3D環麵拓撲結合光路交換(OCS)網絡。
與英偉達依賴NVLink+高階交換機構建的NVL72(僅72顆GPU)不同,穀歌從根本上放棄了傳統交換機為中心的設計,轉而用三維環麵拓撲結構直接連接所有芯片,並通過OCS實現動態光路重構。
OCS本質上是一套“光版人工電話交換台”,利用MEMS微鏡在毫秒級完成光信號物理切換,幾乎不引入額外延遲,更重要的是,當集群內出現芯片故障時,OCS能瞬間繞開壞點,保持整個計算域不中斷。
得益於此,穀歌液冷Ironwood係統的年可用性達到99.999%,即全年停機時間不到六分鍾。這一數字在超大規模AI集群中堪稱恐怖,遠超業界基於GPU的訓練集群常見水平。
穀歌已將TPU集群從“實驗玩具”徹底升級為“數據中心命脈”。
在推理場景下,Ironwood展現出係統級的降維打擊能力。整個節點提供1.77 PB高帶寬HBM,所有芯片均可近乎等距訪問,這對KV緩存管理至關重要。推理時代最貴的不是算力,而是內存帶寬和緩存命中率,Ironwood通過共享巨量高速內存和極低通信開銷,大幅減少重複計算。
內部實測顯示,同等負載下Ironwood的推理成本較GPU旗艦係統低30%-40%,極端場景下更高。
軟件層麵同樣火力全開。MaxText框架全麵支持最新訓練與推理技術,GKE拓撲感知調度可根據Pod內實時狀態智能分配任務,推理網關支持前綴緩存感知路由。綜合優化後,首Token延遲最高下降96%,整體推理成本再降30%。
Ironwood不僅推動Gemini係列繼續領跑,也直接撬動外部生態。
Anthropic宣布未來Claude係列的訓練與部署將使用多達一百萬顆TPU。即使擁有AWS Trainium等備選方案的玩家,也無法忽視Ironwood在超大規模推理上的代際優勢。
03 穀歌、英偉達、亞馬遜,站在“三岔路口”

CNBC在對AI芯片領域三大玩家——穀歌、英偉達和亞馬遜——進行分析後指出,三者都在大規模投入研發,但它們追求的目標、商業模式、生態構建方式、硬件哲學均有顯著不同。
這些差異深刻影響了芯片的形態、性能側重點、客戶采用路徑以及市場地位。
英偉達的路線始終圍繞GPU推進,而GPU的核心價值在於通用性。
GPU具備海量並行計算單元,能夠支持從深度學習到圖形渲染再到科學計算等多種工作負載。更重要的是CUDA生態幾乎鎖死了全行業的開發路徑,一旦模型或框架為CUDA優化,就很難切換到其他芯片架構。
英偉達通過軟硬件深度捆綁實現了類似蘋果生態在消費品市場的壟斷能力,但GPU的缺陷也十分明顯。
首先,GPU並非為推理優化,它的設計初衷是高速並行計算,而不是以最低成本執行重複推理指令。其次,GPU的靈活性意味著其硬件資源在實際推理場景中可能並非最優配置,導致單位能耗的效率不如ASIC。最後,英偉達的定價權極高,雲廠商往往需要以遠高於製造成本的價格購入GPU,形成今天廣為人知的“英偉達稅”。
穀歌的路線與英偉達不同。穀歌並不追求硬件通用性,而是追求深度學習特別是Transformer負載的極致效率。TPU的核心是脈動陣列,這是一種專門為矩陣乘法設計的架構,使其在深度學習計算中特別高效。
穀歌不是希望TPU成為行業通用芯片,而是成為全球AI推理和訓練最具效能的專用芯片,進而讓穀歌整個AI係統做到性能領先、成本最低、部署最廣。
穀歌的核心優勢在於全棧整合能力。他們不僅控製芯片,還控製模型、框架、編譯器、分布式訓練係統與數據中心基礎設施。這讓穀歌可以做出許多GPU無法實現的係統級優化。
例如數據中心網絡拓撲完全為TPU超節點服務,軟件層麵的調度係統能根據模型特性自動調整硬件資源的使用方式。這種“係統級一體化”是英偉達無法做到的,因為英偉達隻能控製GPU,而不能控製客戶的數據中心。
亞馬遜則走了第三條路線,其芯片戰略出發點是降低AWS的基礎設施成本,同時減少對外部供應商尤其是英偉達的依賴,因此他們開發了Trainium和Inferentia。
作為雲廠商,AWS關注的是規模效應與經濟性,而非像穀歌那樣構建一個統一的AI算力體係。
Trainium的設計更靈活,在不少情況下接近GPU的適配能力,但性能針對訓練和推理分別做了優化。Inferentia則聚焦推理,適合高吞吐部署場景。亞馬遜通過芯片降低內部成本並將節省部分反饋給客戶,從而提升AWS的競爭力。
總體而言,英偉達的路線是通用、生態驅動、軟件鎖定;穀歌的路線是專用、垂直整合、係統統一;亞馬遜的路線是成本優化、雲驅動、兼容商業需求。三者的路線差異導致了AI芯片市場中出現了截然不同的產品形式、商業策略與競爭格局。
04 利用TPU,告別昂貴的“CUDA稅”

穀歌之所以能夠在推理時代獲得顯著優勢,關鍵並不僅僅在於TPU的硬件性能,更在於其全棧垂直整合策略。
這種策略讓穀歌避免了昂貴的“CUDA稅”,並在成本結構上相對於OpenAI和其他依賴GPU的企業形成了巨大優勢。
所謂CUDA稅,是指GPU芯片從生產到銷售過程中所疊加的高額利潤。
英偉達的GPU成本大約僅幾千美元,但賣給雲廠商時價格往往動輒數萬美元不等,毛利率高達八成以上。全球所有訓練大模型的科技公司幾乎都要支付這項成本,並且無法擺脫。
OpenAI依賴英偉達GPU進行訓練和推理,且由於GPT係列模型參數規模巨大、推理量龐大,其總體算力開支遠超大多數企業的總營收。
英偉達的定價模式使這些公司無論怎麽優化模型,都難以實現規模化商業利潤。
穀歌的策略完全不同。穀歌采用自研TPU進行訓練和推理,整個供應鏈由穀歌控製,從芯片設計到製造、從網絡方案到軟件棧再到數據中心布局,全部由穀歌內部優化。
由於不需要支付英偉達稅,穀歌的算力成本結構天生比OpenAI更具優勢。
穀歌不僅在內部獲得低成本,還將這種成本優勢傳遞給穀歌雲的客戶。通過TPU服務,穀歌可以為客戶提供更低價格的推理能力,從而吸引大量模型公司和企業遷移到穀歌平台。
根據科技網站venturebeat.com的報道,穀歌在算力成本上的結構性優勢遠遠優於OpenAI。這意味著,穀歌提供同等推理服務時,其底層成本可能僅為對手的兩成。如此大的成本差異在推理時代具有決定性意義。
當企業的推理成本占到其支出的大部分時,遷移到成本最低的平台就成為必然選擇。例如,一個企業每年可能在推理上消耗數千萬美元甚至上億美元,如果遷移到TPU可以節省三到五成成本,那麽遷移幾乎是一種不可回避的商業決策。
穀歌還推出了TPU@Premises計劃,將TPU直接部署在企業數據中心,使客戶可以在本地以最低延遲使用推理能力。這再次強化了穀歌的成本優勢,進一步擴大TPU的商業輻射範圍。
在OpenAI的商業模式中,其最重要的成本來自算力,而在穀歌的商業模式中,其算力成本是自研產品體係的一部分,可以通過穀歌雲收回投資。穀歌在硬件、軟件、網絡和雲基礎設施上的深度融合,使其具備真正意義上的垂直整合能力。
這種整合不是簡單節省成本,而是在推動整個生態的重新配置。
隨著越來越多企業意識到推理成本的重要性,穀歌的成本優勢將不斷被放大,TPU的市場份額也將在推理時代獲得更快增長。TPU的垂直整合策略最終不僅是穀歌的競爭策略,更是對整個行業競爭秩序的重塑力量。
05 穀歌的“經濟支柱”
回顧TPU的發展史,可以看到一個典型的“追趕到領先”的演變軌跡。
早期TPU在生態成熟度、兼容性和訓練性能方麵落後於GPU,外界普遍認為穀歌在AI大模型時代被OpenA 超越。然而這種外部印象忽略了穀歌在基礎設施層麵的深度積累,也忽略了穀歌在全棧係統上的獨特優勢。
隨著Gemini係列模型逐代升級,穀歌逐步證明自己仍然是全球少數可以實現訓練穩定性、推理成本控製和全棧性能優化的公司,TPU在其中扮演了關鍵角色。
Gemini 2.0多模態模型的訓練和推理都在TPU上完成,而TPU的高效能使穀歌能夠以相對低成本訓練大規模模型,使模型迭代周期更短、成本更低。
隨著公司進入推理時代,TPU的作用從支持穀歌內部模型轉向支持全球企業客戶。穀歌雲的AI收入隨之大幅增加,雲部門的財報顯示全年化收入達到440億美元,並成為穀歌整體業績增長的重要驅動力。
穀歌在雲市場的競爭地位長期落後於AWS和Azure,但在AI時代出現了新的賽道,在AI基礎設施方麵實現領先。這一領先並非偶然,而是TPU多年積累後的自然結果。
在企業AI采用加速的大背景下,越來越多公司需要推理成本低、穩定性高、性能強的模型部署方案。GPU雖然性能強,但成本和供貨都存在限製,而TPU提供了更具經濟性和穩定性的替代方案。尤其在大規模在線推理場景中,TPU的優勢尤為明顯。
更重要的是,穀歌並非隻以芯片作為賣點,而是以整體解決方案吸引企業。
例如穀歌提供從模型訓練、模型監控、向量數據庫、推理服務到數據安全的一體化體係,TPU在其中作為最底層基礎設施發揮作用。穀歌將自己塑造為企業采用AI的完整平台,使其與AWS和Azure在差異化競爭中獲得新的優勢。
未來幾年,AI行業的競爭將從模型維度轉向成本維度,從訓練能力轉向推理規模,從生態構建轉向基礎設施整合。穀歌憑借 TPU、全球數據中心布局、代際升級節奏和全棧能力,有望在這一新周期中構建比過去十年更牢固的競爭壁壘。
穀歌從追趕者轉向領先者的過程並非一蹴而就,而是在十年時間裏持續投入基礎設施、堅持自研、不斷調整模型路線的結果。TPU是穀歌在AI時代構建的最長久、最深層、最具戰略意義的資產,而這一資產正在成為推動穀歌市值增長、雲業務崛起和AI商業模式重塑的主力引擎。
