要說上個月誰是科技巨頭裏最大的贏家,世超提名穀歌應該沒人有意見吧?
靠著性能炸裂的 Gemini 3,短短半個月,股價蹭蹭漲不說,還在競技場內拳打 OpenAI,競技場外腳踢英偉達。
回撤一點,問題不大

至於賣鏟子的老黃怎麽也跟著躺槍,原因很簡單,穀歌表示,Gemini 3 Pro 是在自研 TPU(Tensor
Processing Unit)上訓練的,至少在字麵上,是沒提英偉達一個字兒。
緊跟著,媒體和吃瓜群眾開始紛紛猜測,說什麽穀歌這回,可能真要終結 CUDA 護城河了。

那麽問題來了,看似讓英偉達好日子到頭的 TPU,到底是個啥?
從名字上也能看得出,它其實是一類芯片,和 GPU 是近親,隻不過做成了 AI 特供版。
雖然 TPU 最近才引起大夥兒的注意,但這是一個從 2015 年延續到現在的老項目。
第一代 TPU 長這樣

那時候穀歌正經曆技術轉型的陣痛,想把傳統的搜推算法全換成深度學習。結果他們發現,這 GPU
不止不夠用,還巨耗電,根本用不起。
GPU 的問題,在於它太想全能了。為了什麽都能幹,不得不搞了一套硬盤、內存、顯存、核心,層層疊疊的複雜架構。
這帶來一個大麻煩,在芯片的世界裏,搬運數據的成本,遠比計算本身高得多。數據從顯存跑到核心,物理距離可能隻有幾厘米,電子卻要翻山越嶺。
GPU 工作方式

於是,電費大半沒花在算數上,全花在送快遞的路費上了。最後變成熱量,還得拜托風扇吹一吹。
這在做圖形渲染時沒毛病,因為畫麵高度隨機,要啥素材沒法預料,隻能回顯存現取。
但 AI 的矩陣運算,每個數怎麽算,和誰算,算幾次都是固定的。我明知道這個數算完了,一會兒還要接著用,GPU
硬是得把它存回去,等著別人再取進計算單元,這不純純浪費嗎?

所以,作為一個 AI 專屬工具人,TPU 就這樣出生了。它把 GPU
那些用不上的圖形、控製流、調度模塊等等拆的拆,壓的壓。
核心思路,是專門對 AI 最常用的矩陣乘法做優化,搞了一個叫 “ 脈動陣列 ” 的方法。
用上這一招,每個數據一旦開算,就會在密集排列的計算單元之間傳遞,沒用完不許回存儲單元。這樣,就不需要頻繁讀寫了。

就這樣,TPU 每個周期的計算操作次數達到了數十萬量級,是 GPU 的近十倍。初代 TPU v1
能效比達到同時期 NVIDIA Tesla K80 的 30 倍,性價比極高。
當然,最開始穀歌也是邊緣試探,沒玩那麽大。TPU 也還隻搞推理,不會訓練,功能單一,完全沒法和 GPU 比。
從第二代起,穀歌才開始往內存上堆料,提升容量和數據傳輸速度,讓 TPU
能一邊計算,一邊快速記錄和修改海量的中間數據(比如梯度和權重),自此點亮了訓練的技能樹。
隨著 TPUv3 規模增加,模型訓練速度提升

但這麽多年以來,明明用 TPU 訓練推理的成本更低,性能也和 GPU 不相上下,為啥巨頭們還非得去搶英偉達的芯片呢?
事實上,真不是大夥兒不饞,而是穀歌壞,一直在硬控。所有的 TPU 隻租不賣,綁定在穀歌雲裏。大公司不能把 TPU
搬回家,相當於把身家性命都交給穀歌雲,心裏總毛毛的。生怕英偉達沒卡死的脖子,在穀歌這直接快進到掐斷了。
即使這樣,蘋果也沒架住便宜大碗的誘惑,多多少少租了點兒。
而這回熱度這麽高,一方麵是 Gemini 3 證明了 TPU 的成功,品質放心;另一方麵,是因為第七代 TPU
Ironwood,穀歌終於舍得賣了。

根據 The Information 的報道,Meta 已經在和穀歌洽談數十億美元的大合同,準備從 2027 年開始,在機房部署
TPU,還計劃最早明年就要從穀歌那租用 TPU。
消息一出,穀歌股價立漲 2.1%,英偉達下跌 1.8%。
甚至有穀歌內部人士放話,我們這一波大開張,可能會搶走英偉達幾十億美元的大蛋糕,直接切掉他們 10% 的年收入哦。

華爾街對 TPU 也是愛得不行,覺得這好東西錢途一片光明。就連負責設計製造的博通都沾了光,被上調了業績預期。
但是,要說 TPU 會取代 GPU,真不至於。
TPU 是一種 ASIC(Application-Specific Integrated
Circuit),又名專用集成電路。人話來講,TPU 除了擅長 AI 那幾個矩陣計算,別的啥都不太行。
這是它的優點,也是它的痛點。
TPU 工作方式

趕上大模型當道的好時候,對矩陣計算的需求大得離譜,TPU 跟著一步登天。但要是以後有啥更火的 AI
技術路線,不搞現在這一套,TPU 分分鍾失業。
而且 TPU 因為太專精,一旦在計算上沒有性能優勢,就徹底失去價值。四年前的 TPU
v4,咱們已經很難見到它了。
相比之下,GPU 就不一樣了。以五年前誕生在大模型浪潮前的 3090 為例,它硬是靠著 24G 超大顯存,和 CUDA
不拋棄不放棄的向下兼容生態,直到現在還是普通人玩 AI 的超值主力卡,跑個 Llama 8B 小模型不成問題。
退一步講,就算 AI 這碗飯不香了,大不了回去接著伺候遊戲玩家和設計師,照樣活得滋潤。

另外,CUDA 生態依然是英偉達最大的殺招。
這就好比你用慣了 iOS,雖然安卓也很好,但讓你把存了十年的照片、習慣的操作手勢、買的一堆 App
全都遷移過去,你大概率還是會選下次一定。
現在的 AI 開發者也是一樣,大家的代碼是基於 CUDA 寫的,調用的庫是英偉達優化的,甚至連報錯怎麽改都隻會搜 CUDA
的。

想轉投 TPU?行啊,先把代碼重構一遍,再適應新的開發環境。
即使強兼了 PyTorch,很多底層的優化、自定義算子,換到 TPU 上還是得重新調試。專門指定的 JAX
語言,也給人才招聘墊高了門檻。
對於大多數隻想趕緊把模型跑起來的中小廠來說,與其費勁巴拉地去適配
TPU,甚至根本搞不到,直接買英偉達芯片,反而是最省事的選擇。

不說別的,穀歌自己還在大量采購英偉達的 GPU,就算自己不用,穀歌雲那麽多客戶還得用呢。
所以,TPU 這波開賣,確實在大模型訓練這一畝三分地上,用經濟劃算給英偉達上了一課。但也絕對沒有被吹的,要搶
GPU 飯碗那麽神。
未來的算力市場,更大概率是 TPU 占據頭部大廠的專用需求,而 GPU 繼續統治通用市場。
但隻要巨頭們競爭起來,就有可能把算力價格打下來,這怎麽看,都是個好事啊。
