獅山巡禮

投資雜談

首頁文章列表博文目錄

個人資料

lionhill

給我悄悄話

博客訪問：

圖靈獎得主Patterson - 現有的AI芯片架構已過時，推理芯片的四大新方向

(2026-02-13 18:10:45) 下一個

論文：Challenges and Research Directions for Large Language Model Inference Hardware

作者：David Patterson ：他是 Google 的傑出工程師，更是圖靈獎得主，也是 RISC 指令集的發明者之一。更重要的是，他本身就是 Google TPU 的核心架構師之一。Xiaoyu Ma ：Google DeepMind 的資深科學家，專注於特定領域的計算機架構

隨著 AI 行業的重心不可逆轉地從模型訓練（Training）向推理（Inference）遷移，當前以 GPU 為代表的訓練優先硬件架構，在LLM推理場景下存在根本性的架構錯配（Mismatch）。內存牆帶來了巨大的算力浪費和效率下降。HBF（高帶寬閃存）、PNM（近存計算）等方向，對於投資而言，會對AI推理芯片市場帶來什麽結構性的變化？會對什麽產業環節進一步增強壁壘？

一、核心矛盾：一場昂貴的架構錯配

為什麽說現在的 GPU 不再適用了？根源在於大模型思考的方式與硬件幹活的方式發生了衝突。

目前的 AI 加速器（無論是 GPU 還是 TPU）依然遵循著訓練時代的邏輯：追求巨大的芯片麵積和極高的浮點運算能力（High FLOPS）。然而，LLM 的推理過程包含兩個截然不同的階段，這種設計隻能完美服務於第一階段。

在預填充（Prefill）階段，模型並行處理輸入的 Token，這屬於計算受限場景，現有硬件的高算力確實能火力全開。但在隨後的解碼（Decode）階段，問題出現了。模型開始自回歸式地逐字生成，每生成一個新的 Token，就需要把龐大的模型權重從內存中完整搬運一次。

這就撞上了著名的內存牆危機。數據顯示，在 2012 年至 2022 年間，NVIDIA GPU 的計算能力增長了 80 倍，而內存帶寬僅增長了 17 倍。這種非對稱的發展導致在解碼階段，擁有數萬個核心的高算力 GPU 絕大部分時間都在空轉，眼巴巴地等待數據從內存搬運過來。

雪上加霜的是，新一代模型正在加劇這種擁堵。MoE（混合專家模型）的稀疏特性讓模型體積激增，撐爆了顯存容量；而Reasoning Models（如 o1）通過生成漫長的思維鏈來思考，讓解碼步驟呈數量級增加，對低延遲和帶寬的依賴達到了前所未有的高度。

二、 Google 的處方：四大技術演進方向

為了解決這一危機，Google 論文提出了四個旨在提升性價比（TCO）和能效的顛覆性方向，試圖重構硬件形態。

第一，用存儲級內存打破容量瓶頸 (HBF)：目前的HBM（高帶寬內存）雖然快，但太貴且太小。Google 提出利用 High Bandwidth Flash (HBF)即通過 3D 堆疊的閃存來替代部分顯存。HBF 能提供 10 倍於 HBM 的容量（單 Stack 512GB），且讀取帶寬驚人地追平了頂級的 HBM4。雖然閃存的延遲較高，但 Google 給出了精細的混合存儲策略：將隻讀且巨大的模型權重存入 HBF，而將需要頻繁讀寫的KV Cache留在DRAM中，各取所長。

第二，近存計算的工程化落地 (PNM)：既然數據搬運太慢，不如把計算核心搬到內存旁邊。與學術界熱炒的存內計算（PIM）不同，Google 選擇了更務實的 Processing-Near-Memory (PNM) 路線。通過將計算邏輯與內存芯片分開製造但緊密堆疊，PNM 不僅規避了製造工藝的妥協，更支持 16-32GB 的大粒度分片，解決了困擾軟件調度的碎片化難題。

第三，垂直堆疊換取極致能效 (3D Stacking)：利用 TSV（矽通孔）技術，將計算與存儲垂直互聯。麵對 3D 堆疊帶來的散熱挑戰，作者提出了一個反直覺的思路：既然推理是內存受限的，計算邏輯根本不需要高頻運行。通過主動降低時鍾頻率和電壓，既解決了散熱問題，又利用 3D 互聯極大地縮短了數據路徑，使得功耗相比傳統架構降低 2-3 倍。

第四，網絡架構向低延遲轉身：傳統數據中心網絡追求大帶寬以適應訓練時的海量數據吞吐，而推理場景充斥著大量的小消息通信。論文建議網絡拓撲應轉向Dragonfly等高連接度結構以減少跳數，並推行網內計算，甚至讓網絡數據包跳過 DRAM 直接進入片上緩存，一切為了降低延遲。

三、投資映射：誰是新周期的收稅官與賣水人？

當技術邏輯映射到商業世界，我們發現 Google 的這四大方向指向了同一個物理動作把不同的芯片垂直疊在一起。這為我們精準定位產業鏈中的黃金擊球點提供了依據。

1. 尋找收稅官：先進封裝是唯一的過路費

無論未來的 AI 芯片之戰是 Google TPU 勝出，還是 NVIDIA 推出新架構，抑或是 ASIC 廠商崛起，隻要他們想解決內存牆問題，就必須采用 HBF、PNM 或 3D Stacking 技術。這意味著，他們都必須經過同一道關卡先進封裝（Advanced Packaging）。

這不再是簡單的焊接，而是微米級的係統集成（如 CoWoS, SoIC, Hybrid Bonding）。在這個領域，台積電（TSMC）等極少數掌握高良率工藝的廠商建立了極深的護城河。先進封裝完美解決了帶寬-功耗-麵積的不可能三角，是物理層麵的最優解。對於芯片設計公司而言，這是必須繳納的過路費；對於投資者而言，這是確定性最高的收稅官商業模式。

2. 尋找賣水人：KGD 測試與良率保險

3D 堆疊雖然美好，但帶來了一個工業噩夢：良率的乘數效應。如果一個堆疊了 8 層的芯片中有一層是壞的，整個昂貴的芯片就徹底報廢。

這種對良率的極致苛求，徹底改變了測試環節的地位。測試不再是生產末端的輔助工序，而是決定生死的核心生產力。

在這個新邏輯下，能夠提供KGD（Known Good Die，已知好晶粒）測試方案的廠商將迎來價值重估。市場將急需極其精密的MEMS 探針卡和能支持超長測試時間的ATE 測試設備。這是一個典型的賣水人邏輯：無論前方的芯片廠商誰輸誰贏，隻要技術路線走向 3D 堆疊，測試的時間就會變長，測試設備的收費就會變高，且具備極強的抗周期屬性。

[ 打印 ]

[ 加入書簽 ]

閱讀 ( ) ┆ 評論

評論

目前還沒有任何評論

登錄後才可評論.