論文:Challenges and Research Directions for Large Language Model Inference Hardware
作者:David Patterson :他是 Google 的傑出工程師,更是圖靈獎得主,也是 RISC 指令集 的發明者之一。更重要的是,他本身就是 Google TPU 的核心架構師 之一。Xiaoyu Ma :Google DeepMind 的資深科學家,專注於特定領域的計算機架構
隨著 AI 行業的重心不可逆轉地從模型訓練(Training)向推理(Inference)遷移,當前以 GPU 為代表的訓練優先硬件架構,在LLM推理場景下存在根本性的架構錯配(Mismatch)。內存牆帶來了巨大的算力浪費和效率下降。HBF(高帶寬閃存)、PNM(近存計算)等方向,對於投資而言,會對AI推理芯片市場帶來什麽結構性的變化?會對什麽產業環節進一步增強壁壘?
為什麽說現在的 GPU 不再適用了?根源在於大模型思考的方式與硬件幹活的方式發生了衝突。
目前的 AI 加速器(無論是 GPU 還是 TPU)依然遵循著訓練時代的邏輯:追求巨大的芯片麵積和極高的浮點運算能力(High FLOPS)。然而,LLM 的推理過程包含兩個截然不同的階段,這種設計隻能完美服務於第一階段。
在預填充(Prefill)階段,模型並行處理輸入的 Token,這屬於計算受限場景,現有硬件的高算力確實能火力全開。但在隨後的解碼(Decode)階段,問題出現了。模型開始自回歸式地逐字生成,每生成一個新的 Token,就需要把龐大的模型權重從內存中完整搬運一次。
這就撞上了著名的內存牆危機。數據顯示,在 2012 年至 2022 年間,NVIDIA GPU 的計算能力增長了 80 倍,而內存帶寬僅增長了 17 倍。這種非對稱的發展導致在解碼階段,擁有數萬個核心的高算力 GPU 絕大部分時間都在空轉,眼巴巴地等待數據從內存搬運過來。
雪上加霜的是,新一代模型正在加劇這種擁堵。MoE(混合專家模型)的稀疏特性讓模型體積激增,撐爆了顯存容量;而Reasoning Models(如 o1)通過生成漫長的思維鏈來思考,讓解碼步驟呈數量級增加,對低延遲和帶寬的依賴達到了前所未有的高度。
為了解決這一危機,Google 論文提出了四個旨在提升性價比(TCO)和能效的顛覆性方向,試圖重構硬件形態。
第一,用存儲級內存打破容量瓶頸 (HBF):目前的HBM(高帶寬內存)雖然快,但太貴且太小。Google 提出利用 High Bandwidth Flash (HBF)即通過 3D 堆疊的閃存來替代部分顯存。HBF 能提供 10 倍於 HBM 的容量(單 Stack 512GB),且讀取帶寬驚人地追平了頂級的 HBM4。雖然閃存的延遲較高,但 Google 給出了精細的混合存儲策略:將隻讀且巨大的模型權重存入 HBF,而將需要頻繁讀寫的KV Cache留在DRAM中,各取所長。
第二,近存計算的工程化落地 (PNM):既然數據搬運太慢,不如把計算核心搬到內存旁邊。與學術界熱炒的存內計算(PIM)不同,Google 選擇了更務實的 Processing-Near-Memory (PNM) 路線。通過將計算邏輯與內存芯片分開製造但緊密堆疊,PNM 不僅規避了製造工藝的妥協,更支持 16-32GB 的大粒度分片,解決了困擾軟件調度的碎片化難題。
第三,垂直堆疊換取極致能效 (3D Stacking):利用 TSV(矽通孔)技術,將計算與存儲垂直互聯。麵對 3D 堆疊帶來的散熱挑戰,作者提出了一個反直覺的思路:既然推理是內存受限的,計算邏輯根本不需要高頻運行。通過主動降低時鍾頻率和電壓,既解決了散熱問題,又利用 3D 互聯極大地縮短了數據路徑,使得功耗相比傳統架構降低 2-3 倍。
第四,網絡架構向低延遲轉身:傳統數據中心網絡追求大帶寬以適應訓練時的海量數據吞吐,而推理場景充斥著大量的小消息通信。論文建議網絡拓撲應轉向Dragonfly等高連接度結構以減少跳數,並推行網內計算,甚至讓網絡數據包跳過 DRAM 直接進入片上緩存,一切為了降低延遲。
當技術邏輯映射到商業世界,我們發現 Google 的這四大方向指向了同一個物理動作把不同的芯片垂直疊在一起。這為我們精準定位產業鏈中的黃金擊球點提供了依據。
無論未來的 AI 芯片之戰是 Google TPU 勝出,還是 NVIDIA 推出新架構,抑或是 ASIC 廠商崛起,隻要他們想解決內存牆問題,就必須采用 HBF、PNM 或 3D Stacking 技術。這意味著,他們都必須經過同一道關卡先進封裝(Advanced Packaging)。
這不再是簡單的焊接,而是微米級的係統集成(如 CoWoS, SoIC, Hybrid Bonding)。在這個領域,台積電(TSMC)等極少數掌握高良率工藝的廠商建立了極深的護城河。先進封裝完美解決了帶寬-功耗-麵積的不可能三角,是物理層麵的最優解。對於芯片設計公司而言,這是必須繳納的過路費;對於投資者而言,這是確定性最高的收稅官商業模式。
3D 堆疊雖然美好,但帶來了一個工業噩夢:良率的乘數效應。如果一個堆疊了 8 層的芯片中有一層是壞的,整個昂貴的芯片就徹底報廢。
這種對良率的極致苛求,徹底改變了測試環節的地位。測試不再是生產末端的輔助工序,而是決定生死的核心生產力。
在這個新邏輯下,能夠提供KGD(Known Good Die,已知好晶粒)測試方案的廠商將迎來價值重估。市場將急需極其精密的MEMS 探針卡和能支持超長測試時間的ATE 測試設備。這是一個典型的賣水人邏輯:無論前方的芯片廠商誰輸誰贏,隻要技術路線走向 3D 堆疊,測試的時間就會變長,測試設備的收費就會變高,且具備極強的抗周期屬性。