大廠如何從“訓練優先”轉向“推理優化”?
隨著 AI 模型(特別是大語言模型 LLM 和端到端神經網絡)的規模持續增長,推理階段的 計算需求、成本和能耗問題 逐步顯現,因此大廠正在調整 AI 計算架構,逐漸向推理優化方向發展。
他們主要采取 兩條路徑:
- 繼續采購 NVIDIA 高效推理 GPU(如 H100/H200/B200)
- 研發自家定製 ASIC(專用推理芯片)降低長期推理成本
1. 繼續使用 NVIDIA GPU(短期主流方案)
盡管大廠希望降低對 NVIDIA 的依賴,但在 短期內(1-2年內),他們仍然大量采購 NVIDIA 高性能 GPU 來支持推理計算。
為何繼續用 NVIDIA?
- 最成熟的 AI 計算生態:CUDA + TensorRT + Transformer Engine,開發者習慣於 NVIDIA 平台。
- H100 / H200 / B200 具備高效推理能力:支持 FP8、INT8 等低精度計算,顯著降低推理成本。
- NVLink + NVSwitch 使得 NVIDIA AI 超算集群仍然是 最高效的選擇。
大廠的 NVIDIA GPU 采購情況
- Meta:正在采購 H100 及 H200,主要用於 Llama 3、AI 廣告推薦、Reels 等推理任務。
- Microsoft:Azure 雲提供 H100/H200 作為推理主力,並與 NVIDIA 合作構建 AI 雲計算服務。
- Tesla:目前仍依賴 NVIDIA H100 進行 FSD V12 的推理訓練,但 Dojo 未來會承擔部分推理工作。
2. 自研 ASIC 專用推理芯片(長期降本趨勢)
雖然 NVIDIA GPU 目前仍是主流,但大廠都在加速研發 自家的 ASIC(Application-Specific Integrated Circuit)推理芯片,以降低推理成本和功耗。
自研 ASIC 推理芯片的優勢
- 極端優化的計算效率:相比通用 GPU,ASIC 僅為特定 AI 任務優化,能效更高。
- 顯著降低推理功耗:相比 GPU,ASIC 推理芯片功耗通常降低 2-5 倍,適合大規模推理部署。
- 長期減少對 NVIDIA 依賴:避免被 GPU 價格波動影響,控製 AI 計算的 CAPEX 和 OPEX。
大廠的自研 ASIC 進展
公司 |
自研推理芯片 |
主要用途 |
現狀 |
Google |
TPU v5 |
LLM 推理(Gemini) |
已大規模部署於 Google Cloud |
Amazon |
AWS Inferentia 2 |
AWS AI 雲服務 |
AWS 內部推理成本比 GPU 低 40% |
Meta |
MTIA(Meta Training Inference Accelerator) |
AI 推理(推薦係統 Llama) |
預計 2025 年開始大規模部署 |
Microsoft |
Azure Cobalt |
雲端 LLM 推理 |
2024 年測試階段,配合 NVIDIA GPU |
Tesla |
Dojo D1 |
自動駕駛 AI 推理 |
主要用於 FSD 推理,仍需 NVIDIA GPU 作為補充 |
Apple |
M3 神經引擎 |
端側 AI 推理 |
適合低功耗 AI 計算,無法挑戰數據中心 |
3. 未來 AI 推理市場趨勢
-
短期內(2024-2025):NVIDIA GPU 仍是推理主力
- H100 / H200 / B200 繼續占據市場,CUDA 生態強大,大廠無法完全繞開。
- Azure、AWS、Google Cloud 仍然采購 NVIDIA GPU 作為雲推理方案。
-
中期(2025-2027):ASIC 滲透率上升
- Meta、Microsoft、Tesla、Amazon 的自研推理 ASIC 開始大規模部署。
- NVIDIA 可能會通過軟件(TensorRT、Transformer Engine)優化推理成本,以應對 ASIC 競爭。
-
長期(2027+):推理芯片市場碎片化
- 大廠會采用“ASIC + GPU 混合計算”架構:
- 訓練用 NVIDIA + 自研 ASIC
- 推理主要用 ASIC,GPU 僅作補充
- 專用 AI 服務器架構可能重構,減少對 NVIDIA NVLink、CUDA 的依賴。
最終結論
- 目前 大廠仍然需要 NVIDIA 的 GPU(H100/H200) 作為主要推理算力來源,但它們正在積極研發 自家 ASIC 來減少長期依賴。
- 未來 3-5 年,AI 推理市場會從“以 NVIDIA 為主”過渡到“GPU + ASIC 混合架構”。
- NVIDIA 並不會被 ASIC 取代,但它會麵臨更激烈的競爭,特別是在推理端的成本控製上。
短期:NVIDIA 繼續統治 中期:ASIC 逐步崛起 長期:推理架構進入“GPU + ASIC”共存時代