DeepSeek 最近宣布為其 DeepSeek-V3 模型提供 560 萬美元的培訓費用,
560 萬美元的數字:它代表什麽?
DeepSeek-V3 的最終訓練運行成本
基於兩個月內 2,048 個 H800 GPU
處理了 14.8 萬億個代幣
假設 GPU 租賃價格為每小時 2 美元
這個成本缺少什麽?
研發費用:之前的研究、失敗的實驗和前驅模型
數據成本:訓練數據集的獲取和準備
人員:研究和工程團隊的工資
基礎設施:電力、冷卻和維護
硬件:GPU 的實際成本(可能數億)
一些分析師估計 DeepSeek-V3 的總研發預算可能約為 1 億美元,更保守的估計為 DeepSeek 的運營每年在 5 億美元到 10 億美元之間。