小紮說,像DS這樣的Thinking模型,實際可能會加大對算力的需求,特別是對像META這樣的公司。
Deepseek R1 reasoning/thinking 模型,輕訓練, 重推理。將計算量,轉移到推理(Inference)階段。實測DS,也發現它要《Thinking...》好長時間。回答每個問題,要花很長時間,要花更多的計算。
對於像META這樣有用戶眾多的公司,可能效益並不劃算。因為訓練就一次,而推理每天就有上億次。也就是說,Thinking模型 Scaling 不好。
小紮的看法確有道理。就像為什麽搞大的發電廠,而不是每家都有個小發電機的道理一樣。
這也就是說:NVDA 是裏外裏都是躺贏:
(1) OpenAI式模型:重訓練(需要大量GPUs), 輕推理 (需要較少量GPU);
(2)DeepSeek式Thinking 模型: 輕訓練(需要較少量GPU),重推理(需要大量GPU去支持大量用戶提問題)
分析下來,*長持NVDA* 沒有多少風險, 躺贏了。讓花街不懂的人,去瞎折騰吧!哈哈!