論文Scaling Laws for Neural Language Models指出提升10倍的計算能力,模型效果提升隻有10%
也就是說,10%的計算能力可以打到90%的性能,1%的計算能力就可以達到80%的性能了
如果DeepSeek目標是最牛的LLM那需要很多GPU,但是隻要湊合能用的話1%的計算能力都夠了。更何況H20和H100一比性能蹩腳,本來也不怎麽劃算。