你聽說過scaling law嗎?

隻要10%的計算能力就可以達到90%的性能了

你的芯片哪怕差一大截性能,最後訓練出來的模型也隻是稍微差一點,幾萬個gpu算出來的其實就比幾百個的loss好20%。

請您先登陸,再發跟帖!