除了質疑低成本之外,還暗示deepseek是chatgpt蒸餾來的
這種謠言攻擊很毒,一般人不懂什麽是distillation蒸餾。懂技術的很容易明白,為什麽deepseek是原始創新。本來就是美國搞大模型研發的圈裏人先開始驚歎的,之後才破圈的。
蒸餾,是說有個參數多能力高的“教師模型”,再有個原本參數少能力弱的“學生模型”,還有訓練數據。如果直接對訓練數據(有已經打好的真實標簽)訓練學生模型,效果不好,因為學不到精髓,樣本表現好不代表實際使用好 。
這時,教師模型對這些樣本跑的結果,能更好引導學生模型的訓練。例如“軟標簽”,真實打標是(0,1,0)代表第二個結果對,第一第三不對。但是跑教師模型的輸出是(0.2,0.7,0.3),這樣還能判斷是第二個對,但區別沒那麽硬,軟化區別,反而訓練表現更好。訓練時,學生模型同時考慮軟硬兩套標簽,能學會教師模型的能力,隻損失一點,參數規模卻少的多,有利於工業部署。
deepseek公布的論文裏,r1是教師模型6700億個參數,QWEN和LLama不同版本是六個學生模型,參數少15億個到700億個。訓練樣本是用r1精心選擇的80萬個。這樣蒸餾後,六個學生模型的數學、編程、邏輯推理能力大幅提升。但是學生模型不可能能力超過教師模型,會差一些。
而deepseek r1的強大能力來源,是很清楚地有一個創新的訓練辦法,直接強化學習創新震撼了業界。一些數學和編程能力,r1比openai最強的閉源大模型o1還要厲害,肯定不是蒸餾能搞出來的。
這幫春貨不懂技術,或者就是有意撒謊誤導。中國技術進步的速度出乎預料,太快了