這個不是意外,國內AI界都是互相指責別人蒸餾國外model。

大家在研發過程中都會試著用GPT來訓練自己的模型。但是deepseek有多少是靠蒸餾,有待證據。deepseek自己說的是幾個新方法減少訓練費用和減少硬件要求,比如專家構架(隻激發需要的parameter),自我多輪迭化訓練(減少訓練費用),用Floating point 8 而不是32減少對內存的需要。

僅僅說DS蒸餾了GPT的模型,並不能遮掩DS其他方麵的革新。指責偷竊是一個大帽子,把技術拉到道德政治法律地位,是為以後查禁做準備的。因為普通人一聽中國偷竊就主觀下定論了,你再說有什麽革新,他們都會說,DS偷了就是偷了。

所有跟帖: 

蒸餾技術本身不是問題,問題是DS有沒有蒸餾閉源的o1模型 -未知- 給 未知 發送悄悄話 未知 的博客首頁 (98 bytes) () 01/29/2025 postreply 21:42:56

請您先登陸,再發跟帖!