大家在研發過程中都會試著用GPT來訓練自己的模型。但是deepseek有多少是靠蒸餾,有待證據。deepseek自己說的是幾個新方法減少訓練費用和減少硬件要求,比如專家構架(隻激發需要的parameter),自我多輪迭化訓練(減少訓練費用),用Floating point 8 而不是32減少對內存的需要。
僅僅說DS蒸餾了GPT的模型,並不能遮掩DS其他方麵的革新。指責偷竊是一個大帽子,把技術拉到道德政治法律地位,是為以後查禁做準備的。因為普通人一聽中國偷竊就主觀下定論了,你再說有什麽革新,他們都會說,DS偷了就是偷了。