DeepSeek把RL(unsupervised)引入LLM訓練的後期階段,取代監督微調(SFT),這是由監督學習,轉向非監督學習的重要算法改進,業內稱為飛輪,依靠飛輪自身轉動,改進大語言模型的效率,就像AlphGo Zero那樣。這套方法明顯可以被OpenAI,Google,XAI等美國AI大玩家利用,改進自己現有的模型訓練。簡單來說,Deep Seek用1%算力,搞成了接近100%的performance。大玩家借鑒RL這個飛輪,施加100%的算力,能達到10000%的performance嗎?能達成1000%也很好了啊,甚至200%也行啊。將來施加1000%的算力,就會達成2000%的效果了。感覺距離AGI越來越近了。
好像DeepSeek證明了“中國人”,從而證明了“自己”多麽聰敏似的。DeepSeek完成了重要的算法改進,借鑒了LLM訓練的注意力機製,AlphaGo Zero的非監督強化學習,以及模型蒸餾和濃縮技巧,這是算法上的重要改進,能把整個大模型訓練提高一個台階。但是十分明顯,就像Deep Seek借鑒別人成果一樣,別人也可以借鑒這一成果,加速自己模型的訓練,在算法差不多的情況下,數據(數量和質量)和算力依然決定模型的性能。