Deepseek 的模型突破

本帖於 2025-01-27 07:56:57 時間, 由普通用戶 voiceofme 編輯

Deepseek 的成功說明了中國人在AI領域的創新力是充滿競爭力的。 在今年的NeuoIP年會上,出自中國的論文非常多。 在大模型領域,除了美國的META, OPENAI, ANTHROPIC, GOOGLE 出自己的大模型外, 還有法國的Mistral 之外,就是中國自己訓練自己的大模型, 比如以前就發布的QWEN 。 法國的Mistral最先把MoE(Mixture of Experts)引入到大模型的架構中,而中國的DS在此基礎上做了很幾點的大的改進。比如, 用MLA(Multi-head latent attention), MTP(Multi-Token Prediction), GRPO(Group Relative Policy Optimization), 大大降低了訓練成本。 其中GRPO讓SFT (supervised fine tuning)變得不那麽重要,隻要給一個最終結果,比如數學上給出最後答案,GRPO可以自己出琢磨出得出最終答案的過程出來,而且會自己實驗用不同的過程來解題,這是一個了不起的創新。這被DeepSeek 自己說成是AHA 瞬間,被外界觀察者說成是alphago的在大模型上的重演。 Deepseek 這些創新,展現了中國人的才智,在海外華人受中美關係政治打壓和受印度人在高科技打壓的前提下,中國人能出這樣的成績,也是於有榮焉。 

Deepseek的模型是開源的,就是說每個公司和個人可以使用這模型,還可以繼續改進該模型。而且Deepseek也支持聊天的終端,普通人都可以去用。 應該很多人已經測試了Deepseek的模型,而且肯定有公司也用AI的好多種不同的測試方法測試過Deepseek模型。所以對Deepseek的轟動, 沒有什麽韓國超導的假冒之說。

聽說開發Deepseek是很多剛得到國內博士學位的年輕人,openAI的開發者也很年輕,這說明了國內在AI領域已經大麵積開花,也說明了AI領域是大大的民主化,就是進入的門檻不高,想進入的年輕人或國家很容易進入取得成績。

請您先登陸,再發跟帖!