Deepseek 的模型突破

來源: voiceofme 於 2025-01-27 07:49:53 [檔案] [博客] [舊帖] [給我悄悄話] 閱讀數 : (1967 bytes)

本帖於 2025-01-27 07:56:57 時間, 由普通用戶 voiceofme 編輯

Deepseek 的成功說明了中國人在AI領域的創新力是充滿競爭力的。在今年的NeuoIP年會上，出自中國的論文非常多。在大模型領域，除了美國的META, OPENAI, ANTHROPIC, GOOGLE 出自己的大模型外，還有法國的Mistral 之外，就是中國自己訓練自己的大模型，比如以前就發布的QWEN 。法國的Mistral最先把MoE(Mixture of Experts)引入到大模型的架構中，而中國的DS在此基礎上做了很幾點的大的改進。比如，用MLA(Multi-head latent attention)， MTP（Multi-Token Prediction), GRPO(Group Relative Policy Optimization), 大大降低了訓練成本。其中GRPO讓SFT (supervised fine tuning)變得不那麽重要，隻要給一個最終結果，比如數學上給出最後答案，GRPO可以自己出琢磨出得出最終答案的過程出來，而且會自己實驗用不同的過程來解題，這是一個了不起的創新。這被DeepSeek 自己說成是AHA 瞬間，被外界觀察者說成是alphago的在大模型上的重演。 Deepseek 這些創新，展現了中國人的才智，在海外華人受中美關係政治打壓和受印度人在高科技打壓的前提下，中國人能出這樣的成績，也是於有榮焉。

Deepseek的模型是開源的，就是說每個公司和個人可以使用這模型，還可以繼續改進該模型。而且Deepseek也支持聊天的終端，普通人都可以去用。應該很多人已經測試了Deepseek的模型，而且肯定有公司也用AI的好多種不同的測試方法測試過Deepseek模型。所以對Deepseek的轟動，沒有什麽韓國超導的假冒之說。

聽說開發Deepseek是很多剛得到國內博士學位的年輕人，openAI的開發者也很年輕，這說明了國內在AI領域已經大麵積開花，也說明了AI領域是大大的民主化，就是進入的門檻不高，想進入的年輕人或國家很容易進入取得成績。

您的位置：文學城 » 論壇 » 時事述評 » Deepseek 的模型突破

所有跟帖：

• 哈哈，抄亂了，Aha 不是haha. -BeyondWind- ♂ (0 bytes) () 01/27/2025 postreply 07:55:32

• 改了。不是抄的，是剛寫的。 -voiceofme- ♂ (0 bytes) () 01/27/2025 postreply 07:57:17

• 對於人才的觀點不能認同，DS團隊代表著本土頂尖精英教育水平的成功，而不是門檻低了。 -BeyondWind- ♂ (0 bytes) () 01/27/2025 postreply 08:19:39

• 在數學上，用先給答案再反推的訓練方式生成的模型，有多少通用性是個問題。 -uptrend- ♂ (0 bytes) () 01/27/2025 postreply 08:10:51

• 在數學上，這方法有通用性，但這方法能運用在其他領域嗎？這個確實是問題。 -voiceofme- ♂ (0 bytes) () 01/27/2025 postreply 08:18:58

• 如今的社會就是依賴於現代邏輯打造的，類似於半部論語治天下，因為社會製度本來就是依於儒家思想建立的。 -BeyondWind- ♂ (0 bytes) () 01/27/2025 postreply 08:23:09

• 試用了一下deepseek, 覺得很羅嗦啊。先不直接回答問題，做一大堆自我思考，然後才給出答案。答案也不簡明。好像不適合 -ice_tea- ♂ (0 bytes) () 01/27/2025 postreply 09:24:46

• OpenAI 不肯公開思考過程被很多人詬病。不利於交流學習。 -監考老師- ♂ (0 bytes) () 01/27/2025 postreply 09:27:12

請您先登陸，再發跟帖！