DeepSeek新模型大揭秘,為何它能震動全球AI圈

文章來源: - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數



時隔不到一個月,DeepSeek 又一次震動全球AI圈。

去年 12 月, DeepSeek 推出的 DeepSeek-V3在全球AI領域掀起了巨大的波瀾,它以極低的訓練成本,實現了與GPT-4o和Claude Sonnet 3.5 等頂尖模型相媲美的性能,震驚了業界。騰訊科技曾對此模型進行了深度拆解,用最簡單直白的方法,解讀了它能夠同時實現低成本和高效能的技術背景。

和上次不同的是,這次推出的新模型 DeepSeek-R1不僅成本低,更是在技術上有了大幅提升,而且,還是一個開源模型。

這款新模型延續了其高性價比的優勢,僅用十分之一的成本就達到了GPT-o1級別的表現。

所以,很多業內人士甚至喊出了“DeepSeek接班OpenAI”的口號,更多人將目光聚焦在其訓練方法方麵的突破。

比如,前Meta AI工作人員、知名AI論文推特作者Elvis就強調,本篇DeepSeek-R1的論文堪稱瑰寶,因為它探索了提升大語言模型推理能力的多種方法,並發現了其中更明確的湧現特性

DeepSeek新模型大揭秘,為何它能震動全球AI圈

另一位AI圈大V Yuchen Jin則認為,DeepSeek-R1論文中提出的,模型利用純RL方法引導其自主學習和反思推理這一發現,意義非常重大。



英偉達GEAR Lab項目負責人Jim Fan在推特中也提到了,DeepSeek-R1用通過硬編碼規則計算出的真實獎勵,而避免使用任何 RL 容易破解的學習獎勵模型。這使得模型產生了自我反思與探索行為的湧現。

因為這些極其重要的發現都被DeepSeek-R1完全開源,Jim Fan 甚至認為,這本來是OpenAI應該做的事。



那麽問題來了,他們所提到純RL方法訓練模型是指什麽?模型出現的“Aha moment”又憑什麽能證明AI具有了湧現能力?我們更想知道的是,DeepSeek-R1的這一重要創新對於AI領域未來的發展,究竟意味著什麽?

用最簡單的配方,回歸最純粹的強化學習

在o1推出之後,推理強化成了業界最關注的方法。

一般來說,一個模型在訓練過程中會嚐試一種固定訓練方法來提升推理能力。

而DeepSeek團隊在R1的訓練過程中,直接一次性實驗了三種截然不同的技術路徑:直接強化學習訓練(R1-Zero)、多階段漸進訓練(R1)和模型蒸餾,還都成功了。多階段漸進訓練方法和模型蒸餾都包含著很多創新意義元素,對行業有著重要影響。

其中最讓人激動的,還是直接強化學習這個路徑。因為DeepSeek-R1是首個證明這一方法有效的模型。

我們先來了解一下,訓練AI的推理能力傳統的方法通常是什麽:一般是通過在SFT(監督微調)加入大量的思維鏈(COT)範例,用例證和複雜的如過程獎勵模型(PRM)之類的複雜神經網絡獎勵模型,來讓模型學會用思維鏈思考。

甚至會加入蒙特卡洛樹搜索(MCTS),讓模型在多種可能中搜索最好的可能。



(傳統的模型訓練路徑)

但DeepSeek-R1 Zero選擇了一條前所未有的路徑“純”強化學習路徑,它完全拋開了預設的思維鏈模板(Chain of Thought)和監督式微調(SFT),僅依靠簡單的獎懲信號來優化模型行為。

這就像讓一個天才兒童在沒有任何範例和指導的情況下,純粹通過不斷嚐試和獲得反饋來學習解題。

DeepSeek-R1 Zero 有的隻是一套最簡單的獎勵係統,來激發AI的推理能力。

這個規則就兩條:

1.準確性獎勵:準確性獎勵模型評估響應是否正確。對了就加分,錯了扣分。評價方法也很簡單:例如,在具有確定性結果的數學問題中,模型需要以指定格式(如和間)提供最終答案;對於編程問題,可以使用編譯器根據預定義的測試用例生成反饋。

2.格式獎勵:格式獎勵模型強製要求模型將其思考過程置於和標簽之間。沒這麽做就扣分,做了就加分。

為了準確觀察模型在強化學習(RL)過程中的自然進展,DeepSeek甚至有意將係統提示詞僅約束限製在這種結構格式上,來避免任何內容特定的偏見——例如強製讓模型進行反思性推理或推廣特定的問題解決策略。



(R1 Zero的係統提示詞)

靠著這麽一個簡單的規則,讓AI在GRPO(Group Relative Policy Optimization)的規則下自我采樣+比較,自我提升。

GRPO的模式其實比較簡單,通過組內樣本的相對比較來計算策略梯度,有效降低了訓練的不穩定性,同時提高了學習效率。

簡單來說,你可以把它想象成老師出題,每道題讓模型同時回答多次,然後用上麵的獎懲規則給每個答案打分,根據追求高分、避免低分的邏輯更新模型。

這個流程大概就是這樣的:

輸入問題 → 模型生成多個答案 → 規則係統評分 → GRPO計算相對優勢 → 更新模型。

這種直接訓練方法帶來了幾個顯著的優勢。首先是訓練效率的提升,整個過程可以在更短的時間內完成。其次是資源消耗的降低,由於省去了SFT和複雜的獎懲模型,計算資源的需求大幅減少。

更重要的是,這種方法真的讓模型學會了思考,而且是以“頓悟”的方式學會的。

用自己的語言,在“頓悟”中學習

我們是怎麽看出模型在這種非常“原始”的方法下,是真的學會了“思考”的呢?

論文記錄了一個引人注目的案例:在處理一個涉及複雜數學表達式 √a - √(a + x) = x 的問題時,模型突然停下來說"Wait, wait. Wait. That's an aha moment I can flag here"(等等、等等、這是個值得標記的啊哈時刻),隨後重新審視了整個解題過程。這種類似人類頓悟的行為完全是自發產生的,而不是預先設定的。



這種頓悟往往是模型思維能力躍升的時刻。

因為根據DeepSeek的研究,模型的進步並非均勻漸進的。在強化學習過程中,響應長度會出現突然的顯著增長,這些"跳躍點"往往伴隨著解題策略的質變。這種模式酷似人類在長期思考後的突然頓悟,暗示著某種深層的認知突破。



在這種伴隨著頓悟的能力提升下,R1-Zero在數學界享有盛譽的AIME競賽中從最初的15.6%正確率一路攀升至71.0%的準確率。而讓模型對同一問題進行多次嚐試時,準確率甚至達到了86.7%。這不是簡單的看過了就會做了——因為AIME的題目需要深度的數學直覺和創造性思維,而不是機械性的公式應用。模型基本必須能推理,才可能有這樣的提升。



另一個模型確實通過這種方法學會了推理的另一個核心證據,是模型響應長度會根據問題的複雜度自然調節。這種自適應行為表明,它不是在簡單地套用模板,而是真正理解了問題的難度,並相應地投入更多的"思考時間"。就像人類麵對簡單的加法和複雜的積分會自然調整思考時間一樣,R1-Zero展現出了類似的智慧。

最有說服力的或許是模型展現出的遷移學習能力。在完全不同的編程競賽平台Codeforces上,R1-Zero達到了超過96.3%人類選手的水平。這種跨域表現表明,模型不是在死記硬背特定領域的解題技巧,而是掌握了某種普適的推理能力。

這是一個聰明,但口齒不清的天才

盡管R1-Zero展現出了驚人的推理能力,但研究者們很快發現了一個嚴重的問題:它的思維過程往往難以被人類理解。

論文坦誠地指出,這個純強化學習訓練出來的模型存在"poor readability"(可讀性差)和"language mixing"(語言混雜)的問題。

這個現象其實很好理解:R1-Zero完全通過獎懲信號來優化其行為,沒有任何人類示範的"標準答案"作為參考。就像一個天才兒童自創了一套解題方法,雖然屢試不爽,但向別人解釋時卻語無倫次。它在解題過程中可能同時使用多種語言,或者發展出了某種特殊的表達方式,這些都讓其推理過程難以被追蹤和理解。

正是為了解決這個問題,研究團隊開發了改進版本DeepSeek-R1。通過引入更傳統的"cold-start data"(冷啟動數據)和多階段訓練流程,R1不僅保持了強大的推理能力,還學會了用人類易懂的方式表達思維過程。這就像給那個天才兒童配了一個溝通教練,教會他如何清晰地表達自己的想法。

在這一調教下之後,DeepSeek-R1展現出了與OpenAI o1相當甚至在某些方麵更優的性能。在MATH基準測試上,R1達到了77.5%的準確率,與o1的77.3%相近;在更具挑戰性的AIME 2024上,R1的準確率達到71.3%,超過了o1的71.0%。在代碼領域,R1在Codeforces評測中達到了2441分的水平,高於96.3%的人類參與者。



然而,DeepSeek-R1 Zero的潛力似乎更大。它在AIME 2024測試中使用多數投票機製時達到的86.7%準確率——這個成績甚至超過了OpenAI的o1-0912。這種"多次嚐試會變得更準確"的特征,暗示R1-Zero可能掌握了某種基礎的推理框架,而不是簡單地記憶解題模式。論文數據顯示,從MATH-500到AIME,再到GSM8K,模型表現出穩定的跨域性能,特別是在需要創造性思維的複雜問題上。這種廣譜性能提示R1-Zero可能確實培養出了某種基礎的推理能力,這與傳統的特定任務優化模型形成鮮明對比。

所以,雖然口齒不清,但也許DeepSeek-R1 Zero才是真正理解了推理的“天才”。

純粹強化學習,也許才是通向AGI的意外捷徑

之所以DeepSeek-R1的發布讓圈內人的焦點都投向了純強化學習方法,因為它完全可以說得上是打開了AI 進化的一條新路徑。

R1-Zero——這個完全通過強化學習訓練出來的AI模型,展現出了令人驚訝的通用推理能力。它不僅在數學競賽中取得了驚人成績。

更重要的是,R1-Zero不僅是在模仿思考,而是真正發展出了某種形式的推理能力。

這個發現可能會改變我們對機器學習的認識:傳統的AI訓練方法可能一直在重複一個根本性的錯誤,我們太專注於讓AI模仿人類的思維方式了,業界需要重新思考監督學習在AI發展中的角色。通過純粹的強化學習,AI係統似乎能夠發展出更原生的問題解決能力,而不是被限製在預設的解決方案框架內。

雖然R1-Zero在輸出可讀性上存在明顯缺陷,但這個"缺陷"本身可能恰恰印證了其思維方式的獨特性。就像一個天才兒童發明了自己的解題方法,卻難以用常規語言解釋一樣。這提示我們:真正的通用人工智能可能需要完全不同於人類的認知方式。

這才是真正的強化學習。就像著名教育家皮亞傑的理論:真正的理解來自於主動建構,而不是被動接受。

查看評論(23)