DeepSeek R1悄悄更新!用「小版本」幹翻大模型
字母榜
2025-05-29 20:01:42
雖然DeepSeek-R2並沒有像2個月之前盛傳的那樣,在5月甚至之前準時赴約。但是,DeepSeek正在不斷地用小升級追趕其他廠商的大版本。
昨天DeepSeek官方的一則「R1已完成小版本試升級」的消息,在各個AI討論群裏炸開了花。這回的DeepSeek-R1-0528版本在各個社區引發震動的最主要原因是:它真的不是一次小更新!
目前該升級版的DeepSeek-R1-0528已經全量上線官方網頁、APP、小程序等等,API也已經可以接入。
關於DeepSeek官方多麽有誠意,我們已經在V3版本的升級上看到了——模型性能大幅提升隻是開胃小菜,成本價格比更是再度優化。這回的更新也是一樣,新版本的DeepSeek-R1主要在編程能力上大幅提升。據一家LLM
API接入網站OpenRouter,這回的新版本R1的輸入輸出價格幾乎與先前版本毫無變化!
在智能水平上,新版本DeepSeek-R1-0528在 Extended NYT Connections
基準測試上相比原始DeepSeek R1有了大幅提升:38.6 → 49.8。
01
它真的很難說是「小升級」
現在,全網都在瘋狂拿它跟全麵替代AI coding真神的Claude
4對比,發現:這倆模型竟然不相上下?甚至有一張在Livecodebench上DeepSeek-R1-0528與o3-high旗鼓相當的基準測試對比圖,在網上瘋傳。許多網友認為這回更新後的DeepSeek-R1-0528在代碼生成等編程領域的實力已經進入第一梯隊了。
我們搜集了全網最有趣的實測體驗,看看這回的DeepSeek-R1-0528到底將AI coding的能力拓展了多少:
有X網友@karminski3設置了一個「DeepSeek-R1-0528 VS
Claude-4-sonnet」挑戰賽,用彈球撞擊牆麵的效果作對比。
實測下來發現:DeepSeek方的彈球看起來甚至還有光澤,撞碎牆麵後的粒子效果幾乎能與Claude-4-sonnet一較高下,控製麵板的美觀度也都非常在線。
值得一提的是,在這次的測試中,兩個大模型使用了同一個Prompt,DeepSeek-R1-0528
生成了728行,而Claude-4-sonnet生成了542行。
更新後的R1-0528在粒子效果的表現上尤其好。粒子效果通常會涉及複雜的動態動畫和物理模擬,像是物體運動、碰撞、光影變化等等。這足以說明R1-0528在生成複雜動態動畫能力上有了很大的突破。
X網友MILO,就做了個可交互的粒子動態動畫平台,我們也進去體驗了下。我們注意到除了畫麵中央的炫酷粒子爆炸外,右上角的粒子數計算也以一種很匹配的方式同步進行著。
在全棧網頁開發上,「小升級」之後的DeepSeek-R1-0528所表現出來的能力也有了很明顯的提升。
比如,X上有網友@DomLiu給 DeepSeek-R1-0528
一個全棧網頁開發Prompt,就能在幾秒鍾內從零開始構建了一個完整的應用程序。
這段提示詞還非常的簡單:構建一個 three.js 應用程序,用於加載具有實時顏色/材質/配件控製的 3D
模型。直觀的用戶界麵。流暢的相機視角。
更為驚豔的是下麵這個Case,同樣是這位網友,他幾乎將DeepSeek-R1玩出了花,這也證明小升級後的DeepSeek-R1-0528到底在編程能力上有多強。
簡單來說,他使用升級後的DeepSeek-R1做了一個3D畫廊,有這些功能:
程序化幾何生成,動態場景生成係統,多彩動態光影效果,相機動畫與過渡,虛擬畫廊導航體驗。
有實際用過Trae、Cursor、Windsurf等一眾AI
coding的朋友肯定都懂一個具有強大自主編程能力的基座大模型到底意味著什麽?——編程效率的指數級提升。
3D藝術畫廊非常直觀地顯示了DeepSeek-R1-0528在麵對複雜任務時的自主編程能力。
我們也實際上手測試了下,發現升級後的DeepSeek-R1-0528在麵對非常簡單的提示詞時也能做出很快的反應,並自主地豐富功能。
比如,我隻給了它一句:
生成一個蘋果官網風格的前端網頁。
它隻經過14秒的思考,就輕鬆理清了蘋果官網風格設計頁麵的設計思路:
· 使用蘋果標誌性的深空灰/銀色調
· 大字體標題和簡潔文案
· 高清產品圖像與漸變背景
· 懸浮動畫效果
· 響應式布局
最主要的是,很短時間內它就已經生成了462行代碼,做出來的效果也與我所設想的非常相近:
除了純代碼能力之外,DeepSeek-R1-0528在前端審美上也有了很大的提升。
比如下麵這個原生iOS風格界麵設計,采用了抹茶綠色主題,融合現代美學,看起來搭配很流暢。
除了產品應用UI風格之外,DeepSeek-R1-0528在HTML網頁的前端網格上也有了很大的提升。
下麵兩組新版本的介紹網頁中,深色是DeepSeek-R1-0528生成,在美觀度上更具科技感和視覺衝擊力,也非常符合AI大模型本來的調性;白色則是由Claude4生成:
02
思維鏈似乎改變了,出現了一些「副作用」
這回DeepSeek-R1-0528的強勢開源,甚至讓各國網友都重溫了下今年年初R1發布時的情景。現在的DeepSeek-R1-0528已經擁有了Claude係列的強自主編程能力,同時網友們在實際測試中也注意到它的思維鏈模式似乎發生了改變。
很多實測後的網友都發現這回的升級版DeepSeek-R1-0528的思考過程實在是太長了,很容易出現過度思考的現象。
比如,網友們發現了一個有趣的測試題:「估算一下π/7」,發現DeepSeek-R1-0528的思考推理過程有些太漫長了。
我們也實際測試了下,麵對這樣的一個小問題,DeepSeek-R1-0528的深度思考時間達到了148秒。並且,其推理過程顯得冗餘性很大。
雖然各國網友都直觀感受到了升級後的DeepSeek-R1-0528在推理能力上消耗的時間變得長了,但推理結果精度的提升也是顯而易見的。經過優化的DeepSeek-R1-0528在處理複雜問題時,已經展現出了更強的邏輯分析能力和更細致的推理過程,這使得輸出的答案不僅更加準確,還在深度和廣度上都有了顯著改進。
比如,X網友@baalatejakataru在實際編程過程中發現新的
DeepSeek-R1-0528想得太多,但是出錯時能夠快速地自我糾正,還能夠很好地寫新興係統編程語言——Zig,表現很不錯。
DeepSeek官方這回同樣延續了之前發布即開源的策略,R1-0528已經正式開源。除了開源動作之外,更新後的R1仍然采用寬鬆的MIT許可證,意味著它可用於商業用途。
這次DeepSeek-R1-0528的升級,進一步印證了當下大模型行業的趨勢:大版本固然令人期待,但持續穩定的小步迭代同樣無法讓人裝作看不見。
雖然DeepSeek-R2尚未如期而至,也引發了全網對於這一版本的疑惑。但是通過強化編程能力、優化前端審美,DeepSeek團隊持續的小步快跑,無疑讓業界重新審視小版本升級的巨大價值。盡管思維鏈的冗長帶來了一些「副作用」,但其帶來的精度提升和自我糾錯能力依然讓人無法忽視這次的版本升級。
在未來,DeepSeek-R1-0528的這種不改變大架構,而是通過「小升級、小迭代」就能達成明顯效果的方式可能將會成為主流,「大版本號盲目崇拜」已經被破除。
下一次「小升級」,或許就是另一場風暴的開始。