DeepSeek R1 最多也就是趕上 OpenAI o1-1217

Benchmark DeepSeek-R1 (%) OpenAI o1-1217 (%) Verdict
AIME 2024 (Pass@1) 79.8 79.2 DeepSeek-R1 wins (better math problem-solving)
Codeforces (Percentile) 96.3 96.6 OpenAI-o1-1217 wins (better competitive coding)
GPQA Diamond (Pass@1) 71.5 75.7 OpenAI-o1-1217 wins (better general QA performance)
MATH-500 (Pass@1) 97.3 96.4 DeepSeek-R1 wins (stronger math reasoning)
MMLU (Pass@1) 90.8 91.8 OpenAI-o1-1217 wins (better general knowledge understanding)
SWE-bench Verified (Resolved) 49.2 48.9 DeepSeek-R1 wins (better software engineering task handling)

所有跟帖: 

輕鬆趕上,超越後就一騎絕塵了 -Amerix- 給 Amerix 發送悄悄話 (0 bytes) () 01/27/2025 postreply 19:06:44

算了吧,我們release產品從來都是比競爭對手好的多 -Bob007- 給 Bob007 發送悄悄話 (0 bytes) () 01/27/2025 postreply 19:08:55

還沒趕上OpenAI的第一代,OpenAI已經第四代了 -victor1988- 給 victor1988 發送悄悄話 (0 bytes) () 01/27/2025 postreply 19:15:16

說啥呢,o1 o3 哪來的第四代 -監考老師- 給 監考老師 發送悄悄話 監考老師 的博客首頁 (0 bytes) () 01/27/2025 postreply 19:32:03

GPT-4 -victor1988- 給 victor1988 發送悄悄話 (0 bytes) () 01/27/2025 postreply 20:17:38

o1 不是 GPT-1 -監考老師- 給 監考老師 發送悄悄話 監考老師 的博客首頁 (0 bytes) () 01/27/2025 postreply 21:53:15

比的還是OpenAI 一個月前的產品 -Bob007- 給 Bob007 發送悄悄話 (0 bytes) () 01/27/2025 postreply 19:07:28

海量燒錢,後勁不足了 -Amerix- 給 Amerix 發送悄悄話 (0 bytes) () 01/27/2025 postreply 19:10:56

AI革命方興未艾,很多開創性的工作可做 -Bob007- 給 Bob007 發送悄悄話 (0 bytes) () 01/27/2025 postreply 19:12:31

真要想提高Math benchmark的分數,其實可以拿數學軟件來訓練AI -Bob007- 給 Bob007 發送悄悄話 (0 bytes) () 01/27/2025 postreply 19:16:35

AI 水平早超過數學軟件了,數學軟件偏重計算,符號操作比AI差。 -pichawxc- 給 pichawxc 發送悄悄話 pichawxc 的博客首頁 (0 bytes) () 01/27/2025 postreply 20:54:33

這是AI比較ChatGPT和Mathematica -Bob007- 給 Bob007 發送悄悄話 (1108 bytes) () 01/28/2025 postreply 06:09:29

關鍵看DS能不能有比O3厲害的R2,比如比O3 提前發出來? -pichawxc- 給 pichawxc 發送悄悄話 pichawxc 的博客首頁 (0 bytes) () 01/27/2025 postreply 20:36:14

請您先登陸,再發跟帖!