Benchmark | DeepSeek-R1 (%) | OpenAI o1-1217 (%) | Verdict |
AIME 2024 (Pass@1) | 79.8 | 79.2 | DeepSeek-R1 wins (better math problem-solving) |
Codeforces (Percentile) | 96.3 | 96.6 | OpenAI-o1-1217 wins (better competitive coding) |
GPQA Diamond (Pass@1) | 71.5 | 75.7 | OpenAI-o1-1217 wins (better general QA performance) |
MATH-500 (Pass@1) | 97.3 | 96.4 | DeepSeek-R1 wins (stronger math reasoning) |
MMLU (Pass@1) | 90.8 | 91.8 | OpenAI-o1-1217 wins (better general knowledge understanding) |
SWE-bench Verified (Resolved) | 49.2 | 48.9 | DeepSeek-R1 wins (better software engineering task handling) |
DeepSeek R1 最多也就是趕上 OpenAI o1-1217
所有跟帖:
•
輕鬆趕上,超越後就一騎絕塵了
-Amerix-
♂
(0 bytes)
()
01/27/2025 postreply
19:06:44
•
算了吧,我們release產品從來都是比競爭對手好的多
-Bob007-
♂
(0 bytes)
()
01/27/2025 postreply
19:08:55
•
還沒趕上OpenAI的第一代,OpenAI已經第四代了
-victor1988-
♂
(0 bytes)
()
01/27/2025 postreply
19:15:16
•
說啥呢,o1 o3 哪來的第四代
-監考老師-
♂
(0 bytes)
()
01/27/2025 postreply
19:32:03
•
GPT-4
-victor1988-
♂
(0 bytes)
()
01/27/2025 postreply
20:17:38
•
o1 不是 GPT-1
-監考老師-
♂
(0 bytes)
()
01/27/2025 postreply
21:53:15
•
比的還是OpenAI 一個月前的產品
-Bob007-
♂
(0 bytes)
()
01/27/2025 postreply
19:07:28
•
海量燒錢,後勁不足了
-Amerix-
♂
(0 bytes)
()
01/27/2025 postreply
19:10:56
•
AI革命方興未艾,很多開創性的工作可做
-Bob007-
♂
(0 bytes)
()
01/27/2025 postreply
19:12:31
•
真要想提高Math benchmark的分數,其實可以拿數學軟件來訓練AI
-Bob007-
♂
(0 bytes)
()
01/27/2025 postreply
19:16:35
•
AI 水平早超過數學軟件了,數學軟件偏重計算,符號操作比AI差。
-pichawxc-
♂
(0 bytes)
()
01/27/2025 postreply
20:54:33
•
這是AI比較ChatGPT和Mathematica
-Bob007-
♂
(1108 bytes)
()
01/28/2025 postreply
06:09:29
•
關鍵看DS能不能有比O3厲害的R2,比如比O3 提前發出來?
-pichawxc-
♂
(0 bytes)
()
01/27/2025 postreply
20:36:14