OpenAI 最差勁,給出的答案80%是錯的,還很自信的錯。
Deep seek,囉嗦的不像話,大多數情況囉嗦半天沒答案,或者錯。出錯率 60%, 但是比Open AI誠實。
Gemini 明顯比上麵兩家好一點。做不出,能老老實實說解不了。沒有混說的狀態。
AP Calculus是好多工程項目的基礎,就這樣的水平,AI的現實離我們遠著呢。
我沒有試過Grok,主要是不喜歡用Twitter/X。不知道Grok如何。
OpenAI 最差勁,給出的答案80%是錯的,還很自信的錯。
Deep seek,囉嗦的不像話,大多數情況囉嗦半天沒答案,或者錯。出錯率 60%, 但是比Open AI誠實。
Gemini 明顯比上麵兩家好一點。做不出,能老老實實說解不了。沒有混說的狀態。
AP Calculus是好多工程項目的基礎,就這樣的水平,AI的現實離我們遠著呢。
我沒有試過Grok,主要是不喜歡用Twitter/X。不知道Grok如何。
•
Grok 是目前最棒的
-青裁-
♂
(0 bytes)
()
05/08/2025 postreply
10:20:00
•
Twitter讓我卻步。要想想是否用。
-加州lalin-
♀
(200 bytes)
()
05/08/2025 postreply
10:24:04
•
OpenAI 要用對model 不同的表現差很多 GEMINI 承認錯誤最徹底 每次都是發至內心的檢討 但表現差
-挖礦-
♂
(0 bytes)
()
05/08/2025 postreply
10:21:19
•
Gemini 實誠。 Open AI最滑頭,就是騙子。Deep Seek是個不懂裝懂 囉囉嗦嗦的磚頭。
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:25:36
•
同意 OpenAI 最接近印度思維 第三次開始偷懶 cut corner
-挖礦-
♂
(0 bytes)
()
05/08/2025 postreply
10:27:16
•
哎,我看答案,腦補畫麵就是對麵坐著一個搖頭的阿三
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:28:19
•
哈哈
-凊荷-
♀
(0 bytes)
()
05/08/2025 postreply
10:29:17
•
哈哈哈。 尤其是大語言模型, 要達到解微積分,阻礙很大。
-24橋明月夜-
♀
(0 bytes)
()
05/08/2025 postreply
10:22:31
•
Open AI 要用O3 or O4mini 這個才是reasoning model
-凊荷-
♀
(240 bytes)
()
05/08/2025 postreply
10:24:34
•
用的就是O4
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:25:56
•
也這麽差啊
-凊荷-
♀
(0 bytes)
()
05/08/2025 postreply
10:28:44
•
態度很好,我說你答案錯,他就再做一遍,換個錯法。
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:29:53
•
很熱情,說個沒完沒了。Gemini強不少。哦,還有個
-凊荷-
♀
(34 bytes)
()
05/08/2025 postreply
10:31:26
•
both OpenAI 和deep Seek都會卡殼,自己編不下去。
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:41:23
•
人腦的複雜性, AI 一時代替不了
-恒媽-
♀
(0 bytes)
()
05/08/2025 postreply
10:28:56
•
做不好數學的Ai, 都是騙子。
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:30:25
•
試試AIME? 上次不是說AIME的題都可以做了?
-violinpiano-
♂
(0 bytes)
()
05/08/2025 postreply
10:33:16
•
靠題庫?AP calculus沒啥題庫。
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:36:05
•
你用的是免費還是付費的,Open AI?
-兩女寶媽-
♀
(0 bytes)
()
05/08/2025 postreply
10:37:41
•
O4手機版每天有幾次免費使用。但,大多數都是錯的答案,就這樣,想讓我付費?
-加州lalin-
♀
(248 bytes)
()
05/08/2025 postreply
10:50:27
•
哈哈,主要我是用付費的。。。
-兩女寶媽-
♀
(0 bytes)
()
05/08/2025 postreply
11:32:34
•
而且,我深度懷疑他們的大數據後麵有不同的路徑,導向不同的答案。如果是用人訓練的
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:37:55
•
隨著訓練人才越來越多傾向用印度,咖喱味越來越多。
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:38:54
•
我自己用的經驗,Deep seek 最好,至少有對的內容,討論幾次後能得到想要的,不會錯的太離譜
-linda2-
♀
(0 bytes)
()
05/08/2025 postreply
10:56:50
•
和我的經驗一樣。 Deep Seek的業績最好, 各方麵都好。
-24橋明月夜-
♀
(0 bytes)
()
05/08/2025 postreply
11:27:54
•
握手~
-linda2-
♀
(0 bytes)
()
05/08/2025 postreply
11:44:38
•
人類智力的基礎是邏輯(數學) 和表達。LLM目前的應用都停留在表達上,內容是靠搜索不是思考。
-加州lalin-
♀
(0 bytes)
()
05/08/2025 postreply
10:59:37
•
最近用了Claude,還不錯
-qqdragon-
♀
(0 bytes)
()
05/08/2025 postreply
11:05:49
•
AI做AP cal 是不行,我娃自己錯了一個選擇題,用AI居然同樣錯法,物理也是類似,最後還是問老師了
-maplewind011-
♂
(0 bytes)
()
05/08/2025 postreply
12:18:02
WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.
Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy