剛才找了一道抽象一些的數學題來考幾個 AI

chatgpt 4 和 deepseek 做了些不錯的分析,然後就是胡說八道。deepseek 給出的分析內容稍微多些,糟糕的地方是,如果你追問分析細節,馬上胡說八道。

Gemini: 給出了同樣的分析,但沒有胡說八道,承認自己不能確定答案。

付費版的 chatgpt o1: 想了好久,然後給出了正確答案,very impressed!

所有跟帖: 

所以就是不給錢就胡說八道?lol -成功的米菲兔- 給 成功的米菲兔 發送悄悄話 (0 bytes) () 01/27/2025 postreply 19:16:37

AI大門八字開,有理無錢莫進來 -我是誰的誰- 給 我是誰的誰 發送悄悄話 (0 bytes) () 01/27/2025 postreply 19:18:21

我拿O1和DS做申學benchmarking 分析。o1 中規中矩,DS經常卡在那。不過二者都挺敢說。o1 肯定還是勝出 -oryzivore- 給 oryzivore 發送悄悄話 (0 bytes) () 01/27/2025 postreply 19:18:34

DS需要增加個功能,付費Prime服務。LOL -加州lalin- 給 加州lalin 發送悄悄話 加州lalin 的博客首頁 (0 bytes) () 01/27/2025 postreply 19:53:00

有沒有付費版做不出來的一些競賽題?比如Putman級別的? -Pilsung- 給 Pilsung 發送悄悄話 (0 bytes) () 01/27/2025 postreply 19:19:29

有,以前試過一些,有時也胡說八道,但邏輯比免費版的強不少 -STEMkid- 給 STEMkid 發送悄悄話 (0 bytes) () 01/27/2025 postreply 19:21:30

謝謝...我用的是免費的,難道經常出錯. -Pilsung- 給 Pilsung 發送悄悄話 (83 bytes) () 01/27/2025 postreply 19:27:56

第一手資料通常有說服力! -CR2019- 給 CR2019 發送悄悄話 (0 bytes) () 01/27/2025 postreply 19:28:45

給出正確答案的,需要你提示方向嗎? -trivial- 給 trivial 發送悄悄話 (0 bytes) () 01/27/2025 postreply 19:31:34

沒有提示,直接給了解法和用到的定理。o1 的缺點就是慢,要等它想一會 -STEMkid- 給 STEMkid 發送悄悄話 (0 bytes) () 01/27/2025 postreply 19:34:00

是不是敲字一字一頓的,蹦出幾個詞要半分鍾? LOL -Pilsung- 給 Pilsung 發送悄悄話 (0 bytes) () 01/27/2025 postreply 19:37:01

是要想一會兒才開始出字。你可以選 o1 mini,快不少,但邏輯比 o1 差些 -STEMkid- 給 STEMkid 發送悄悄話 (0 bytes) () 01/27/2025 postreply 19:39:00

謝謝... -Pilsung- 給 Pilsung 發送悄悄話 (0 bytes) () 01/27/2025 postreply 19:53:47

所以你覺得它是搜索,還是推理? -trivial- 給 trivial 發送悄悄話 (0 bytes) () 01/27/2025 postreply 20:07:44

應該都有吧,能做證明題少不了推理 -STEMkid- 給 STEMkid 發送悄悄話 (0 bytes) () 01/27/2025 postreply 20:12:00

哈哈哈 -加州lalin- 給 加州lalin 發送悄悄話 加州lalin 的博客首頁 (0 bytes) () 01/27/2025 postreply 19:52:00

請您先登陸,再發跟帖!