AI漫漫長路。最近用open AI, deep seek和 gemini 做AP calculus題目

OpenAI 最差勁,給出的答案80%是錯的,還很自信的錯。

Deep seek,囉嗦的不像話,大多數情況囉嗦半天沒答案,或者錯。出錯率 60%, 但是比Open AI誠實。

Gemini 明顯比上麵兩家好一點。做不出,能老老實實說解不了。沒有混說的狀態。

AP Calculus是好多工程項目的基礎,就這樣的水平,AI的現實離我們遠著呢。

我沒有試過Grok,主要是不喜歡用Twitter/X。不知道Grok如何。

所有跟帖: 

Grok 是目前最棒的 -青裁- 給 青裁 發送悄悄話 (0 bytes) () 05/08/2025 postreply 10:20:00

Twitter讓我卻步。要想想是否用。 -加州lalin- 給 加州lalin 發送悄悄話 加州lalin 的博客首頁 (200 bytes) () 05/08/2025 postreply 10:24:04

OpenAI 要用對model 不同的表現差很多 GEMINI 承認錯誤最徹底 每次都是發至內心的檢討 但表現差 -挖礦- 給 挖礦 發送悄悄話 (0 bytes) () 05/08/2025 postreply 10:21:19

Gemini 實誠。 Open AI最滑頭,就是騙子。Deep Seek是個不懂裝懂 囉囉嗦嗦的磚頭。 -加州lalin- 給 加州lalin 發送悄悄話 加州lalin 的博客首頁 (0 bytes) () 05/08/2025 postreply 10:25:36

同意 OpenAI 最接近印度思維 第三次開始偷懶 cut corner -挖礦- 給 挖礦 發送悄悄話 (0 bytes) () 05/08/2025 postreply 10:27:16

哎,我看答案,腦補畫麵就是對麵坐著一個搖頭的阿三 -加州lalin- 給 加州lalin 發送悄悄話 加州lalin 的博客首頁 (0 bytes) () 05/08/2025 postreply 10:28:19

哈哈 -凊荷- 給 凊荷 發送悄悄話 凊荷 的博客首頁 (0 bytes) () 05/08/2025 postreply 10:29:17

哈哈哈。 尤其是大語言模型, 要達到解微積分,阻礙很大。 -24橋明月夜- 給 24橋明月夜 發送悄悄話 (0 bytes) () 05/08/2025 postreply 10:22:31

Open AI 要用O3 or O4mini 這個才是reasoning model -凊荷- 給 凊荷 發送悄悄話 凊荷 的博客首頁 (240 bytes) () 05/08/2025 postreply 10:24:34

用的就是O4 -加州lalin- 給 加州lalin 發送悄悄話 加州lalin 的博客首頁 (0 bytes) () 05/08/2025 postreply 10:25:56

也這麽差啊 -凊荷- 給 凊荷 發送悄悄話 凊荷 的博客首頁 (0 bytes) () 05/08/2025 postreply 10:28:44

態度很好,我說你答案錯,他就再做一遍,換個錯法。 -加州lalin- 給 加州lalin 發送悄悄話 加州lalin 的博客首頁 (0 bytes) () 05/08/2025 postreply 10:29:53

很熱情,說個沒完沒了。Gemini強不少。哦,還有個 -凊荷- 給 凊荷 發送悄悄話 凊荷 的博客首頁 (34 bytes) () 05/08/2025 postreply 10:31:26

both OpenAI 和deep Seek都會卡殼,自己編不下去。 -加州lalin- 給 加州lalin 發送悄悄話 加州lalin 的博客首頁 (0 bytes) () 05/08/2025 postreply 10:41:23

人腦的複雜性, AI 一時代替不了 -恒媽- 給 恒媽 發送悄悄話 (0 bytes) () 05/08/2025 postreply 10:28:56

做不好數學的Ai, 都是騙子。 -加州lalin- 給 加州lalin 發送悄悄話 加州lalin 的博客首頁 (0 bytes) () 05/08/2025 postreply 10:30:25

試試AIME? 上次不是說AIME的題都可以做了? -violinpiano- 給 violinpiano 發送悄悄話 (0 bytes) () 05/08/2025 postreply 10:33:16

靠題庫?AP calculus沒啥題庫。 -加州lalin- 給 加州lalin 發送悄悄話 加州lalin 的博客首頁 (0 bytes) () 05/08/2025 postreply 10:36:05

你用的是免費還是付費的,Open AI? -兩女寶媽- 給 兩女寶媽 發送悄悄話 兩女寶媽 的博客首頁 (0 bytes) () 05/08/2025 postreply 10:37:41

O4手機版每天有幾次免費使用。但,大多數都是錯的答案,就這樣,想讓我付費? -加州lalin- 給 加州lalin 發送悄悄話 加州lalin 的博客首頁 (248 bytes) () 05/08/2025 postreply 10:50:27

哈哈,主要我是用付費的。。。 -兩女寶媽- 給 兩女寶媽 發送悄悄話 兩女寶媽 的博客首頁 (0 bytes) () 05/08/2025 postreply 11:32:34

而且,我深度懷疑他們的大數據後麵有不同的路徑,導向不同的答案。如果是用人訓練的 -加州lalin- 給 加州lalin 發送悄悄話 加州lalin 的博客首頁 (0 bytes) () 05/08/2025 postreply 10:37:55

隨著訓練人才越來越多傾向用印度,咖喱味越來越多。 -加州lalin- 給 加州lalin 發送悄悄話 加州lalin 的博客首頁 (0 bytes) () 05/08/2025 postreply 10:38:54

我自己用的經驗,Deep seek 最好,至少有對的內容,討論幾次後能得到想要的,不會錯的太離譜 -linda2- 給 linda2 發送悄悄話 linda2 的博客首頁 (0 bytes) () 05/08/2025 postreply 10:56:50

和我的經驗一樣。 Deep Seek的業績最好, 各方麵都好。 -24橋明月夜- 給 24橋明月夜 發送悄悄話 (0 bytes) () 05/08/2025 postreply 11:27:54

握手~ -linda2- 給 linda2 發送悄悄話 linda2 的博客首頁 (0 bytes) () 05/08/2025 postreply 11:44:38

人類智力的基礎是邏輯(數學) 和表達。LLM目前的應用都停留在表達上,內容是靠搜索不是思考。 -加州lalin- 給 加州lalin 發送悄悄話 加州lalin 的博客首頁 (0 bytes) () 05/08/2025 postreply 10:59:37

最近用了Claude,還不錯 -qqdragon- 給 qqdragon 發送悄悄話 (0 bytes) () 05/08/2025 postreply 11:05:49

AI做AP cal 是不行,我娃自己錯了一個選擇題,用AI居然同樣錯法,物理也是類似,最後還是問老師了 -maplewind011- 給 maplewind011 發送悄悄話 (0 bytes) () 05/08/2025 postreply 12:18:02

請您先登陸,再發跟帖!