AI漫漫長路。最近用open AI, deep seek和 gemini 做AP calculus題目

來源: 2025-05-08 10:19:23 [博客] [舊帖] [給我悄悄話] 本文已被閱讀:

OpenAI 最差勁,給出的答案80%是錯的,還很自信的錯。

Deep seek,囉嗦的不像話,大多數情況囉嗦半天沒答案,或者錯。出錯率 60%, 但是比Open AI誠實。

Gemini 明顯比上麵兩家好一點。做不出,能老老實實說解不了。沒有混說的狀態。

AP Calculus是好多工程項目的基礎,就這樣的水平,AI的現實離我們遠著呢。

我沒有試過Grok,主要是不喜歡用Twitter/X。不知道Grok如何。