AI漫漫長路。最近用open AI, deep seek和 gemini 做AP calculus題目
OpenAI 最差勁,給出的答案80%是錯的,還很自信的錯。
Deep seek,囉嗦的不像話,大多數情況囉嗦半天沒答案,或者錯。出錯率 60%, 但是比Open AI誠實。
Gemini 明顯比上麵兩家好一點。做不出,能老老實實說解不了。沒有混說的狀態。
AP Calculus是好多工程項目的基礎,就這樣的水平,AI的現實離我們遠著呢。
我沒有試過Grok,主要是不喜歡用Twitter/X。不知道Grok如何。