前兩天剛發布的o3的最高版本得分才是13%。BTW,DS是9.4%。
=======================================================
順便介紹一下“人類最後的考試”這套題。。
人類最後的考試(HLE)是一項全球性的合作項目,由來自 50 個國家 500 多所院校的近千名學科專家提供試題,其中大部分是教授、研究人員和研究生學位獲得者。
由3,000 多道選擇題和簡答題,涉及從語言學到火箭科學、從古典文學到生態學等 100 多個學科
這一套題用來測試各種AI模型的水平,有兩個分數,一個是準確性。一個校準錯誤。
準確性。所有前沿模型在人類上次考試中的準確性都很低,這凸顯了在縮小當前法學碩士與專家級學術能力在封閉式問題上的差距方麵還有很大的改進空間。
校準錯誤。鑒於人類上次考試的表現較低,應該對模型進行校準,認識到它們的不確定性,而不是自信地提供不正確的答案,表明虛構/幻覺。為了測量校準,我們提示模型提供從 0% 到 100% 的答案及其置信度%.