這個厲害了,open AI剛剛發布最新版本在“人類最後的考試” 拿下26.6% 的高分

本帖於 2025-02-02 18:07:32 時間, 由普通用戶 未完的歌 編輯

前兩天剛發布的o3的最高版本得分才是13%。BTW,DS是9.4%。

=======================================================

順便介紹一下“人類最後的考試”這套題。。

人類最後的考試(HLE)是一項全球性的合作項目,由來自 50 個國家 500 多所院校的近千名學科專家提供試題,其中大部分是教授、研究人員和研究生學位獲得者。

由3,000 多道選擇題和簡答題,涉及從語言學到火箭科學、從古典文學到生態學等 100 多個學科

這一套題用來測試各種AI模型的水平,有兩個分數,一個是準確性。一個校準錯誤。

準確性。所有前沿模型在人類上次考試中的準確性都很低,這凸顯了在縮小當前法學碩士與專家級學術能力在封閉式問題上的差距方麵還有很大的改進空間。

校準錯誤。鑒於人類上次考試的表現較低,應該對模型進行校準,認識到它們的不確定性,而不是自信地提供不正確的答案,表明虛構/幻覺。為了測量校準,我們提示模型提供從 0% 到 100% 的答案及其置信度%.

 

所有跟帖: 

這個是真的嗎? -種西瓜- 給 種西瓜 發送悄悄話 (234 bytes) () 02/02/2025 postreply 18:08:47

目前看大概是這樣的 -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (258 bytes) () 02/02/2025 postreply 18:31:14

嗯,就是老黃的股票很難回到原位了。。 -種西瓜- 給 種西瓜 發送悄悄話 (0 bytes) () 02/02/2025 postreply 18:49:37

請您先登陸,再發跟帖!