人類最後的考試

來源: 2025-02-03 06:04:21 [博客] [舊帖] [給我悄悄話] 本文已被閱讀:

八卦大S津津樂道。AI不能聊?,

做調研報告的福音,OpenAI 最新發布Deep Research

自己查資料很辛苦,DS可做大量的基礎調查,分析,並做出總結報告,

 

===============

考試成績

人類最後的考試(HLE)是一項全球性的合作項目,由來自 50 個國家 500 多所院校的近千名學科專家提供試題,其中大部分是教授、研究人員和研究生學位獲得者。

由3,000 多道選擇題和簡答題,涉及從語言學到火箭科學、從古典文學到生態學等 100 多個學科

這一套題用來測試各種AI模型的水平,有兩個分數,一個是準確性。一個校準錯誤。

準確性。所有前沿模型在人類上次考試中的準確性都很低,這凸顯了在縮小當前法學碩士與專家級學術能力在封閉式問題上的差距方麵還有很大的改進空間。

校準錯誤。鑒於人類上次考試的表現較低,應該對模型進行校準,認識到它們的不確定性,而不是自信地提供不正確的答案,表明虛構/幻覺。為了測量校準,我們提示模型提供從 0% 到 100% 的答案及其置信度%.

 

但願Deep Research 能到達L4