人類最後的考試

本帖於 2025-02-03 06:27:19 時間, 由普通用戶 未完的歌 編輯

八卦大S津津樂道。AI不能聊?,

做調研報告的福音,OpenAI 最新發布Deep Research

自己查資料很辛苦,DS可做大量的基礎調查,分析,並做出總結報告,

 

===============

考試成績

人類最後的考試(HLE)是一項全球性的合作項目,由來自 50 個國家 500 多所院校的近千名學科專家提供試題,其中大部分是教授、研究人員和研究生學位獲得者。

由3,000 多道選擇題和簡答題,涉及從語言學到火箭科學、從古典文學到生態學等 100 多個學科

這一套題用來測試各種AI模型的水平,有兩個分數,一個是準確性。一個校準錯誤。

準確性。所有前沿模型在人類上次考試中的準確性都很低,這凸顯了在縮小當前法學碩士與專家級學術能力在封閉式問題上的差距方麵還有很大的改進空間。

校準錯誤。鑒於人類上次考試的表現較低,應該對模型進行校準,認識到它們的不確定性,而不是自信地提供不正確的答案,表明虛構/幻覺。為了測量校準,我們提示模型提供從 0% 到 100% 的答案及其置信度%.

 

但願Deep Research 能到達L4

所有跟帖: 

等到了95%就不需要人了。 -三花錦鯉- 給 三花錦鯉 發送悄悄話 (0 bytes) () 02/03/2025 postreply 06:06:19

如果及格基本上就可以秒殺90%人了 -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (0 bytes) () 02/03/2025 postreply 06:08:34

你現在被AI迷住不可救藥了, 問過AI一個問題, 答的不對 -weihua2021- 給 weihua2021 發送悄悄話 (0 bytes) () 02/03/2025 postreply 06:06:28

問的那個AI?啥版本? -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (0 bytes) () 02/03/2025 postreply 06:09:00

ai特別適合弄那些沒有明確答案的東西 -lzr- 給 lzr 發送悄悄話 lzr 的博客首頁 (143 bytes) () 02/03/2025 postreply 06:13:19

要認真的話得進行雙盲比較,而且得是新題,因為稍微有名一點的東西可能已經被訓練進去了 -akuan- 給 akuan 發送悄悄話 (0 bytes) () 02/03/2025 postreply 06:08:35

日光之下沒新事兒 -三花錦鯉- 給 三花錦鯉 發送悄悄話 (0 bytes) () 02/03/2025 postreply 06:09:17

前幾天我貼了一個門薩測試,那個人與門薩會員一起設計新題,讓AI們去做, -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (0 bytes) () 02/03/2025 postreply 06:10:26

說這些沒有用,GPT好不好DS好不好都不是問題關鍵,而是AI是不是需要這樣高端芯片和大投入,是不是以後美元的潛在錨定 -一笑拉- 給 一笑拉 發送悄悄話 (87 bytes) () 02/03/2025 postreply 06:09:56

關鍵是股市,退休的錢夠了嗎? -外鄉人- 給 外鄉人 發送悄悄話 外鄉人 的博客首頁 (0 bytes) () 02/03/2025 postreply 06:12:39

哈哈,煩死了,我這些天都不去看,,, -一笑拉- 給 一笑拉 發送悄悄話 (0 bytes) () 02/03/2025 postreply 06:17:07

長線不看短時間的漲漲落落 -瓜籽- 給 瓜籽 發送悄悄話 (0 bytes) () 02/03/2025 postreply 06:13:12

隨著AI的發展,今後高算力依然是必須的。在算力麵前,絞盡腦汁優化的算法沒啥特別的價值。這麽多年,計算機的發展 -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (48 bytes) () 02/03/2025 postreply 06:13:24

這是你說的,TikTok時候也說算法很簡單,你研究過,我就佩服你的自信 -一笑拉- 給 一笑拉 發送悄悄話 (0 bytes) () 02/03/2025 postreply 06:15:42

不是算法簡單,而是算力是關鍵,你知道那些搞絞盡腦汁搞算法優化的,是為了啥嗎?就是為了節省一點點算力。286時代的CPU -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (99 bytes) () 02/03/2025 postreply 06:19:23

我不知道這些,這種對我來說太局部,但你也不用spin,你當時說的TikTok不賣的算法,你研究過很簡單,先說我沒有截屏 -一笑拉- 給 一笑拉 發送悄悄話 (24 bytes) () 02/03/2025 postreply 06:23:30

你們老感覺是spin,我感覺是你們了解的少, -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (0 bytes) () 02/03/2025 postreply 06:28:16

有一種說法,美元的錨定是芯片。未來算力仍然是關鍵的。 -akuan- 給 akuan 發送悄悄話 (0 bytes) () 02/03/2025 postreply 06:16:57

還有說虛擬貨幣的,現在還是在尋找方向吧 -一笑拉- 給 一笑拉 發送悄悄話 (0 bytes) () 02/03/2025 postreply 06:18:33

估計今天還會跌。近期主打關稅, DS的結果是川普要更嚴格芯片管製。估計拜登出台的分三級要實施了 -遙遙- 給 遙遙 發送悄悄話 遙遙 的博客首頁 (0 bytes) () 02/03/2025 postreply 06:18:36

以後是不是學校不再要求背各種公式文章了?連外語好像都沒有必要學了 -十塊糍飯糕- 給 十塊糍飯糕 發送悄悄話 (0 bytes) () 02/03/2025 postreply 06:12:00

我們人類的知識,我們個人的知識,90%以上就如傳話筒一樣,在複讀而已。 -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (0 bytes) () 02/03/2025 postreply 06:17:21

以前可以聊,還聊很多,因為沒有DS,沒有引起吵架,,現在草木皆兵了, -有個用戶名- 給 有個用戶名 發送悄悄話 有個用戶名 的博客首頁 (0 bytes) () 02/03/2025 postreply 06:12:37

曲高和寡 -瓜籽- 給 瓜籽 發送悄悄話 (0 bytes) () 02/03/2025 postreply 06:13:40

你終於來了,昨天呼叫你來著 -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (0 bytes) () 02/03/2025 postreply 06:14:53

昨天我來了,問了五花豬包粽子,然後煮了一大鍋粽子,這季節買的粽葉小,。。。 -瓜籽- 給 瓜籽 發送悄悄話 (0 bytes) () 02/03/2025 postreply 06:16:56

幫我問一個問題,我想證實一下,是否是真的。家壇人那些人都沉默了 -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (494 bytes) () 02/03/2025 postreply 06:22:56

DS不寫了 -瓜籽- 給 瓜籽 發送悄悄話 (81 bytes) () 02/03/2025 postreply 06:28:43

服務器繁忙,請稍後再試。 -瓜籽- 給 瓜籽 發送悄悄話 (81 bytes) () 02/03/2025 postreply 06:34:05

看來是緊急修改了,因為無數人而且是不同國家的人試過,說OpenAI的政策不允許。。。 -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (0 bytes) () 02/03/2025 postreply 06:37:02

現在知道外鄉人也可以測試了,以後也可以找他:D -有個用戶名- 給 有個用戶名 發送悄悄話 有個用戶名 的博客首頁 (0 bytes) () 02/03/2025 postreply 06:21:19

他問了,換了一個詞,不敢直麵,哈哈 -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (0 bytes) () 02/03/2025 postreply 06:23:41

終於回答了為啥DS不了解DS,一直連不上 -外鄉人- 給 外鄉人 發送悄悄話 外鄉人 的博客首頁 (3236 bytes) () 02/03/2025 postreply 06:29:14

比如這個就說的很奇怪,DS自己不了解自己是因為很多技術細節等在中國以外無法獲得,啥意思啊 -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (636 bytes) () 02/03/2025 postreply 06:45:47

那也沒必要刻意去融入和迎合,一時熱鬧,虛假繁榮。若非一直勉強自己總會迎合不下去的,誰又真的會一直勉強自己呢 -有個用戶名- 給 有個用戶名 發送悄悄話 有個用戶名 的博客首頁 (0 bytes) () 02/03/2025 postreply 06:17:38

我不管ChatGPT和DS誰好誰壞,誰抄誰,我都用,多選擇比少選擇好,我小氣,不交錢。 -瓜籽- 給 瓜籽 發送悄悄話 (0 bytes) () 02/03/2025 postreply 06:20:42

就等著發錢了 -heka- 給 heka 發送悄悄話 heka 的博客首頁 (0 bytes) () 02/03/2025 postreply 06:15:55

有比較合適的PAI模型嘛,個人可以自智慧養成。 -三花錦鯉- 給 三花錦鯉 發送悄悄話 (0 bytes) () 02/03/2025 postreply 06:20:50

請您先登陸,再發跟帖!