簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 焦點新聞 » 174名北大學生能否考過AI?結果很意外

174名北大學生能否考過AI?結果很意外

文章來源: 北京日報 於 2025-12-27 21:46:08 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數

在北京大學化學與分子工程學院,有機化學考試是許多同學痛並快樂著的挑戰。然而,期中考前突如其來的一條通知,卻讓這場考試的氣氛變得不同尋常:

“請注意,本次考試範圍不僅限於有機化學。”

但比起考試範圍的變化,考場裏迎來的一批“特殊考生”,更讓人意想不到。

它們不需要落座,也無需紙筆。它們是GPT、Gemini、DeepSeek……這些當下世界上最聰明的AI,正在雲端與174位北大化學與分子工程學院的大二學生同場競技。

這是一場精心設計的“圖靈測試”,也是北大科研團隊為大語言模型投下的一塊“試金石”。

近日,北京大學化學與分子工程學院聯合北大計算中心、計算機學院、元培學院團隊,發布了最新成果SUPERChem。近期,他們以一套“北大試卷”為標尺,冷靜丈量著AI在科學推理上的真實邊界。

考試現場

一場特殊的期中考

打開SUPERChem的題庫,一種“壓迫感”撲麵而來。

晶體結構的精細解析、反應機理的深度推演、物化性質的定量計算……這500道題目並非來自網絡上隨手可得的公開題庫,而是源於對高難度試題和前沿專業文獻的深度改編。

為什麽要費盡周折重新出題?

“因為大模型太會‘背書’了。”團隊成員解釋道。互聯網可及的測試題大多已被博聞強識的AI在訓練階段熟讀。而化學,恰恰是一門不能隻靠死記硬背的學科。它既有嚴密的邏輯推演,又充滿了對微觀世界的空間想象。“我們非常好奇,大語言模型的一維 next token prediction,能否解決二維、甚至三維空間中的複雜推理問題。”

要設計一套讓AI“沒見過”、必須靠硬實力推理的題目,難度極高。然而,這正是北大化院的獨特優勢所在。近百名師生——其中不乏奧賽金牌得主——集結起來,決定給AI出一套高門檻、重推理、防作弊的試卷。

他們要考的,是AI是否真的“懂”化學。

一場遊戲中的學術共創

設計題目往往是枯燥的,但這群年輕的北大人卻把它變成了一場“遊戲”。

為了構建這套高質量評估集,團隊搭建了一個專屬協作平台。在這裏,出題、審題、修題從單調的任務,變成了一套循序漸進的“通關”流程。成員們在平台上協作,互相審閱、彼此“找茬”,讓嚴謹的科學探討與活躍的思維碰撞交織共融。

團隊還引入了積分激勵係統,讓出題過程就像在遊戲中打怪升級。一道題目需曆經編寫初稿、撰寫解析,再通過初審與終審的嚴格審核,每個環節均由不同的同學把關,並發放相應的積分。終審通過的題目,甚至最多迭代過15個版本。

SUPERChem題庫的三階段審核流程

當最強大腦遇上“北大難度”

考試成績揭曉。

在這場精心設計的考試中,人類展現出了複雜的科學直覺。作為基線,參與測試的北大化院本科生取得了40.3%的平均準確率。這個數字本身,就足以說明這套題目的硬核程度。

而AI的表現如何?

即便是接受測試的頂尖模型,其成績也僅與低年級本科生的平均水平相當。

前沿模型在SUPERChem上的表現

前沿模型的正確率與RPF關係

讓團隊感到意外的是視覺信息帶來的困惑。化學的語言是圖形,分子結構、反應機理圖蘊含著關鍵信息。然而對於部分模型而言,當引入圖像信息時,其準確率不升反降。這說明,當前的AI在將視覺信息轉化為化學語義時,仍存在明顯的感知瓶頸。

輸入模態對不同模型的影響

然而,即使選對了答案,解題步驟也可能經不起推敲。因此,團隊為每一道題目都標注了詳細的評分規則。在SUPERChem這台“顯微鏡”下,AI是真懂還是裝懂,一目了然。

團隊發現,AI的推理鏈條往往斷裂於產物結構預測、反應機理識別以及構效關係分析等高階任務。當前的頂尖模型雖然擁有海量的知識儲備,但在處理需要嚴密邏輯和深刻理解的硬核化學問題時,仍顯得力不從心。

推理斷點所屬化學能力分布

通向AGI的一小步

SUPERChem的誕生,填補了化學領域多模態深度推理評測的空白。

團隊發布這項成果,並非為了證明AI的短板,而是為了推動它走得更遠。SUPERChem就像一個路標。它提醒我們:從通用的聊天機器人,到能夠理解構效關係、推演反應機理的專業科學助手,中間還有很長的一段路要走。那是從“記住知識”到“理解物理世界”的跨越。

目前,SUPERChem項目已全麵開源。團隊希望這套源自北大的“試卷”,能成為全球科學與人工智能領域的公共財富,去催化下一次技術的爆發。或許在不久的將來,當我們再次打開這張試卷時,AI能交出一份滿分的答卷。那將是化學與人工智能共同的驚喜。

挑戰一下?

我們選取了一道未能進入SUPERChem題庫的“簡單”題目,邀請你來體驗這場考試。

為紀念門捷列夫發現元素周期律150周年,國際純粹和應用化學聯合會將2019年設為“國際化學元素周期表年”。門捷列夫預言了多種當時未知的元素,M即為其中之一。

M是一種銀白色金屬,質軟,能溶於濃硫酸、硝酸、鹽酸和稀堿溶液。M與氧氣加熱至250 °C反應,可得到淡黃色固體A,A經SOCl2處理可得到亮黃色固體B,B也可由M與黃綠色氣體C直接加熱反應得到;若將B與單質氣體D加熱至200 °C反應,則轉化為紅色固體E;將M直接溶於稀鹽酸,也可得到E的溶液;但若將鍍有M的鎂片溶於稀鹽酸,可以製得少量二元化合物F;F在常溫下為液體,不穩定,其水溶液顯酸性;F能與金屬鉀反應,生成淡灰色固體G,並放出單質氣體D。

根據上述信息,從以下選項選出正確的說法:

A:物質M的原子序數和族數的奇偶性不同

B:鍍有M的鎂片與稀鹽酸反應,產物中Mg的化合價與A中M的化合價一樣

C:G具有反螢石結構

D:由於空氣氧化,E溶液久置會轉化成含B溶液

  • 功效卓著,回頭客眾多!美國專利【骨精華】消除關節痛//骨質疏鬆;【心血通+益腦靈】強心護腦。
查看評論(11)
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2026 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小時熱點排行

那個跑馬拉鬆的護士,被幹掉了!
馬杜洛被抓了!委內瑞拉人上街狂歡"終於有機會回家"
白宮公布"馬杜洛上銬押解"影片,發文諷:犯人遊街
多國強烈譴責美國,智利總統:今日委國,明日任何一國
5000萬獎金太香!中情局招募"超強內鬼"背叛馬杜洛




24小時討論排行

哈裏斯痛批特朗普:其做法不會讓美國"更安全、更強大"
美突襲完隔天!解放軍全軍開訓 曝“東風17”升起
美軍活捉馬杜洛!韓在野黨魁呼籲「俘虜金正恩」
美國100多個城市示威抗議襲擊委內瑞拉
委政權變天! “原油分配”新戰局 中國恐是最大苦主
雷達還在 政權沒了 被吹上天的防空網 隻撐了幾分鍾
BBC:關於美國“接管”委內瑞拉計劃,我們目前已知什麽?
美軍抓走馬杜羅 瓦格納保鏢和俄軍顧問一槍未放?
這些人曾說:委內瑞拉用中國製雷達 老美有種試試
馬斯克宣布:委境內星鏈免費開放 全球民主勝利!
對委軍事行動激怒民主黨人,多名議員提議罷免特朗普
川普逮捕馬杜洛 合法嗎?專家給答案
川普閃擊委內瑞拉"完全沒通知"國會!參院下周表決製衡
川普上任1年炸了7個國家!想靠"軍事幹預"建立盟友
消息一出中國臉上無光 胡錫進快速切割 怪他垮太快
"國師"李毅情緒激動 一度哽咽自搧耳光 引發熱議
文學城新聞
切換到網頁版

174名北大學生能否考過AI?結果很意外

北京日報 2025-12-27 21:46:08

在北京大學化學與分子工程學院,有機化學考試是許多同學痛並快樂著的挑戰。然而,期中考前突如其來的一條通知,卻讓這場考試的氣氛變得不同尋常:

“請注意,本次考試範圍不僅限於有機化學。”

但比起考試範圍的變化,考場裏迎來的一批“特殊考生”,更讓人意想不到。

它們不需要落座,也無需紙筆。它們是GPT、Gemini、DeepSeek……這些當下世界上最聰明的AI,正在雲端與174位北大化學與分子工程學院的大二學生同場競技。

這是一場精心設計的“圖靈測試”,也是北大科研團隊為大語言模型投下的一塊“試金石”。

近日,北京大學化學與分子工程學院聯合北大計算中心、計算機學院、元培學院團隊,發布了最新成果SUPERChem。近期,他們以一套“北大試卷”為標尺,冷靜丈量著AI在科學推理上的真實邊界。

考試現場

一場特殊的期中考

打開SUPERChem的題庫,一種“壓迫感”撲麵而來。

晶體結構的精細解析、反應機理的深度推演、物化性質的定量計算……這500道題目並非來自網絡上隨手可得的公開題庫,而是源於對高難度試題和前沿專業文獻的深度改編。

為什麽要費盡周折重新出題?

“因為大模型太會‘背書’了。”團隊成員解釋道。互聯網可及的測試題大多已被博聞強識的AI在訓練階段熟讀。而化學,恰恰是一門不能隻靠死記硬背的學科。它既有嚴密的邏輯推演,又充滿了對微觀世界的空間想象。“我們非常好奇,大語言模型的一維 next token prediction,能否解決二維、甚至三維空間中的複雜推理問題。”

要設計一套讓AI“沒見過”、必須靠硬實力推理的題目,難度極高。然而,這正是北大化院的獨特優勢所在。近百名師生——其中不乏奧賽金牌得主——集結起來,決定給AI出一套高門檻、重推理、防作弊的試卷。

他們要考的,是AI是否真的“懂”化學。

一場遊戲中的學術共創

設計題目往往是枯燥的,但這群年輕的北大人卻把它變成了一場“遊戲”。

為了構建這套高質量評估集,團隊搭建了一個專屬協作平台。在這裏,出題、審題、修題從單調的任務,變成了一套循序漸進的“通關”流程。成員們在平台上協作,互相審閱、彼此“找茬”,讓嚴謹的科學探討與活躍的思維碰撞交織共融。

團隊還引入了積分激勵係統,讓出題過程就像在遊戲中打怪升級。一道題目需曆經編寫初稿、撰寫解析,再通過初審與終審的嚴格審核,每個環節均由不同的同學把關,並發放相應的積分。終審通過的題目,甚至最多迭代過15個版本。

SUPERChem題庫的三階段審核流程

當最強大腦遇上“北大難度”

考試成績揭曉。

在這場精心設計的考試中,人類展現出了複雜的科學直覺。作為基線,參與測試的北大化院本科生取得了40.3%的平均準確率。這個數字本身,就足以說明這套題目的硬核程度。

而AI的表現如何?

即便是接受測試的頂尖模型,其成績也僅與低年級本科生的平均水平相當。

前沿模型在SUPERChem上的表現

前沿模型的正確率與RPF關係

讓團隊感到意外的是視覺信息帶來的困惑。化學的語言是圖形,分子結構、反應機理圖蘊含著關鍵信息。然而對於部分模型而言,當引入圖像信息時,其準確率不升反降。這說明,當前的AI在將視覺信息轉化為化學語義時,仍存在明顯的感知瓶頸。

輸入模態對不同模型的影響

然而,即使選對了答案,解題步驟也可能經不起推敲。因此,團隊為每一道題目都標注了詳細的評分規則。在SUPERChem這台“顯微鏡”下,AI是真懂還是裝懂,一目了然。

團隊發現,AI的推理鏈條往往斷裂於產物結構預測、反應機理識別以及構效關係分析等高階任務。當前的頂尖模型雖然擁有海量的知識儲備,但在處理需要嚴密邏輯和深刻理解的硬核化學問題時,仍顯得力不從心。

推理斷點所屬化學能力分布

通向AGI的一小步

SUPERChem的誕生,填補了化學領域多模態深度推理評測的空白。

團隊發布這項成果,並非為了證明AI的短板,而是為了推動它走得更遠。SUPERChem就像一個路標。它提醒我們:從通用的聊天機器人,到能夠理解構效關係、推演反應機理的專業科學助手,中間還有很長的一段路要走。那是從“記住知識”到“理解物理世界”的跨越。

目前,SUPERChem項目已全麵開源。團隊希望這套源自北大的“試卷”,能成為全球科學與人工智能領域的公共財富,去催化下一次技術的爆發。或許在不久的將來,當我們再次打開這張試卷時,AI能交出一份滿分的答卷。那將是化學與人工智能共同的驚喜。

挑戰一下?

我們選取了一道未能進入SUPERChem題庫的“簡單”題目,邀請你來體驗這場考試。

為紀念門捷列夫發現元素周期律150周年,國際純粹和應用化學聯合會將2019年設為“國際化學元素周期表年”。門捷列夫預言了多種當時未知的元素,M即為其中之一。

M是一種銀白色金屬,質軟,能溶於濃硫酸、硝酸、鹽酸和稀堿溶液。M與氧氣加熱至250 °C反應,可得到淡黃色固體A,A經SOCl2處理可得到亮黃色固體B,B也可由M與黃綠色氣體C直接加熱反應得到;若將B與單質氣體D加熱至200 °C反應,則轉化為紅色固體E;將M直接溶於稀鹽酸,也可得到E的溶液;但若將鍍有M的鎂片溶於稀鹽酸,可以製得少量二元化合物F;F在常溫下為液體,不穩定,其水溶液顯酸性;F能與金屬鉀反應,生成淡灰色固體G,並放出單質氣體D。

根據上述信息,從以下選項選出正確的說法:

A:物質M的原子序數和族數的奇偶性不同

B:鍍有M的鎂片與稀鹽酸反應,產物中Mg的化合價與A中M的化合價一樣

C:G具有反螢石結構

D:由於空氣氧化,E溶液久置會轉化成含B溶液