簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
1您的位置: 文學城 » 新聞 » 焦點新聞 » 人類高考“封王”的大模型,離真的“AI狀元”還有多遠?

人類高考“封王”的大模型,離真的“AI狀元”還有多遠?

文章來源: 騰訊科技 於 2025-06-11 20:53:58 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數
人類高考“封王”的大模型,離真的“AI狀元”還有多遠?


2025年的高考剛結束,AI挑戰高考題的浪潮卻持續升溫。

DeepSeek、騰訊混元、訊飛星火、字節豆包、阿裏通義千問、百度文心等大模型紛紛被“請”進同款試卷的線上戰場,掀起了一波“AI 趕考”的刷屏熱潮,“千軍萬馬過獨木橋”的競賽在矽基世界中重演。

然而,不同評測團隊的試卷版本和OCR識別效果各不相同,可能連模型是否順利閱讀到答卷都有很大的不確定性,打分標準更是五花八門,單次的“高分”往往難以複現。

另外,高考是為篩選人才而設計的,它考查的不僅是知識掌握,更是時間壓力下的心理素質和臨場應變能力。

當我們用非標測試下的AI高考分數能力來評估大模型的能力,真的客觀嗎?單次的分數,又能否代表某個大模型的真實能力?

先說結論:

●用高考題這種標準化試題評測大模型的單科能力具有一定的客觀性和參考意義。但是成績高不等於大模型一定強,人類考試的分數標準並不適用於AI模型的能力評估標準。

●目前的"AI高考"測試普遍缺乏嚴謹性,測試環境和評分標準都不夠規範可信。

●評估大模型能力應使用專門設計的Benchmark。

●如果非要用“高考成績”看模型能力,應該看梯隊而非排名,幾分的差距不能充分代表能力差距。

一、“AI高考"如何考?

從目前已經公開的文章來看,“大模型趕考”一般會經曆以下兩個步驟:

第一步是給大模型輸入高考題,主要采用了以下幾種方法:

直接文本輸入:將題目以純文本形式輸入給大模型,讓模型給出答案。但是如果題目包含圖像,模型可能無法解題。

OCR轉換法:將圖片、掃描件或PDF文檔中的文字轉換為可編輯和可搜索的文本格式,再輸入給大模型。這種方法的準確性很大程度上依賴於OCR技術的質量,可能引入額外的誤差。

多模態輸入法:直接將包含文字和圖像的題目輸入給具備視覺能力的大模型。這種方法最接近人類考試的實際情況,但很多大語言模型還不具備這種能力。

人工轉寫:由人工將題目內容轉寫為標準文本格式。這種方法可以避免OCR錯誤,但可能在轉寫過程中丟失或改變原題的某些信息。

第二步,是進行評分,這個環節也有不同的機製:

最簡單的是標準答案對比法:將模型答案與標準答案進行對比,按照預設規則給分。這種方法相對客觀,但主觀題的評判還是會有偏差。

還有很多人邀請一線教師或教育專家對模型答案進行評分。這種方法的優勢是專業性強,但完全依賴人類高考的標準,存在主觀性和一致性問題。

多輪評分法:由多位專家獨立評分後取平均值。這種方法可以減少個體主觀性的影響,但評測成本較高,被采用比較少。

混合評分法:結合自動化評分和人工評分。對於有明確答案的題目使用自動評分,對於開放性題目使用人工評分。

給模型輸入題目的路徑方法五花八門,評分環節也有不同的機製,所以我們會發現同一個AI在不同媒體的測試中,分數往往不太一樣,排名也是千差萬別。

比如,讓AI做同一張數學全國卷一。下圖(上)是一位AI自媒體,用AI進行三輪答題,僅參考最終答案,按照答對的概率給模型評分,得出的得分排名。下圖(下)是我們用OCR轉化之後,取AI一輪答題結果,並請人類名師按照高考的標準進行評分後得到的結果。兩個結果大相徑庭,以豆包為例,右邊得分僅為75分,而左邊得分高達145分。





在評分標準中,我們特別注意到,為了結果的客觀性,有些測試讓 AI 在同一道題上連做數次,再取平均分。

這種做法僅僅可以說是相對科學。“多做幾遍再平均”可以降低隨機波動、在數值題上確實有用,但它幫不了模型糾正概念性錯誤。

大模型生成文字(更準確地說是“token”)的過程本質上是一次受概率分布控製的采樣:在生成每個 token 時,模型會對詞(或子詞)表中的所有候選賦予一個概率。當推理溫度 temperature 高於 0 時,模型不會總是選擇概率最高的那個候選,而是按概率進行隨機采樣。

已有實驗證明這一現象:在 GSM8K 等小學數學數據集上,讓同一大語言模型(例如 PaLM 540B)以相同提示重複回答同一題目 10 次,單次回答的正確率可在約50 %– 75 % 之間波動;若對這 10 條推理鏈進行多數投票(“自一致”策略),整體正確率可穩定提升至 75 % 以上。



圖:AI 模型在 GSM8K 算術推理基準上的“自一致”實驗——隨著對同一題目采樣的推理路徑數量從 3 增加到 30,模型(Cohere Command)的平均正確率穩定上升,而單一路徑的貪婪解碼(藍線)幾乎不變,清晰地展示了重複測試下的性能波動與收斂趨勢。

這種輸出的不確定性並非缺陷,而是生成式模型的技術特性,所以在評價這類具隨機性的係統時,應采用多次采樣、自一致投票或置信區間等方法,才能獲得更可靠、可複現的性能指標。

在不同的預設環境下,用不同的評測方式,加上大模型自身的技術特征,很多人並沒有進行多次答題采樣,最終的結果是“大模型考生”進考場N次,但是還是決定不了究竟誰能上“清北”。

二、高考題適合測試AI嗎?

那麽,讓AI做高考題究竟有意義嗎?

智源研究院技術平台智能評測組負責人楊熙對騰訊科技說:“用高考題評測大模型的單科能力具有一定的客觀性和參考意義,因為高考題標準化強、覆蓋知識麵廣,能初步反映模型在各學科的基本表現。

不過,高考題主要針對人類設計,模型可能利用大規模語料或答題技巧獲得高分,實際能力未必與分數嚴格對應,特別是在主觀題或知識應用方麵。“

上麵兩個對比不同的評分,主要的分數差別,就在主觀題。高考題目為人類設計,為了衡量學生在特定的階段(高中)對規定知識點的掌握與延展遷移能力。

主觀題的解答過程中會設置多個得分點,如果在解題過程中沒有覆蓋得分點,即使僅僅是答案正確,也不能得滿分。人類老師在點評AI數學試卷的時候,把大模型遺漏的得分點全部扣了分。

人類在考試的時候,不僅要考做得對,還要考思考路徑。雖然目前的推理大模型有看起來與人類類似的思考過程,但是“大模型“與”人腦“的思維本質完全不同。

因此,人類教師扣分標準也不適用於AI(如步驟分)。

LLM 在構建“知識結構”時,會同時吸收課本語料、學術論文、軟件代碼、網頁表格甚至帶字幕的圖像說明等多模態數據,因此它的“知識網”天然跨越小學算術到研究生數學的所有層級,並不是針對於高考的“高中”階段。

這種高度雜糅的語料庫帶來了一種被稱作“逆向(inverse)或 U-形縮放”現象:當模型規模增加、在預訓練目標上損失降低時,部分看似簡單的任務成績反而先下降後上升,或者長期停留在低位。用通俗但不是很嚴密的語言來解釋,就是在高難度任務上表現好,在低難度任務上反而出錯。

比如,早期 GPT-3 係列便曾在"如果一個數的平方是16,這個數是多少?"這樣的簡單問題上犯錯,它一般會隻回答"4"而忽略"-4",但它當時卻能夠正確處理更複雜的二次方程。

進一步分析這些錯誤,研究人員也發現大模型的數學能力常呈“島狀分布”:在單一技能上得分特別高,而難以解決多個概念串聯的綜合題。比如,當同時給出圖形與文字敘述時,多模態大模型的整體正確率顯著低於純文字的同等難度的題。

此外,大模型答題,有時體現的未必是“答題能力”,而是OCR 帶來的“識題能力”差異。

即便換成原生多模態大模型直接看圖答題,也難以徹底解決成像缺陷的問題。視覺編碼器首先要在特征空間“看懂”圖形,再交給語言解碼器推理;若圓因拍攝角度被拉成橢圓,或光照不均讓局部對比度驟降,模型就可能誤把曲線、關鍵點甚至題目文字識別錯位,隨後整條推理鏈都會被帶偏,導致整題全錯。



圖:經過不同程度的高斯噪聲、高斯模糊和低光照處理後的CIFAR-100示例圖像,同一張 CIFAR-100 裏的圖片,分別施加三種常見失真——高斯噪聲、模糊和低光照——並按強度分成三級。直觀可見,當圖像被模糊(第二行)或整體變暗(第三行)時,輪廓與細節迅速消失,這正是導致視覺-語言模型識別與後續推理出錯的典型場景。

對比之下,人類憑多年生物進化的感官經驗,能輕易識別這些視覺偏差,這正是當前AI 尚未彌合的感知-推理協同差距。

所以,人類的難題並不是大模型的難題,人類一眼就能解決的問題,對於大模型反而比“獲得博士學位”還難。所以,就如楊熙所說,“大模型”趕考能夠一定程度反映大模型在各個學科的基本表現,但是,人類的“高考題”可能並不適用於客觀評測AI的強弱。

三、科學的AI評測是什麽樣的?

那什麽樣的測試才算科學呢?

大模型評測可以一句話概括為:由模型開發方與第三方研究機構共同用公開基準在零/少樣本條件下比對分數,以快速衡量通識知識、推理、對話、多模態理解與安全魯棒性等關鍵能力。

大模型發布時通常由實驗室先給出內部自動跑分,再提交到公開排行榜或接受學術評審;同期,獨立學者、社區平台(Papers with Code、LMSYS)、以及企業安全審核團隊會複測並公開對比。評測默認零樣本或少樣本,避免微調泄漏,並采用統一腳本與隱藏測試集。業界最關注三大維度:知識-推理精度(能否答對多學科或複雜問題);交互與多模態能力(對話一致性、視覺-語言推理);安全與穩健性(偏見、毒性、對抗魯棒)。

一般大模型發布都會列出MMLU、BIG-bench、GSM8K、MATH、SuperGLUE、HellaSwag、TruthfulQA 及多模態 MMBench 或 VQA 的成績,以展示在通識、創造性推理、算術與競賽數學、深層語言理解、常識推斷、事實一致性和視覺-語言理解上的水平。



圖:常見大模型的BenchMark

在這些能力上的綜合得分水平,才是對大模型能力量身定製的“高考”。



圖: GPT-4.5、GPT-4o、Open AI o3-mini(high)的各項Benchmark分數對比

四、如果非要測試,怎樣做才最客觀?

雖然高考題並不能客觀評價大模型的綜合能力,但如果真的要做這樣的測試,比如設計一個Gaokao Benchmark,怎樣才能得到最客觀、最有含金量的結果呢?

1、多次重複測試是關鍵。既然AI的輸出有隨機性,那就不能隻測一次。科學的做法是讓每個AI重複做同一套題目至少5-10次,然後計算平均分和標準差。這樣能夠更準確地反映AI的真實能力水平,而不是某一次的"運氣"。

2、統一測試環境。不同的AI可能有不同的接口、不同的參數設置、不同的使用方式。為了公平比較,需要盡可能統一測試條件。比如,都使用相同的溫度參數(控製隨機性程度),都使用相同的輸入格式,都在相同的時間段進行測試。

3、題目處理要標準化。對於包含圖片的題目,應該統一使用高質量的OCR工具進行文字識別,或者統一使用多模態AI的視覺能力。不能有的AI看原圖,有的AI看OCR文字,這樣就不公平了。

4、評分標準要細化。不能簡單地按照傳統高考標準評分,而要考慮AI的特點。比如,如果AI用了一種非常規但正確的解題方法,人類應該認可。如果AI的答案在數值上正確但表述方式不同,也應該算對。

5、分科目分析更有意義。不要隻看總分排名,而要分別分析AI在不同科目、不同題型上的表現。比如,某個AI可能在代數題上很強,但在幾何題上較弱。這種細分析比簡單的總分排名更有價值。

6、透明化測試過程。公布詳細的測試方法、使用的工具、評分標準等。最好能夠讓其他人重複這個測試,驗證結果的可靠性。

五、幾分之差能說明什麽?

即使采用科學的測試方法,可能按分數排名還是並不科學。比如DeepSeek獲得143分、豆包獲得141分,這2分的差距是否真的說明DeepSeek比豆包更優秀呢?

在真正的高考中,競爭確實殘酷,幾分之差可能與理想院校失之交臂。然而,幾分的差距並不一定代表能力上的實質性差異。

因此,梯隊劃分比會精確排名更合理。

比如第一梯隊(135-150分)具備優秀的數學推理能力

第二梯隊(120-134分)具備良好的數學基礎能力

第三梯隊(105-119分)具備基本的數學計算能力

另外,智源研究院技術平台智能評測組負責人楊熙也提示說:“幾分的分差(尤其在高分段)難以體現真實的能力優劣,可能更多受參數設置、評分細節或答案格式影響。要全麵評估大模型的學科能力,需要結合錯題類型、題目難度、答題邏輯等細粒度分析,而不僅僅依賴於總分對比。”

看來,大模型趕考,僅看分數,很難封王。

  • 海外省錢快報,掌櫃推薦,實現買買買自由!
查看評論(0)
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小時熱點排行

美500軍人駐台 還要運送坦克! 解放軍 : 踩到紅線
被指跨越所有紅線,以色列對伊朗的突襲在急什麽?
唏噓!71歲伊萬遭解雇後深夜乘機離開中國
知名海鮮公司召回逾4.4萬磅染菌蝦肉 美加受影響
隱瞞以色列襲擊伊朗情報 美國正疏遠盟友變得孤立




24小時討論排行

伊朗最高領袖哈梅內伊:伊朗將徹底摧毀以色列
川普歡迎中國留學生,我卻想回國了
加州州長紐森首次公開表示“不排除參選總統”
“中國留學生對美國AI太重要,招再多印度生不管用”
讚雙方合作是典範!俄駐中大使:彼此是“無國界夥伴”
“墜毀得太快了”,印度空難原因是這個?
疑似伊朗導彈襲擊以色列特拉維夫,外媒曝光畫麵
排除鳥擊 印航空難調查集中於發動機推力、副翼等
一場中東大戰正進行中,最糟糕的還不是現在
11A座乘客為何奇跡生還?這或是最關鍵因素
皮特稱與兩子關係無法修複 ,引爆朱莉方激烈反擊
半年狂賺12億美元,特朗普的財富密碼是什麽?
以軍空襲目的不在於摧毀伊朗 而是將美國拖入衝突
馬斯克父親:你怎麽能反對中國人民呢?這太可笑了
羅帥宇的名字亮了,有人正在黑暗裏發抖
黃仁勳:人形機器人或成下個萬億產業 喊話華為
文學城新聞
切換到網頁版

人類高考“封王”的大模型,離真的“AI狀元”還有多遠?

騰訊科技 2025-06-11 20:53:58
人類高考“封王”的大模型,離真的“AI狀元”還有多遠?


2025年的高考剛結束,AI挑戰高考題的浪潮卻持續升溫。

DeepSeek、騰訊混元、訊飛星火、字節豆包、阿裏通義千問、百度文心等大模型紛紛被“請”進同款試卷的線上戰場,掀起了一波“AI 趕考”的刷屏熱潮,“千軍萬馬過獨木橋”的競賽在矽基世界中重演。

然而,不同評測團隊的試卷版本和OCR識別效果各不相同,可能連模型是否順利閱讀到答卷都有很大的不確定性,打分標準更是五花八門,單次的“高分”往往難以複現。

另外,高考是為篩選人才而設計的,它考查的不僅是知識掌握,更是時間壓力下的心理素質和臨場應變能力。

當我們用非標測試下的AI高考分數能力來評估大模型的能力,真的客觀嗎?單次的分數,又能否代表某個大模型的真實能力?

先說結論:

●用高考題這種標準化試題評測大模型的單科能力具有一定的客觀性和參考意義。但是成績高不等於大模型一定強,人類考試的分數標準並不適用於AI模型的能力評估標準。

●目前的"AI高考"測試普遍缺乏嚴謹性,測試環境和評分標準都不夠規範可信。

●評估大模型能力應使用專門設計的Benchmark。

●如果非要用“高考成績”看模型能力,應該看梯隊而非排名,幾分的差距不能充分代表能力差距。

一、“AI高考"如何考?

從目前已經公開的文章來看,“大模型趕考”一般會經曆以下兩個步驟:

第一步是給大模型輸入高考題,主要采用了以下幾種方法:

直接文本輸入:將題目以純文本形式輸入給大模型,讓模型給出答案。但是如果題目包含圖像,模型可能無法解題。

OCR轉換法:將圖片、掃描件或PDF文檔中的文字轉換為可編輯和可搜索的文本格式,再輸入給大模型。這種方法的準確性很大程度上依賴於OCR技術的質量,可能引入額外的誤差。

多模態輸入法:直接將包含文字和圖像的題目輸入給具備視覺能力的大模型。這種方法最接近人類考試的實際情況,但很多大語言模型還不具備這種能力。

人工轉寫:由人工將題目內容轉寫為標準文本格式。這種方法可以避免OCR錯誤,但可能在轉寫過程中丟失或改變原題的某些信息。

第二步,是進行評分,這個環節也有不同的機製:

最簡單的是標準答案對比法:將模型答案與標準答案進行對比,按照預設規則給分。這種方法相對客觀,但主觀題的評判還是會有偏差。

還有很多人邀請一線教師或教育專家對模型答案進行評分。這種方法的優勢是專業性強,但完全依賴人類高考的標準,存在主觀性和一致性問題。

多輪評分法:由多位專家獨立評分後取平均值。這種方法可以減少個體主觀性的影響,但評測成本較高,被采用比較少。

混合評分法:結合自動化評分和人工評分。對於有明確答案的題目使用自動評分,對於開放性題目使用人工評分。

給模型輸入題目的路徑方法五花八門,評分環節也有不同的機製,所以我們會發現同一個AI在不同媒體的測試中,分數往往不太一樣,排名也是千差萬別。

比如,讓AI做同一張數學全國卷一。下圖(上)是一位AI自媒體,用AI進行三輪答題,僅參考最終答案,按照答對的概率給模型評分,得出的得分排名。下圖(下)是我們用OCR轉化之後,取AI一輪答題結果,並請人類名師按照高考的標準進行評分後得到的結果。兩個結果大相徑庭,以豆包為例,右邊得分僅為75分,而左邊得分高達145分。





在評分標準中,我們特別注意到,為了結果的客觀性,有些測試讓 AI 在同一道題上連做數次,再取平均分。

這種做法僅僅可以說是相對科學。“多做幾遍再平均”可以降低隨機波動、在數值題上確實有用,但它幫不了模型糾正概念性錯誤。

大模型生成文字(更準確地說是“token”)的過程本質上是一次受概率分布控製的采樣:在生成每個 token 時,模型會對詞(或子詞)表中的所有候選賦予一個概率。當推理溫度 temperature 高於 0 時,模型不會總是選擇概率最高的那個候選,而是按概率進行隨機采樣。

已有實驗證明這一現象:在 GSM8K 等小學數學數據集上,讓同一大語言模型(例如 PaLM 540B)以相同提示重複回答同一題目 10 次,單次回答的正確率可在約50 %– 75 % 之間波動;若對這 10 條推理鏈進行多數投票(“自一致”策略),整體正確率可穩定提升至 75 % 以上。



圖:AI 模型在 GSM8K 算術推理基準上的“自一致”實驗——隨著對同一題目采樣的推理路徑數量從 3 增加到 30,模型(Cohere Command)的平均正確率穩定上升,而單一路徑的貪婪解碼(藍線)幾乎不變,清晰地展示了重複測試下的性能波動與收斂趨勢。

這種輸出的不確定性並非缺陷,而是生成式模型的技術特性,所以在評價這類具隨機性的係統時,應采用多次采樣、自一致投票或置信區間等方法,才能獲得更可靠、可複現的性能指標。

在不同的預設環境下,用不同的評測方式,加上大模型自身的技術特征,很多人並沒有進行多次答題采樣,最終的結果是“大模型考生”進考場N次,但是還是決定不了究竟誰能上“清北”。

二、高考題適合測試AI嗎?

那麽,讓AI做高考題究竟有意義嗎?

智源研究院技術平台智能評測組負責人楊熙對騰訊科技說:“用高考題評測大模型的單科能力具有一定的客觀性和參考意義,因為高考題標準化強、覆蓋知識麵廣,能初步反映模型在各學科的基本表現。

不過,高考題主要針對人類設計,模型可能利用大規模語料或答題技巧獲得高分,實際能力未必與分數嚴格對應,特別是在主觀題或知識應用方麵。“

上麵兩個對比不同的評分,主要的分數差別,就在主觀題。高考題目為人類設計,為了衡量學生在特定的階段(高中)對規定知識點的掌握與延展遷移能力。

主觀題的解答過程中會設置多個得分點,如果在解題過程中沒有覆蓋得分點,即使僅僅是答案正確,也不能得滿分。人類老師在點評AI數學試卷的時候,把大模型遺漏的得分點全部扣了分。

人類在考試的時候,不僅要考做得對,還要考思考路徑。雖然目前的推理大模型有看起來與人類類似的思考過程,但是“大模型“與”人腦“的思維本質完全不同。

因此,人類教師扣分標準也不適用於AI(如步驟分)。

LLM 在構建“知識結構”時,會同時吸收課本語料、學術論文、軟件代碼、網頁表格甚至帶字幕的圖像說明等多模態數據,因此它的“知識網”天然跨越小學算術到研究生數學的所有層級,並不是針對於高考的“高中”階段。

這種高度雜糅的語料庫帶來了一種被稱作“逆向(inverse)或 U-形縮放”現象:當模型規模增加、在預訓練目標上損失降低時,部分看似簡單的任務成績反而先下降後上升,或者長期停留在低位。用通俗但不是很嚴密的語言來解釋,就是在高難度任務上表現好,在低難度任務上反而出錯。

比如,早期 GPT-3 係列便曾在"如果一個數的平方是16,這個數是多少?"這樣的簡單問題上犯錯,它一般會隻回答"4"而忽略"-4",但它當時卻能夠正確處理更複雜的二次方程。

進一步分析這些錯誤,研究人員也發現大模型的數學能力常呈“島狀分布”:在單一技能上得分特別高,而難以解決多個概念串聯的綜合題。比如,當同時給出圖形與文字敘述時,多模態大模型的整體正確率顯著低於純文字的同等難度的題。

此外,大模型答題,有時體現的未必是“答題能力”,而是OCR 帶來的“識題能力”差異。

即便換成原生多模態大模型直接看圖答題,也難以徹底解決成像缺陷的問題。視覺編碼器首先要在特征空間“看懂”圖形,再交給語言解碼器推理;若圓因拍攝角度被拉成橢圓,或光照不均讓局部對比度驟降,模型就可能誤把曲線、關鍵點甚至題目文字識別錯位,隨後整條推理鏈都會被帶偏,導致整題全錯。



圖:經過不同程度的高斯噪聲、高斯模糊和低光照處理後的CIFAR-100示例圖像,同一張 CIFAR-100 裏的圖片,分別施加三種常見失真——高斯噪聲、模糊和低光照——並按強度分成三級。直觀可見,當圖像被模糊(第二行)或整體變暗(第三行)時,輪廓與細節迅速消失,這正是導致視覺-語言模型識別與後續推理出錯的典型場景。

對比之下,人類憑多年生物進化的感官經驗,能輕易識別這些視覺偏差,這正是當前AI 尚未彌合的感知-推理協同差距。

所以,人類的難題並不是大模型的難題,人類一眼就能解決的問題,對於大模型反而比“獲得博士學位”還難。所以,就如楊熙所說,“大模型”趕考能夠一定程度反映大模型在各個學科的基本表現,但是,人類的“高考題”可能並不適用於客觀評測AI的強弱。

三、科學的AI評測是什麽樣的?

那什麽樣的測試才算科學呢?

大模型評測可以一句話概括為:由模型開發方與第三方研究機構共同用公開基準在零/少樣本條件下比對分數,以快速衡量通識知識、推理、對話、多模態理解與安全魯棒性等關鍵能力。

大模型發布時通常由實驗室先給出內部自動跑分,再提交到公開排行榜或接受學術評審;同期,獨立學者、社區平台(Papers with Code、LMSYS)、以及企業安全審核團隊會複測並公開對比。評測默認零樣本或少樣本,避免微調泄漏,並采用統一腳本與隱藏測試集。業界最關注三大維度:知識-推理精度(能否答對多學科或複雜問題);交互與多模態能力(對話一致性、視覺-語言推理);安全與穩健性(偏見、毒性、對抗魯棒)。

一般大模型發布都會列出MMLU、BIG-bench、GSM8K、MATH、SuperGLUE、HellaSwag、TruthfulQA 及多模態 MMBench 或 VQA 的成績,以展示在通識、創造性推理、算術與競賽數學、深層語言理解、常識推斷、事實一致性和視覺-語言理解上的水平。



圖:常見大模型的BenchMark

在這些能力上的綜合得分水平,才是對大模型能力量身定製的“高考”。



圖: GPT-4.5、GPT-4o、Open AI o3-mini(high)的各項Benchmark分數對比

四、如果非要測試,怎樣做才最客觀?

雖然高考題並不能客觀評價大模型的綜合能力,但如果真的要做這樣的測試,比如設計一個Gaokao Benchmark,怎樣才能得到最客觀、最有含金量的結果呢?

1、多次重複測試是關鍵。既然AI的輸出有隨機性,那就不能隻測一次。科學的做法是讓每個AI重複做同一套題目至少5-10次,然後計算平均分和標準差。這樣能夠更準確地反映AI的真實能力水平,而不是某一次的"運氣"。

2、統一測試環境。不同的AI可能有不同的接口、不同的參數設置、不同的使用方式。為了公平比較,需要盡可能統一測試條件。比如,都使用相同的溫度參數(控製隨機性程度),都使用相同的輸入格式,都在相同的時間段進行測試。

3、題目處理要標準化。對於包含圖片的題目,應該統一使用高質量的OCR工具進行文字識別,或者統一使用多模態AI的視覺能力。不能有的AI看原圖,有的AI看OCR文字,這樣就不公平了。

4、評分標準要細化。不能簡單地按照傳統高考標準評分,而要考慮AI的特點。比如,如果AI用了一種非常規但正確的解題方法,人類應該認可。如果AI的答案在數值上正確但表述方式不同,也應該算對。

5、分科目分析更有意義。不要隻看總分排名,而要分別分析AI在不同科目、不同題型上的表現。比如,某個AI可能在代數題上很強,但在幾何題上較弱。這種細分析比簡單的總分排名更有價值。

6、透明化測試過程。公布詳細的測試方法、使用的工具、評分標準等。最好能夠讓其他人重複這個測試,驗證結果的可靠性。

五、幾分之差能說明什麽?

即使采用科學的測試方法,可能按分數排名還是並不科學。比如DeepSeek獲得143分、豆包獲得141分,這2分的差距是否真的說明DeepSeek比豆包更優秀呢?

在真正的高考中,競爭確實殘酷,幾分之差可能與理想院校失之交臂。然而,幾分的差距並不一定代表能力上的實質性差異。

因此,梯隊劃分比會精確排名更合理。

比如第一梯隊(135-150分)具備優秀的數學推理能力

第二梯隊(120-134分)具備良好的數學基礎能力

第三梯隊(105-119分)具備基本的數學計算能力

另外,智源研究院技術平台智能評測組負責人楊熙也提示說:“幾分的分差(尤其在高分段)難以體現真實的能力優劣,可能更多受參數設置、評分細節或答案格式影響。要全麵評估大模型的學科能力,需要結合錯題類型、題目難度、答題邏輯等細粒度分析,而不僅僅依賴於總分對比。”

看來,大模型趕考,僅看分數,很難封王。