簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 焦點新聞 » GPT-5.2性能爆表,但紅色警報沒有解除

GPT-5.2性能爆表,但紅色警報沒有解除

文章來源: 直麵AI 於 2025-12-11 19:12:23 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數



GPT-5.2性能爆表,但紅色警報沒有解除

就在剛剛,ChatGPT-5.2發布了。

這是OpenAI成立以來,首次發布紅色警報(Code Red)後的第一款產品。

雖然在時間上,GPT-5.2隻跟5.1相隔了一個月。但是從公布的性能數據來看,GPT-5.2較上一代提升巨大,而且遠超穀歌和Anthropic的同期產品。

然而OpenAI的紅色警報並未因此解除,這家公司仍處於危機之中。

究其原因,現在的市場已經逐漸開始對OpenAI祛魅,而是更冷靜地審視每一分算力背後的投入產出比。在這種前所未有的環境之下,OpenAI不僅需要證明自己是最強的,還需要證明自己不可被替代。

01

首先要說的,就是GPT-5.2的數學能力。

長期以來,業界普遍認為大語言模型雖然能寫代碼、能聊天,但在嚴格的數學推理上總是差強人意。這次GPT-5.2 Thinking在AIME 2025數學競賽中拿到了100%的滿分。



AIME是美國數學邀請賽,題目難度遠超普通高中數學,需要紮實的數學功底和靈活的解題思路。GPT-5.2能在這樣的測試中全部答對,說明它在數學推理上已經達到了相當高的水平。

在更高難度的FrontierMath測試中,GPT-5.2 Thinking解決了40.3%的專家級數學難題。這個測試專門針對前沿數學研究設計,許多題目連專業數學家都需要花費大量時間思考。能解決其中40%的問題,已經展現出在輔助科學研究方麵的潛力。

除了推理和數學,GPT-5.2在專業工作領域也表現突出。

在OpenAI新推出的GDPval基準測試中,GPT-5.2 Thinking在涵蓋44種職業的知識工作任務上,有70.9%的情況下擊敗或打平了頂尖行業專家。

這些任務包括製作演示文稿、構建複雜的財務模型、撰寫專業文檔等。OpenAI表示,它完成這些任務的速度是人類專家的11倍以上,成本卻不到1%。

在軟件工程方麵,GPT-5.2 Thinking在SWE-Bench Pro上達到55.6%的準確率,在SWE-bench Verified上達到80%。這些測試評估的是模型在真實代碼庫中修複bug、實現新功能的能力。

早期測試者反饋,它在前端開發和複雜UI實現上尤其出色,甚至能夠根據一條提示就生成包含3D效果和物理模擬的完整應用。

GPT-5.2在長文檔理解上也有明顯進步。在OpenAI的MRCRv2測試中,它成為首個在256k token長度下,針對4-needle變體任務達到近乎100%準確率的模型。

這意味著用戶可以上傳數百頁的報告、合同或研究論文,模型仍能準確理解分散在不同位置的相關信息,並進行綜合分析。



在視覺理解方麵,GPT-5.2的錯誤率在圖表推理和軟件界麵理解任務上幾乎減半。它對圖像中物體的空間位置有了更準確的把握。

OpenAI展示了一個例子:即使輸入一張模糊的主板照片,GPT-5.2也能準確識別出各個組件的位置並標注邊界框,而前代模型隻能識別出少數部分且位置偏差較大。



此次發布包含三個版本。GPT-5.2 Instant定位為日常工作的快速助手,適合信息查詢、技術寫作和翻譯等任務。GPT-5.2 Thinking專注於深度推理,在編程、數據分析和複雜文檔處理上表現最佳,是專業工作的首選。GPT-5.2 Pro則是最智能的版本,適合那些"值得等待高質量答案"的高難度問題。

同時這次發布最引人注目的,不僅是模型本身的能力提升,更是一個令人驚訝的效率數據:在ARC-AGI-1測試中,GPT-5.2 Pro實現了約390倍的效率改進。

一年前,OpenAI曾驗證過一個未發布的o3預覽版本,在ARC-AGI-1測試中達到88%的準確率,但每個任務的成本約為4500美元。如今,GPT-5.2 Pro不僅將準確率提升至90.5%,還將單任務成本降至11.64美元。這種量級的效率提升,意味著原本隻能在實驗室中演示的能力,現在有可能真正走向實際應用。



ARC-AGI測試被設計用來衡量抽象推理能力,它要求模型在麵對從未見過的模式時,仍能找出規律並給出答案。這種能力接近人類所謂的“舉一反三”。

GPT-5.2 Pro在ARC-AGI-1驗證集上的表現,使其成為首個突破90%門檻的模型。在難度更高的ARC-AGI-2上,GPT-5.2 Thinking也達到了52.9%的準確率,創下了鏈式思維模型的新紀錄。

02

GPT-5.2是奧特曼啟動Code Red後的一次強有力證明,但競爭的結果不會由單一基準測試決定。真正的較量在於誰能更好地理解用戶需求,誰能在保持技術領先的同時控製成本,誰能在不同應用場景中提供更可靠的服務。

一個來自GitHub的開源基準測試給出了答案。在lechmazur維護的NYT Connections測試中,GPT-5.2的表現並不如預期。



NYT Connections是《紐約時報》推出的一個文字遊戲,要求玩家從16個詞語中找出四組相關的詞匯。這個測試被設計成了一個LLM基準,通過加入額外的幹擾詞來增加難度,目前包含759個謎題。這種測試考察的是模型對語言的細微理解、聯想能力和分類推理。

在這個排行榜上,Gemini 3 Pro Preview以96.8%的準確率位居第一。緊隨其後的是xAI的Grok4.1 Fast Reasoning,準確率為93.5%。OpenAI的模型中,表現最好的是GPT-5 Pro,準確率為83.9%,排在第八位。GPT-5.2在高推理模式下的準確率為77.9%,排名第11位。

這個結果多少有些出人意料。GPT-5.2在數學競賽中能拿滿分,在專業工作任務中能超越人類專家,但在這個看似簡單的文字遊戲上,卻落後於競爭對手近20個百分點。

深入分析會發現,這並不是簡單的性能問題。NYT Connections測試的是模型對語言文化背景的理解,對詞語之間隱含關聯的把握,以及在多個可能性中做出合理選擇的能力。

比如BANK、INTEREST、RATE、LOAN可能組成金融類別,也可能BANK與SHORE、BEACH、COAST組成河岸類別。

模型需要同時考慮多個維度的關聯,並找到最合理的分組方式。

Gemini 3 Pro在這個測試上的領先,說明穀歌在語言理解的某些維度上確實有獨到之處。Grok係列模型的表現也值得注意,xAI雖然起步較晚,但在特定任務上已經展現出競爭力。

有趣的是,測試數據還顯示,在最新的100個謎題中,各模型的排名基本保持一致,這說明訓練數據汙染的可能性不大。模型之間的差距是實質性的,而非來自對題目的記憶。

這個測試的存在,給AI社區提供了一個更全麵的視角。模型能力的評估不應該隻看幾個主流基準測試,也需要關注那些看似邊緣但實則反映深層能力的測試。

NYT Connections考察的聯想和分類能力,在實際應用中同樣重要,比如在信息檢索、內容推薦、知識圖譜構建等場景中。

從這個角度看,奧特曼的Code Red警報確實還不能解除。雖然GPT-5.2在很多領域表現出色,但它並沒有在所有維度上都取得領先。競爭對手在某些方向上依然保持著優勢,甚至在擴大差距。

03

技術競爭最終要落到商業層麵。OpenAI在市場上的處境,比技術指標的對比要複雜得多。

從定價策略來看,GPT-5.2在API層麵的價格定在每百萬輸入token 1.75美元,每百萬輸出token 14美元,比前代GPT-5.1分別貴了40%。

GPT-5.2 Pro價格也提高了,每百萬輸入token 21美元,每百萬輸出token 168美元。



這個漲價幅度不小,OpenAI的解釋是新模型能力更強,性價比實際上更高。但對於大量調用API的開發者來說,成本的增加是實實在在的。

相較之下,Gemini 3 Pro的核心型號為gemini-3-pro-preview,其token定價按上下文窗口長度區分,提示詞≤20 萬 token 時,輸入每百萬token 2美元、輸出每百萬token 12美元,提示詞>20萬token時,輸入和輸出價格分別翻倍至每百萬token 4美元和18美元。

Claude 方麵,最新的 Opus 4.5定價大幅下調,輸入每百萬token 5美元、輸出每百萬token 25美元,相比前代降幅約2/3,上下文窗口為200K token,且無長上下文加價情況。

當競爭對手們如Gemini和Claude都在通過大幅降價,試圖讓AI變成像水電一樣廉價的基礎設施時,OpenAI 卻反其道而行之,不僅沒有參與價格戰,反而坦然地掛出了高昂的價格標簽。這隻能說明一件事:奧特曼正在試圖把 GPT 變成一件“奢侈品”。

在商業邏輯中,奢侈品的定義往往不在於“有用”,而在於“稀缺”和“極致”。OpenAI 正在賭,賭這個世界上存在一部分最高端的智力需求,它們對價格不敏感,但對質量有著近乎偏執的要求。

對於這部分用戶,隻要能提供那個唯一的、最正確的答案,168美元的價格不僅不貴,反而是一種身份和能力的篩選。

這或許才是“紅色警報”在商業層麵的真正回響。它不再是擔心落後,而是擔心平庸。

OpenAI正在進行一場危險的博弈:它試圖通過高價策略,將自己與“普通 AI”徹底區隔開來,建立起類似愛馬仕或蘋果那樣的品牌護城河。

但這也意味著,它從此失去了“差不多就行”的容錯空間。可問題就在於一旦這件昂貴的“奢侈品”在實際體驗中無法提供碾壓式的優越感,那麽用戶轉身離開的速度。

況且,能挽救OpenAI的遠不止一個高性能的模型那麽簡單,奧特曼現在需要的,是一個足夠動人的新故事。

  • 海外省錢快報,掌櫃推薦,實現買買買自由!
查看評論(0)
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小時熱點排行

21歲挪威公主驚豔回歸 網友:像年輕的凱特王妃
瑞典王妃卷入愛潑斯坦醜聞 當內衣模特時多次赴約
驚險逃亡!諾貝爾和平獎得主「喬裝闖關」抵挪威
關鍵時刻,特朗普、馬克龍、斯塔默、默茨通話
範曾添幼子 與兒女“斷絕關係” 家庭和藝術資產再整合




24小時討論排行

前美國總統助理:特朗普不會為台開戰 三年後再看
川貝枇杷膏紅遍西方 《經濟學人》:銷美售價貴3倍
G7峰會邀習近平出席? 日本要法國“謹慎處理”
中國再提醒公民避免赴日本!理由變"恐有更大地震"
家族清洗遠非簡單的“父子反目” 範曾嫩妻贏在哪?
美國或要求:外國遊客入境前提供五年社交媒體紀錄
高市早苗內閣高官曝醜聞 外相挪政治資金買奢侈品
紐約時報:國際貨幣基金組織表示中國應允許人民幣升值
美國正式啟動金卡移民,非公民付巨款快速獲居留許可證
研究:俄烏戰爭讓全球軍火公司賺了多少錢?
毒死小狗獲刑4年,Papi媽媽漫長的追凶
中國女博士與兩月大女兒在德國遭殺害 使館通報
德總理梅爾茨:烏克蘭領土讓步提案已交川普
美媒探訪內蒙古:AI競賽,中國握有一張“王牌”
特朗普批準對中國出售英偉達芯片是"瘋狂的決定"?
每人每月發1.7萬元、向富豪征稅,該國人民都拒絕了
文學城新聞
切換到網頁版

GPT-5.2性能爆表,但紅色警報沒有解除

直麵AI 2025-12-11 19:12:23



GPT-5.2性能爆表,但紅色警報沒有解除

就在剛剛,ChatGPT-5.2發布了。

這是OpenAI成立以來,首次發布紅色警報(Code Red)後的第一款產品。

雖然在時間上,GPT-5.2隻跟5.1相隔了一個月。但是從公布的性能數據來看,GPT-5.2較上一代提升巨大,而且遠超穀歌和Anthropic的同期產品。

然而OpenAI的紅色警報並未因此解除,這家公司仍處於危機之中。

究其原因,現在的市場已經逐漸開始對OpenAI祛魅,而是更冷靜地審視每一分算力背後的投入產出比。在這種前所未有的環境之下,OpenAI不僅需要證明自己是最強的,還需要證明自己不可被替代。

01

首先要說的,就是GPT-5.2的數學能力。

長期以來,業界普遍認為大語言模型雖然能寫代碼、能聊天,但在嚴格的數學推理上總是差強人意。這次GPT-5.2 Thinking在AIME 2025數學競賽中拿到了100%的滿分。



AIME是美國數學邀請賽,題目難度遠超普通高中數學,需要紮實的數學功底和靈活的解題思路。GPT-5.2能在這樣的測試中全部答對,說明它在數學推理上已經達到了相當高的水平。

在更高難度的FrontierMath測試中,GPT-5.2 Thinking解決了40.3%的專家級數學難題。這個測試專門針對前沿數學研究設計,許多題目連專業數學家都需要花費大量時間思考。能解決其中40%的問題,已經展現出在輔助科學研究方麵的潛力。

除了推理和數學,GPT-5.2在專業工作領域也表現突出。

在OpenAI新推出的GDPval基準測試中,GPT-5.2 Thinking在涵蓋44種職業的知識工作任務上,有70.9%的情況下擊敗或打平了頂尖行業專家。

這些任務包括製作演示文稿、構建複雜的財務模型、撰寫專業文檔等。OpenAI表示,它完成這些任務的速度是人類專家的11倍以上,成本卻不到1%。

在軟件工程方麵,GPT-5.2 Thinking在SWE-Bench Pro上達到55.6%的準確率,在SWE-bench Verified上達到80%。這些測試評估的是模型在真實代碼庫中修複bug、實現新功能的能力。

早期測試者反饋,它在前端開發和複雜UI實現上尤其出色,甚至能夠根據一條提示就生成包含3D效果和物理模擬的完整應用。

GPT-5.2在長文檔理解上也有明顯進步。在OpenAI的MRCRv2測試中,它成為首個在256k token長度下,針對4-needle變體任務達到近乎100%準確率的模型。

這意味著用戶可以上傳數百頁的報告、合同或研究論文,模型仍能準確理解分散在不同位置的相關信息,並進行綜合分析。



在視覺理解方麵,GPT-5.2的錯誤率在圖表推理和軟件界麵理解任務上幾乎減半。它對圖像中物體的空間位置有了更準確的把握。

OpenAI展示了一個例子:即使輸入一張模糊的主板照片,GPT-5.2也能準確識別出各個組件的位置並標注邊界框,而前代模型隻能識別出少數部分且位置偏差較大。



此次發布包含三個版本。GPT-5.2 Instant定位為日常工作的快速助手,適合信息查詢、技術寫作和翻譯等任務。GPT-5.2 Thinking專注於深度推理,在編程、數據分析和複雜文檔處理上表現最佳,是專業工作的首選。GPT-5.2 Pro則是最智能的版本,適合那些"值得等待高質量答案"的高難度問題。

同時這次發布最引人注目的,不僅是模型本身的能力提升,更是一個令人驚訝的效率數據:在ARC-AGI-1測試中,GPT-5.2 Pro實現了約390倍的效率改進。

一年前,OpenAI曾驗證過一個未發布的o3預覽版本,在ARC-AGI-1測試中達到88%的準確率,但每個任務的成本約為4500美元。如今,GPT-5.2 Pro不僅將準確率提升至90.5%,還將單任務成本降至11.64美元。這種量級的效率提升,意味著原本隻能在實驗室中演示的能力,現在有可能真正走向實際應用。



ARC-AGI測試被設計用來衡量抽象推理能力,它要求模型在麵對從未見過的模式時,仍能找出規律並給出答案。這種能力接近人類所謂的“舉一反三”。

GPT-5.2 Pro在ARC-AGI-1驗證集上的表現,使其成為首個突破90%門檻的模型。在難度更高的ARC-AGI-2上,GPT-5.2 Thinking也達到了52.9%的準確率,創下了鏈式思維模型的新紀錄。

02

GPT-5.2是奧特曼啟動Code Red後的一次強有力證明,但競爭的結果不會由單一基準測試決定。真正的較量在於誰能更好地理解用戶需求,誰能在保持技術領先的同時控製成本,誰能在不同應用場景中提供更可靠的服務。

一個來自GitHub的開源基準測試給出了答案。在lechmazur維護的NYT Connections測試中,GPT-5.2的表現並不如預期。



NYT Connections是《紐約時報》推出的一個文字遊戲,要求玩家從16個詞語中找出四組相關的詞匯。這個測試被設計成了一個LLM基準,通過加入額外的幹擾詞來增加難度,目前包含759個謎題。這種測試考察的是模型對語言的細微理解、聯想能力和分類推理。

在這個排行榜上,Gemini 3 Pro Preview以96.8%的準確率位居第一。緊隨其後的是xAI的Grok4.1 Fast Reasoning,準確率為93.5%。OpenAI的模型中,表現最好的是GPT-5 Pro,準確率為83.9%,排在第八位。GPT-5.2在高推理模式下的準確率為77.9%,排名第11位。

這個結果多少有些出人意料。GPT-5.2在數學競賽中能拿滿分,在專業工作任務中能超越人類專家,但在這個看似簡單的文字遊戲上,卻落後於競爭對手近20個百分點。

深入分析會發現,這並不是簡單的性能問題。NYT Connections測試的是模型對語言文化背景的理解,對詞語之間隱含關聯的把握,以及在多個可能性中做出合理選擇的能力。

比如BANK、INTEREST、RATE、LOAN可能組成金融類別,也可能BANK與SHORE、BEACH、COAST組成河岸類別。

模型需要同時考慮多個維度的關聯,並找到最合理的分組方式。

Gemini 3 Pro在這個測試上的領先,說明穀歌在語言理解的某些維度上確實有獨到之處。Grok係列模型的表現也值得注意,xAI雖然起步較晚,但在特定任務上已經展現出競爭力。

有趣的是,測試數據還顯示,在最新的100個謎題中,各模型的排名基本保持一致,這說明訓練數據汙染的可能性不大。模型之間的差距是實質性的,而非來自對題目的記憶。

這個測試的存在,給AI社區提供了一個更全麵的視角。模型能力的評估不應該隻看幾個主流基準測試,也需要關注那些看似邊緣但實則反映深層能力的測試。

NYT Connections考察的聯想和分類能力,在實際應用中同樣重要,比如在信息檢索、內容推薦、知識圖譜構建等場景中。

從這個角度看,奧特曼的Code Red警報確實還不能解除。雖然GPT-5.2在很多領域表現出色,但它並沒有在所有維度上都取得領先。競爭對手在某些方向上依然保持著優勢,甚至在擴大差距。

03

技術競爭最終要落到商業層麵。OpenAI在市場上的處境,比技術指標的對比要複雜得多。

從定價策略來看,GPT-5.2在API層麵的價格定在每百萬輸入token 1.75美元,每百萬輸出token 14美元,比前代GPT-5.1分別貴了40%。

GPT-5.2 Pro價格也提高了,每百萬輸入token 21美元,每百萬輸出token 168美元。



這個漲價幅度不小,OpenAI的解釋是新模型能力更強,性價比實際上更高。但對於大量調用API的開發者來說,成本的增加是實實在在的。

相較之下,Gemini 3 Pro的核心型號為gemini-3-pro-preview,其token定價按上下文窗口長度區分,提示詞≤20 萬 token 時,輸入每百萬token 2美元、輸出每百萬token 12美元,提示詞>20萬token時,輸入和輸出價格分別翻倍至每百萬token 4美元和18美元。

Claude 方麵,最新的 Opus 4.5定價大幅下調,輸入每百萬token 5美元、輸出每百萬token 25美元,相比前代降幅約2/3,上下文窗口為200K token,且無長上下文加價情況。

當競爭對手們如Gemini和Claude都在通過大幅降價,試圖讓AI變成像水電一樣廉價的基礎設施時,OpenAI 卻反其道而行之,不僅沒有參與價格戰,反而坦然地掛出了高昂的價格標簽。這隻能說明一件事:奧特曼正在試圖把 GPT 變成一件“奢侈品”。

在商業邏輯中,奢侈品的定義往往不在於“有用”,而在於“稀缺”和“極致”。OpenAI 正在賭,賭這個世界上存在一部分最高端的智力需求,它們對價格不敏感,但對質量有著近乎偏執的要求。

對於這部分用戶,隻要能提供那個唯一的、最正確的答案,168美元的價格不僅不貴,反而是一種身份和能力的篩選。

這或許才是“紅色警報”在商業層麵的真正回響。它不再是擔心落後,而是擔心平庸。

OpenAI正在進行一場危險的博弈:它試圖通過高價策略,將自己與“普通 AI”徹底區隔開來,建立起類似愛馬仕或蘋果那樣的品牌護城河。

但這也意味著,它從此失去了“差不多就行”的容錯空間。可問題就在於一旦這件昂貴的“奢侈品”在實際體驗中無法提供碾壓式的優越感,那麽用戶轉身離開的速度。

況且,能挽救OpenAI的遠不止一個高性能的模型那麽簡單,奧特曼現在需要的,是一個足夠動人的新故事。