簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 焦點新聞 » 一文讀懂GPT-5.2:直指“經濟價值”

一文讀懂GPT-5.2:直指“經濟價值”

文章來源: 騰訊科技 於 2025-12-11 23:27:59 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數

北京時間12月12日淩晨,OpenAI把發布的GPT-5.2定義為“迄今為止功能最強大的專業知識工作模型係列”。

OpenAI給出的官方文檔明確指出,GPT-5.2 的設計初衷在於“創造更大的經濟價值”。相較前代,它在電子表格處理、演示文稿製作、代碼編寫、圖像感知、長文本理解及複雜多步項目執行等方麵,均實現了全麵性能躍升。

為了驗證其在真實業務環境中的價值,OpenAI引入了GDPval基準測試,該測試覆蓋了9大行業、44類職業的1320個真實業務場景。官方數據顯示,GPT-5.2 Pro在高達74.1%的任務中表現超越或持平人類專家。

多家早期合作企業,如Notion、Databricks和Cognition,也從測試中觀察到模型在長鏈條推理、數據分析和代碼審查等任務中的錯誤率顯著下降,一致性與穩定性得到明顯改善,使其更適合作為“公司級智能體”的核心引擎。

就在一周多前,奧特曼在給員工的私人信息中宣布進入“紅色警戒”狀態,調集更多資源投入 ChatGPT。行業對於GPT-5.2的預期為,硬剛Gemini 3,奪回SOTA。但是,這次GPT-5.2的發布,並沒有看出“應戰”的火藥味和心虛的“不服感”。

Gemini 3 被 Google 定義為“新一代智能時代的起點”,核心是多模態推理 + 代理能力 + 搜索和 Workspace 場景的深度融合。而GPT-5.2清晰明確指向專業知識場景,強調“經濟價值”,定位區別清晰。

GPT-5.2的官方說明文檔讀下來,整體感覺是,有點無聊,但OpenAI更有商業戰略定力了。

一文讀懂GPT-5.2:直指“經濟價值”

OpenAI應用業務首席執行官菲吉·西莫(Fidji Simo)在新聞發布會上也表示:“我們宣布了‘紅色警報’,旨在向公司發出明確信號,即我們希望將資源集中在一個特定領域,這也是界定公司優先事項的一種方式。”

西莫同時否認了GPT-5.2係列模型的發布是受“紅色警報”行動影響而匆忙提前的,她強調,公司為這款新模型的發布已經進行了數月的準備工作。

在經曆了數月準備後推出的GPT-5.2,核心看點完全圍繞著“創造更大的經濟價值“展開:

●三級模型矩陣: 推出 Instant(極速)、Thinking(深度思考)、Pro(最強解難) 三個版本,以滿足從日常輕量對話到複雜科研的不同需求。

●“打工人”實戰能力質變: 基於全新的 GDPval 基準,GPT-5.2 Pro 在 74.1% 的真實職業任務(如投行建模、PPT製作)中勝過或持平人類專家,效率提升 11 倍,標誌著從“對話”轉向“交付”。注:GDPval主要通過直接測試模型在各行各業真實工作任務中的表現來衡量其性能,覆蓋美國GDP前九大產業中的44個關鍵職業領域,從軟件開發、法律到醫療護理和機械工程,涵蓋了對經濟至關重要的專業場景。



●邏輯與推理的“封頂”表現: 數學能力在 AIME 2025 中拿下滿分(100%),並在 ARC-AGI-1 抽象推理測試中首次突破 90%,展示了恐怖的通用智能水平。

●Agentic Coding 的飛躍: 在更難的 SWE-Bench Pro代碼測試中顯著提升,被開發者評價為“自 GPT-5 以來最大的智能躍升”,尤其擅長複雜的多步驟工具調用和長流程任務。

●“完美”的超長上下文: 解決了“大海撈針”的痛點,在 256k長度下的多信息點檢索(4-needle)準確率接近 100%,配合更強的視覺空間理解能力,大幅提升了處理長文檔和複雜圖表的可靠性。



01 包含三款模型,比GPT-5.1更貴了

本次發布包含三款模型:GPT-5.2 Instant(優化響應速度)、GPT-5.2 Thinking(深度推理)、GPT-5.2 Pro(高端版本)。

Instant主要用於日常任務處理,主打速度與輕量推理;Thinking用於深度邏輯推理與複雜項目,更適用於企業工作流;Pro麵向研究與最高質量輸出,推理鏈條最強、錯誤率最低。

OpenAI 選擇了“比 5.1 昂貴、但仍低於其他前沿模型”的策略,為GPT-5.2係列模型推出分層API定價策略。

其中GPT-5.2 Instant與GPT-5.2 Thinking采用統一計費標準,輸入單價為每百萬tokens 1.75美元,輸出單價為每百萬tokens 14美元;高端版本 GPT-5.2 Pro定價更高,輸入單價達每百萬tokens 21美元,輸出單價為每百萬tokens 168美元。

盡管Pro等高端版本的單次token單價更高,但OpenAI強調,GPT-5.2係列在真實智能體任務中具備更高的token使用效率,因此在部分企業場景中,完成同等質量任務的整體成本反而可能降低。官方同時說明,Pro版本在實際使用中能顯著減少“推理廢話”,輸出內容更緊湊精煉,這一特性也將進一步幫助用戶控製使用費用。



GPT-5.2係列模型的定價

同時,ARC Prize(ARC-AGI)被業界公認為目前最難、也是最能體現 AI “通用智能(AGI)”水平的基準測試。根據Arc Prize的測算,GPT-5.2的性價比繼續提升,一年內效率提升了約390倍。



GPT-5.2係列已向Plus、Pro、Edu、Business、Enterprise用戶陸續開放,並同步上線API。麵向工程與程序員群體的GPT-5.2 Codex將在未來數周內推出,進一步針對編程任務做專項優化。

02 核心直指專業知識工作與企業級應用的能力提升

GPT-5.2係列模型的核心定位是“提升專業工作效率”與“增強長期任務一致性”。根據官方披露的數據,GPT-5.2係列模型在多項關鍵評估基準上取得了當前公開模型中的最高成績。



圖:GPT-5.2基準評測概覽

OpenAI官方表示,GPT-5.2聚焦於提升企業用戶的專業工作流效率,包括表格處理、演示文稿生成、代碼編寫、圖像理解、工具調用、多文件工程任務處理等能力。GPT-5.2的文本生成結構相較以往更清晰,邏輯鏈條更穩定,特別是在軟件說明文檔、技術手冊生成、長篇報告編寫等領域,模型內部的“結構化寫作傾向”更加明顯。



圖:GPT-5.1、GPT-5.2製表效果對比

GPT-5.2 Thinking在麵向專業知識與實際工作的GDPval任務集中達到了可與行業平均專業人員相匹敵的水準,在所有對比任務中“勝出或持平”的占比達到70.9%。在等效任務中,GPT-5.2 Thinking 的完成速度超過專業人士11倍以上,同時成本低於1%。



在真實企業環境中,多家早期合作夥伴測試表明模型在複雜推理鏈條與工具調用一致性上實現明顯改進:

Notion、Box、Shopify:觀察到更穩健的長鏈條推理,在複雜界麵和數據庫操作中錯誤率下降。

Databricks、Hex:數據智能體任務的 SQL/數據分析鏈路顯著更一致。

Cognition、Warp:認為其代碼審查和定位缺陷能力達到當前模型的領先水平。

此外,OpenAI特別強調GPT-5.2在“多工具編排任務”中表現更穩定,能夠在單次會話中處理二十多個工具調用步驟,並在係統提示(system prompt)顯著簡化的情況下維持高一致性。這一點使其更適合作為“公司級智能體核心大腦”。

03 編碼、事實性與長文本處理全麵進步,支撐企業複雜開發需求

為了支撐企業級的複雜開發需求,GPT-5.2 Thinking在軟件工程能力上實現了飛躍。

GPT-5.2 Thinking在SWE-Bench Pro嚴格評測中取得55.6%準確率,在Python專項SWE-Bench Verified評測中達到 80%。這意味著GPT-5.2在自動化調試生產係統、重構大型代碼庫、理解遺留係統以及處理複雜功能需求方麵,已接近部分自動化代碼助手的可部署標準。



圖:GPT-5.2 Thinking在SWE-Bench Pro的跑分

GPT-5.2在前端開發(尤其是現代 UI、WebGL/Three.js、複雜 3D 界麵)方麵也加入了專門優化,提升了對組件結構、事件綁定和布局邏輯的理解能力。



圖:GPT-5.2 Thinking在匿名真實查詢集合上的錯誤率降低

在事實性方麵,GPT-5.2 Thinking在匿名真實查詢集合上的錯誤率相較上一代下降約30%。OpenAI強調,GPT-5.2在麵對模糊或信息不完整的查詢時,會更主動給出依據來源或使用結構化推理路徑,以降低誤導性回答的概率。



圖:GPT-5.2 Thinking在長上下文推理方麵的表現

在長上下文推理方麵,GPT-5.2 Thinking支持最高256k tokens輸入,並在“四針(4-needle)”檢索任務中實現接近100%準確率,超過已有商用模型的水平。

該模型還在長文檔問答、合同審查、多文件工程跨引用等任務中表現出更高穩定性。若任務長度超過上下文窗口,模型可配合Responses/compact接口,通過“摘要性迭代檢索”進一步擴展可處理規模。

04 智能體工具調用與視覺理解大幅增強



企業工作流往往涉及跨係統的複雜操作。在智能體任務方麵,GPT-5.2 Thinking在Tau2-bench Telecom多輪客服任務的工具調用測試中取得98.7%完成度,該評測覆蓋訂票、退款、延誤補償、物品遺失與跨係統調度等場景,反映其可承擔更高自治度的流程任務。

OpenAI表示,GPT-5.2的“工具決策粒度”更加穩定,推理鏈條更可控,在連續20~40步的任務中不易出現跳步、誤調用或不必要調用等問題,使其更適合作為長流程自動化智能體(Autonomous Agent)的執行核心。



圖:在CharXiv(科研圖表推理)中準確率提升約8個百分點

在視覺能力方麵,GPT-5.2 Thinking的圖表推理和界麵理解能力顯著增強。其軟件界麵識別錯誤率減少約一半,在CharXiv(科研圖表推理)中準確率提升約8個百分點。OpenAI同時對模型加入了大規模軟件 UI數據訓練,使其更準確理解控件、菜單層級與界麵邏輯關係。



圖:GPT-5.2 Thinking在圖像中元素的位置把握上更強

與之前的模型相比,GPT-5.2 Thinking在圖像中元素的位置把握上更強,這有助於解決相對布局在問題中起關鍵作用的任務。在示例中,即使是低質量的圖像,GPT-5.2也能識別出主要區域,並放置大致與每個組件真實位置相符的框,而GPT-5.1僅能標注少數幾個部分,並且對它們的空間排列理解明顯較弱。

05 科學推理、數學能力與抽象智能的進展



圖:GPT-5.2 Pro在GPQA Diamond中的表現

GPT-5.2 Pro在GPQA Diamond(研究生難度的大規模科學知識測試)中取得93.2%準確率,在現有同行測試中位居前列。



圖:GPT-5.2 Thinking在FrontierMath測試中的表現

在FrontierMath(涵蓋多步驟數學推理及高難度證明問題)中,GPT-5.2 Thinking取得40.3%正確率,相較上一代有顯著提升。OpenAI披露,一支科研團隊已使用GPT-5.2 Pro協助探索統計學習理論中的一個開放問題,模型提出的證明在後續人工審核中被證實成立。

在ARC-AGI係列評測方麵,GPT-5.2 Thinking在ARC-AGI-2(Verified)中從上一代的17.6%提升至52.9%,被視為該模型在“抽象智能”“非模式記憶”“類比推理能力”上的重要進展。GPT-5.2 Pro在 ARC-AGI-1中也超過90%,成為首個達成該水平的主流模型。



圖:心理健康評估

在安全策略方麵,GPT-5.2 延續“safe completion”訓練框架,重點強化心理健康、風險傾向、敏感身份類對話場景的表現。OpenAI還正式宣布開始部署年齡預測係統,可在疑似未成年用戶使用模型時自動切換到受限模式與額外安全過濾。

06 寫在最後

在發完幾條“兜售”GPT-5.2的帖子之後,Sam Altman還發布了一條“情緒價值貼”——過去的十年十分精彩;在OpenAI工作比我想象的還要特別。和一條彩蛋帖“下周我們還會送您一些小小的聖誕禮物”,暗示可能還有新的模型(產品)發布。



就在幾個小時前,OpenAI 獲得迪士尼10 億美元的投資意向。ChatGPT以後可以理直氣壯的合成“米老鼠”了。

ChatGPT火爆三年後,SOTA模型不斷刷新Benchmark已經不能帶給行業興奮點,但是每次OpenAI更新新模型的情緒價值仍在。

同時,這家站在AGI浪尖的獨角獸,必須開始背負更多的商業期待,也要解決一個又一個現實中的“米老鼠問題”。

  • 海外省錢快報,掌櫃推薦,實現買買買自由!
查看評論(0)
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小時熱點排行

瑞典王妃卷入愛潑斯坦醜聞 當內衣模特時多次赴約
川貝枇杷膏紅遍西方 《經濟學人》:銷美售價貴3倍
G7峰會邀習近平出席? 日本要法國“謹慎處理”
德總理梅爾茨:烏克蘭領土讓步提案已交川普
中國軍方:美新版國安戰略是霸權主義降本增效指南




24小時討論排行

前美國總統助理:特朗普不會為台開戰 三年後再看
毒死小狗獲刑4年,Papi媽媽漫長的追凶
特朗普百萬美元“黃金卡”簽證計劃正式啟動了!
範曾添幼子 與兒女“斷絕關係” 家庭和藝術資產再整合
不開玩笑,《流星花園》確實是一部懷念明朝的作品
郭沫若書法作品《蜀道奇》800萬元起拍!女兒報案
家族清洗遠非簡單的“父子反目” 範曾嫩妻贏在哪?
美媒探訪內蒙古:AI競賽,中國握有一張“王牌”
美國或要求:外國遊客入境前提供五年社交媒體紀錄
《紅樓夢》不是曹雪芹寫的?專家回應
一個神秘北歐社區,讓資本主義失效
中國女博士與兩月大女兒在德國遭殺害 使館通報
泰柬兩軍在13條戰線上交戰 泰總理:願意和川普溝通
高市早苗內閣高官曝醜聞 外相挪政治資金買奢侈品
國道重啟收費,地方政府也是沒辦法了
香港宏福苑大火已被撲滅,但漫長的哀傷才剛剛開始
文學城新聞
切換到網頁版

一文讀懂GPT-5.2:直指“經濟價值”

騰訊科技 2025-12-11 23:27:59

北京時間12月12日淩晨,OpenAI把發布的GPT-5.2定義為“迄今為止功能最強大的專業知識工作模型係列”。

OpenAI給出的官方文檔明確指出,GPT-5.2 的設計初衷在於“創造更大的經濟價值”。相較前代,它在電子表格處理、演示文稿製作、代碼編寫、圖像感知、長文本理解及複雜多步項目執行等方麵,均實現了全麵性能躍升。

為了驗證其在真實業務環境中的價值,OpenAI引入了GDPval基準測試,該測試覆蓋了9大行業、44類職業的1320個真實業務場景。官方數據顯示,GPT-5.2 Pro在高達74.1%的任務中表現超越或持平人類專家。

多家早期合作企業,如Notion、Databricks和Cognition,也從測試中觀察到模型在長鏈條推理、數據分析和代碼審查等任務中的錯誤率顯著下降,一致性與穩定性得到明顯改善,使其更適合作為“公司級智能體”的核心引擎。

就在一周多前,奧特曼在給員工的私人信息中宣布進入“紅色警戒”狀態,調集更多資源投入 ChatGPT。行業對於GPT-5.2的預期為,硬剛Gemini 3,奪回SOTA。但是,這次GPT-5.2的發布,並沒有看出“應戰”的火藥味和心虛的“不服感”。

Gemini 3 被 Google 定義為“新一代智能時代的起點”,核心是多模態推理 + 代理能力 + 搜索和 Workspace 場景的深度融合。而GPT-5.2清晰明確指向專業知識場景,強調“經濟價值”,定位區別清晰。

GPT-5.2的官方說明文檔讀下來,整體感覺是,有點無聊,但OpenAI更有商業戰略定力了。

一文讀懂GPT-5.2:直指“經濟價值”

OpenAI應用業務首席執行官菲吉·西莫(Fidji Simo)在新聞發布會上也表示:“我們宣布了‘紅色警報’,旨在向公司發出明確信號,即我們希望將資源集中在一個特定領域,這也是界定公司優先事項的一種方式。”

西莫同時否認了GPT-5.2係列模型的發布是受“紅色警報”行動影響而匆忙提前的,她強調,公司為這款新模型的發布已經進行了數月的準備工作。

在經曆了數月準備後推出的GPT-5.2,核心看點完全圍繞著“創造更大的經濟價值“展開:

●三級模型矩陣: 推出 Instant(極速)、Thinking(深度思考)、Pro(最強解難) 三個版本,以滿足從日常輕量對話到複雜科研的不同需求。

●“打工人”實戰能力質變: 基於全新的 GDPval 基準,GPT-5.2 Pro 在 74.1% 的真實職業任務(如投行建模、PPT製作)中勝過或持平人類專家,效率提升 11 倍,標誌著從“對話”轉向“交付”。注:GDPval主要通過直接測試模型在各行各業真實工作任務中的表現來衡量其性能,覆蓋美國GDP前九大產業中的44個關鍵職業領域,從軟件開發、法律到醫療護理和機械工程,涵蓋了對經濟至關重要的專業場景。



●邏輯與推理的“封頂”表現: 數學能力在 AIME 2025 中拿下滿分(100%),並在 ARC-AGI-1 抽象推理測試中首次突破 90%,展示了恐怖的通用智能水平。

●Agentic Coding 的飛躍: 在更難的 SWE-Bench Pro代碼測試中顯著提升,被開發者評價為“自 GPT-5 以來最大的智能躍升”,尤其擅長複雜的多步驟工具調用和長流程任務。

●“完美”的超長上下文: 解決了“大海撈針”的痛點,在 256k長度下的多信息點檢索(4-needle)準確率接近 100%,配合更強的視覺空間理解能力,大幅提升了處理長文檔和複雜圖表的可靠性。



01 包含三款模型,比GPT-5.1更貴了

本次發布包含三款模型:GPT-5.2 Instant(優化響應速度)、GPT-5.2 Thinking(深度推理)、GPT-5.2 Pro(高端版本)。

Instant主要用於日常任務處理,主打速度與輕量推理;Thinking用於深度邏輯推理與複雜項目,更適用於企業工作流;Pro麵向研究與最高質量輸出,推理鏈條最強、錯誤率最低。

OpenAI 選擇了“比 5.1 昂貴、但仍低於其他前沿模型”的策略,為GPT-5.2係列模型推出分層API定價策略。

其中GPT-5.2 Instant與GPT-5.2 Thinking采用統一計費標準,輸入單價為每百萬tokens 1.75美元,輸出單價為每百萬tokens 14美元;高端版本 GPT-5.2 Pro定價更高,輸入單價達每百萬tokens 21美元,輸出單價為每百萬tokens 168美元。

盡管Pro等高端版本的單次token單價更高,但OpenAI強調,GPT-5.2係列在真實智能體任務中具備更高的token使用效率,因此在部分企業場景中,完成同等質量任務的整體成本反而可能降低。官方同時說明,Pro版本在實際使用中能顯著減少“推理廢話”,輸出內容更緊湊精煉,這一特性也將進一步幫助用戶控製使用費用。



GPT-5.2係列模型的定價

同時,ARC Prize(ARC-AGI)被業界公認為目前最難、也是最能體現 AI “通用智能(AGI)”水平的基準測試。根據Arc Prize的測算,GPT-5.2的性價比繼續提升,一年內效率提升了約390倍。



GPT-5.2係列已向Plus、Pro、Edu、Business、Enterprise用戶陸續開放,並同步上線API。麵向工程與程序員群體的GPT-5.2 Codex將在未來數周內推出,進一步針對編程任務做專項優化。

02 核心直指專業知識工作與企業級應用的能力提升

GPT-5.2係列模型的核心定位是“提升專業工作效率”與“增強長期任務一致性”。根據官方披露的數據,GPT-5.2係列模型在多項關鍵評估基準上取得了當前公開模型中的最高成績。



圖:GPT-5.2基準評測概覽

OpenAI官方表示,GPT-5.2聚焦於提升企業用戶的專業工作流效率,包括表格處理、演示文稿生成、代碼編寫、圖像理解、工具調用、多文件工程任務處理等能力。GPT-5.2的文本生成結構相較以往更清晰,邏輯鏈條更穩定,特別是在軟件說明文檔、技術手冊生成、長篇報告編寫等領域,模型內部的“結構化寫作傾向”更加明顯。



圖:GPT-5.1、GPT-5.2製表效果對比

GPT-5.2 Thinking在麵向專業知識與實際工作的GDPval任務集中達到了可與行業平均專業人員相匹敵的水準,在所有對比任務中“勝出或持平”的占比達到70.9%。在等效任務中,GPT-5.2 Thinking 的完成速度超過專業人士11倍以上,同時成本低於1%。



在真實企業環境中,多家早期合作夥伴測試表明模型在複雜推理鏈條與工具調用一致性上實現明顯改進:

Notion、Box、Shopify:觀察到更穩健的長鏈條推理,在複雜界麵和數據庫操作中錯誤率下降。

Databricks、Hex:數據智能體任務的 SQL/數據分析鏈路顯著更一致。

Cognition、Warp:認為其代碼審查和定位缺陷能力達到當前模型的領先水平。

此外,OpenAI特別強調GPT-5.2在“多工具編排任務”中表現更穩定,能夠在單次會話中處理二十多個工具調用步驟,並在係統提示(system prompt)顯著簡化的情況下維持高一致性。這一點使其更適合作為“公司級智能體核心大腦”。

03 編碼、事實性與長文本處理全麵進步,支撐企業複雜開發需求

為了支撐企業級的複雜開發需求,GPT-5.2 Thinking在軟件工程能力上實現了飛躍。

GPT-5.2 Thinking在SWE-Bench Pro嚴格評測中取得55.6%準確率,在Python專項SWE-Bench Verified評測中達到 80%。這意味著GPT-5.2在自動化調試生產係統、重構大型代碼庫、理解遺留係統以及處理複雜功能需求方麵,已接近部分自動化代碼助手的可部署標準。



圖:GPT-5.2 Thinking在SWE-Bench Pro的跑分

GPT-5.2在前端開發(尤其是現代 UI、WebGL/Three.js、複雜 3D 界麵)方麵也加入了專門優化,提升了對組件結構、事件綁定和布局邏輯的理解能力。



圖:GPT-5.2 Thinking在匿名真實查詢集合上的錯誤率降低

在事實性方麵,GPT-5.2 Thinking在匿名真實查詢集合上的錯誤率相較上一代下降約30%。OpenAI強調,GPT-5.2在麵對模糊或信息不完整的查詢時,會更主動給出依據來源或使用結構化推理路徑,以降低誤導性回答的概率。



圖:GPT-5.2 Thinking在長上下文推理方麵的表現

在長上下文推理方麵,GPT-5.2 Thinking支持最高256k tokens輸入,並在“四針(4-needle)”檢索任務中實現接近100%準確率,超過已有商用模型的水平。

該模型還在長文檔問答、合同審查、多文件工程跨引用等任務中表現出更高穩定性。若任務長度超過上下文窗口,模型可配合Responses/compact接口,通過“摘要性迭代檢索”進一步擴展可處理規模。

04 智能體工具調用與視覺理解大幅增強



企業工作流往往涉及跨係統的複雜操作。在智能體任務方麵,GPT-5.2 Thinking在Tau2-bench Telecom多輪客服任務的工具調用測試中取得98.7%完成度,該評測覆蓋訂票、退款、延誤補償、物品遺失與跨係統調度等場景,反映其可承擔更高自治度的流程任務。

OpenAI表示,GPT-5.2的“工具決策粒度”更加穩定,推理鏈條更可控,在連續20~40步的任務中不易出現跳步、誤調用或不必要調用等問題,使其更適合作為長流程自動化智能體(Autonomous Agent)的執行核心。



圖:在CharXiv(科研圖表推理)中準確率提升約8個百分點

在視覺能力方麵,GPT-5.2 Thinking的圖表推理和界麵理解能力顯著增強。其軟件界麵識別錯誤率減少約一半,在CharXiv(科研圖表推理)中準確率提升約8個百分點。OpenAI同時對模型加入了大規模軟件 UI數據訓練,使其更準確理解控件、菜單層級與界麵邏輯關係。



圖:GPT-5.2 Thinking在圖像中元素的位置把握上更強

與之前的模型相比,GPT-5.2 Thinking在圖像中元素的位置把握上更強,這有助於解決相對布局在問題中起關鍵作用的任務。在示例中,即使是低質量的圖像,GPT-5.2也能識別出主要區域,並放置大致與每個組件真實位置相符的框,而GPT-5.1僅能標注少數幾個部分,並且對它們的空間排列理解明顯較弱。

05 科學推理、數學能力與抽象智能的進展



圖:GPT-5.2 Pro在GPQA Diamond中的表現

GPT-5.2 Pro在GPQA Diamond(研究生難度的大規模科學知識測試)中取得93.2%準確率,在現有同行測試中位居前列。



圖:GPT-5.2 Thinking在FrontierMath測試中的表現

在FrontierMath(涵蓋多步驟數學推理及高難度證明問題)中,GPT-5.2 Thinking取得40.3%正確率,相較上一代有顯著提升。OpenAI披露,一支科研團隊已使用GPT-5.2 Pro協助探索統計學習理論中的一個開放問題,模型提出的證明在後續人工審核中被證實成立。

在ARC-AGI係列評測方麵,GPT-5.2 Thinking在ARC-AGI-2(Verified)中從上一代的17.6%提升至52.9%,被視為該模型在“抽象智能”“非模式記憶”“類比推理能力”上的重要進展。GPT-5.2 Pro在 ARC-AGI-1中也超過90%,成為首個達成該水平的主流模型。



圖:心理健康評估

在安全策略方麵,GPT-5.2 延續“safe completion”訓練框架,重點強化心理健康、風險傾向、敏感身份類對話場景的表現。OpenAI還正式宣布開始部署年齡預測係統,可在疑似未成年用戶使用模型時自動切換到受限模式與額外安全過濾。

06 寫在最後

在發完幾條“兜售”GPT-5.2的帖子之後,Sam Altman還發布了一條“情緒價值貼”——過去的十年十分精彩;在OpenAI工作比我想象的還要特別。和一條彩蛋帖“下周我們還會送您一些小小的聖誕禮物”,暗示可能還有新的模型(產品)發布。



就在幾個小時前,OpenAI 獲得迪士尼10 億美元的投資意向。ChatGPT以後可以理直氣壯的合成“米老鼠”了。

ChatGPT火爆三年後,SOTA模型不斷刷新Benchmark已經不能帶給行業興奮點,但是每次OpenAI更新新模型的情緒價值仍在。

同時,這家站在AGI浪尖的獨角獸,必須開始背負更多的商業期待,也要解決一個又一個現實中的“米老鼠問題”。