比DeepSeek貴 400 倍，比穀歌的 Gemini 3 Pro 貴將近 10 倍。

OpenAI 本周五發布的 GPT-5.2 ，到底是什麽水平？

這麽說吧，這家夥或許是最適合打工人的AI，因為它很可能開啟了 AI 從人類助手到專家的轉變。

首先是在專業知識上，GPT-5.2 有 7 成的把握，能打敗正在屏幕前，刷視頻的各位行業專家們。

隻看跑分的話，這次的 GPT-5.2 在各個維度上，都要比 Gemini 3 Pro 高了那麽一點點。

當然，也隻高了一點點，不排除OpenAI是對著 Gemini 刷分的可能。

但這次 OpenAI 最在意的，其實是最後的這個 GDPval 測試成績。

這是他們在今年的925提出了的一個全新測試方式，用來衡量 AI ，能否真的來幫打工人完成工作。

於是他們找了九個領域四十四個行業的專家們過來，結合他們的工作環境來出了一堆題目。

然後來看 AI 能否完成這些專家們的工作。

而結果就是，最新的 GPT-5.2 能在七成的工作上，打平，甚至做的比人類更好。

咱們也簡單的體驗了一下這個新模型，讓 GPT-5.2 去互聯網上統計這些 AI 公司發布的所有模型。

然後把這些模型在各個排行榜上刷出來的分數給統計下來，最後按照月份，把這些成績給做成表格。

結果在整整 14 分鍾的思考後。GPT-5.2 成功的幫咱們把這一係列數據收集，結果統計，表格繪製的任務都給完成掉了。

這麽個完成度，確實看起來不錯。

除此之外，GPT-5.2還能完成一些複雜的表格工作，做出來的表格不但比過去的自己做的表格要美觀許多。

而且在各項任務的測試指標上，也有了 9% 左右的提升。

在寫代碼這塊，GPT-5.2 也有了不少的提升，

產生幻覺的概率要比之前降低了 38%

屬於是想讓大家能用的更加放心了。

我們也簡單的測試了一下，但可能是因為有了 Gemini 珠玉在前的緣故，GPT-5.2 給我的感覺，就有那麽一些平平無奇了。

讓它來寫個 Aimlab （練習瞄準的小遊戲）

它也確實能寫出來，寫出來的程序不但能跑，還能調整靶子大小，遊戲時長這些基本參數。

這些都沒啥毛病，但就是有些太中規中矩了。

審美這塊，有點被上個月發布的 Gemini 3 給暴打了。

同樣一句話做出來的小遊戲，Gemini 已經開始考慮各種時髦的配色了，GPT 還在刷大白牆，做毛坯房。

當然，也有可能是我沒有指定 GPT 要做成啥樣的緣故。

除了各項工作能力的提升之外，這次 GPT-5.2 還有一個非常有趣的變化。

它變的更能聽得懂人話了。

有人在測試的時候發現，讓 GPT 寫 50 個創意，它就會認認真真的去寫 50 個創意，而不是像過去的模型一樣，寫 10 個點子就開始擺爛。

除此之外，在上下文能力上方麵，OpenAI 也補強了一波，在插針實驗中，即便是文本長度到了 256K，成功率依舊是接近百分之百。

這相當於幾十萬字的名著裏，你偷偷在幾個地方加了點料，罵了我幾句，他都能精準找出來。

這對於寫代碼、搞學術、總結整理文書的打工人、科研狗來說，又是一大增強。

雖然上麵的紙麵實力這麽強，但，還是在一些地方翻了車。

比如在官方展示的圖像識別案例上，大夥們發現，Gemini 3 Pro 的顆粒度直接爆殺 GPT 5.2.

也有人吐槽，新模型發了，那老版本估計又要降智了。。。

屬於是經典老番了。

最後呢， GPT-5.2 的發布，其實也讓咱們看到了一種趨勢。

那就是在未來，頂級模型之間的差異，也可能越來越明顯，各個都偏那麽一點點科。

比如 Gemini 可能在全模態領域一騎絕塵；GPT 在邏輯推理、生產力方麵，也依舊走在同行前頭；Claude 則在代碼能力和寫作上，繼續遙遙領先。

畢竟在怎麽實現AGI這個問題上，大廠們的差異已經凸顯。穀歌可能覺得，多模態能感知世界才是未來；OpenAI則信仰極致的邏輯推理和生產力的提升；Anthropic 認為高維度的語義理解和對齊，才能通往 AGI。

反正 AI 大哥位置輪流坐的現狀，還在繼續，按順序來，下一個出招的應該是Anthropic 了。

對了，結尾我也想再催催，奧特曼答應好各位哥們的成人模式，到底啥時候上啊？

切換到網頁版

比DeepSeek貴了400倍，GPT-5.2想錢想瘋了？

差評XPIN 2025-12-13 18:27:44