簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 焦點新聞 » 比DeepSeek貴了400倍,GPT-5.2想錢想瘋了?

比DeepSeek貴了400倍,GPT-5.2想錢想瘋了?

文章來源: 差評XPIN 於 2025-12-13 18:27:44 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數

比DeepSeek貴 400 倍,比穀歌的 Gemini 3 Pro 貴將近 10 倍。

OpenAI 本周五發布的 GPT-5.2 ,到底是什麽水平?

這麽說吧,這家夥或許是最適合打工人的AI,因為它很可能開啟了 AI 從人類助手到專家的轉變。

首先是在專業知識上,GPT-5.2 有 7 成的把握,能打敗正在屏幕前,刷視頻的各位行業專家們。

隻看跑分的話,這次的 GPT-5.2 在各個維度上,都要比 Gemini 3 Pro 高了那麽一點點。

當然,也隻高了一點點,不排除OpenAI是對著 Gemini 刷分的可能。

但這次 OpenAI 最在意的,其實是最後的這個 GDPval 測試成績。

這是他們在今年的925提出了的一個全新測試方式,用來衡量 AI ,能否真的來幫打工人完成工作。

於是他們找了九個領域四十四個行業的專家們過來,結合他們的工作環境來出了一堆題目。

然後來看 AI 能否完成這些專家們的工作。

而結果就是,最新的 GPT-5.2 能在七成的工作上,打平,甚至做的比人類更好。

咱們也簡單的體驗了一下這個新模型,讓 GPT-5.2 去互聯網上統計這些 AI 公司發布的所有模型。

然後把這些模型在各個排行榜上刷出來的分數給統計下來,最後按照月份,把這些成績給做成表格。

結果在整整 14 分鍾的思考後。GPT-5.2 成功的幫咱們把這一係列數據收集,結果統計,表格繪製的任務都給完成掉了。

這麽個完成度,確實看起來不錯。

除此之外,GPT-5.2還能完成一些複雜的表格工作,做出來的表格不但比過去的自己做的表格要美觀許多。

而且在各項任務的測試指標上,也有了 9% 左右的提升。

在寫代碼這塊,GPT-5.2 也有了不少的提升,

產生幻覺的概率要比之前降低了 38%

屬於是想讓大家能用的更加放心了。

我們也簡單的測試了一下,但可能是因為有了 Gemini 珠玉在前的緣故,GPT-5.2 給我的感覺,就有那麽一些平平無奇了。

讓它來寫個 Aimlab (練習瞄準的小遊戲)

它也確實能寫出來,寫出來的程序不但能跑,還能調整靶子大小,遊戲時長這些基本參數。

這些都沒啥毛病,但就是有些太中規中矩了。

審美這塊,有點被上個月發布的 Gemini 3 給暴打了。

同樣一句話做出來的小遊戲,Gemini 已經開始考慮各種時髦的配色了,GPT 還在刷大白牆,做毛坯房。

當然,也有可能是我沒有指定 GPT 要做成啥樣的緣故。

除了各項工作能力的提升之外,這次 GPT-5.2 還有一個非常有趣的變化。

它變的更能聽得懂人話了。

有人在測試的時候發現,讓 GPT 寫 50 個創意,它就會認認真真的去寫 50 個創意,而不是像過去的模型一樣,寫 10 個點子就開始擺爛。

除此之外,在上下文能力上方麵,OpenAI 也補強了一波,在插針實驗中,即便是文本長度到了 256K,成功率依舊是接近百分之百。

這相當於幾十萬字的名著裏,你偷偷在幾個地方加了點料,罵了我幾句,他都能精準找出來。

這對於寫代碼、搞學術、總結整理文書的打工人、科研狗來說,又是一大增強。

雖然上麵的紙麵實力這麽強,但,還是在一些地方翻了車。

比如在官方展示的圖像識別案例上,大夥們發現,Gemini 3 Pro 的顆粒度直接爆殺 GPT 5.2.

也有人吐槽,新模型發了,那老版本估計又要降智了。。。

屬於是經典老番了。

最後呢, GPT-5.2 的發布,其實也讓咱們看到了一種趨勢。

那就是在未來,頂級模型之間的差異,也可能越來越明顯,各個都偏那麽一點點科。

比如 Gemini 可能在全模態領域一騎絕塵;GPT 在邏輯推理、生產力方麵,也依舊走在同行前頭;Claude 則在代碼能力和寫作上,繼續遙遙領先。

畢竟在怎麽實現AGI這個問題上,大廠們的差異已經凸顯。穀歌可能覺得,多模態能感知世界才是未來;OpenAI則信仰極致的邏輯推理和生產力的提升;Anthropic 認為高維度的語義理解和對齊,才能通往 AGI。

反正 AI 大哥位置輪流坐的現狀,還在繼續,按順序來,下一個出招的應該是Anthropic 了。

對了,結尾我也想再催催,奧特曼答應好各位哥們的成人模式,到底啥時候上啊?

  • 功效卓著,回頭客眾多!美國專利【骨精華】消除關節痛//骨質疏鬆;【心血通+益腦靈】強心護腦。
查看評論(11)
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2026 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小時熱點排行

金正恩視察溫泉 直闖“女湯”和熟女閑聊 畫麵公開
大內宣鬧笑話 中國記者頻問“斬殺線” 貝森特滿頭問號
契丹沒有消失 DNA證實 他們繼續活在當下 南北兩支…
紐西蘭山崩吞營地 她救全村反遭活埋 廢墟傳尖叫後死寂
川普“和平委員會”簽署儀式現場:19國領袖代表出席




24小時討論排行

川普:格陵蘭協議將賦予美方“全麵軍事準入權”
低民調令特朗普十分惱火 控多家媒體“犯罪” 誓言反擊
中國32歲工程師猝逝 妻控訴“死後還被拉進群派任務”
格陵蘭衝突後,歐洲極右翼開始與川普切割
川普小兒子立功!跨洋報警救下倫敦遇襲女子
79歲的特朗普生氣了,達沃斯後,狂發80條帖子
最恐怖的不是32歲猝死,而是他死後的8小時...
中國敘事下的“美國股市”:牢A幾乎猜中了所有“人性”
七好友抱團山居:4年不買衣服 每人都藏一身絕活..
中國公示米蘭冬奧會參賽運動員名單 穀愛淩在列
被生活錘老實了,他們不再跟著吳京嗷嗷叫
“AI史詩級泡沫 隨時可能破裂 一旦破滅難以想像”
高市早苗在內閣會議上決定解散眾議院
普京幫川普都算好了 格陵蘭值10億美元!依據是…
最大金主!美國今將"正式退出WHO",18%資金沒了
川普警告歐洲:拋售美國資產將“強力報複”
文學城新聞
切換到網頁版

比DeepSeek貴了400倍,GPT-5.2想錢想瘋了?

差評XPIN 2025-12-13 18:27:44

比DeepSeek貴 400 倍,比穀歌的 Gemini 3 Pro 貴將近 10 倍。

OpenAI 本周五發布的 GPT-5.2 ,到底是什麽水平?

這麽說吧,這家夥或許是最適合打工人的AI,因為它很可能開啟了 AI 從人類助手到專家的轉變。

首先是在專業知識上,GPT-5.2 有 7 成的把握,能打敗正在屏幕前,刷視頻的各位行業專家們。

隻看跑分的話,這次的 GPT-5.2 在各個維度上,都要比 Gemini 3 Pro 高了那麽一點點。

當然,也隻高了一點點,不排除OpenAI是對著 Gemini 刷分的可能。

但這次 OpenAI 最在意的,其實是最後的這個 GDPval 測試成績。

這是他們在今年的925提出了的一個全新測試方式,用來衡量 AI ,能否真的來幫打工人完成工作。

於是他們找了九個領域四十四個行業的專家們過來,結合他們的工作環境來出了一堆題目。

然後來看 AI 能否完成這些專家們的工作。

而結果就是,最新的 GPT-5.2 能在七成的工作上,打平,甚至做的比人類更好。

咱們也簡單的體驗了一下這個新模型,讓 GPT-5.2 去互聯網上統計這些 AI 公司發布的所有模型。

然後把這些模型在各個排行榜上刷出來的分數給統計下來,最後按照月份,把這些成績給做成表格。

結果在整整 14 分鍾的思考後。GPT-5.2 成功的幫咱們把這一係列數據收集,結果統計,表格繪製的任務都給完成掉了。

這麽個完成度,確實看起來不錯。

除此之外,GPT-5.2還能完成一些複雜的表格工作,做出來的表格不但比過去的自己做的表格要美觀許多。

而且在各項任務的測試指標上,也有了 9% 左右的提升。

在寫代碼這塊,GPT-5.2 也有了不少的提升,

產生幻覺的概率要比之前降低了 38%

屬於是想讓大家能用的更加放心了。

我們也簡單的測試了一下,但可能是因為有了 Gemini 珠玉在前的緣故,GPT-5.2 給我的感覺,就有那麽一些平平無奇了。

讓它來寫個 Aimlab (練習瞄準的小遊戲)

它也確實能寫出來,寫出來的程序不但能跑,還能調整靶子大小,遊戲時長這些基本參數。

這些都沒啥毛病,但就是有些太中規中矩了。

審美這塊,有點被上個月發布的 Gemini 3 給暴打了。

同樣一句話做出來的小遊戲,Gemini 已經開始考慮各種時髦的配色了,GPT 還在刷大白牆,做毛坯房。

當然,也有可能是我沒有指定 GPT 要做成啥樣的緣故。

除了各項工作能力的提升之外,這次 GPT-5.2 還有一個非常有趣的變化。

它變的更能聽得懂人話了。

有人在測試的時候發現,讓 GPT 寫 50 個創意,它就會認認真真的去寫 50 個創意,而不是像過去的模型一樣,寫 10 個點子就開始擺爛。

除此之外,在上下文能力上方麵,OpenAI 也補強了一波,在插針實驗中,即便是文本長度到了 256K,成功率依舊是接近百分之百。

這相當於幾十萬字的名著裏,你偷偷在幾個地方加了點料,罵了我幾句,他都能精準找出來。

這對於寫代碼、搞學術、總結整理文書的打工人、科研狗來說,又是一大增強。

雖然上麵的紙麵實力這麽強,但,還是在一些地方翻了車。

比如在官方展示的圖像識別案例上,大夥們發現,Gemini 3 Pro 的顆粒度直接爆殺 GPT 5.2.

也有人吐槽,新模型發了,那老版本估計又要降智了。。。

屬於是經典老番了。

最後呢, GPT-5.2 的發布,其實也讓咱們看到了一種趨勢。

那就是在未來,頂級模型之間的差異,也可能越來越明顯,各個都偏那麽一點點科。

比如 Gemini 可能在全模態領域一騎絕塵;GPT 在邏輯推理、生產力方麵,也依舊走在同行前頭;Claude 則在代碼能力和寫作上,繼續遙遙領先。

畢竟在怎麽實現AGI這個問題上,大廠們的差異已經凸顯。穀歌可能覺得,多模態能感知世界才是未來;OpenAI則信仰極致的邏輯推理和生產力的提升;Anthropic 認為高維度的語義理解和對齊,才能通往 AGI。

反正 AI 大哥位置輪流坐的現狀,還在繼續,按順序來,下一個出招的應該是Anthropic 了。

對了,結尾我也想再催催,奧特曼答應好各位哥們的成人模式,到底啥時候上啊?