北京時間8月8日淩晨1點的發布會上,GPT-5 總算在萬眾期待中姍姍而至,此時,距離GPT-4的發布已過去了兩年半。
但這一次,比起ChatGPT 的驚豔亮相、GPT-4 的跨越式升級、o1
發布時的震撼全場,這場發布會顯得格外平淡:不太驚豔的Benchmark,毫無新範式的影子;很難激起興趣以及看出與競品區別的用例展示;甚至還有被網友抓包的PPT展示錯誤,共同構成了這1小時20分鍾的發布會。
但這並不意味著GPT-5沒有進步。極低的幻覺率、前端能力的加強、上下文能力的躍升和極為有競爭力的價格,都是這次難得的亮點。
尤其是價格,在GPT-5精彩的編程表現之下,其API價格僅為昨天發布的Claude Opus
4.1的1/15,也比Gemini 2.5 Pro價格低。
這可以說是對Anthropic的致命一擊。
今晚的OpenAI,雖失去了魔法的節奏、但依然在和其他廠商的肉搏中站穩了腳跟。
GPT-5本體:有限的升級、微末的SOTA
本次GPT-5共有4個版本,分為GPT-5 、 GPT-5 mini、 GPT-5
nano,以及隻對企業版和每月 200 美元高級版開放的GPT-5 Pro模式。
對於一般用戶而言,默認的是統一模型GPT-5,它是由多個模型組成的係統,包括用於大多數問題的“智能且快速”模型(
gpt-5-main )和用於更複雜問題的“更深層推理”模型( gpt-5-thinking )。
這種統一的實現,是由一個實時路由器決定針對特定查詢使用哪個模型。
mini、nano的具體選擇則是API用戶可選。而GPT-5Pro模式,則類似於Grok 4
Hard模式,使用了並行測試計算,一次多個模型一起並行計算更長時間。它用更大的算力,提供了最全麵、最精準的答案。在超高難度的科學問題(GPQA)上,它刷新了世界紀錄。在與人類專家的「盲測」中,10
次裏有近 7 次被認為更優。
而在能力和評分上,GPT-5
幾乎在每一項上都有提升,但都隻比當下SOTA高了一點點,也隻比o3強得很有限。
智力水平:體驗最佳,但不是智力最佳
在智力的水平,各種主流評測集裏,GPT-5都高於o3水平,但整體差距沒有非常大。
細拆下來,其中提升最明顯的前沿數學測試集裏,我們能看到,GPT-5的效果還不如ChatGPT
Agent,隻有使用Pro模式下才會更強。
當與其他模型做比較時,我們就能發現,GPT-5大多數“智力”能力僅僅稍微高出競爭對手一點,部分能力甚至還並非SOTA,隻能說整體以微小幅度領先。很難說是什麽跨越式的能力提升。
綜合來看,根據Artificial Analysis的排名,GPT-5目前領先第一,但綜合分僅比o3高了兩分、比Grok
4僅高一分。
另一個顯示出GPT-5能力不及預期的是Arc Prize的測試,在這個號稱是AGI終極測試中,GPT-5不敵
Grok 4,而且是遠遠落後。
不過從這裏我們也能看到,相對於o3,GPT-5在計算效率上確實有所提高,能以更少的token消耗,獲得超過o3的效果,其效率也領先於Anthropic的模型。
根據OpenAI的介紹,GPT-5 thinking在解決複雜問題時,使用的token數量可以減少了50%-80%。
這引得馬斯克都激動地瘋狂發推。
最近,Grok在AI國際象棋大賽上披荊斬棘,這次又壓了OpenAI一頭,感覺這個發布會過後,Grok反而獲利最大。
不過在用戶體驗上,GPT-5扳回一城。
在LMArena這個主要由用戶雙盲比較不同模型優劣的排行榜上,GPT-5在所有項目上都得到了第一名。
編程:解決痛點,用Agent讓Vibe coding“省心”
而在本次OpenAI著重強調的編程領域,GPT-5在thinking(思考)模式下,也較前代有比較明顯的提升。
但同樣,如果把一直強調編程的競爭對手Anthropic最新的Claude 4.1
Opus也算進來,優勢又極其微小了。兩者僅有0.3%的分差。
雖然在整體編程基準上,GPT-5的表現並不特別突出,但OpenAI確實在編程實際體驗上做出了很多優化。發布會上,OpenAI介紹了編程的幾個重要提升,主要體現在對編程要求的理解、對錯誤的改正能力和更多工具使用能力上。
這主要是歸功於智能體式編碼(Agentic
Coding)係統的成熟。GPT-5擅長處理“智能體式”編碼任務,可以調用多種工具,連續工作數分鍾甚至更長時間來完成一個複雜的指令。
模型在編碼時甚至會主動溝通,解釋它的計劃、步驟和發現,像一個協作的團隊一樣行動。
為了實現這種類似協作夥伴的行為,OpenAI的團隊專門針對幾個特性對模型進行了微調,包括自主性(autonomy)、協作與溝通(collaboration
and communication)、以及測試(testing)。
編程要求的理解和指令遵循上的提升,讓GPT-5能將模糊或詳細的指令轉化為實際可用的代碼,幫助讓即使不懂編程的人也能實現他們的想法。
推特上的部分用戶也有相應的反饋。
而工具調用能力,經過OpenAI的特別微調後,也凸顯出來了。
這一點在Tau這個測試集中表現明顯。它是用來評估一個AI模型在模擬真實世界場景中,與用戶進行動態對話,並有效使用外部工具(即API或函數調用)來完成任務能力的測試集。在電信領域,它的能力提升明顯。
另一個非常重要的更新是“修Bug”能力的大幅提升。
在演示中,GPT-5能夠深入一個真實的代碼庫(OpenAI Python
SDK),通過搜索和讀取文件來理解代碼的結構和邏輯,並最終定位到問題的根源。它甚至能理解人類工程師做出某些架構決策的深層原因,例如為了加強安全性。
而且它還可以自動修複自己的bug。在演示一個前端應用開發任務時,GPT-5在編寫完代碼後,會自己嚐試構建(build)項目。當構建過程中出現錯誤時,它能將這些錯誤信息反饋給自己,然後基於這些錯誤來修改和迭代自己的代碼。這被OpenAI的演示人員描述為一個“深刻的時刻”和一個“自我改進的循環”。
在修複特定bug的過程中,模型也表現出了很高的智能。例如,它在運行代碼檢查(lints)時發現了其他一些問題,但它能判斷出這些問題與當前要修複的bug無關,因此不會進行不必要的修改。
這一點對於當下的vibe
coding而言十分重要。在今年的一篇論文中就曾提到一個反直覺的事實:用AI輔助編程反而可能會降低工作效率,而非提升。這其中最主要的原因是,日常程序員所麵對的往往並非一個全新項目,而是要在一堆舊代碼上迭代。
因此,如果沒有對於複雜程序的整體把握以及自我bug修複功能的話,AI編程在這類項目上的能力就會大受限製。
可見,這次OpenAI真是在編程上用上了產品經理的心思,針對痛點做了大幅調整和升級。在沃頓商學院教授Ethan
Mollick的測試中,他也體驗到了GPT-5編程“讓人省心”的特點。
Ethan Mollick的博客文章
GPT-5在編程上的另一個提升點是前端能力。現場展示中,OpenAI的研究員讓GPT-5現場生成了一係列的內容,包括飛機空氣動力學動態展示。
這一內容足足有400行代碼,GPT-5寫了2分鍾。
一個教法語的貪吃蛇遊戲
多模態:仍然是短板
之前在各種泄露中被廣泛認為會大幅提升的多模態能力方麵,GPT-5的提升也並不太顯著。
而且與Gemini
這種大一統模型不同,GPT-5仍然是一個主要能進行文字和圖像理解的模型。當下,它仍然不支持音頻輸入/輸出和圖像生成,視頻就更別說了。
想短期內能追上剛發布的Genie 3,看起來對OpenAI來說還是太難了。
一些驚喜:超低幻覺、上下文大躍進
雖然綜合實力並不驚豔,隻能說勉強保住了第一的位置。
但在一些小的方麵,GPT-5的提升確實非常可圈可點。而且這些小的方麵,也許能起到決定性的作用。
首先是幻覺和安全。GPT-5顯著減少了幻覺的發生,它出現事實錯誤的概率比 GPT-4o 低約
45%,比 OpenAI o3 低約 80%。
這是個相當了不起的成就。僅有不到1%的幻覺率,這對於實際落地應用來講極其重要,在工業環境以及實際工作環境中,幻覺都是致命的。
所以,也難怪OpenAI的核心研究員Noam
Brown把針對發布會的唯一評論,獻給了GPT-5在消除幻覺上的進步。
GPT-5在System Card中簡要地提到了他們使用的大概方法。
他們一方麵強化訓練模型能夠有效地使用瀏覽工具來獲取最新的信息。另外,當模型不使用瀏覽工具,而是依賴其自身的內部知識時,訓練的重點是減少在這種情況下產生的幻覺。
更底層的原因,可能是GPT-5
thinking經曆的強化學習訓練。在這些訓練裏,OpenAI似乎利用了一些最新的訓練方法,讓這些模型學會了“完善自己的思考過程,嚐試不同的策略,並認識到自己的錯誤”。
也正是因為這個訓練模式,GPT-5模型的“欺騙”行為也大幅減少,部分維度上居然可以減少近90%。(欺騙:在這裏指的是模型可能會向用戶謊報其行為,或者在任務無法完成、信息不足的情況下悄悄地不執行任務。這也和幻覺的下降直接相關。)
另一個非常重要的進步是上下文能力。
首先,所有的GPT-5版本目前支持的上下文都拓展到了400k,遠超o3、4o的128k默認版本上下文。雖然趕不上Gemini
1M的上下文量,但相比於其他對手也已經算是領先一步了。
而且從測試上看,上下文的精準度提升堪稱飛躍。大海撈針測試裏,GPT-5的準確率比o3提升了將近一倍。這意味著GPT-5處理長文本的能力會有比較明顯的強化。這對於需要處理複雜任務的編程、寫作、分析都影響頗大。
這兩個特別的小點,雖然不能提升GPT-5的綜合智力,但可能會給GPT-5帶來護城河式的優秀體驗。
新功能:乏善可陳
如果說能力項上,我們還是可以在編程和幻覺上找到些許亮點,那GPT-5的新功能基本就隻能說食之無味了。
首先是寫作上的優化。OpenAI在演示中表示,與之前的模型相比,GPT-5在寫作質量上有顯著提升,能更好地幫助用戶潤色草稿、郵件乃至故事。
最重要的是,GPT-5更有人味兒,更少AI味兒。它生成的回應更有節奏感和韻律感,語言更真誠、更能引起情感共鳴。而且因為整體能力的提升,它能更好地理解情境的細微差別,讓用戶感覺不那麽像AI。
然而,在演示過程中,這個其實挺不直觀的。就像前兩天奧特曼秀出GPT-5推薦的電影時候,大家其實看不太出來和4o有什麽大的區別。
然後是語音功能。GPT-5的聲音聽起來極其自然,就像和真人對話。它還新增了視頻輸入功能,可以讓語音助手看到你所看到的東西。這基本屬於標配,現場感覺還是Grok
4的超高語音回應速度更讓人印象深刻。
記憶能力升級。雖然OpenAI在發布會上提到了對記憶功能進行了大量增強,但實際演示來看隻是推出了與Gmail和Google
Calendar的集成功能,允許ChatGPT訪問用戶的郵件和日曆來幫助規劃日程。也是一種未來標配的水平,而且和“記憶”關聯性並不強。
最可怕的是個性化功能:現在GPT-5允許用戶自定義聊天界麵的顏色了。當一個前沿技術公司開始整這些花活兒的時候,這隻能說明,它真的沒有別的可展示了。
回應數據瓶頸質疑:左腳踩右腳,還是有效的
在之前Information的爆料中,GPT-5開發失速的主要原因之一,就是數據瓶頸。對此,OpenAI發布會上也給了一個解釋。
他們揭示了在GPT-5的訓練中,OpenAI試驗了新的訓練技術,讓模型可以利用前一代模型創造數據。與填充型的數據不同,OpenAI專注生成的是“正確類型的數據”,其目的在於“教導”模型。他們利用其模型打造了一個高品質的“合成流程”,生成了用來教導GPT-5的複雜數據。
而且他們這種跨代模型間的互動預示著一個遞歸式的改進循環,即前一代模型越來越多地幫助改善和生成下一代模型的訓練數據。
也就是在o1模型推出時,大家一直猜想的由推理模型產生高質量數據,讓預訓練模型越來越強,再由此通過強化學習加強下一代推理模型的“左腳踩右腳”式訓練方法,被OpenAI證實了。
不過從效果上看,這個方法明顯Scaling的不那麽有效。數據的困境,還沒有被完全解決。
價格:絕對的殺招
如果說GPT-5的性能提升不盡如人意,但至少在價格上,它做到了皆大歡喜。
首先是對C端用戶,免費用戶也可以使用GPT-5,但有使用次數限製,這個限額也相當慷慨,每天可以聊“幾個小時”。當達到上限後,會自動切換到GPT-5
mini模型。而對於Plus用戶,將擁有比免費用戶“高得多”的使用額度,基本滿足日常應用。
而對於API用戶來講,GPT-5 幾乎給出了一個難以拒絕的價格。每百萬token輸入1.25美元,輸出10美元。
這個價格比起GPT 4o還要便宜。甚至比一直以“低價”著稱的Gemini 2.5
Pro都更便宜。而mini和nano的價格,也都低於主要競爭對手的同等級模型。
如果GPT-5的編程能力確實如測試般強大,那對於價格高出15倍的Anthropic而言,將是毀滅性打擊。
不過,誰能想到,一個一直以技術領先為核心定義的公司,居然開始打價格戰了。這也是OpenAI這次發布會上最實在的亮點,也是最讓人歎息之處。
先行者變得務實,也許才是技術快速發展期結束的最明顯標誌。
發布會:災難式的錯誤,並不直觀的展示
比起GPT-5的平平表現,這場長達1小時20分的發布會堪稱災難。
首先是發布會上的“圖表欺詐”。發布會剛開始沒多久,眼尖的網友們就在發布會展示的PPT裏發現,SWE
Benchmark數據被以不成比例的方式展示,以凸顯GPT-5的提升。
這裏的比例完全錯誤,很快網友就還原了一個真實比例。
而且這樣的錯誤還不止一處。在Tau 2 Benchmark的展示中,同樣出現了55%比58.1%大的情況。
針對這些致命錯誤,很快,網友們就開始了嘲諷的狂歡。比如拿GPT序號建表,來諷刺OpenAI的“表格魔法”。
對於已經經曆過IMO金牌風波,深陷在“炒作大師”印象中的OpenAI來說,這種錯誤簡直就是火上澆油,更坐實了他們炒作、不可信的形象。
除此之外,這次的演示過程,除了最後用了GPT-5的Cursor生成的城堡小遊戲稍微比較亮眼以外,其他的所有展示都冗長、過分專業、且效果平平。
對比Anthropic的讓Claude運營自動售貨機實驗、Gemini的寶可夢通關展示Agent性能這些更有衝擊力,更能展示前沿探索的發布會環節來講,實在是缺乏看點。
而期間充斥的無聊的冷笑話、漫長的推理等待時間,更是讓發布會的沉悶達到了一種前所未有的水平。
如果說奧特曼是個營銷大師,那這場發布會確實是名不副實了。
正是因為奧特曼在會前給出的“GPT-5比我都強”的高期待,和發布會時平淡表現的反差。加上錯誤連連的問題,這次OpenAI明顯被輿論反噬。據Polymarkt的調查,發布會後,大家對OpenAI的模型能力評價甚至都一路下滑。
增速放緩的AI行業
對於整個AI產業而言,這次發布會可能意味著一個陰影籠罩的未來。
從GPT-4.5(Orion)項目的失敗,我們已經看到了參數Scaling
Law逐漸放緩的跡象。而用了十倍算力堆強化學習的Grok-4盡管在某些測試中表現亮眼,但整體上也沒有展現出革命性的跨越,這暗示著Test-Time
Compute(TTC)Scaling Law也開始見頂。
到今天,GPT-5 “小步前進”式的常規進步。這似乎說明“低垂的果實”已經摘完了。
那堵看不見的AI快速增長之牆,從未像今天這般明顯。
我們正在從那個“指數級增長”的狂歡中清醒過來,迎接一個更加務實、更加競爭激烈的新階段。也許我們真的需要一個新的突破,才能重回如夢如幻般的AI一代一個大跨越的節奏中去。
但突破何時到來、以何種形式到來,已經變得頗難預測。