
11月25日淩晨,Anthropic發布了其迄今最強大的AI模型Claude Opus 4.5。該公司宣稱,新模型在軟件工程任務上實現了“最先進性能”,進一步加劇了其與OpenAI、穀歌等對手之間的競爭。
Claude Opus 4.5在Anthropic軟件工程測試中表現出色,得分超越Gemini 3 Pro、GPT-5.1等一眾對手。

圖:Claude Opus 4.5在SWE Bench軟件工程測試中的性能表現
公司數據顯示,該模型在SWE-bench Verified(一項評估現實世界軟件工程能力的基準測試)中達到了80.9%的準確率,表現超越了OpenAI的GPT-5.1-Codex-Max(77.9%)、Anthropic自家的Sonnet 4.5(77.2%)以及穀歌的Gemini 3 Pro(76.2%)。
同時,Anthropic大幅下調了這款模型的定價:輸入token降至每百萬5美元,輸出token為每百萬25美元,較前代產品Claude Opus 4.1(輸入15美元/百萬,輸出75美元/百萬)下降約三分之二。
降價使得尖端AI技術對廣大開發者和企業更加觸手可及,同時也給競爭對手帶來了性能與價格的雙重壓力。
在現實任務中展現更優判斷力
測試人員普遍反饋,新模型在各種任務中展現出更強的判斷力與直覺。他們將這種進步描述為:模型開始領悟現實情境中的“關鍵所在”。
“這個模型好像突然‘開竅’了,”開發者關係負責人阿爾伯特表示,“它在處理許多現實問題時表現出的直覺和判斷力,讓人感覺相比前代模型實現了一次質的跨越。”
阿爾伯特以自身工作為例進一步說明:過去他僅利用AI收集信息,而對它們的整合與優先級排序能力持保留態度。如今,借助Opus 4.5,他已開始委托更完整的任務,通過連接Slack和內部文檔,模型能生成與他預期高度契合的連貫摘要。
賓夕法尼亞大學沃頓商學院教授、生成式AI實驗室聯合主任伊桑·莫利克測試後評論道,新模型的能力確實處於技術前沿。其最顯著的提升在於實際應用,例如跨軟件操作(如用Excel製作PPT)。

在核心工程測試中超越所有人類工程師
Claude Opus 4.5在Anthropic內部一項高難度工程評估中創下了新紀錄。這項評估本是公司為性能工程師崗位設計的限時編程測試,要求求職者在兩小時內完成,旨在考察其技術能力與問題判斷力。
Anthropic透露,通過采用“並行測試時計算”技術,即匯總模型的多次解題嚐試並篩選最優結果,Opus 4.5的最終得分超越了所有曾參與該測試的人類工程師。
在不限時間的條件下,若在其專用編碼環境Claude Code中運行,Claude Opus 4.5的解題表現更是與史上最高分的人類工程師持平。
不過該公司也坦言,這類測試無法衡量其他關鍵專業技能,例如團隊協作、有效溝通,或是經年累月形成的專業直覺。
效率飛躍:核心基準測試token消耗大幅降低76%
除原始性能突破外,Anthropic更將效率提升視為Claude Opus 4.5的核心競爭力。新模型在達成相同甚至更優結果時,所需處理的計算token數量顯著減少。
具體數據顯示,在“中等”投入級別下,Opus 4.5可在SWE-bench Verified測試中達到與Sonnet 4.5相同的最高分,而輸出token消耗量卻大幅降低了76%。即便在“高”投入級別追求極限性能時,其表現比Sonnet 4.5再提升4.3個百分點,token使用量仍減少了近一半(48%)。
為賦予開發者更精細的控製權,Anthropic引入了全新的“投入”參數。用戶可通過此參數,動態調節模型處理每個任務時所投入的計算工作量,從而在性能、響應速度和成本之間找到最佳平衡點。
GitHub首席產品官馬裏奧·羅德裏格斯也證實了類似發現:“早期測試表明,Opus 4.5在token消耗減半的同時,性能仍超越了我們的內部編碼基準,尤其在代碼遷移與重構等複雜任務上表現尤為出色。”

阿爾伯特對此現象作出技術解讀:Claude Opus 4.5並非直接更新其底層參數,而是在持續優化解決問題的工具與方法。“我們看到它在迭代精進任務技能,通過自主優化執行方式來提升最終效果,”他解釋道。
這種自我進化能力已突破編程領域。阿爾伯特透露,在專業文檔生成、電子表格處理和演示文稿製作等場景中,模型表現均有顯著提升。
產品生態全麵升級:深度集成Office與瀏覽器,突破對話長度限製
伴隨新模型的發布,Anthropic同步推出了一係列麵向企業場景的重要更新。
專為Excel設計的Claude功能現已向Max、Team及Enterprise用戶全麵開放,新增了對數據透視表、可視化圖表及文件上傳的完整支持。同時,Chrome瀏覽器擴展也已向全體Max用戶開放使用。
本次更新最具革命性的當屬“無限聊天”功能——該技術通過智能總結長對話中的早期內容,有效突破了傳統上下文窗口的限製。“在Claude AI產品中,憑借我們創新的內容壓縮與內存管理技術,用戶實際上獲得了近乎無限的對話效果,”阿爾伯特解釋道。
麵向開發者群體,Anthropic推出了更具工程價值的“程序化工具調用”能力,使得Claude能夠直接編寫並執行可調用外部函數的代碼。同時,Claude Code不僅升級了“計劃模式”,更以研究預覽版形式推出了桌麵客戶端,首次支持開發者並行運行多個AI智能體會話。
三強競逐加速,AI步入“自我進化”與盈利挑戰並存新階段
模型迭代速度正成為競爭焦點。
Opus 4.5距前代Haiku 4.5和Sonnet 4.5發布僅相隔數周,這折射出整個行業的加速態勢。2025年間,OpenAI持續推出多個GPT-5變體,並於11月發布可自主運行24小時的Codex Max模型;穀歌也經過數月打磨,在11月中旬正式推出Gemini 3。
值得注意的是,Anthropic正利用AI技術反哺自身研發。阿爾伯特透露:“無論是產品構建還是模型研究,Claude本身都在為我們提供助力,顯著加速了開發進程。”
麵對價格戰可能帶來的利潤壓力,阿爾伯特持樂觀態度:“降價將推動更多初創公司深度集成並主推我們的技術,從而擴大市場基礎。”然而,盡管AI市場預計十年內將突破萬億美元規模,主要實驗室在巨額投入計算設施與人才的同時,盈利之路依然漫長,尚未有任何供應商確立絕對主導地位。
對企業和開發者而言,這場競賽正轉化為持續提升的性能與不斷下降的成本。但隨著AI在專業技術任務上逼近甚至超越人類水平,其對各行業工作模式的顛覆已從理論探討變為現實挑戰。
談及AI在工程測試中超越人類的表現,阿爾伯特坦言:“這無疑是一個值得高度重視的信號。”
