11月25日淩晨，Anthropic發布了其迄今最強大的AI模型Claude Opus 4.5。該公司宣稱，新模型在軟件工程任務上實現了“最先進性能”，進一步加劇了其與OpenAI、穀歌等對手之間的競爭。

Claude Opus 4.5在Anthropic軟件工程測試中表現出色，得分超越Gemini 3 Pro、GPT-5.1等一眾對手。

圖：Claude Opus 4.5在SWE Bench軟件工程測試中的性能表現

公司數據顯示，該模型在SWE-bench Verified（一項評估現實世界軟件工程能力的基準測試）中達到了80.9%的準確率，表現超越了OpenAI的GPT-5.1-Codex-Max（77.9%）、Anthropic自家的Sonnet 4.5（77.2%）以及穀歌的Gemini 3 Pro（76.2%）。

同時，Anthropic大幅下調了這款模型的定價：輸入token降至每百萬5美元，輸出token為每百萬25美元，較前代產品Claude Opus 4.1（輸入15美元/百萬，輸出75美元/百萬）下降約三分之二。

降價使得尖端AI技術對廣大開發者和企業更加觸手可及，同時也給競爭對手帶來了性能與價格的雙重壓力。

在現實任務中展現更優判斷力

測試人員普遍反饋，新模型在各種任務中展現出更強的判斷力與直覺。他們將這種進步描述為：模型開始領悟現實情境中的“關鍵所在”。

“這個模型好像突然‘開竅’了，”開發者關係負責人阿爾伯特表示，“它在處理許多現實問題時表現出的直覺和判斷力，讓人感覺相比前代模型實現了一次質的跨越。”

阿爾伯特以自身工作為例進一步說明：過去他僅利用AI收集信息，而對它們的整合與優先級排序能力持保留態度。如今，借助Opus 4.5，他已開始委托更完整的任務，通過連接Slack和內部文檔，模型能生成與他預期高度契合的連貫摘要。

賓夕法尼亞大學沃頓商學院教授、生成式AI實驗室聯合主任伊桑·莫利克測試後評論道，新模型的能力確實處於技術前沿。其最顯著的提升在於實際應用，例如跨軟件操作（如用Excel製作PPT）。

在核心工程測試中超越所有人類工程師

Claude Opus 4.5在Anthropic內部一項高難度工程評估中創下了新紀錄。這項評估本是公司為性能工程師崗位設計的限時編程測試，要求求職者在兩小時內完成，旨在考察其技術能力與問題判斷力。

Anthropic透露，通過采用“並行測試時計算”技術，即匯總模型的多次解題嚐試並篩選最優結果，Opus 4.5的最終得分超越了所有曾參與該測試的人類工程師。

在不限時間的條件下，若在其專用編碼環境Claude Code中運行，Claude Opus 4.5的解題表現更是與史上最高分的人類工程師持平。

不過該公司也坦言，這類測試無法衡量其他關鍵專業技能，例如團隊協作、有效溝通，或是經年累月形成的專業直覺。

效率飛躍：核心基準測試token消耗大幅降低76%

除原始性能突破外，Anthropic更將效率提升視為Claude Opus 4.5的核心競爭力。新模型在達成相同甚至更優結果時，所需處理的計算token數量顯著減少。

具體數據顯示，在“中等”投入級別下，Opus 4.5可在SWE-bench Verified測試中達到與Sonnet 4.5相同的最高分，而輸出token消耗量卻大幅降低了76%。即便在“高”投入級別追求極限性能時，其表現比Sonnet 4.5再提升4.3個百分點，token使用量仍減少了近一半（48%）。

為賦予開發者更精細的控製權，Anthropic引入了全新的“投入”參數。用戶可通過此參數，動態調節模型處理每個任務時所投入的計算工作量，從而在性能、響應速度和成本之間找到最佳平衡點。

GitHub首席產品官馬裏奧·羅德裏格斯也證實了類似發現：“早期測試表明，Opus 4.5在token消耗減半的同時，性能仍超越了我們的內部編碼基準，尤其在代碼遷移與重構等複雜任務上表現尤為出色。”

阿爾伯特對此現象作出技術解讀：Claude Opus 4.5並非直接更新其底層參數，而是在持續優化解決問題的工具與方法。“我們看到它在迭代精進任務技能，通過自主優化執行方式來提升最終效果，”他解釋道。

這種自我進化能力已突破編程領域。阿爾伯特透露，在專業文檔生成、電子表格處理和演示文稿製作等場景中，模型表現均有顯著提升。

產品生態全麵升級：深度集成Office與瀏覽器，突破對話長度限製

伴隨新模型的發布，Anthropic同步推出了一係列麵向企業場景的重要更新。

專為Excel設計的Claude功能現已向Max、Team及Enterprise用戶全麵開放，新增了對數據透視表、可視化圖表及文件上傳的完整支持。同時，Chrome瀏覽器擴展也已向全體Max用戶開放使用。

本次更新最具革命性的當屬“無限聊天”功能——該技術通過智能總結長對話中的早期內容，有效突破了傳統上下文窗口的限製。“在Claude AI產品中，憑借我們創新的內容壓縮與內存管理技術，用戶實際上獲得了近乎無限的對話效果，”阿爾伯特解釋道。

麵向開發者群體，Anthropic推出了更具工程價值的“程序化工具調用”能力，使得Claude能夠直接編寫並執行可調用外部函數的代碼。同時，Claude Code不僅升級了“計劃模式”，更以研究預覽版形式推出了桌麵客戶端，首次支持開發者並行運行多個AI智能體會話。

三強競逐加速，AI步入“自我進化”與盈利挑戰並存新階段

模型迭代速度正成為競爭焦點。

Opus 4.5距前代Haiku 4.5和Sonnet 4.5發布僅相隔數周，這折射出整個行業的加速態勢。2025年間，OpenAI持續推出多個GPT-5變體，並於11月發布可自主運行24小時的Codex Max模型；穀歌也經過數月打磨，在11月中旬正式推出Gemini 3。

值得注意的是，Anthropic正利用AI技術反哺自身研發。阿爾伯特透露：“無論是產品構建還是模型研究，Claude本身都在為我們提供助力，顯著加速了開發進程。”

麵對價格戰可能帶來的利潤壓力，阿爾伯特持樂觀態度：“降價將推動更多初創公司深度集成並主推我們的技術，從而擴大市場基礎。”然而，盡管AI市場預計十年內將突破萬億美元規模，主要實驗室在巨額投入計算設施與人才的同時，盈利之路依然漫長，尚未有任何供應商確立絕對主導地位。

對企業和開發者而言，這場競賽正轉化為持續提升的性能與不斷下降的成本。但隨著AI在專業技術任務上逼近甚至超越人類水平，其對各行業工作模式的顛覆已從理論探討變為現實挑戰。

談及AI在工程測試中超越人類的表現，阿爾伯特坦言：“這無疑是一個值得高度重視的信號。”

切換到網頁版

Claude 4.5重奪最強模型王冠：編碼能力超越人類專家

騰訊科技 2025-11-25 20:18:05