Anthropic 近日發布其最新的 Claude 4 係列模型,包括旗艦型號 Claude Opus 4 和更側重效率的
Claude Sonnet 4。新模型在編程能力上實現了重大突破,Opus 4 在 SWE-bench
等關鍵基準測試中得分達到72.5%,並能處理數百萬行級別的複雜代碼庫,以及在一些測試場景中,實現了長達7小時的連續編程任務。
Claude 4 係列還引入了“工具輔助的延伸思考”、增強的記憶能力以及正式版的編程助手 Claude
Code,後者已深度集成至 VS Code 和 JetBrains IDE。在API和MCP的接入等能力上也有大範圍更新。
這是一次全方位的更新,針對編程和推理能力。而這次大更新和工具能力的補足後,Claude
4有了替代人類程序員所需要的所有條件,接下來就是一路提升這些能力,短期目標讓Agents普及,長期就直奔Anthropic眼裏的AGI了。
1
不隻是模型升級,更是全麵能力補足
Claude 4 的發布,並非簡單沿襲“Haiku、Sonnet、Opus”的階梯式組合,而是推出了兩大核心模型:追求極致性能的
Claude Opus 4 和兼顧效率與成本的 Claude Sonnet 4。
Anthropic 聲稱,Opus 4
是目前編程能力較為領先的模型之一。根據披露信息及早期用戶反饋,它頗有“質變”的意味,不僅編程效率提升,而且其展現出的複雜任務理解和執行能力,讓很多人“feel
到了 AGI”。
顯著提升的代碼生成與理解:Claude Opus 4 在編程基準測試 SWE-bench
上取得了 72.5% 的得分,在 Terminal-bench 上也達到了 43.2%;而 Sonnet 4 在 SWE-bench
上的得分也達到了 72.7%,接近 Opus 4 的水平。
而根據提前試用者的反饋,很多場景已經遠非生成代碼片段或輔助調試,而是能夠理解並處理數百萬行級別的複雜代碼庫,從高度抽象的自然語言需求直接生成結構完整、邏輯嚴密的應用程序框架。
Rakuten 在一項高要求的開源重構任務中,Opus 4 連續穩定運行長達 7 小時,表現出色。Cognition AI
表示,Opus 4 能解決其他模型此前無法完成的複雜任務。這種深度理解和生成能力,是構建更高級智能體的前提。
這些數據和案例表明,Claude 4
不僅僅是代碼片段的生成器,它已經具備了理解大型、複雜項目架構的能力,能夠從高層次的需求出發,生成結構完整、邏輯嚴密的應用程序。這意味著它能夠勝任從需求分析(理解自然語言需求)到代碼實現、重構乃至持續集成等傳統上由人類程序員完成的整個開發生命周期中的核心任務。這種全棧式的代碼處理能力,是替代人類程序員在日常開發工作中所需的第一塊能力。
“延伸思考”與超大上下文窗口:模型在進行深入思考時,能夠交替使用工具(如網頁搜索)以優化推理過程,這一“工具輔助的延伸思考”能力(測試版)使其在
GPQA、MMMLU(Opus 4 得分 87.4%)、AIME 等測試中表現突出。
這種能力超越了簡單的模式匹配,展現了初步的規劃和策略調整,是通用問題解決能力的一種體現。同時,Claude 3
時代令人印象深刻的上下文窗口在 Claude 4 這裏得到繼承和發展,為處理龐大項目提供了基礎。
“主動糾錯”、“架構建議”與“記憶力”:Claude 4
不僅能發現並修複錯誤,更能從架構層麵提出優化建議。新增的“記憶能力”允許模型提取並保存關鍵信息。
比如在玩《寶可夢》時創建“導航指南”,形成“工作記憶文件”,保持上下文連貫,這對於長任務執行至關重要。這種自我修正和長期記憶的特性,是智能係統向更自主、更通用方向發展的關鍵特征。
更重要的是,Claude 4
不再僅僅是執行指令的工具,它開始展現出高級程序員和架構師所特有的思考能力。‘主動糾錯’不僅限於語法錯誤,更深入到邏輯和架構層麵,這意味著它能像經驗豐富的開發者一樣,預見並解決潛在問題,甚至優化整體設計。
“記憶能力’則讓它能在一個項目中保持長期的上下文連貫性,無需反複喂入信息,這極大地提升了其處理長期、複雜項目的效率和可靠性。這些認知能力的補足,使得
Claude 4 能夠承擔過去隻有資深人類工程師才能勝任的、需要深度思考和持續迭代的工作,從而為真正的‘替代’奠定了智力基礎。
Claude Code 正式發布與深度集成:麵向開發者的編程工具 Claude Code
正式發布,並已支持 GitHub Actions,推出了針對 VS Code 和 JetBrains 係列 IDE
的測試版擴展。
這意味著開發者可以在熟悉的編輯器中直接獲得 Claude 的代碼修改建議、追蹤任務。
例如,在演示中,Claude Code 僅用一次提示,在 90 分鍾內為 Excalidraw
項目完整實現了此前擱置的表格組件功能,包括生成代碼、測試用例、UI 集成和 PR
提交,全程無需人工編輯。這預示著AI不僅是工具,更將成為開發流程中的核心參與者和決策者。
Claude Code 的正式發布及其與主流 IDE 的深度集成,標誌著 AI
在編程領域的角色從‘輔助’走向‘主導’。它不再是需要人類頻繁介入的智能提示或調試器,而是能夠接收高層指令,自主完成從代碼編寫、測試、集成到版本控製(如
PR 提交)的整個工作流。Excalidraw
的案例清晰地展示了這種端到端的自動化能力:一個複雜的功能需求,在極短時間內由 AI
獨立完成,且無需人工幹預。這種無縫融入現有開發環境並能獨立執行複雜任務的能力,是實現‘替代’的關鍵一步,因為它直接減少了人類在具體編碼和流程管理上的投入。
為高級 Agent 構建的 API 與工具:Claude 4 在 Agentic
能力上實現了顯著飛躍,能夠更可靠地執行複雜的多步驟任務,並與外部工具和API高效協同。
Anthropic 為此推出了全新的API功能,包括允許 Claude 在安全沙盒環境中執行 Python
代碼以進行計算和數據可視化的代碼執行工具,以及無需編寫客戶端代碼即可將 Claude 連接至任何遠程模型上下文協議(MCP)服務器的
MCP 連接器。
此外,文件 API
簡化了開發者在構建應用時存儲和訪問文檔的流程,而擴展的提示緩存則提供了在標準5分鍾或延長至1小時的緩存有效期之間進行選擇的靈活性。這些新特性與
Claude Opus 4 和 Sonnet 4
模型相結合,將助力開發者打造出能夠執行複雜數據分析、與外部係統無縫對接、高效管理文件,並且能將對話上下文保持長達60分鍾的智能代理。
成本效益與易用性:盡管能力大幅提升,Opus 4 每百萬 token 的輸入/輸出價格分別為
$15/$75,Sonnet 4 為 $3/$15,與前代持平。兩款模型均已上線 Anthropic API、Amazon
Bedrock 和 Google Cloud Vertex AI 平台,Sonnet 4 甚至向免費用戶開放。
Claude 4 係列模型在編程能力上頗有“從量變到質變”的味道。
1
讓人類把編程的權力讓給AI,是Anthropic走向AGI的第一步
Claude 4 的強大能力已在多個場景中得到驗證:
例如,在Replit的實測中,Opus 4
在處理涉及多文件、大規模改動的複雜項目中展現出更高的準確率;Block公司在其代號為Goose的Agent中集成Opus
4後,首次在編輯和調試代碼過程中觀察到代碼質量的顯著提升,同時保持了係統的穩定性和性能。 有用戶也成功讓Opus
4一次性生成了包含四種不同天氣狀態及獨特動畫效果的天氣卡片,而Sonnet
4也在第二次嚐試後成功交付了一個包含自動演示AI功能的紅白機風格“貪吃蛇”遊戲。
從這些案例可以看出,AI 可以一次性完成的任務,越來越多,越來越複雜。
Claude 4還帶來了全新的 Agent 的可能。Anthropic 表示,未來優秀的 AI Agent
需要具備“情境智能”、“長任務執行能力”和“真實協作能力”。接下來的目標是出現主動修改優化自身代碼邏輯,甚至為自己編寫新工具的“代碼自進化”
Agent。
Anthropic CEO Dario Amodei
在當天的發布上描述這種新的人機協作模式時說:“我們正進入一個新世界,開發者可以像管理一支 Agent
團隊一樣工作:「你去做這個,你去做那個。」我常說,做 AI
就像是坐在一艘飛船上,以相對論的速度離開地球——你在飛船上過一天,地球上可能已經過去兩天了。” 他說。
“所以大膽一點。構建一個超出你原本認為可能實現的東西。即使它現在還無法完全實現,下一代模型就要來了。” 他說。
現在看來,Anthropic的路線越來越明晰,選擇“代碼生成與理解”這一高度結構化、對邏輯推理和規劃能力要求極高的領域作為突破口,安全且負責任地將複雜認知任務(如編程)的執行權從人類手中讓渡給AI,就是實現Anthropic眼裏那個AGI的第一步。
而當這些Agent能夠高效、低成本地創建和管理軟件時,Dario 預言:
“當「寫軟件的成本」大幅下降時,經濟和商業結構會發生什麽?…當軟件可以按需、低成本、一次性創建時,整個世界都會不同。”