OpenAI發布智能體開發套件:AI能自主操作計算機
騰訊科技
2025-03-11 19:10:46
OpenAI通過小型圓桌發布會發布AI Agent開發套件
3月12日,OpenAI發布針對AI Agent打造的係列工具與API,助力開發者更便捷地創建可自動執行任務的AI
Agent。
--全新的Responses
API:深度融合對話式API的交互簡潔性與助手API的工具調用能力,打造麵向智能體開發的統一接口範式。該API支持動態任務解析與工具鏈自主調度,顯著降低複雜業務流程的架構複雜度。
--內置工具:包括網絡搜索、文件搜索和計算機使用等功能。
--全新的智能體SDK:用於協調單代理和多代理工作流。
--集成的可觀測性工具:用於追蹤和檢查智能代理工作流的執行情況。
OpenAI官方提供的Agent工作流執行進度跟蹤麵板
這些新工具簡化了智能體的核心邏輯、編排和交互,極大地降低了開發者構建智能體的入門門檻。在未來幾周和幾個月內,OpenAI計劃陸續推出更多工具和功能,進一步簡化並加速在OpenAI平台上構建智能體應用的流程。
01.Responses API技術解析
作為OpenAI麵向智能體開發的基礎API組件,Responses
API深度融合對話式接口的易用性與助手API的工具調度能力。該API旨在為開發者構建具備持續演進能力的智能體係統提供核心支撐框架。
隨著模型能力的迭代升級,Responses
API將持續優化其靈活性和擴展性,使開發者通過單次API調用即可完成多工具協同、多輪推理的複雜任務處理。
Responses
API首批支持網絡搜索引擎、文件搜索和計算機使用等功能。這些工具旨在協同工作,將模型與現實世界連接起來,使其在完成任務時更具實用性。
Responses
API專為需要將OpenAI模型與內置工具無縫集成至應用係統的開發者設計,OpenAI默認不會將存儲於其平台的企業數據用於模型訓練,該承諾在數據處理協議中有明確條款約束。
該API即日起麵向所有開發者開放,采用標準化計費體係:Tokens與工具調用均按官網公示費率執行。
對現有API的影響
Chat Completions
API:作為OpenAI當前市場占有率最高的接口方案,該API將持續獲得新型號模型與功能迭代支持。對於無需內置工具調用的應用場景,建議開發者繼續沿用現有技術架構。
Assistants API:基於Assistants
API測試版獲得的開發者反饋,OpenAI已將關鍵改進整合至Responses
API,使其更靈活、更快速、更易用,未來OpenAI將棄用Assistants API,目標時間為2026年年中。
02.Responses API的內置工具
網絡搜索
開發者現在可以通過網絡獲取快速、最新的答案,並附帶清晰相關的引用來源。在Responses
API中,使用gpt-4o和gpt-4o-mini時,網絡搜索可作為工具使用,並可與其他工具或函數調用結合。
在早期測試中,開發者群體已將網絡搜索應用於多種用例,包括購物助手、研究代理和旅行預訂代理——任何需要及時網絡信息的應用場景。
演示使用OpenAI的API來生成與當天新聞相關的文本響應
GPT-4o搜索和4o-mini搜索的定價分別為每千次查詢30美元和25美元。
文件搜索
開發者現在可以輕鬆從海量文檔中檢索相關信息。升級後的文件搜索工具支持多種文件類型、查詢優化、元數據過濾及自定義重新排序,能夠提供快速精準的搜索結果。通過Responses
API,僅需幾行代碼即可完成集成。
文件搜索工具適用於多種實際場景:支持客服助手快速調取常見問題庫、協助編程助手查詢技術文檔等。定價為每千次查詢2.50美元,文件存儲費用為每GB每日0.10美元(首GB免費)。
計算機使用
開發者現可通過Responses
API構建能夠操作計算機完成任務的智能體,該工具基於與Operator同源的計算機使用代理(CUA)模型。
該工具能捕獲模型生成的鼠標與鍵盤操作軌跡,使開發者可將這些動作轉化為具體環境中的可執行命令,實現計算機任務的自動化處理。
安全方麵:內置防禦提示注入的安全檢查、敏感操作確認提示、環境隔離工具及策略違規檢測強化。OpenAI提示,建議涉及係統操作時保持人工監督。
該工具現以研究預覽版形式向使用層級3-5的開發者開放於Responses API中,定價為每百萬輸入Token
3美元、輸出Token 12美元。
03.智能體SDK
全新開源的智能體SDK顯著簡化多智能體工作流管理,相較去年發布的實驗性工具Swarm(已被開發者社區廣泛采用並成功部署於多個客戶場景),本次升級包含以下改進:
--智能體配置:支持快速部署預置清晰指令與內置工具的大語言模型。
--流程交接(Handoffs:):實現智能體間控製權的動態轉移與上下文繼承。
--安全護欄(Guardrails):可定製的輸入輸出驗證機製,防範有害內容。
--追蹤與可觀測性:可視化智能體執行軌跡以調試並優化性能。
智能體SDK適用於多種現實場景,包括客戶支持自動化、多步驟研究、內容生成、代碼審查與銷售線索挖掘。它兼容Responses
API與Chat Completions API。該SDK也支持其他提供商的模型。