簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 焦點新聞 » 一文讀懂ChatGPT智能體:沒超越Manus能力範疇

一文讀懂ChatGPT智能體:沒超越Manus能力範疇

文章來源: AI未來指北 於 2025-07-17 20:40:52 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數

Agent是今年AI圈最大的共識,OpenAI自然也不能掉隊。

北京時間2025年7月18日淩晨1點,Sam Altman 和四位OpenAI 的研究員在直播中正式發布了ChatGPT Agent——一款通用型 AI Agent。

一文讀懂ChatGPT智能體:沒超越Manus能力範疇

前有Manus、Lovart和Flowith,ChatGPT Agent 所呈現的功能場景並不算特別驚豔,但它發布的意義,要超越其功能本身。

ChatGPT Agent的革命性在於其獨特的技術路徑:它可以主動從工具箱中選擇代理技能,使用自己的計算機完成任務,用戶可以實時觀察AI在虛擬環境中的工作過程。

這種交互界麵雖與Manus等產品相似,但底層原理卻有著本質差異。Manus調用多個底層模型,類似於“外部縫合”,而ChatGPT Agent,是將Agent能力內化於模型,我們已經看到了端到端通用Agent的雛形。



OpenAI介紹,為了開發ChatGPT Agent,他們將Operator和Deep Research團隊合並為一個統一的團隊,這個新團隊由20至35人組成。

根據ChatGPT Agent的係統卡片顯示,這是一個新的代理模型,與OpenAI o3同屬一個係列,采用了端到端的訓練方法。它是為代理任務開發的統一模型,而不是多個模型的工程化組合。



Agent結合了Deep research的多步研究和高質量報告生成能力、Operator通過遠程可視化瀏覽器環境執行任務的能力、具有有限網絡訪問權限的終端工具,以及通過連接器訪問外部數據源和應用程序的能力。

在執行完複雜任務之後,也可以交付給用戶一個可下載的PPT或文檔。

對Manus而言,OpenAI的這一新舉措無疑是巨大的打擊,甚至從定價上,兩者也差距不大:GPT的Plus套餐每月20美金即可使用Agent,而Manus的基礎計劃是每月19美金。

劃重點:

ChatGPT Agent:是能夠執行複雜、多工具任務的統一AI Agent;

它集成了對文本瀏覽器、GUI 瀏覽器、終端和圖像生成工具的訪問;

它支持與用戶進行交互式、多輪對話,允許打斷和澄清;

安全防護升級:加強對網頁“惡意提示”攻擊的防禦,設置高風險任務自動拒絕,生物/化學風險也按最高級別安全堆棧處理;

它在多個現實世界和基準任務中取得了最先進的結果;

一、ChatGPT Agent概覽:功能很像manus

ChatGPT Agent的核心是一個統一的代理係統 (unified agentic system),整合並擴展了 OpenAI 早期研究項目 "Operator"(側重於網站交互)和 "Deep Research"(側重於信息綜合)的能力。

這使得 ChatGPT Agent 能夠在一個單一的對話流中,無縫地從推理思考切換到執行具體動作。

虛擬計算機環境:ChatGPT Agent在一個為其特設的虛擬計算機上執行所有任務。這個環境是沙盒化的,確保了操作的安全性。它能夠在該環境中保存任務的上下文,即使用戶中途打斷或改變指令,也能從斷點繼續,而不會丟失進度。

智能工具箱:為了完成複雜工作流,Agent 配備了四種工具,並能根據任務需求自動選擇最合適的工具:

可視化瀏覽器 (Visual Browser):用於與圖形用戶界麵進行交互,例如點擊按鈕、填寫表單和瀏覽為人類設計的網站。

文本瀏覽器 (Text-based Browser):用於需要高效推理和處理大量文本的網絡查詢。

終端 (Terminal):允許 Agent 運行代碼、下載和處理文件。

API 訪問:可以直接調用 API 來獲取信息,例如通過連接器訪問 Google Drive、Gmail 和 GitHub 等應用的數據。



新模型驅動:ChatGPT Agent由一個專門為其開發的新模型驅動。這個模型通過強化學習 (reinforcement learning) 的方法,在需要使用多種工具的複雜任務上進行了專門訓練,從而學會了如何在不同工具之間流暢切換並協同工作。

它有以下特性:

自主任務執行:用戶可以用自然語言下達指令,例如“分析我的日曆,並根據最近的新聞為我簡報即將到來的客戶會議”,Agent 能夠自主規劃並執行一係列操作,如瀏覽網站、篩選信息、運行代碼分析,並最終生成可編輯的幻燈片或電子表格等成果。



協作與交互性:它會在需要時主動詢問更多細節以完成目標。用戶可以隨時中斷、重定向任務或完全接管瀏覽器的控製權。

安全與權限控製:安全性是其設計的核心部分。在執行購買、提交表單、發送郵件或處理個人信息等具有實際影響的關鍵操作前,Agent 會明確請求用戶許可。同時,它被禁止執行如金融轉賬或提供法律建議等高風險任務。OpenAI 還內置了針對“提示注入”等惡意攻擊的防護措施。

二、多項基準測試跑分“破紀錄”

最難的 HLE 達到 41.6%(with tool), 高於剛剛發布的Grok4(with tool)41.0%。

在評估廣域知識與專家級提問的 Humanity’s Last Exam 上,單次作答準確率達 41.6%;采用並行八路推理並選取置信度最高答案後可提升到 44.4%。



在極難的 FrontierMath 數學基準上,借助終端運行代碼後準確率提升至 27.4%。



在針對真實知識工作任務的內部評測中,ChatGPT 代理在約半數案例裏已與人類持平或更佳;



在現實數據科學任務 DSBench 上,其分析與建模準確率分別達到 89.9% 與 85.5%,遠超人類平均水平。



它對電子表格的直接編輯能力也領先:在 SpreadsheetBench 中拿到 45.5%,超過 Copilot in Excel 的 20%。此外,它在 BrowseComp、WebArena 等瀏覽評測裏均刷新了SOTA。



(圖:評測方法:SpreadsheetBench的作者在Windows 環境下使用 MicrosoftExcel對電子表格進行評估。我們則在 OSX 環境中使用 LibreOffice,這可能導致評分出現輕微差異。例如,作者報告 GPT‑4o 在整體 Hard 限製上的結果為 15.02%,而我們得到 13.38%。我們使用了完整的 912 道題目基準測試。)

根據ChatGPT Agent自己做的PPT,在做PPT的能力上和上網衝浪能力上,Agent的能力都相比純粹的基礎模型有較明顯的提升。但離人類還頗有距離。





三、不是期貨,今日可用

自今日起,Pro 用戶可以馬上使用,Plus 與 Team 用戶將在數日內陸續開通;Enterprise 與 Education 版本將於數周後接入。

Pro 每月可用 400 條消息,其他付費用戶每月額度為 40 條,可通過靈活的按量計費追加。

實際使用非常簡單:在任何對話中切到「代理模式」,描述目標,例如深度調研、製作演示或報銷。屏幕左側實時顯示它的操作流程;若需要登錄,係統會切換到「接管模式」安全輸入憑證。

用戶還可以把完成的任務設為周期性執行,例如每周一自動生成指標報告。

四、奧特曼親自提示風險:Agent很強大,也很危險

值得注意的是,奧特曼在發布會之後,立刻發了一條長貼,提示使用ChatGPT Agent的風險。

在“強調”過ChatGPT Agent處理複雜任務的強大能力後,特別鄭重地提示了產品的風險,並強調:我們尚不清楚具體會造成什麽影響,但不法分子可能會試圖“誘騙”用戶的 AI 代理提供不該提供的私人信息並采取不該采取的行動,而這其中的方式我們無法預測。

模型可能會接觸用戶的敏感數據,或遭遇網頁中的惡意「提示注入」攻擊。為此,他們沿用 Operator 期間的嚴格控製,並新增多項防護:

關鍵動作前必須得到用戶明確授權;

部分高風險任務(如發送郵件)啟用「監督模式」要求用戶全程監控;

碰到銀行轉賬等高風險指令會主動拒絕;

用戶可以一鍵清除瀏覽數據並注銷全部會話,或在不需聯網時禁用連接器。

在生物與化學安全方麵,OpenAI根據 Preparedness Framework 將該模型按高風險級別處理,上線了最全麵的安全措施,並與政府、學界及安全機構合作開展紅隊測試與威脅建模,同時啟動漏洞賞金計劃,以便盡早發現並修補潛在問題。



五、ChatGPT Agent夠遙遙領先嗎?

ChatGPT Agent最大的創新在於首次在模型中直接集成了完整的虛擬機環境,用戶可以實時觀察AI的操作過程,這是其它模型產品不具備的。

但是,各主流模型公司都在“Agent即模型,模型即Agent”的路上越走越遠。比如,在coding agent能力上幾乎封神的Claude。

眾多需要借用底層模型搭建的Agent產品,甚至離開了Claude,就什麽也不是。

剛剛上線的Kimi K2采用開源的混合專家模型架構,定位就為Agentic Intelligence,且價格僅有Claude 4的1/6左右。上線之後,token的采用量排名持續飆升。

但從“模型即Agent”這條路來說,OpenAI並不能算是遙遙領先,僅僅能說邁出了一小步。

OpenAI在官方文檔中也特別謙虛地表示:

需要注意的是,功能仍處早期:例如幻燈片生成功能現為 beta,格式與美觀度仍待提升,現階段主要優化信息結構與元素可編輯性;未來我們將繼續訓練新版本,以生成更精致的文件。總的來說,隨著持續迭代,ChatGPT 代理的效率、深度和多樣性都會不斷提升,我們也會逐步調優用戶監督的力度,在易用與安全之間取得更好平衡。



看著自家產品的演示,Sam Altman不禁又開始感歎:“我感受到了AGI。”

然而,在帖子下方還是有長長的用戶留言追問:“說好的GPT-5呢?”





查看評論(1)

24小時熱點排行

一男一女,今天刷爆了領英!全美吃瓜
宗慶後生前購買美國千萬豪宅曝光 頂級定製 奢華至極
《竹林女兒》:離散和跨國收養,一對雙胞胎的命運回響
4600萬元的村企,被“明星書記”搞垮了
美牙醫愛上小三 毒殺妻子 策劃殺警被控一級謀殺

24小時討論排行

川普:中國很快會處死芬太尼製造者 北京:責任在美國自身
長記性吧,以後媒體再吹誰儉樸我都不信!
馬斯克密集發文猛烈抨擊特朗普“愛潑斯坦案是騙局”
印度空難後"東航慘案"被提,"可能危及國安"會被塵封嗎?
澳總理:中國洋溢自信和創新 成都建築前所未見
全球首例!深圳機器人“自己搭地鐵”送貨 乘客狂搶拍
印度裔在美國影響力越來越大 種族仇恨也隨之而來
美國加州州長跳腳:特朗普想把未來拱手交給中國!
最新進展!華人夫婦代孕21名子女 涉嫌賣中國賺錢!
移民這局贏了!川普政府想拔他綠卡"法院2理由推翻"
川普下通牒一石二鳥! 普京與中伊朝聯盟恐瓦解
川普18歲孫女身價飆千萬!穿紅衣“偽參選”簽重磅代言
美中關稅大限傳或再延3月 外媒:北京自認佔上風
苦吞50%關稅!巴西總統魯拉"強硬杠上川普"民調反漲
中國人大買加州房產 野火肆虐後 數十萬空屋格外刺眼
特朗普心生一計,歐洲人頭都大了...
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

文學城新聞
切換到網頁版

一文讀懂ChatGPT智能體:沒超越Manus能力範疇

AI未來指北 2025-07-17 20:40:52

Agent是今年AI圈最大的共識,OpenAI自然也不能掉隊。

北京時間2025年7月18日淩晨1點,Sam Altman 和四位OpenAI 的研究員在直播中正式發布了ChatGPT Agent——一款通用型 AI Agent。

一文讀懂ChatGPT智能體:沒超越Manus能力範疇

前有Manus、Lovart和Flowith,ChatGPT Agent 所呈現的功能場景並不算特別驚豔,但它發布的意義,要超越其功能本身。

ChatGPT Agent的革命性在於其獨特的技術路徑:它可以主動從工具箱中選擇代理技能,使用自己的計算機完成任務,用戶可以實時觀察AI在虛擬環境中的工作過程。

這種交互界麵雖與Manus等產品相似,但底層原理卻有著本質差異。Manus調用多個底層模型,類似於“外部縫合”,而ChatGPT Agent,是將Agent能力內化於模型,我們已經看到了端到端通用Agent的雛形。



OpenAI介紹,為了開發ChatGPT Agent,他們將Operator和Deep Research團隊合並為一個統一的團隊,這個新團隊由20至35人組成。

根據ChatGPT Agent的係統卡片顯示,這是一個新的代理模型,與OpenAI o3同屬一個係列,采用了端到端的訓練方法。它是為代理任務開發的統一模型,而不是多個模型的工程化組合。



Agent結合了Deep research的多步研究和高質量報告生成能力、Operator通過遠程可視化瀏覽器環境執行任務的能力、具有有限網絡訪問權限的終端工具,以及通過連接器訪問外部數據源和應用程序的能力。

在執行完複雜任務之後,也可以交付給用戶一個可下載的PPT或文檔。

對Manus而言,OpenAI的這一新舉措無疑是巨大的打擊,甚至從定價上,兩者也差距不大:GPT的Plus套餐每月20美金即可使用Agent,而Manus的基礎計劃是每月19美金。

劃重點:

ChatGPT Agent:是能夠執行複雜、多工具任務的統一AI Agent;

它集成了對文本瀏覽器、GUI 瀏覽器、終端和圖像生成工具的訪問;

它支持與用戶進行交互式、多輪對話,允許打斷和澄清;

安全防護升級:加強對網頁“惡意提示”攻擊的防禦,設置高風險任務自動拒絕,生物/化學風險也按最高級別安全堆棧處理;

它在多個現實世界和基準任務中取得了最先進的結果;

一、ChatGPT Agent概覽:功能很像manus

ChatGPT Agent的核心是一個統一的代理係統 (unified agentic system),整合並擴展了 OpenAI 早期研究項目 "Operator"(側重於網站交互)和 "Deep Research"(側重於信息綜合)的能力。

這使得 ChatGPT Agent 能夠在一個單一的對話流中,無縫地從推理思考切換到執行具體動作。

虛擬計算機環境:ChatGPT Agent在一個為其特設的虛擬計算機上執行所有任務。這個環境是沙盒化的,確保了操作的安全性。它能夠在該環境中保存任務的上下文,即使用戶中途打斷或改變指令,也能從斷點繼續,而不會丟失進度。

智能工具箱:為了完成複雜工作流,Agent 配備了四種工具,並能根據任務需求自動選擇最合適的工具:

可視化瀏覽器 (Visual Browser):用於與圖形用戶界麵進行交互,例如點擊按鈕、填寫表單和瀏覽為人類設計的網站。

文本瀏覽器 (Text-based Browser):用於需要高效推理和處理大量文本的網絡查詢。

終端 (Terminal):允許 Agent 運行代碼、下載和處理文件。

API 訪問:可以直接調用 API 來獲取信息,例如通過連接器訪問 Google Drive、Gmail 和 GitHub 等應用的數據。



新模型驅動:ChatGPT Agent由一個專門為其開發的新模型驅動。這個模型通過強化學習 (reinforcement learning) 的方法,在需要使用多種工具的複雜任務上進行了專門訓練,從而學會了如何在不同工具之間流暢切換並協同工作。

它有以下特性:

自主任務執行:用戶可以用自然語言下達指令,例如“分析我的日曆,並根據最近的新聞為我簡報即將到來的客戶會議”,Agent 能夠自主規劃並執行一係列操作,如瀏覽網站、篩選信息、運行代碼分析,並最終生成可編輯的幻燈片或電子表格等成果。



協作與交互性:它會在需要時主動詢問更多細節以完成目標。用戶可以隨時中斷、重定向任務或完全接管瀏覽器的控製權。

安全與權限控製:安全性是其設計的核心部分。在執行購買、提交表單、發送郵件或處理個人信息等具有實際影響的關鍵操作前,Agent 會明確請求用戶許可。同時,它被禁止執行如金融轉賬或提供法律建議等高風險任務。OpenAI 還內置了針對“提示注入”等惡意攻擊的防護措施。

二、多項基準測試跑分“破紀錄”

最難的 HLE 達到 41.6%(with tool), 高於剛剛發布的Grok4(with tool)41.0%。

在評估廣域知識與專家級提問的 Humanity’s Last Exam 上,單次作答準確率達 41.6%;采用並行八路推理並選取置信度最高答案後可提升到 44.4%。



在極難的 FrontierMath 數學基準上,借助終端運行代碼後準確率提升至 27.4%。



在針對真實知識工作任務的內部評測中,ChatGPT 代理在約半數案例裏已與人類持平或更佳;



在現實數據科學任務 DSBench 上,其分析與建模準確率分別達到 89.9% 與 85.5%,遠超人類平均水平。



它對電子表格的直接編輯能力也領先:在 SpreadsheetBench 中拿到 45.5%,超過 Copilot in Excel 的 20%。此外,它在 BrowseComp、WebArena 等瀏覽評測裏均刷新了SOTA。



(圖:評測方法:SpreadsheetBench的作者在Windows 環境下使用 MicrosoftExcel對電子表格進行評估。我們則在 OSX 環境中使用 LibreOffice,這可能導致評分出現輕微差異。例如,作者報告 GPT‑4o 在整體 Hard 限製上的結果為 15.02%,而我們得到 13.38%。我們使用了完整的 912 道題目基準測試。)

根據ChatGPT Agent自己做的PPT,在做PPT的能力上和上網衝浪能力上,Agent的能力都相比純粹的基礎模型有較明顯的提升。但離人類還頗有距離。





三、不是期貨,今日可用

自今日起,Pro 用戶可以馬上使用,Plus 與 Team 用戶將在數日內陸續開通;Enterprise 與 Education 版本將於數周後接入。

Pro 每月可用 400 條消息,其他付費用戶每月額度為 40 條,可通過靈活的按量計費追加。

實際使用非常簡單:在任何對話中切到「代理模式」,描述目標,例如深度調研、製作演示或報銷。屏幕左側實時顯示它的操作流程;若需要登錄,係統會切換到「接管模式」安全輸入憑證。

用戶還可以把完成的任務設為周期性執行,例如每周一自動生成指標報告。

四、奧特曼親自提示風險:Agent很強大,也很危險

值得注意的是,奧特曼在發布會之後,立刻發了一條長貼,提示使用ChatGPT Agent的風險。

在“強調”過ChatGPT Agent處理複雜任務的強大能力後,特別鄭重地提示了產品的風險,並強調:我們尚不清楚具體會造成什麽影響,但不法分子可能會試圖“誘騙”用戶的 AI 代理提供不該提供的私人信息並采取不該采取的行動,而這其中的方式我們無法預測。

模型可能會接觸用戶的敏感數據,或遭遇網頁中的惡意「提示注入」攻擊。為此,他們沿用 Operator 期間的嚴格控製,並新增多項防護:

關鍵動作前必須得到用戶明確授權;

部分高風險任務(如發送郵件)啟用「監督模式」要求用戶全程監控;

碰到銀行轉賬等高風險指令會主動拒絕;

用戶可以一鍵清除瀏覽數據並注銷全部會話,或在不需聯網時禁用連接器。

在生物與化學安全方麵,OpenAI根據 Preparedness Framework 將該模型按高風險級別處理,上線了最全麵的安全措施,並與政府、學界及安全機構合作開展紅隊測試與威脅建模,同時啟動漏洞賞金計劃,以便盡早發現並修補潛在問題。



五、ChatGPT Agent夠遙遙領先嗎?

ChatGPT Agent最大的創新在於首次在模型中直接集成了完整的虛擬機環境,用戶可以實時觀察AI的操作過程,這是其它模型產品不具備的。

但是,各主流模型公司都在“Agent即模型,模型即Agent”的路上越走越遠。比如,在coding agent能力上幾乎封神的Claude。

眾多需要借用底層模型搭建的Agent產品,甚至離開了Claude,就什麽也不是。

剛剛上線的Kimi K2采用開源的混合專家模型架構,定位就為Agentic Intelligence,且價格僅有Claude 4的1/6左右。上線之後,token的采用量排名持續飆升。

但從“模型即Agent”這條路來說,OpenAI並不能算是遙遙領先,僅僅能說邁出了一小步。

OpenAI在官方文檔中也特別謙虛地表示:

需要注意的是,功能仍處早期:例如幻燈片生成功能現為 beta,格式與美觀度仍待提升,現階段主要優化信息結構與元素可編輯性;未來我們將繼續訓練新版本,以生成更精致的文件。總的來說,隨著持續迭代,ChatGPT 代理的效率、深度和多樣性都會不斷提升,我們也會逐步調優用戶監督的力度,在易用與安全之間取得更好平衡。



看著自家產品的演示,Sam Altman不禁又開始感歎:“我感受到了AGI。”

然而,在帖子下方還是有長長的用戶留言追問:“說好的GPT-5呢?”