簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 焦點新聞 » ChatGPT Agent口碑兩極化,Manus隔空對戰

ChatGPT Agent口碑兩極化,Manus隔空對戰

文章來源: 智東西 於 2025-07-18 23:19:50 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數

智東西AI前瞻7月18日報道,今日淩晨,OpenAI正式推出了ChatGPT Agent,一個整合了網頁交互、深度檢索和代碼能力的全新“AI助手形態”。

從產品邏輯上看,網絡交互工具Operator和深度信息檢索工具DeepResearch不再分家,ChatGPT內部出現了一個能夠“查找-思考-執行”一體化的Agent,用戶能直接讓AI跨網頁、代碼、個人數據源完成完整任務。

相較於OpenAI接連被挖角引發的輿論熱度,ChatGPT Agent的發布似沒達到“革命性Agent”的期許,略顯反應平淡。社區用戶體驗後褒貶不一,有人認為“初見AGI的雛形”,但也有人指出PPT排版簡陋、複雜邏輯易中斷和幻覺等問題。

ChatGPT Agent發布後,競品Manus第一時間接招,放出10個實測案例,試圖通過財務建模、生活規劃、行程安排、消費購物、航班篩選等不同場景任務,證明ChatGPT Agent在任務閉環和可視化交付上並不占優。

ChatGPT Agent口碑兩極化,Manus隔空對戰

▲(圖源:Manus X平台)

回過頭來看,ChatGPT Agent在網頁瀏覽、執行任務等多個測評中實現了SOTA,在“人類的最後考試”(Humanity’s Last Exam)測試中取得了41.6的高分。這一成績證明了其能力,也同時需要進一步在真實場景中驗證。



ChatGPT Agent將首先向Pro、Plus和Team用戶推出,Pro用戶每月可獲得400次查詢,其他付費用戶每月40次。麵向企業和教育用戶的版本,預計將在本月底前上線。

目前,ChatGPT Pro版的訂閱價格為每月200美元,包含Agent和終端功能。相比之下,xAI的Grok 4最新的Agent產品定價高達每月300美元,兩者價格相差1.5倍。

一、一次“功能拚圖”的交付,ChatGPT Agent有哪些升級?

ChatGPT Agent的定位可以簡單理解為“把Operator和DeepResearch合並”,並補上了一個“終端”和“圖像生成API”的工具棧。

1、文本瀏覽器(DeepResearch功能)負責批量搜索網頁、閱讀長文本;

2、可視化瀏覽器(Operator功能)負責網頁點擊、拖拽和表單填寫;

3、終端可以跑Python腳本、生成和分析文件(Excel表格、PPT幻燈片)和調用API,甚至接入Google Drive、GitHub等外部數據;

4、圖像生成API補足基礎的可視化內容生成,可以為報告或幻燈片創建視覺素材。

這套“工具箱”搭載在一個虛擬機環境下,由經過強化學習訓練的模型調度,能實現從自動檢索、分析、生成文檔,到最終下單、預約的完整閉環。

在發布演示中,OpenAI選擇了一個貼近生活的案例:用Agent幫用戶策劃一場婚禮行程。



▲婚禮策劃實測(圖源:OpenAI)



ChatGPT團隊提供婚禮網站鏈接,提出“幫忙推薦服裝、選酒店、挑禮物”三個需求。Agent先自動抓取婚禮時間、地點和著裝要求,再查詢天氣並推薦適合的服裝,隨後跳轉到Booking.com查找酒店選項,最後搜索禮物推薦。最終,Agent生成一份“婚禮準備報告”,按服裝、酒店、禮物分類整理,附帶來源鏈接和截圖,完整交付給用戶。



▲ChatGPT Agent所生成的婚禮策劃(圖源:OpenAI)

二、Manus隔空叫板:十大對比,功能對齊,體驗分化

ChatGPT Agent發布後,作為競品的Manus第一時間在X平台發布多輪實測對比,主動“迎戰”。

從展示效果來看,Manus通過可視化呈現、跨平台操作和交付形式展示了自身優勢,試圖證明其在任務閉環和最終輸出上的完整度優於ChatGPT Agent;相比之下,ChatGPT Agent更多聚焦於基礎信息檢索和文本型交付,功能覆蓋相近,但在交互體驗上呈現出不同方向。

具體案例呈現:

1、案例1:新加坡公司選址與政府資助

Manus輸出完整調研資料和資助方案PPT,含生態概覽、政策詳情與圖片;ChatGPT Agent隻生成基礎幻燈片,缺少要點總結與可視化呈現。



▲(圖源:Manus)

案例2:高收入FIRE模型

Manus完成包含城市生活成本、稅務規劃的完整PPT,含關鍵圖表和視覺元素;ChatGPT Agent隻列出基礎生活成本清單,稅務信息方麵並不完善,且無投資策略或可視化分析。



▲(圖源:Manus)

案例3:三日網球行程製定

Manus生成含每日日程、預算及訂票鏈接的可視化行程卡片;ChatGPT Agent輸出純文字行程,排版單調無整合。



▲(圖源:Manus)

案例4:舊金山ACFR財務表格

Manus整理2020-2024年財務數據並生成可視化預算趨勢PPT;ChatGPT Agent隻生成無視覺呈現的財務表格。



▲(圖源:Manus)

案例5:電動車行業研究

Manus製作5頁完整PPT,包含行業增速圖表、旗幟等定製視覺元素;ChatGPT Agent停留在信息收集,未完成PPT交付。



▲(圖源:Manus)

案例6:篩選500美元以下風衣

Manus整理符合條件的商品清單並生成對比文檔;ChatGPT Agent隻停留在電商頁麵截圖,無完整輸出。



▲(圖源:Manus)

案例7:英偉達估值建模(DCF模型)

Manus完成全流程,包括曆史財務數據抓取、WACC估算、現金流預測、敏感性分析和完整圖表輸出;ChatGPT Agent僅停留在搜索公開年報信息,未完成建模和分析。



▲(圖源:Manus)

案例8:季度財報拆分更新

Manus完成季度表格更新和PPT生成,ChatGPT Agent隻完成基礎表格更新,無季度拆分和PPT。



▲(圖源:Manus)

案例9:預訂高評分壽司餐廳

Manus全流程完成訂座並返回確認頁麵,ChatGPT Agent隻完成基礎餐廳信息檢索,無預訂動作。



▲餐廳預定成功界麵(上)和Manus實操界麵(下)(圖源:Manus)

案例10:查詢機票並篩選優選航班

Manus完成可視化航班票價對比卡片,ChatGPT Agent僅展示網頁搜索信息,無可視化總結和篩選邏輯。



▲(圖源:Manus)

作為“參賽選手”,Manus的展示更側重自身產品優勢,ChatGPT Agent實際效果如何,還需持續觀察更多用戶的真實體驗反饋。

三、體驗有驚喜也有槽點:效率在線,複雜檢索還需人類兜底

社區實測也迅速給出了“褒貶對半開”的反饋。

X平台用戶用Agent在20分鍾內完成了FIRE計劃,稱相同服務在人類顧問處花費可能高達5000美元。

ChatGPT Agent首先查找了本地稅收政策(溫哥華),分析了用戶的月均開支,測算出在30歲退休所需的儲蓄金額,接著生成了投資組合建議,並梳理出用戶此前未接觸過的稅務優化策略,最後構建了多個退休方案的對比情景,生成了一份完整的可下載PPT文件。



▲(圖源:X平台)

他還補充道,Agent在生成電子表格和PPT上的能力最讓人印象深刻,但整體結果與他用Manus、Genspark等其他Agent工具的體驗“差異不大”。在他看來,對沒用過這些工具的大多數人而言,ChatGPT Agent的能力“依然足夠震撼”。



▲(圖源:X平台)

不過,ChatGPT Agent在社區的用戶反饋中也暴露出不少實際體驗上的短板。不少用戶吐槽,在網頁交互過程中經常出現卡頓或404錯誤,生成的PPT排版簡陋、審美效果較差,遇到稍微複雜的邏輯需求時,任務流程也往往需要頻繁中斷和人工修正。

沃頓商學院教授、AI研究者Ethan Mollick也分享了類似感受。他在X平台稱,自己用ChatGPT Agent分析了Kaggle上的數據集,雖然Agent能夠順利完成分析流程並生成PPT和Excel文件,但初步結果中存在明顯的數據異常。隻有在他提供反饋後,Agent才成功識別出問題並修正結果。



▲(圖源:X平台)

Agent在執行流程上已經具備高效率,但在數據判斷和邏輯把控上仍然離不開人類監督。

從跑分和社區反饋來看,ChatGPT Agent擅長處理指令明確、路徑清晰的任務,比如生成婚禮準備清單或根據財務數據製作PPT,在這類標準化流程中,Agent能夠高效執行,顯著節省人工操作。

但遇到模糊指令或需要開放式判斷的任務,比如整理行業隱性趨勢或挖掘未被報道的新聞線索時,Agent往往難以給出有效結果,容易陷入“找不到”或“請明確需求”的反複循環。

四、跑分成績亮眼:擅長流程跑通,難在開放推理

在數據測評上,Agent模式在人文學科推理、金融分析、網頁交互和電子表格四大維度上對o3有不同程度領先,最高實現翻倍提升。

ChatGPT Agent在“人類的最後考試”(Humanity’s Last Exam)評估中取得41.6%的最高分,相比o3無工具模式(20.3%)實現翻倍提升,在跨學科專家級問題上展現了推理與工具調用能力。



▲Humanity’s Last Exam(來源:OpenAI)

DSBench聚焦數據分析類實際任務,Agent在數據分析子任務中準確率達到87.9%,顯著高於o3(64.1%),首次超越人類參考水平。在DSBench的數據建模子任務中,Agent準確率達到85.5%,優於o3(77.1%)和GPT-4o(45.5%),接近人類表現。



▲DSBench數據分析任務與DSBench數據建模任務(來源:OpenAI)

SpreadsheetBench測試Agent對電子表格的編輯操作,ChatGPT Agent在直接訪問.xlsx文件時,準確率提升至45.5%,顯著優於Copilot in Excel(20.0%),但與人類水平(71.3%)存在較大差距。



▲電子表格任務(來源:OpenAI)

在投行分析師任務中,Agent完成複雜財務建模的準確率達到71.3%,大幅領先o3(48.6%)和DeepResearch(55.9%)。



▲內部投資銀行分析師任務評估(來源:OpenAI)

WebArena測試Agent在網頁交互任務的操作能力,ChatGPT Agent準確率達到65.4%,超越o3和CUA模型,接近人類水平(78.2%)。



▲WebArena網頁交互基準(58.1%)(來源:OpenAI)

BrowseComp用於評估Agent對長尾信息檢索任務的處理能力,ChatGPT Agent準確率達到68.9%,比DeepResearch高出17.4個百分點。



▲複雜網頁信息檢索任務BrowseComp(來源:OpenAI)

ChatGPT Agent在DSBench、SpreadsheetBench、BrowseComp等流程化任務中表現亮眼,數據分析、表格編輯和網頁檢索準確率大幅提升,部分任務超越人類水平。各類型任務相較於o3模型,Agent都實現了從10%到30%不同程度的提升。

結語:Agent潮起,OpenAI穩步邁進

ChatGPT Agent的發布再次證明Agent賽道正在加速進化。整合多工具、接入個人數據、具備基礎執行力,正逐漸成為Agent產品進化的主流方向,但距離真正行業普及仍有不小距離。

這次,OpenAI並沒有交付一個“劃時代”版本,僅在個人助理和辦公場景邁出了一步穩健但平淡的更新。

對用戶來說,ChatGPT Agent值得體驗,它確實讓一部分瑣碎事務可以交給AI代勞。但要說AI“重塑工作流”,顯然還為時尚早。OpenAI還在路上,Agent也還在半成品階段。它是一場值得肯定的進步,但並不是一場值得興奮的飛躍。

查看評論(0)

24小時熱點排行

宗馥莉:上岸第一劍,先斬老父親
63歲阿湯哥和女友乘遊艇放鬆,37歲安娜穿吊帶裙
黃仁勳急了!英偉達H20解禁,卻已擋不住“中國芯”
宗慶後遺產案新進展,這次國資大股東不忍了!
禍從口出!ASML一句話致使市值蒸發300億美元

24小時討論排行

馬斯克連發35條貼文:抨擊特朗普“掩蓋愛潑斯坦案”
當不確定擺在眼前,他們為何仍然選擇赴美留學?
特朗普:這語言最難學 我不會模仿 會引起很大混亂
特朗普起訴默多克和新聞集團 索賠百億美元
接收31名離美研究者,馬克龍真從美國搶到了人
因為天太熱 美駐武漢總領館罕見暫停簽證麵談預約
馬克龍澤連斯基通話,更多幻影戰機將進入俄烏戰場
特朗普自稱“從不畫畫” 但他的許多簡筆畫都在拍賣
爸爸是清華博士,但娃可能連高中都考不上
川普將宣布重大貿易協議 產業國別關稅 8月同步生效
愛潑斯坦門,成了特朗普的大麻煩
宗慶後未在香港設立家族信托?律師分析三種可能
CSGO Zeus不雅影片延燒! 傳當事女大生遭懲處後墜樓
丹麥議會高票通過法案,格陵蘭島主權易主?
大連工業大學女生被退學:一場“有損國格”的交往風波
博索納羅:被強製戴電子腳鐐無比屈辱 我已經70了
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

文學城新聞
切換到網頁版

ChatGPT Agent口碑兩極化,Manus隔空對戰

智東西 2025-07-18 23:19:50

智東西AI前瞻7月18日報道,今日淩晨,OpenAI正式推出了ChatGPT Agent,一個整合了網頁交互、深度檢索和代碼能力的全新“AI助手形態”。

從產品邏輯上看,網絡交互工具Operator和深度信息檢索工具DeepResearch不再分家,ChatGPT內部出現了一個能夠“查找-思考-執行”一體化的Agent,用戶能直接讓AI跨網頁、代碼、個人數據源完成完整任務。

相較於OpenAI接連被挖角引發的輿論熱度,ChatGPT Agent的發布似沒達到“革命性Agent”的期許,略顯反應平淡。社區用戶體驗後褒貶不一,有人認為“初見AGI的雛形”,但也有人指出PPT排版簡陋、複雜邏輯易中斷和幻覺等問題。

ChatGPT Agent發布後,競品Manus第一時間接招,放出10個實測案例,試圖通過財務建模、生活規劃、行程安排、消費購物、航班篩選等不同場景任務,證明ChatGPT Agent在任務閉環和可視化交付上並不占優。

ChatGPT Agent口碑兩極化,Manus隔空對戰

▲(圖源:Manus X平台)

回過頭來看,ChatGPT Agent在網頁瀏覽、執行任務等多個測評中實現了SOTA,在“人類的最後考試”(Humanity’s Last Exam)測試中取得了41.6的高分。這一成績證明了其能力,也同時需要進一步在真實場景中驗證。



ChatGPT Agent將首先向Pro、Plus和Team用戶推出,Pro用戶每月可獲得400次查詢,其他付費用戶每月40次。麵向企業和教育用戶的版本,預計將在本月底前上線。

目前,ChatGPT Pro版的訂閱價格為每月200美元,包含Agent和終端功能。相比之下,xAI的Grok 4最新的Agent產品定價高達每月300美元,兩者價格相差1.5倍。

一、一次“功能拚圖”的交付,ChatGPT Agent有哪些升級?

ChatGPT Agent的定位可以簡單理解為“把Operator和DeepResearch合並”,並補上了一個“終端”和“圖像生成API”的工具棧。

1、文本瀏覽器(DeepResearch功能)負責批量搜索網頁、閱讀長文本;

2、可視化瀏覽器(Operator功能)負責網頁點擊、拖拽和表單填寫;

3、終端可以跑Python腳本、生成和分析文件(Excel表格、PPT幻燈片)和調用API,甚至接入Google Drive、GitHub等外部數據;

4、圖像生成API補足基礎的可視化內容生成,可以為報告或幻燈片創建視覺素材。

這套“工具箱”搭載在一個虛擬機環境下,由經過強化學習訓練的模型調度,能實現從自動檢索、分析、生成文檔,到最終下單、預約的完整閉環。

在發布演示中,OpenAI選擇了一個貼近生活的案例:用Agent幫用戶策劃一場婚禮行程。



▲婚禮策劃實測(圖源:OpenAI)



ChatGPT團隊提供婚禮網站鏈接,提出“幫忙推薦服裝、選酒店、挑禮物”三個需求。Agent先自動抓取婚禮時間、地點和著裝要求,再查詢天氣並推薦適合的服裝,隨後跳轉到Booking.com查找酒店選項,最後搜索禮物推薦。最終,Agent生成一份“婚禮準備報告”,按服裝、酒店、禮物分類整理,附帶來源鏈接和截圖,完整交付給用戶。



▲ChatGPT Agent所生成的婚禮策劃(圖源:OpenAI)

二、Manus隔空叫板:十大對比,功能對齊,體驗分化

ChatGPT Agent發布後,作為競品的Manus第一時間在X平台發布多輪實測對比,主動“迎戰”。

從展示效果來看,Manus通過可視化呈現、跨平台操作和交付形式展示了自身優勢,試圖證明其在任務閉環和最終輸出上的完整度優於ChatGPT Agent;相比之下,ChatGPT Agent更多聚焦於基礎信息檢索和文本型交付,功能覆蓋相近,但在交互體驗上呈現出不同方向。

具體案例呈現:

1、案例1:新加坡公司選址與政府資助

Manus輸出完整調研資料和資助方案PPT,含生態概覽、政策詳情與圖片;ChatGPT Agent隻生成基礎幻燈片,缺少要點總結與可視化呈現。



▲(圖源:Manus)

案例2:高收入FIRE模型

Manus完成包含城市生活成本、稅務規劃的完整PPT,含關鍵圖表和視覺元素;ChatGPT Agent隻列出基礎生活成本清單,稅務信息方麵並不完善,且無投資策略或可視化分析。



▲(圖源:Manus)

案例3:三日網球行程製定

Manus生成含每日日程、預算及訂票鏈接的可視化行程卡片;ChatGPT Agent輸出純文字行程,排版單調無整合。



▲(圖源:Manus)

案例4:舊金山ACFR財務表格

Manus整理2020-2024年財務數據並生成可視化預算趨勢PPT;ChatGPT Agent隻生成無視覺呈現的財務表格。



▲(圖源:Manus)

案例5:電動車行業研究

Manus製作5頁完整PPT,包含行業增速圖表、旗幟等定製視覺元素;ChatGPT Agent停留在信息收集,未完成PPT交付。



▲(圖源:Manus)

案例6:篩選500美元以下風衣

Manus整理符合條件的商品清單並生成對比文檔;ChatGPT Agent隻停留在電商頁麵截圖,無完整輸出。



▲(圖源:Manus)

案例7:英偉達估值建模(DCF模型)

Manus完成全流程,包括曆史財務數據抓取、WACC估算、現金流預測、敏感性分析和完整圖表輸出;ChatGPT Agent僅停留在搜索公開年報信息,未完成建模和分析。



▲(圖源:Manus)

案例8:季度財報拆分更新

Manus完成季度表格更新和PPT生成,ChatGPT Agent隻完成基礎表格更新,無季度拆分和PPT。



▲(圖源:Manus)

案例9:預訂高評分壽司餐廳

Manus全流程完成訂座並返回確認頁麵,ChatGPT Agent隻完成基礎餐廳信息檢索,無預訂動作。



▲餐廳預定成功界麵(上)和Manus實操界麵(下)(圖源:Manus)

案例10:查詢機票並篩選優選航班

Manus完成可視化航班票價對比卡片,ChatGPT Agent僅展示網頁搜索信息,無可視化總結和篩選邏輯。



▲(圖源:Manus)

作為“參賽選手”,Manus的展示更側重自身產品優勢,ChatGPT Agent實際效果如何,還需持續觀察更多用戶的真實體驗反饋。

三、體驗有驚喜也有槽點:效率在線,複雜檢索還需人類兜底

社區實測也迅速給出了“褒貶對半開”的反饋。

X平台用戶用Agent在20分鍾內完成了FIRE計劃,稱相同服務在人類顧問處花費可能高達5000美元。

ChatGPT Agent首先查找了本地稅收政策(溫哥華),分析了用戶的月均開支,測算出在30歲退休所需的儲蓄金額,接著生成了投資組合建議,並梳理出用戶此前未接觸過的稅務優化策略,最後構建了多個退休方案的對比情景,生成了一份完整的可下載PPT文件。



▲(圖源:X平台)

他還補充道,Agent在生成電子表格和PPT上的能力最讓人印象深刻,但整體結果與他用Manus、Genspark等其他Agent工具的體驗“差異不大”。在他看來,對沒用過這些工具的大多數人而言,ChatGPT Agent的能力“依然足夠震撼”。



▲(圖源:X平台)

不過,ChatGPT Agent在社區的用戶反饋中也暴露出不少實際體驗上的短板。不少用戶吐槽,在網頁交互過程中經常出現卡頓或404錯誤,生成的PPT排版簡陋、審美效果較差,遇到稍微複雜的邏輯需求時,任務流程也往往需要頻繁中斷和人工修正。

沃頓商學院教授、AI研究者Ethan Mollick也分享了類似感受。他在X平台稱,自己用ChatGPT Agent分析了Kaggle上的數據集,雖然Agent能夠順利完成分析流程並生成PPT和Excel文件,但初步結果中存在明顯的數據異常。隻有在他提供反饋後,Agent才成功識別出問題並修正結果。



▲(圖源:X平台)

Agent在執行流程上已經具備高效率,但在數據判斷和邏輯把控上仍然離不開人類監督。

從跑分和社區反饋來看,ChatGPT Agent擅長處理指令明確、路徑清晰的任務,比如生成婚禮準備清單或根據財務數據製作PPT,在這類標準化流程中,Agent能夠高效執行,顯著節省人工操作。

但遇到模糊指令或需要開放式判斷的任務,比如整理行業隱性趨勢或挖掘未被報道的新聞線索時,Agent往往難以給出有效結果,容易陷入“找不到”或“請明確需求”的反複循環。

四、跑分成績亮眼:擅長流程跑通,難在開放推理

在數據測評上,Agent模式在人文學科推理、金融分析、網頁交互和電子表格四大維度上對o3有不同程度領先,最高實現翻倍提升。

ChatGPT Agent在“人類的最後考試”(Humanity’s Last Exam)評估中取得41.6%的最高分,相比o3無工具模式(20.3%)實現翻倍提升,在跨學科專家級問題上展現了推理與工具調用能力。



▲Humanity’s Last Exam(來源:OpenAI)

DSBench聚焦數據分析類實際任務,Agent在數據分析子任務中準確率達到87.9%,顯著高於o3(64.1%),首次超越人類參考水平。在DSBench的數據建模子任務中,Agent準確率達到85.5%,優於o3(77.1%)和GPT-4o(45.5%),接近人類表現。



▲DSBench數據分析任務與DSBench數據建模任務(來源:OpenAI)

SpreadsheetBench測試Agent對電子表格的編輯操作,ChatGPT Agent在直接訪問.xlsx文件時,準確率提升至45.5%,顯著優於Copilot in Excel(20.0%),但與人類水平(71.3%)存在較大差距。



▲電子表格任務(來源:OpenAI)

在投行分析師任務中,Agent完成複雜財務建模的準確率達到71.3%,大幅領先o3(48.6%)和DeepResearch(55.9%)。



▲內部投資銀行分析師任務評估(來源:OpenAI)

WebArena測試Agent在網頁交互任務的操作能力,ChatGPT Agent準確率達到65.4%,超越o3和CUA模型,接近人類水平(78.2%)。



▲WebArena網頁交互基準(58.1%)(來源:OpenAI)

BrowseComp用於評估Agent對長尾信息檢索任務的處理能力,ChatGPT Agent準確率達到68.9%,比DeepResearch高出17.4個百分點。



▲複雜網頁信息檢索任務BrowseComp(來源:OpenAI)

ChatGPT Agent在DSBench、SpreadsheetBench、BrowseComp等流程化任務中表現亮眼,數據分析、表格編輯和網頁檢索準確率大幅提升,部分任務超越人類水平。各類型任務相較於o3模型,Agent都實現了從10%到30%不同程度的提升。

結語:Agent潮起,OpenAI穩步邁進

ChatGPT Agent的發布再次證明Agent賽道正在加速進化。整合多工具、接入個人數據、具備基礎執行力,正逐漸成為Agent產品進化的主流方向,但距離真正行業普及仍有不小距離。

這次,OpenAI並沒有交付一個“劃時代”版本,僅在個人助理和辦公場景邁出了一步穩健但平淡的更新。

對用戶來說,ChatGPT Agent值得體驗,它確實讓一部分瑣碎事務可以交給AI代勞。但要說AI“重塑工作流”,顯然還為時尚早。OpenAI還在路上,Agent也還在半成品階段。它是一場值得肯定的進步,但並不是一場值得興奮的飛躍。