歡呼又開始了。
“扔炸彈”、“AI雙星”、“再革OpenAI的命”......這場狂歡似乎就是要再次複製deepseek式的成功,震耳欲聾的誇耀從昨晚又開始了。新產品叫Manus,官方稱這是全球首款通用性Agent。
Manus能做什麽?官網上密密麻麻列出了不少demo,從幫你做旅行攻略、股票分析、生成課件、再到審合同……或許你們已經看過了。強大如童話般的功能,也造成了“一碼難求”,據《第一財經》報道Manus內測碼已經炒到了9萬一個。
為了做出真實的體驗判斷,果殼向開發團隊申請到了內測碼。以下是我們的真實體驗。
(測試的開頭不太順利。有碼在手的我們,在注冊頁麵從早上9點卡到了下午1點半。)
先說總結。
Manus是一個運行在虛擬機中的多Agent架構,有規劃型Agent負責任務拆解;執行型Agent調用具體工具;監控驗證Agent來跟蹤任務進度和debug。
說白了,它的理解、工具調用、Computer
Use(計算資源調度)能力都要很強,才能實現將複雜任務規劃成可執行的具體步驟,並保證處理效率。
對於內測用戶,Manus
每天開放了10個任務。當我們給到Manus第11個壓力測試——讓它為我們“做梗圖”時,它告知已經到了最多使用次數。很遺憾,未能測試它的“情商“如何。
在高級模式下,如果我們讓它寫篇文章,它的處理時長很久,大概30分鍾-1小時。在一般模式下,尤其是不需要聯網搜索時,例如,寫一個HTML頁麵,需要15分鍾。
我們測試了如下功能:分析上市公司股價、設計網頁、寫研報、填表、甚至遊戲“代打”等等。完成得有好有壞,以下是部分回顧。
這些任務讓我驚喜
今日最佳我給“世界時鍾.html"任務。別說,Manus
寫出來的網頁還挺符合我的審美,而且“添加時區”,“刪除時區”,“下載”等交互都沒有問題。
第二個給我驚喜的任務是,我讓Manus去“外國版4399”上自己找個遊戲玩(現在回想起來覺得好抽象)。Manus成功訪問了網站,並在多個遊戲類別裏,選擇了一個賽車遊戲。並且成功讀取了網頁和圖片信息,點擊了“Play
Now”,在遊戲裏界麵裏,自行選擇了“汽車”,和“競速模式“。
遊戲開始後,由Manus控製的車停在原地,我意識到它可能並不了解遊戲機製。我告訴它“請用WASD開車試試”後,車居然......跑起來了(速度就別強求了)。
這個任務裏,AI Agent展現出一定程度的可自主操作性,這是能獨立完成工作的前提
這些任務“不太行”
當我讓Manus給我寫一個“浪漫高級的生日祝福網頁”時,不僅無法交互——圖片,應該滿屏閃爍的愛心,音樂都無法點擊,就連審美也差了一些,選用了非常正式的“宋體”。當我要求用本世紀的審美重新生成後,我始終訪問不到虛擬機中的最新版網頁。
按理說,想要做得更美觀,是可以通過給提示詞讓它繼續修改。但不止是這個,其他任務下也經常提示負載過高導致服務器出錯。所以我們沒有執拗於生成一個極其精美的網頁,按今天AI能力來說,做個在線抽獎係統啥的應該不成問題。
一些“正經活兒”上,Manus表現也有些低於我的預期。我讓它分別做一個“高分子材料性能預測與仿真”研究報告和“碳纖維結構件”科普文章。
我想測試兩個能力:它在垂直領域的深度檢索和信息處理能力,以及按照特定要求和格式交付的能力。這是區別於AI通用搜索很重要的兩點。
這個任務裏,它有幾點不足:
· 經常過度推理:比如當我隻是希望AI研究碳纖維的生產工藝,它會發散性地總結大量市場分析和行業應用信息。
·
信息來源不夠:Manus的思考過程是清晰展示出來的,所以能看到AI正在瀏覽哪些文章、視頻資源。但其引用的資源大多來自中文聚合平台、國內期刊,缺少國外期刊和第一手資源。
·
無法按照特定要求和格式交付:比如我希望Manus給我一個可以直接拿去跟老板匯報的PPT,但我隻獲得了一個markdown格式的中間態。
· 多次需要接管:抓取一些內容平台或付費牆時,需要手動接管登陸賬號。AI Agent也解決不了“數據邊界”的問題。
最後一類任務,讓AI去替代填寫表格(財務人估計狠狠點了),是我最期待,也是我認為團隊應該優化好的需求之一。
我上傳了一張醫保發票和保險申請書,讓AI“把申請書裏原本的金額部分清空,並填入新發票中信息,金額以自付部分為準”。
AI無法真正理解表格結構,以及每一處信息真實代表什麽,比如說沒有修改日期,或是覆蓋了金額和時間之外的信息,把我的身份證號刪除了;或是找不到信息該在的位置等等。以及在這個任務中出現了很多次計算資源不足的情況。
也許對於需要AI精準“定位”的任務,我在給提示詞時也應該更加精準和“按部就班”些。但這也反映出,AI在發揮想象力、憑空生成的任務上,比在已有框架下修改做得更容易、效果更好。
就好比當你告知一台機器人“拿杯水過來”時,它表現得怎麽樣,是能通過各種傳感器計算出你在它2點鍾位置、往前走10步就行呢,還是它不管不顧“衝”到你麵前給你個“大比兜”呢?
當能執行得足夠精準時,就是前者,就是AI
Agent給你做出一篇能拿去忽悠老板的PPT。否則你還是需要拿著AI的“半成品”修修補補。
雖然任務完成得不盡如人意,也不是沒有優點。通過看在每個任務下的思考過程,確實可以看到AI
Agent的推理思維鏈,比如當我以小米SU7Ultra引出碳纖維結構件的問題,它的思考過程是從點切入,逐漸展開。即便它總結的備忘錄作為半成品,也給到我很大啟發。
在很多時候,Manus遇到問題,會告知它在自行修正和處理。以及它有一定的“記憶機製”,會跟你確認要不要按照你的偏好進行後續的生成。
總的來說,這款全新產品還是賦予了大眾很多應用上的想象力。盡可能的覆蓋到了主流需求,但我想說,AI
Agent是一個應該非常個人化的東西,所以更期待它在解放生產力上的進步和表現。