個人資料
markyang (熱門博主)
  • 博客訪問:
正文

馬克談天下(491) 聊聊人工智能代理與其它AI工具的異同

(2025-02-04 15:30:30) 下一個

最近,因為DeepSeek的超低投入,超高評分的LLM(大語言模型)對於市場的影響,很多人(包括一些根本就不了解科技的吃瓜群眾,比如我80多歲的老媽)都開始對於AI有了興趣,可以說,如果OPENAI的ChatGPT是LLM的巨大突破,從0到1的突破,那DeepSeek可能帶來的低成本LLM,就可以讓AI的應用成本大幅度降低,這個也是AI發展中重要的一個節點。

那有關AI,我們聽到過很多的名詞,比如“AI代理”、“副駕駛”和“助手”等等,那他們有那些區別,對於我們的生活有什麽影響呢,讓我們來簡單聊一聊。

我們先來厘清“AI代理”、“副駕駛”和“助手”等流行術語之間的區別,並將這些定義與十幾個流行AI工具進行對比分析。

現有的人工智能代理通常是“單足代理” —— 它們是具備行動能力的“工具”,但缺乏由外部事件觸發的“傳感器”。為了安全性考慮,它們的自主性被限製,盡管推理能力已經足夠支持(半)自主行為。

迄今為止,大多數流行工具中的人工智能副駕駛/COPILOT(除了一些麵向開發者的副駕駛工具外)無法實現深度的、用戶定製化的人機協作。大部分人工智能工具僅僅停留在助手階段,缺乏用戶級別的記憶和對用戶需求的真正預判。

ChatGPT無疑是目前市場上最強大的副駕駛工具之一。OpenAI正在努力將其轉變為一個成熟的人工智能代理。然而,與專注於特定功能的副駕駛工具相比,它的多功能性可能會導致在特定場景中的適用性問題。

以下是對人工智能代理與副駕駛能力的高度簡化概述:


人工智能代理與副駕駛能力簡圖

該圖表展示了代理和副駕駛的核心能力,以及它們在不同AI工具中的實現水平。

我通過深入研究,提出了一個更簡單的模型,以回答以下兩個關鍵問題:

人工智能代理具備哪些能力?哪些特征使這些能力成為可能?

哪些類型的AI代理不是真正意義上的代理?它們的能力和特征中,哪些更符合人工智能副駕駛和助手——即它們的“前身”?

在此基礎上,我還提出了一個更實際的問題:

當前人工智能市場中的產品,與前兩個問題的概念性答案(基於人工智能專家和行業先行者的觀點)之間存在哪些差距?(詳見第5條)

1. 為什麽這些區別重要?

如果你隻是人工智能的普通用戶,可能會對“人工智能代理”這一術語在實際場景中的含義感到困惑。你或許還希望了解人工智能代理、副駕駛和助手之間的區別,從而更好地理解你用於工作或個人目的的AI工具。可以直接跳到“AI代理的功能”部分。

如果你是人工智能的高級用戶或負責企業AI落地,你可能希望知道應尋找哪些新的AI工具,以及對這些工具應抱有哪些期望。

如果你在一家AI初創公司工作,則需要明確自己產品的實際定位,並認識到可能影響市場趨勢的因素。

普遍認為,2025年將是人工智能全麵融入企業並被市場充分理解的重要節點。此外,這一趨勢具有長期性:

根據吳恩達、穀歌及其他領先組織的觀點,人工智能代理的普及被視為未來幾年人工智能發展的重要方向之一。

AI代理市場預計每年將以45%的複合增長率擴展,到2030年市場規模將達470億美元。

微軟CEO薩提亞·納德拉甚至預測,代理型應用程序可能會取代傳統SaaS模式。

然而,如果“人工智能代理”這一術語仍然令您困惑,不應僅憑趨勢和預測來判斷其價值。

2. 人工智能代理的定義

目前最被廣泛接受的定義來自2024年4月的Gartner創新洞察:

人工智能代理是一種自主或半自主的軟件實體,利用人工智能技術感知其數字或物理環境,做出決策、采取行動,並實現目標。

這一定義強調了人工智能代理的五大核心能力(如上所述),而“自主性”是將其與具有類似功能的其他軟件區分開的關鍵因素。

然而,上述定義未提及實現這些核心能力所需的一些特性。MarketsandMarkets在其定義中補充了兩個高級特性:

人工智能代理能夠在特定環境中運行,與用戶、係統或其他代理進行交互,並具備自適應學習、上下文感知處理及跨各種應用自主功能的能力。

上下文感知處理:人工智能代理可根據環境條件及與用戶交互的曆史調整行為。

適應性學習:人工智能代理應具備記憶能力,能夠選擇性保留信息以持續優化行為。

與其他代理的交互:人工智能代理不僅限於代表用戶與靜態環境交互,還可構建動態的多代理係統,其能力遠超單一代理。

許多資料都強調,自主代理的一個迷人之處在於它們有可能像員工或同事一樣發揮作用。我認為,代理之間協作的能力為人類與人工智能團隊合作鋪平了道路——人工智能可以以類似人類的方式參與團隊協作。

3. AI代理 vs. AI工作流 vs. AI副駕駛

在實踐中,人工智能驅動的軟件實體並不需要完全符合“代理”的定義(即具備所有列出的功能和特性)才能被視為代理。例如,一些係統可以作為半自主代理,擁有記憶和目標驅動的決策能力,但可能缺乏外部工具和傳感器,或與其他代理交互的能力。

目前,AI代理和其他“人工智能工具”之間的界限尚未達成廣泛共識。事實上,這種區分並不是一條明確的界線,而是多維空間中的複雜邊界,其中包含決策類型、操作類型以及定義中的其他功能。

接下來,我們將探討一些不同的視角,並將這個多維空間簡化為一個直觀的二維模型。

3.1 從業務角度看:AI工作流和代理

其中一個不太顯而易見的區別來自Anthropic在2024年12月發布的一篇文章:

此文區分了 AI工作流(LLM作為預定義流程中的元素)和 AI代理(LLM動態指導流程)。

作為一家中小型企業(SMB)中負責實現AI工具的人員,我發現,即使是簡單的AI工作流也非常有價值。盡管這些工作流為團隊帶來了巨大的好處,卻也為我和其他開發人員帶來了新的挑戰。這正是我期待AI平台進一步發展的原因——以緩解這些挑戰。

雖然Anthropic的架構區分在企業應用中很有用,但實際上還有許多其他視角可以用於區分代理和其他軟件實體。

3.2 從個人角度看:AI副駕駛和代理

從不希望被完全自主AI係統??取代的用戶角度來看,AI副駕駛通常就足夠了,盡管一個AI代理可能會帶來更多好處。

副駕駛通過針對具體場景提供建議,並與人類協作,提升決策能力。

為了更深入理解AI副駕駛,我們可以看看AI代理被廣泛認可的核心能力:

自主性:在沒有人類直接指導的情況下獨立行動的能力。

目標導向行為:實現更廣泛目標,而不僅僅是完成孤立任務。

環境交互:

a) 感知:通過傳感器收集外部事件。
b) 行動:通過工具在外部執行任務。
c) 數據檢索:從外部來源獲取信息。

學習能力:記憶並決定哪些信息值得保留。如果用戶可以管理記憶功能,那就更理想了。

主動行為:基於觸發條件采取行動,而不僅僅是響應用戶請求。

根據我的在線研究,AI副駕駛通常具備後兩種能力,例如:

基於上下文的感知和學習(預測未來用戶需求)

信息檢索(3c)

與AI助手相比,這些能力使得人類與AI副駕駛的合作更加緊密,而AI助手則是這三類AI工具中功能最基礎的。

能力1(自主性)和能力2(目標導向行為)是AI代理的核心區分點。而能力3(環境交互)則通常意味著比基礎AI助手更複雜的按需信息檢索。它還包括通過工具執行任務、通過傳感器感知環境的能力。

這些傳感器使外部觸發器能夠激活代理行為,而AI副駕駛的行為僅能通過用戶操作觸發。

4. AI代理的能力與特性圖

綜上所述,我們得出了以下的“代理能力模型”:

AI代理、副駕駛和助手的能力

盡管部分人可能對這一“框架”的具體內容存有異議,但核心區分不可否認:

AI助手 是被動的LLM用戶請求處理器,類似於人類助手,在未明確指示下不會主動完成任務。

AI副駕駛 是高級助手,能在特定任務上與用戶深度協作。即使未被明確指示,副駕駛也可主動建議所需的支持。

AI代理 包括助理和副駕駛的能力,並額外具備自主實現目標的“代理”功能,例如工具使用和傳感器感知。

上述模型中,內存的部分可能最令人困惑,因為許多資料將記憶功能視為AI代理而非副駕駛的專有能力。

例如,Rezolve 的文章提到,即使是通過RAG(檢索增強生成)進行的數據檢索也通常歸類為代理功能,而非副駕駛或助手功能,這可能是為了宣傳其產品為“AI代理”。

然而,Mustafa Suleyman 認為,副駕駛也應具備用戶層麵的長期記憶功能。

我想補充一點,沒有記憶,副駕駛無法實現對具體用戶需求的深刻理解,而這是一個真正副駕駛不可或缺的特性。換言之,LLM無法有效處理完整的用戶交互曆史,除非最重要的見解被自動存儲在某種形式的記憶中。

許多B2B公司尚未充分考慮AI副駕駛的概念,因為個人用戶的需求並非他們的主要關注點。因此,他們往往將記憶功能歸因於AI代理,而忽略了副駕駛的其他關鍵功能。例如:

現在,讓我們將特定的AI工具映射到上述圖表的組成部分。

5. 在廣泛使用的人工智能工具中,有多少真正的代理和副駕駛?

除了功能和特性之外,人工智能軟件工具的通用性也各不相同——即它們的專業化程度。一些工具專為特定垂直市場(如教育、零售)服務,另一些則麵向特定業務功能(如市場營銷、客戶支持)或滿足具體用戶需求(如內容生成、翻譯、問答、娛樂)而設計。

不同人工智能工具的功能完整性與其多功能性密切相關。

5.1. 最流行的人工智能工具

截至2024年8月,許多最流行的人工智能工具專注於特定需求或任務。例如:

文本改進:Grammarly、QuillBot

文本轉語音:ElevenLabs

文本轉歌曲:Suno

圖像編輯:Canva

背景移除:Remove.bg(擁有近2%的人工智能市場份額????‍?)

這些工具中許多甚至不如最基礎的人工智能助手複雜:

不具備從外部來源檢索數據的能力。

不考慮用戶上下文,僅能處理單一任務(如文本或圖像)。

與傳統軟件無異,隻是應用了專門的人工智能技術。

像DeepL、Luma、CapCut這樣的軟件可被歸類為人工智能工具,但僅在最基本的意義上成立。在人工智能能力模型中,這些工具沒有明確的位置。

相較之下,功能稍廣泛的工具則接近人工智能助手的定義。這些助手能夠處理更複雜的環境,但仍有限製。例如:

Character.ai和JanitorAI提供有限的多功能性,盡管它們滿足了用戶的創造性需求。

Perplexity Assistant主要基於網頁搜索的問答功能,盡管受歡迎,但其用戶需求範圍較窄。

5.2. 高級多功能AI助手的例子

當前市場上最通用的人工智能工具包括:ChatGPT、Gemini、Claude、POE及眾多新興替代品。這些工具允許用戶通過大語言模型(LLM)討論任何主題,並提供豐富的功能,如:

文件處理

網絡搜索

RAG(檢索增強生成)訪問外部知識庫

可定製角色(係統提示)

提示模板

ChatGPT,作為該類別的領導者,不僅是市場份額的佼佼者,同時也因其高級功能脫穎而出:

畫布功能和記憶功能,使其成為一款真正成熟的人工智能副駕駛。

GPT的動作/工具支持和自定義指令進一步擴展了其功能性,最近宣布的“Operator”功能甚至增加了傳感器支持。

相比之下,Claude.ai是一個高質量但相對簡單的副駕駛工具。它的功能集中於內容生成和編輯,用戶可以選擇風格化的“角色”,但無法完全自定義。Claude缺乏工具集成功能,因此不能作為代理構建器使用,盡管其開發者API支持代理開發。

此外,像NotebookLM和Dify這樣的工具也值得關注:

NotebookLM:穀歌推出的人工智能助手,支持知識庫集成(如Google Docs),用戶可查看響應所引用的源文件,並排除無關內容。

Dify:一個被低估的強大輔助工具,支持概念、網站和文件的知識庫集成,同時具備人工智能工作流構建能力,適合B2B場景。


上圖展示了人工智能助手和副駕駛的能力,以及它們在現有人工智能工具中的實現情況。

盡管當前的多功能AI工具還不足以充當真正的代理,但它們的表現已十分出色。例如,ChatGPT是唯一具備記憶功能的工具,而這一功能對於副駕駛至關重要。

值得一提的是,代理功能的實現尚需時日。例如,盡管OpenAI的O1模型在推理方麵已達到代理所需水平,但工具驅動的GPT尚未整合O1。出於安全考慮,OpenAI延遲了ChatGPT的代理功能發布,但一個功能完善且安全的AI代理可能即將問世。

從用戶角度看,專用人工智能代理更安全,而專用副駕駛則更易於廣泛采用。事實上,開發針對具體場景的人工智能副駕駛有許多顯而易見的優勢。

接下來,讓我們看看當前市場上可用的專業人工智能副駕駛和代理的能力。

劇透:大多數工具尚未具備成熟的功能集。

5.3 微軟的副駕駛是否名副其實?

我們從微軟推出的“副駕駛”工具套件說起。這些工具並非統一的平台,而是多種獨立功能的集合,且各自的能力參差不齊。

微軟副駕駛套件的組成

Copilot Web 平台:該平台的功能有限,缺乏人工智能副駕駛的核心特性,例如對非圖像文件的支持、知識庫集成以及角色設定。即便作為一個基本的助手,其功能也相當有限。

Windows 應用程序 Copilot:這是一個少見的個人人工智能代理,但自主性和主動性有限。得益於與操作係統和微軟應用的深度集成,它可以根據用戶的請求完成一些“魔法”操作。

Microsoft 365 Copilot:這是麵向 PowerPoint、Outlook、Teams 等辦公應用的人工智能助手。它可以被視為一種“人工智能副駕駛”,與 Claude 相似,但二者都缺乏持久記憶功能,無法根據用戶長期需求調整行為或改善表現。

Copilot Studio:該工具是一種人工智能代理構建器,專為企業設計,支持用戶通過自定義數據和場景擴展 Microsoft 365 Copilot 的能力。

盡管如此,Microsoft 365 Copilot 相較於其他辦公類副駕駛,如 Claude Artifacts,展現出了更高的專業化水平。特別是其專注於特定辦公任務(如幻燈片製作和編輯),在某種程度上表現出了預測用戶需求的能力。不過,這種預測似乎更多依賴當前文檔內容和微軟龐大用戶群的數據,而非用戶級記憶。

5.4 專用人工智能副駕駛與代理的案例

現有的全功能人工智能副駕駛在特定領域的表現,往往超越 Microsoft 365 Copilot 這種通用解決方案。以下是一些在教育、軟件開發、營銷和客戶服務領域的代表性案例。

1. 教育領域:Monsha

Monsha 是一款針對教師的人工智能副駕駛,能夠通過迭代協作幫助完成課程計劃、測試等任務。其核心機製是基於“反饋提示”實現工件的完全再生成。盡管缺乏像 ChatGPT Canvas 那樣的變更跟蹤功能,也未實現記憶功能,但在教育類人工智能助手中,Monsha 的副駕駛功能相對成熟。

優化建議

開發教育類人工智能產品時,清晰呈現再生內容的變化可以顯著減少用戶審閱生成材料所需的時間,從而提高效率。

2. 軟件開發:Cursor 與 GitHub Copilot

Cursor 和 GitHub Copilot 是人工智能副駕駛概念在開發領域的最佳實踐。它們能夠深入協作,支持對代碼片段的精準改進,並明確顯示更改內容。盡管尚未實現用戶可配置的記憶功能,這些助手能夠預測用戶意圖,主動建議代碼修改或補全方案。

特點

自定義係統提示增強了工具的智能化表現。

能夠智能檢索項目代碼庫,將相關代碼片段融入上下文。

3. 營銷領域:Agentforce

Agentforce 是 Salesforce 平台中的一款半自主代理,能夠利用全麵的企業數據設計端到端的營銷活動。雖然成本較高,但它代表了一種高度專業化的解決方案,其代理開發支持無代碼實現。

特性

每一步的生成過程均需用戶反饋,保留類似副駕駛的功能。

適用於 B2B 場景,滿足企業級需求。

4. 客戶服務領域:Intercom 的 Fin 機器人

Fin 是一款以客戶成功為目標的人工智能代理,不僅執行助理功能,還通過自主操作能力直接解決客戶問題,堪稱真正的人工智能代理。其獨特之處在於將人工智能擴展至數據分析層,這一功能在競爭平台中較為罕見。

未來展望

有分析預測,到 2025 年,專為垂直市場設計的人工智能代理將占據主導地位。然而,現有先進平台(如 Cursor 或 Agentforce)與基礎垂直解決方案(如教育、醫療類代理)之間仍存在顯著技術差距,短期內難以彌合。

這種技術差異也為創新者提供了機會,可著力開發下一代垂直市場人工智能解決方案。

結論

我們對人工智能代理和副駕駛的理論能力進行了分析,並將其與當前人工智能市場中的具體軟件產品進行了對比。

毫無疑問,市場上的頂級功能主要集中在以下兩個領域:

由市場領導者開發的多功能副駕駛(如 ChatGPT 等)。

為軟件開發人員量身定製的專業副駕駛工具。

在目前的階段,其他小眾人工智能解決方案尚未達到“真正副駕駛”的標準。

關於代理能力

現有的“AI代理”在功能實現上各有側重,通常專注於某一特定功能子集。因此,目前還難以將這些代理分類為“功能最齊全”或“較不先進”。此外,為了保障安全性,現階段尚未出現“真正自主”的人工智能代理。

發現與市場差距

研究表明,人工智能夢想家所描繪的能力與當前市場產品特性之間存在顯著差距。例如:

大多數人工智能副駕駛缺乏用戶級記憶,無法有效預測個人需求。

大多數人工智能代理缺乏傳感器功能,從而限製了主動行為的實現。

雖然這些局限性可能讓用戶感到失望,但對初創企業創始人而言,這也意味著重要的創新機會。

建議

希望我的研究能為您選擇合適的人工智能工具提供幫助。

如果您是產品營銷經理或初創公司創始人,可以利用文中提供的圖表和示例,將您的 B2C 或 B2B2C 人工智能產品的核心功能與市場定位(如助理、副駕駛或代理)保持一致。這些信息或許還能幫助您識別新的市場機會,從而完善產品開發路線圖。

另外,文中提到的另一張圖表(有關 LLM 驅動產品成功與失敗的關鍵因素)同樣具有參考價值。

對於企業級應用的洞察

在 B2B 人工智能產品及企業內部人工智能係統的開發中,“人工智能工作流”,這樣的替代概念往往比副駕駛更具相關性。

 

 

(本文內容來自於網絡)

[ 打印 ]
閱讀 ()評論 (1)
評論
markyang 回複 悄悄話 馬克的文章都是個人觀點,盡量客觀公正,希望大家評論時也是就事論事,不要發表太多情緒化的留言
登錄後才可評論.