文:澤平宏觀團隊
人工智能AI 應用邊界與能力范疇極大拓展,從在圖像識別和語音識別中大放異彩的感知AI,到近年來能夠生成文本、圖片等各類內容的生成式AI。當前,Deepseek、ChatGPT等大語言模型已經深刻改變了人們獲取信息的習慣,從通過檢索找答案到問大模型要答案。
然而,盡管大語言模型擁有聰明的大腦,擅長提供信息和建議,但它卻缺乏執行能力,無法將想法付諸實踐。
Agent的出現,就是要打破這一局限。按照Anthropic官網的定義,Agent是讓大語言模型動態掌控工具使用方式的系統,可以自主決定如何完成任務。也就是說,要讓大模型能自主使用工具,自主執行任務,實現從“對話AI”到“干活AI”的轉變。
目前Agent尚處起步期,離終極設想的功能還比較遙遠,但是伴隨著3月份Manus的空降事件,Agent的關注度也陡然提升。Agent這個新概念如何理解、為何成為新的AI浪潮?目前有哪些Agent產品,它們能實現什么功能?伴隨Agent火起來的MCP協議又是怎么回事?Agent的出現未來又將如何重構軟件生態?
正文
一、Agent核心理念:讓大模型使用工具、拔高大模型的生產力
Agent直譯為“代理”,按OpenAI的說法,是能獨立代表使用者完成任務的系統。相比于被視為知識庫的大模型,Agent更像一個行動者,它在用戶授權下以高度獨立的方式編排工作流程、調用各類工具以執行工作流程,最終交付復雜任務。
調用外部工具,是Agent和當下DeepSeek、ChatGPT等大模型的最顯著區別。生成式AI時代,大模型主要依靠其龐大的內部數據庫回答用戶問題。
進入Agent時代,大模型將不再局限于自身內部的數據,而是具備了調用外部工具的能力,變得更實用。
Agent并不脫離大模型存在,事實上它相當于大模型再往前走一步,本質就是讓大模型使用工具,拔高大模型的生產力。這從Anthropic(Claude)對Agent的定義中可以清楚看出:Agent“是讓大語言模型動態掌控工具使用方式的系統,可以自主決定如何完成任務”。而OpenAI前高管Lilian Weng則更一步地闡述了Agent的技術框架:Agent是由大模型驅動的自動化系統,系統以大模型為“大腦”,同時有三個關鍵部分:規劃、記憶和工具使用。
規劃:使用思維鏈,將總任務拆分成子任務;
記憶:具備長短記憶功能,用于反思和修正工作流;
工具使用:大模型調用各種外部工具,以完成任務。比如Web搜索、計算器、代碼解釋器、天氣、地圖、票務預訂系統等等。
Agent標志著AI大模型從單純的“對話AI”進化到“干活AI”。
按OpenAI在2024年提出的內部AGI設想路線,Agent屬于AI大模型的L3級別。
二、Agent是人工智能發展的新浪潮,和具身智能一樣,是未來的大趨勢
2025年GTC大會上,黃仁勛提出自2012年深度學習革命開始以來,AI發展的會經歷的四個階段:感知AI、生成式AI、代理式AI(也即Agent)、具身AI。
首先是感知AI,這是人工智能的初始階段,讓機器能“看見”和“聽見”,即具備計算機視覺和語音識別能力,如人臉識別、語音助手等應用。
接著是生成式AI,在過去3年里發展迅速,主要以內容生成為核心,能夠創造文本、圖像、視頻等等。文本生成的普及度和使用率最高,以Deepseek、ChatGPT等大模型為代表,大大沖擊了傳統的檢索式搜索引擎,讓人們逐漸習慣了與大模型交互來獲取知識。
代理式AI(也就是Agent)、具身AI則被認為是接下來的發展方向。人工智能發展必然要從“智慧”到“智能”,也就是讓AI具備行動能力,這是發展Agent和具身AI的共同意義。具身AI聚焦于物理世界,把AI裝在新能源汽車、人形機器人這樣的物理實體上,讓AI在物理世界中感知、理解和行動。而Agent則聚焦于計算機世界,給予AI調用軟件工具的能力,讓AI在計算機世界中執行工作任務。
三、Agent發展現狀:Manus空降推動“通用Agent”爆火出圈,各家大廠正在加速布局中
從“對話AI”到“干活AI”的轉變是必然趨勢。這一趨勢首先在專用領域落地,即專用Agent,最典型的是編程Agent,比如Devin、Cursor、Windsurf等。而Manus 3月的空降事件,則推動了通用Agent的爆火出圈。
2025年3月6日,由中國人工智能公司Monica開發的一款Agent產品“Manus”正式發布,宣稱是“全球首款通用型AI助手”。Manus 定位于通用Agent,與專用Agent 不同,它能對多種復雜任務進行拆解并執行,不受限于特定領域或任務類型。在官網展示了幾十個案例,包括旅行規劃、股票分析、PPT制作等多種任務類型。
Manus當前定價高,在海外的落地步伐快于國內。基礎版55美元/月,升級版則需279美元/月,已經超過OpenAI的Operator升級版200美元/月的定價。3月28日,Manus AI 的移動APP版已在美區蘋果App Store上線。而國內目前還沒有產品上線,但已經在今年3月宣布與阿里通義千問達成戰略合作,共同開發Manus中文版。
Manus團隊表示“產品非常簡單,沒有秘密”,這也是Manus空降后引起爭議的原因。盡管媒體大肆宣揚這是又一個“DeepSeek時刻”,但許多人認為Manus并不能和DeepSeek平齊,后者是國產大模型的創新與崛起,而Manus只是“套殼”,沒有原創技術的突破,比如它并不自研基座模型,而是接入Anthropic的Claude 3.5 模型。Manus空降后,許多團隊花了很短的時間便復刻了類Manus產品,比如OpenManus等等。然而毋庸置疑的是,Manus空降也有其獨特的意義,那就是讓通用Agent得到空前的關注度,事實上成了整個AI行業向“干活AI”方向發展的一股巨大推力。
在這股推力下,國內大廠開始加速布局通用Agent,趕早卡位,如字節跳動和百度。
4月18日,字節跳動網頁端Agent產品“扣子空間”開啟內測,定位為“用戶與AI Agent協同辦公的最佳場所”。基座大模型采用字節自研的豆包大模型,引入多款可調用工具,包括高德地圖、飛書文檔等等,提升實際交付能力。官網展示了許多用戶分享的任務回放,包括制作網頁、制作旅程攻略并在高德地圖標注、制作歌曲、制作研究報告等等。
4月25日,百度移動端的通用Agent產品“心響App”正式發布,目前已在安卓全面上線。 采用Agent Use方案,可以自動調度百度自己和市面上所有第三方子智能體,以及各種內外部AI工具、應用和服務接口,提升任務完成度和匹配度。目前有十大任務場景:例行任務、城市旅游、AI相親、AI繪本、摸魚游戲、深度研究、法律咨詢、健康咨詢、智慧圖表、試題講解。百度心響App使用很方便,目前任何安卓用戶都可以在手機應用市場進行下載體驗。
四、Agent生態構建:MCP&A2A協議,未來大模型調用工具的能力將十分強大
4.1 MCP協議(Model Context Protocol):大模型和外部工具之間的“Type-C接口”
Agent核心就是讓大模型調用工具,因此,未來Agent的表現將由兩個因素決定:一是大模型本身推理和決策能力的進步;二是大模型接入和調用工具的便利性。
針對第二點,Anthropic(Claude)在2024年11月提出MCP協議,旨在為大模型和各種外部工具之間建立一個統一的連接標準。MCP協議極大簡化了大模型接入外部工具的難度,讓開發者不用為每個外部工具編寫復雜的接口,“大模型+外部工具”開始步入“即插即用”時代。
MCP協議的意義在于,它相當于大模型和各種外部工具間的Type-C接口。
在Type-C出現前,電子設備接口有多種類型,不同設備采用不同接口,用戶需要攜帶多種數據線,非常不方便。Type-C的出現,逐漸統一了眾多設備的接口標準,無論是手機、平板、筆記本電腦,還是一些家用設備,都可以使用同一種數據線,大大減少了數據線的種類和數量,讓設備間的連接變得簡單高效。
類似的,MCP協議也簡化了大模型和各種外部工具之間的連接。
傳統上,要把大模型和外部工具連接起來,主要是通過使用針對該外部工具的API,也就是需要針對每個外部工具單獨開發和維護接口,一把鑰匙開一把鎖。
有了MCP協議,只要每個外部工具都依照協議創造一個MCP服務器,大模型對外部工具就能現實“即插即用”,避免了開發者重復造輪子的問題。
可以說,MCP就像一座橋梁,銜接了大模型與各外部工具的交互。比如對于一個旅行規劃Agent,如果使用API方法,開發者需要給日歷、地圖、航班預訂等API分別編寫獨立的代碼,每個API都需要為其定制身份驗證、內容傳遞和錯誤處理的規則;但有了MCP協議,只要日歷、地圖、航班預定這些外部工具支持MCP協議,開發者就能非常簡單的接入它們,之后大模型就能絲滑的進行調用。
毫無疑問,MCP協議的提出將在大模型時代向Agent時代的跨越中留下關鍵一筆。現下,MCP正在成為行業標準,以驚人的速度獲得采納:
越來越多的大模型廠商宣布支持MCP協議,海外的OpenAI、Google,國內的阿里、騰訊、字節、百度等。
同時,許多應用也開始進入MCP生態圈。
以魔搭社區為例,截至目前已經有超過2700個MCP Server,為開發者提供便利。
支付寶、高德地圖這些常用的應用,紛紛推出官方的MCP Server。
今年4月,支付寶成為國內首家支持 MCP 協議的支付機構,Agent開發者現在可以通過支付寶的“支付MCP Server”輕松接入收單支付服務。
高德地圖在今年3月發布MCP1.0,整合開放位置服務、地點信息搜索、路徑規劃、天氣查詢等12大核心接口,讓用戶在出行規劃、位置信息檢索場景下輕松獲取即時信息。今年4月全面升級,發布MCP2.0版本,可一鍵將AI生成的攻略內容轉化為專屬地圖,并可實現由攻略到一鍵導航、打車、訂票。
百度對MCP的支持力度也很大。4月,李彥宏表示,MCP“為開發者在AI大爆發的時代提供了解決思路,讓AI能夠更自由地調用工具,是AI發展的一大步”,宣布幫助開發者全面擁抱MCP。目前百度的商品檢索、商品交易、商品詳情、商品參數對比、商品排行榜能力等也已經通過百度電商的MCP server對外提供,這是國內首家支持電商交易的MCP服務。此外,文庫、網盤、地圖等應用也全面對外提供MCP Server服務。
4.2 A2A(Agent-to-Agent Protocol):打破孤島,讓Agents之間互聯互通
2025年4月,谷歌提出A2A協議,即Agent和Agent之間的標準化通信協議。谷歌將A2A協議定位成MCP協議的補充:MCP協議潤滑大模型對外部工具的調用,A2A協議則潤滑Agents之間的互聯。
MCP+A2A,就能將Agent的能力范疇拓展到極致——對每個Agent而言,它不僅能輕易的接入和使用各種外部工具,而且能借助其他Agent的力量賦能。
A2A協議沒有MCP出圈,但是據谷歌云官網,該協議的支持者數量也比較可觀,目前有60家左右。
五、展望:通用Agent本質是一場范式革命,未來可能成為最大的流量分配中心,重構當前軟件生態
通用Agent是交互范式的第三輪變革:從PC時代的桌面操作系統到移動互聯網時代的超級應用,再到如今AI大模型時代的通用Agent。當前的軟件生態可能會被顛覆,通用Agent或將重構整個數字世界的權力格局。
從技術邏輯看,傳統軟件生態是以功能為導向,用戶需主動適應軟件的固定模式來實現特定目標,而通用Agent以自主決策為特征,理解用戶意圖,自主調用各類工具(當然也包括各大軟件)以交付任務。
未來,隨著通用Agent的落地推開,流量分配權將逐漸向各個通用Agent產品集中。這意味著各大軟件的競爭力將更多的取決于其服務能否被Agent精準認可和推薦,而非傳統的用戶粘性構建。
目前,通用Agent的生態并不完善。就像Perplexity CEO Aravind說的那樣:“目前任何人聲稱2025年的Agents可以完全投入使用,都應該持懷疑態度。”這當然有技術層面的原因,比如大模型本身的推理決策能力要再一步提升,并且要降低幻覺問題。但是生態層面同樣有很長的路要走,比如Aravind也表示過:目前沒有其他方式能讓 AI Agent同時控制多個應用,尤其是在 iOS 上,甚至無法訪問其他應用,這是蘋果生態的限制。未來Agent到底如何落地,流量分配、收費模式等等,非常值得期待。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.