(點擊收聽本期音頻)
采訪|泓君
圖文|孫澤平、梓沁
編輯|泓君
進入2025年以來, AI Agent的發展明顯提速。5月6日,OpenAI宣布以30億美元收購 Windsurf;編程工具Cursor的母公司Anysphere也獲得了9億美元的融資,估值高達90億美元;號稱中國第一個通用AI Agent的Manus在五月也獲得了硅谷老牌風險投資公司Benchmark領投的7500萬美元的融資;OpenAI在一月推出了具備自主使用瀏覽器能力的Operator,并在二月發布了專注于復雜任務處理的Deep Research,這兩個產品上線后迅速獲得關注,如今已有不少用戶成為其深度使用者。
這期文章我們就來聊聊:究竟是哪些關鍵能力,支撐了Agent的技術躍遷?哪一類Agent最有可能成為未來的通用Agent?而普通創業者目前在Agent賽道還有哪些機會?
我們邀請了MindVerse心識宇宙的創始人陶芳波以及AI產品經理Kolento Hou,一起聊一聊AI Agent的核心技術、熱門產品使用體驗、創業機會與挑戰,以及AI Agent的未來將走向何方?
歡迎關注《硅谷101視頻號》的音頻欄目直接收聽本期播客。 如 果你喜歡我們的 節目,更推薦大家使用音頻客戶端來收聽,《硅谷101 》已覆蓋各大主流音頻平臺(渠道見文末),歡迎訂閱!
以下是這次對話內容的精選:
01
RTF推動的Agent熱潮
泓君:首先請兩位嘉賓來分享下自己最近使用Agent的頻率是怎樣的?自己造了多少個Agent?
Kolento:我幾乎每天都在用不同的Agent。因為我自己會開發一些產品,所以會用到Replit這類IDE(集成開發環境) Agent,以及Cursor這類編程Agent。平時我也研究很多“Agent builder”平臺,比如微軟的Copilot Studio,字節的Coze等,它們可以幫助用戶搭建屬于自己的Agent。我現在大概做了200多個AI Agent,基本上遇到了一個場景就會去試一試。我感覺時代變了,現在開發一個產品的成本變得越來越低,甚至有點恐怖了。
陶芳波:我也是每天都在用各種Agent,尤其是編程Agent。雖然我沒有像Kolento那樣做過那么多Agent,但我在做“造Agent的平臺”。最早我們做過一個平臺叫MindOS,用來構建具備通用能力的專業型AI Agent。現在我們在做一個新的開源平臺叫Second Me(第二自我),也是前段時間剛剛發布。用戶可以下載到本地,創造出代表自己的Agent。我覺得Agent時代真的來了,底層基礎設施也都在慢慢成熟,組合起來之后,我們馬上就會見到一個新的世界了。
Second Me
泓君:你覺得什么是Agent?
陶芳波:從機器學習的視角來看,我所理解的Agent,與如今大眾語境中的Agent存在一定差別。在我過往的學習和研究中,最早接觸到的Agent概念來自強化學習。在強化學習框架下,Agent能夠基于環境反饋,不斷自主學習并優化其行動策略,從而實現特定目標。以AlphaGo為例,它就是強化學習語境中一個經典的Agent。
然而,隨著大語言模型的興起,Agent這個詞的含義也在大眾語境中發生了泛化。如今我們對于Agent的定義,通常具備幾個特征:首先,它能夠像人一樣獨立完成某些任務;其次,它通常由大語言模型,或具備一定思考能力的推理模型所驅動;第三,它有自己的記憶體系;第四,它具備與用戶交互的界面。
例如Windsurf和Devin,都可以被視為典型的編程類Agent,也都有各自的交互界面。它們之間的主要區別在于目標用戶和交互方式:有的是嵌入在編程環境中的,面向開發者;有的則面向管理者或非技術用戶,能夠自動完成網絡搜索、測試等任務。
過去這三個月,我觀察到一個非常有趣的融合趨勢。傳統的強化學習Agent有兩個核心特征:其一是以強化學習為主的技術路徑;其二是具備在環境中學習的能力。而大語言模型背景下的Agent則大多不具備學習能力,它們對于行業與任務的認知,依賴人類工程師的配置,例如設定知識庫或工作流。
但現在,隨著reasoning model(推理模型)的興起,以及RFT(Reinforcement Fine-Tuning,強化學習微調)技術的應用,越來越多基于大語言模型的Agent也可以在法律或電腦操作等特定領域中自主學習和探索。這是Agent發展中定義層面的升級。它結合了傳統強化學習中Agent的自主學習、自主探索的能力,以及通用Agent在任務執行、用戶交互和復雜問題解決中的綜合能力。因此,自2025年初以來,業內對于Agent的發展非常興奮。
早在2023、2024年,Agent概念就已經出現,我們當時也做過如MindOS這類的平臺,但那時的Agent更像是腳手架。而現在,Agent真的具有智能,尤其是通過強化學習、思考能力的注入,達到了我們想要的技術范式的狀態。
Devin
泓君:你認為2025年的Agent和之前相比,最本質的區別是什么?你提到的最早的強化學習中的Agent,我的理解是,比如在一個游戲場景中,讓兩個小人推方塊,想辦法把自己圍起來,避免被外界攻擊。你會看到它們慢慢涌現出一些智能,甚至用我們人類沒想到的方法去完成任務。
我記得在2023、2024年時,大家基本還是在游戲環境中測試Agent的協作表現。而2025年的Agent,在強化學習和電腦操作結合之后,開始進入更多領域。比如我讓語言模型幫我訂一張機票,我告訴它我所偏好的時間、地點、航班類型等等,如果它能順利完成一個完整流程,我就覺得是一個好的Agent。
陶芳波:你剛才打的兩個比方都非常好,你提到的Agent本質上都還是帶有環境的。我說的變化,或者說讓大家興奮的地方,主要是底層能力的變化。
以前的大語言模型的訓練存在很大的限制,無論是預訓練還是后訓練,包括RLHF(Reinforcement Learning from Human Feedback,基于人類反饋的強化學習)等人類對齊技術,其訓練過程本身是脫離環境互動的,目標只是優化與人對話的表現。雖然我們可以把它作為大腦,強行給它接工具、加記憶,讓它在某種環境中完成任務,但由于訓練過程本身沒有和環境互動,所以它的行為始終顯得很機械,無法真正適應環境的變化。
你提到的小人在環境中博弈的例子,正是典型的、在環境中學習的傳統強化學習的Agent。而2023、2024年雖然Agent很火,但始終難以落地,問題就在于環境的缺失。
但現在,我們在技術上擁有了新的能力。比如DeepSeek R1的文章就指出,它最后的推理能力,不是靠死記硬背的知識庫訓練出來的,而是通過模型在問題環境中自主學習實現的。AI像人一樣,在過程中自己思考、調整策略、探索解題路徑,最后掌握了解決數學題或編程題的方法。這種自主尋找解決路徑的過程,在以前的訓練中是完全沒有的,所以我們可以稱之為這是大語言模型的“AlphaGo時刻”。大語言模型真的學會基于一個環境給出的獎勵來自主地找到解決方法了。
Cursor
泓君:我了解目前市場上做編程類Agent的公司有幾十家,從最早直接使用大模型編程,到微軟的Copilot,再到Cursor和Devin,行業在不斷迭代。但為什么最終是Cursor和Devin跑了出來?它們比別人好在哪兒?是因為對環境的理解更深入?還是因為它們起步更早,搶占了市場?
陶芳波:我幾乎每天都會用Windsurf,相比Cursor我覺得它更好用一點。你提的問題非常精準,我認為,Windsurf、Cursor甚至更進一步的Devin,本質上是對于環境的理解更到位。
舉幾個例子,比如Windsurf不僅是一個簡單的核對代碼的插件,它內部還做了context engine(上下文引擎),所以它非常清楚自己所能操作的代碼空間,包括數據、測試、文件和配置的位置等。
再比如早期的Cursor,它雖然能寫代碼,但無法執行命令行操作,也不能聯網搜索。而Windsurf在近期的版本中已經不止是能寫代碼,還能執行命令、操作文件,甚至檢索網絡技術文檔作為參考。把Copilot這類的編程工具的環境邊界擴大了很多。
Devin的野心更大,它從一開始就打算去掉IDE(Integrated Development Environment,集成開發環境),不需要考慮IDE中環境的問題。Devin設計了一個包含四個子界面的窗口:瀏覽器、IDE、用戶交互區和測試環境。它所構建的環境比IDE更大且更細致。
它還有一個筆記系統的功能,我覺得很有意思。因為它想讓AI能完成一個完整的軟件工程閉環,這個過程可能非常長,而大模型無法理解過程的全部行為。所以就像人類在開發時會記筆記一樣,Devin也加入了一個筆記環境,類似于它的策略室、作戰室。當模型有新的想法時就記錄下來,之后可能有一段時間它不再寫代碼或者做檢索,而是在修改筆記中的問題或者優化筆記中的系統設計架構。我覺得還是非常嚇人的,就像人為自己創造了一個思考環境,并且學會在其中迭代。我覺得這個功能也是非常有意思,也可以加入Agent的武器庫中。Devin不僅是做了這個功能,而且它們對于context、enviroment的理解也更好。因此它們在4.2萬億美金的全球軟件工程的大市場中能跑在前面。
Windsurf
泓君:你剛才提到一個觀點我覺得挺有意思的:現在如果要做AI Agent,環境已經比數據更重要了。那是否意味著只要對某個方向有足夠深入的理解,幾乎任何人都可以構建自己的AI Agent?它已經從一種“高門檻”的大廠項目,變成了普通人也能參與的創業機會?
陶芳波:這件事情有兩面性。一方面,借助RFT的方式,可以顯著降低對大規模數據的依賴,從而減少資本和算力的投入。但另一方面,我對Agent創業的前景并沒有那么樂觀。如果每個人都能做Agent,且做的都是服務型Agent,在C端市場,真正還有多少空間留給新的Agent創業項目?
舉個例子,Deep Research上線之后,一些我們以前認為需要單獨工具完成的任務,比如學術研究、市場調研,它幾乎都能覆蓋。而像Operator這樣的平臺,不僅能幫你訂餐、買菜、訂機票、做行程規劃,還可能覆蓋上百個場景,這些在過去或許代表著上百個不同的創業項目,現在卻可能被一個通用Agent整合完成。
大廠和大模型公司在一些足夠大的領域里占據位置。剩下的空間,只會是一些很小機會。相比移動互聯網時代,創業者在這個時代的機會會少很多。
泓君:所以這是一個更適合做小而美的時代,因為大機會都會被巨頭吃掉。
陶芳波:對,而且現在做一款產品或者一個APP時,邊界比以前更容易擴大。一旦被大廠占住的機會,往往能覆蓋用戶更多的需求和注意力。普通人在這個時代中還有哪些機會?我想到一個挺有意思的案例:在移動互聯網時代,微信推出了公眾號平臺,抖音推出了短視頻平臺。這些平臺級機會幾乎都被頭部公司牢牢占住了。但為什么仍有很多普通人在這個時代里賺到了錢?關鍵就在于,他們利用這些平臺做出了新的東西,在平臺中表達了自己的個體性,比如做自媒體網紅。
我還是認為,如果我們只從“AI工具提升生產力”的角度來看,確實會有很多人原有的價值被剝奪。但我認為當AI形成網絡之后,可能會有一波新的個體機會被釋放出來。也許那時會有一波新的創業潮出現,比如,現在的網紅也可能會變成創業者,他做了一個表達他自己的個性的Agent,也會有獨特的市場。但如果目標是做一個服務所有人的通用Agent,我覺得機會是很小的。
02
Agent爆火背后的密碼
泓君:剛才你提到了三種核心能力:模型能力、工程能力,以及數據壁壘的能力。你認為未來在真實用戶的實驗中,數據壁壘可能是最重要的核心競爭力。但我也聽到另一種聲音,比如Manus的創始人張濤就分享了他們產品引爆的關鍵節點,他認為是和Claude Sonnet 3.7模型的發布高度同步。我也看了Cursor的創始人在Lex Fridman播客上的采訪,他也提到類似觀點:像Cursor這種自動寫代碼的AI Agent能火,最根本的原因還是大模型能力的提升。
為什么現在大家會覺得Copilot有些過時了?很大一部分原因也是它的產品升級沒能及時跟上模型的能力迭代。所以歸根結底,Agent的爆火,底層模型的提升仍然是決定性因素。
Claude
陶芳波:對,我完全同意。一方面,大模型能力的提升確實帶來了智力的提升,對任務的理解能力自然也就更強。但更重要的是,大家頻繁提到Sonnet,是因為它不僅聰明,而且是第一個真正解決了代碼生成問題的模型。代碼是一種通用的行動空間,在數字世界中具有極高的操作性。Sonnet讓幾乎所有任務都可以通過代碼這個中間層,轉化成了像八爪魚一樣可以操作背后的數據與環境。這對整個Agent生態是質的飛躍。
所以你提到的Cursor和Manus自然會非常看重這種模型能力的提升。但我也想強調一點,數據依然是一個不容忽視的問題。即便是在數字環境中,很多平臺的數據依舊存在壁壘,無法通過代碼層來訪問。比如說,如果你希望Agent去獲取某個人在Facebook上的信息,僅靠代碼就無法實現。
所以從今天這個時間點來看,凡是代碼層能接觸到的數據,Mannus這樣的通用Agent都可以納入進來做很多事情。但依然還需要面對數據層的壁壘問題。
泓君:所以你覺得像Cursor、Windsurf這些AI編程Agent,反而可能是最有可能殺出來的那一類,未來甚至可能發展成應用很廣的巨型通用AI Agent?
陶芳波:現在已經能看到這樣的趨勢了。Cursor和Windsurf目前都開始接入一些自定義的MCP接口。雖然它們在表面上看起來是編程類Agent,但已經可以接入Notion等不同平臺的MCP。它在編程在過程中也可以做類似Manus做的事,比如編輯Notion內容。
Manus
Kolento:我一直認為Manus對模型的依賴非常強。但我們希望建立的是一種更健康的機制:模型越強,Agent也越強,而不是模型越強,Agent反而被替代。之前GPT頻繁更新那段時間,很多YC的AI公司倒在了路上,原因就在于它們的構建方式不對。
我覺得Manus也面臨類似的問題。它的任務理解、工具調用這類智能能力幾乎是完全托管給主流大模型的,比如Claude 3.7 Sonnet。這也是我猜它們為什么會采取邀請碼機制:因為調用成本高、性能不穩定,比如模型升級、API波動、響應延遲、輸出幻覺等,都會成為產品層面不易控制的變量。我本身是做產品經理的,所以我一直在思考如何更好地從產品側解決這些問題。
姚順雨寫過一篇文章,他認為強化學習有三個要素:算法、環境以及先驗知識。他還提到一句我非常認同的話:evaluation(評估)比training(訓練)更重要。
在過去構建AI產品的過程中,我過度聚焦在prompt工程以及挑選最新的大模型上。但我逐漸意識到,真正決定產品質量的,是對系統效果的可衡量性的判斷機制,也就是evaluation。打個比方,prompt是武器,但evaluation是你的準心。
因為一個AI產品不可能靠一次成功的demo活下去,它需要持續迭代。而evaluation正是量化每次產品變更效果的唯一工具。
當然,它和傳統的測試又不太一樣,更加靈活,也更偏向語義層面。目前市面上主要有三類方法:
1.Human Evaluation(人工評估):優點是與用戶偏好直接相關,具備人類的語義理解。但局限性也很明顯,反饋稀疏、不夠精準、成本高。
2.Code-based Evaluation(基于代碼的評估):優點是快速、便宜,適合代碼生成類任務。但對語義復雜、交互豐富的應用則不適用。
3.LLM-based Evaluation(大模型自評):這是目前論文里最常提到的一種方向,讓模型不僅能生成,還能評估自己的輸出,具備高度自動化能力。
所以我認為,未來要做出真正有競爭力的AI Agent,evaluation是必不可少的能力中心,從一開始就要建立起完整的evaluation框架。
以Manus為例,它其實已經有多個模塊:意圖識別、工具調用、API調度、內容生成等等。每一個模塊都應該有獨立的evaluation邏輯。這不應該是后期的附加測試,而是像DevOps(開發運維一體化)一樣,AI Agent也應該有自己的EvaluationOps,任何一次響應、執行、生成的過程都要通過評估機制。
我覺得之后的重點是,需要形成一套通用的evaluation模板庫,并能擴展到新的任務類型上,類似Phoenix這樣的開源框架。比如摘要生成(summary)、RAG(Retrieval-augmented generation,檢索增強生成)、代碼生成(code generation)等。
陶芳波:我很同意Kolento這個說法,尤其是關于面向真實環境的evaluation。未來的AI產品,本質上可能都會是Agent產品。而Agent產品首先要關注其所處的環境;在此基礎上,接下來的重點就是如何evaluate它在環境中的表現。
如果我們進一步把evaluation提升為reward的概念,那就意味著這個反饋具備可重復生成的特性。當Agent在環境中探索和優化時,可以始終參考reward進行對齊或學習。這是接下來設計Agent產品時更重要的思考路線。
CSDN.com
泓君:evaluation是一個很重要的問題,也讓我聯想到另一個技術話題,就是RFT(Reinforcement Fine-Tuning,強化學習微調)和SFT(Supervised Fine-Tuning,監督學習微調)這兩種方式的區別。OpenAI發布RFT之后,現在絕大部分AI Agent創業者都傾向于使用RFT,因為效果更好。
但我們也和一些更老牌的做Agent的創業者聊過,他們反而認為SFT在成本上更具優勢。雖然目前RFT在效果上可能比SFT好25%左右,但訓練和運行的成本可能是幾倍的差距。尤其是在用戶量大的情況下,這種成本差異就更為顯著.
您認為我們是否真的需要為這25%的性能提升,付出成倍的成本?我聽說Manus內部用的就是SFT技術。
陶芳波:關于SFT和RFT的選擇,確實可以看到技術圈正在逐步向RFT遷移。但就Manus來說,它們當時沒有用RFT,原因之一是當時RFT本身還沒有發布多久。更重要的是,RFT需要微調背后的思維鏈模型,但Sonnet本身是不允許微調的。所以Manus使用SFT,其實并不是用在模型的核心思維鏈模型,而是外圍執行模模塊,比如Computer Use Model這一類組件。換句話說,它們調的是“手”,而不是“腦”。
03
垂類AI Agent推薦
泓君:在你目前使用過的這些Agent中,有沒有哪些在表達或交互上特別出色的?
Kolento:我覺得Replit非常出色,它在我需要澄清問題的時候,總是能及時引導我把需求講清楚。
我還想提另一個產品Fellou,可能算是Manus的潛在競爭對手,是謝揚最近推出的一個Agent瀏覽器。它的交互方式很符合我的預期,在執行任何任務之前,都會先通過更可
視化的方式和我進行對齊,對齊完之后再自主運行。
因為Fellou是PC端應用,所以它具備一定的系統級權限。每當遇到高危操作,比如需要登錄或輸入密碼時,它會以系統彈窗的方式提醒我進行確認。而這正是Manus目前做得不太好的地方:它缺乏足夠的對齊,在高危操作上又無法獲取權限,經常會直接卡住。白白消耗掉credits,任務也沒能完成。
所以我覺得像Fellou和Replit的設計理念更合理,在關鍵場景引入HITL(Human-in-the-loop,人機回圈)機制,與人類進行對接。
Replit
泓君:在你們目前使用過的AI Agent中,如果從用戶體驗和商業潛力兩個維度出發,有沒有哪些公司是你們特別看好的?
陶芳波:我個人認為,現在市場上還沒有出現真正能覆蓋全人群、全通用場景的Agent產品,大家還在尋找不同的切入角度。
我比較看好Cursor、Windsurf這類編程Agent,它們是從技術人員的角度切入的。而這兩者中我更看好Cusor。目前來說,Cursor的市場滲透率更高,它畢竟是在Windsurf之前就做出了這種產品形態。我也更認可Cursor團隊在探索上的那種進取心。當然,Windsurf被OpenAI收購,也不排除未來會被賦予更強的戰略目標,朝通用Agent方向發展。但相比之下,我覺得一個獨立團隊所擁有的自由度會更大。
而且我覺得我們普遍低估了編程Agent作為未來通用型Agent的潛力。很多人對Cursor的印象還停留在“Web端編程工具”這個層面,覺得它就是個輔助編程工具。但隨著MCP這類底層基礎設施的逐步完善,Cursor正在積極地把自己從一個編程工具,變成一個可以連接多種應用、場景和數據的平臺。
也許Cursor未來的界面都會分成兩種模式:一種仍以IDE為核心,目標是代碼產出;另一種則把代碼作為手段,核心目標轉向完成任務。這是很多美國公司常見的做法,先打好堅實的底層架構,再一層層往上構建功能。所以我比較看好Cursor的發展路徑。
當然Manus也還是有機會的。它是從辦公人群的日常場景切入,不只是做Deep Research,還具備不少文件處理等方面的能力。但我覺得從這個角度出發,也需要逐步拓展能力集。通用型Agent的建設,是一個需要長期積累的過程。
Kolento:我目前關注的AI Agent產品,大多都是非常垂直的場景類產品,雖然它們可能不為大眾所熟知,但在各自領域內表現都非常突出,也很有前景。
比如Vantel,它專門為商業保險經紀人打造。保險行業里,很多從業者80%的時間都花在重復性工作上,比如保單分析、手動錄入數據等。而Vantel專注于將這些流程自動化。它們自己宣稱,能每周幫一個經紀人節省十個小時以上的時間。早期的demo就能在五分鐘內幫用戶快速比對和分析一份幾百頁、包含大量條款的保單的。我看了它們的demo和很多用戶反饋,效果都很不錯。
還有Sweet Spot,我從2023年開始就非常關注,一直都覺得這個項目非常有前途。它做的是AI for Granting,主要服務全球的SMB(中小企業)、NPO(非盈利組織)和NGO(非政府組織),幫助它們申請各類政府資助和聯邦補助金。除了分析合同之外,還能輔助用戶分析招投標。它的用戶體驗也做得很好,比如前期會自動幫你搜索相關合約信息,并提供深入解讀。而且它們的UI在2023年就已經做得非常不錯了。我記得每次它只給48小時免費試用,因為太好用了,為此我換了八九個郵箱,最后還聯系了它們CEO,希望能開一個會員賬號。
Sweet Spot
泓君:我也用過一個非常垂類的Agent產品,叫做Gamma,是一個AI輔助制作PPT的工具。我覺得它完全可以“秒殺”Canva。我只需要提供一個大致的框架或主題,它就能自動生成內容并排版。比如我小朋友學校要講解“什么是Podcast”,我交給Gamma,五分鐘就能出一整套PPT,排版也很好看。而且其中的內容如果有不滿意的地方,簡單地手動修改再導出就可以了。
Kolento:很巧,我是Gamma的前100位用戶之一。我在它們2020年剛上線時就注冊了賬號,到現在我的credits都還沒用完。很多人知道Gamma是因為它AI生成PPT的功能,但我最早用它的時候還沒集成AI,那時我就覺得它的產品非常出色。
我現在所有的PPT都是用Gamma做的。不僅是因為它的AI功能,而且它的立體效果也非常好。它是模塊化的PPT工具,可以自由拖拽不同模塊到不同的頁面,而且視覺效果非常有沖擊力。我記2020年左右我看了它們一個demo,展示了如何在靜態PPT中“炸出”一段視頻,當時我就被震撼到了。從那以后我就一直用它們家的產品。
現在它們也上線了很多AI生成的功能,整個平臺變得非常完善。雖然免費用戶現在只能做10頁,但這10頁幾乎能覆蓋大多數人的常見需求。而且它支持對每一頁做很精細的微調,提供幾乎所有需要的組件,甚至可以幫你判斷插入的圖片是否可商用,還能自動從不同圖庫中搜索替代素材。我覺得它們在每個細節上都做得很到位。
Gamma
04
行業快與慢
泓君:過去的兩個月行業發展得非常快,大家覺得你們在心態或者做事方式上有哪些變化嗎?
Kolento:我覺得變化非常明顯。過去這幾個月,像Manus這樣的產品陸續發布,我的工作速度加快了,而且我的很多競爭對手也是。現在無論是開源還是閉源項目,有些時候甚至都會要求執行大于計劃。
以前從產品經理的角度出發,做事情的第一步通常是做詳細的拆解,考慮非常多的細節,可能會寫很長PRD(Product Requirements Document,產品需求文檔)。但現在我發現,很多團隊已經不再那么強調PRD,而是更關注怎么盡快打通從需求到落地的鏈路。
這種變化不只是我個人的感受,在工作場景中也非常明顯。整體來看,不論是行業節奏還是產品迭代的浪潮,統一都在加速推進。我最大的感受就是:一切都變快了。
陶芳波:對我來說,最大的變化是我們發布了Second Me。但如果說到對整個Agent主題的感受,我和Kolento反而是有點相反的。
年初的時候,大家普遍覺得2025年將是“Agent之年”。雖然Manus發布了,MCP協議也越來越火,但我反而覺得,如果Agent真的要在2025年破繭而出,成為一種像大眾日常使用AI一樣的方式,仍然存在非常多的問題,而且越做發現問題越多。
今天的大語言模型,尤其在國內,連我爸媽那樣的用戶都會使用豆包。基于大語言模型的聊天機器人已經成為一個通用的產品形態。但如果我們談的是AI Agent,不論是垂類還是通用型,要達到同樣的日常使用程度,我覺得還有相當大的距離。而且,很多問題不是靠某家公司搞出一個新功能就能解決的,它更像是一個行業級的挑戰。
比如有兩個大的問題。第一個是環境側的問題。每一個Agent,本質上都在橋接用戶與環境,是需求與行動之間的轉化器:它要不斷挖掘用戶需求,并在環境中轉化為行動,實現雙向溝通。雖然環境側有了MCP協議,但這個協議還很不完善,生態滲透率也很低。就像任何一個標準協議一樣,MCP所需生態的配合和滲透,都是以年為單位來衡量的過程,而不是幾個月就能鋪開的。所以還需要慢慢推進建設大量的生態。
第二個問題是Agent如何真正理解用戶需求。Agent要如何主動提問、捕捉需求、理解偏好。我們雖然已經發布了開源項目,現在在GitHub上也有了9.2萬顆星,很多社區內的人已經在用了。但我們也發現一個很難解決的根本性問題,在未來的世界里,如果一個人真的想把Agent用好,他自己也必須具備一個高質量的輸出通道。
Medium.com
泓君:一句話簡單解釋一下什么是MCP?為什么MCP的發展可能是一個“以年為單位”的過程。你覺得它目前還存在哪些待進化的地方?
陶芳波:MCP是一個關于AI Agent如何訪問外部信息源或服務的協議。它不是Agent和Agent之間的,而是Agent和服務之間的協議。
我之所以說它需要以年為單位來進化,并不是因為這個協議本身有多嚴重的根本性缺陷,盡管它還有很多可以改進的空間。更核心的問題在于行業層面的采納意愿。
你希望行業能主動擁抱MCP,但很多平臺并不愿意開放它們的數據,因為這些接口和數據本身是它們商業模式的基礎。一旦引入MCP,其他Agent可以使用我的接口和數據,就會涉及到一系列問題,比如:身份驗證如何處理?數據隱私怎么保障?最關鍵的是如何保障我的商業化?這些問題,目前還沒有行業統一的標準或解決方案。我們現在所擁有的,其實只是一個技術上的通道。
所以我認為,目前行業的落地是以年為單位來推進的。今天的MCP更多還是對于API的AI化封裝,而還沒有真正實現AI原生的程度,還無法讓Agent真正通過MCP這扇門進入對方的環境中進行自由操作。
【音頻收聽渠道】
公眾號:硅谷101
收聽渠道:蘋果|小宇宙|喜馬拉雅|蜻蜓FM|網易云音樂|QQ音樂|荔枝播客
海外用戶:Apple Podcast|Spotify|TuneIn|Amazon Music
聯系我們:podcast@sv101.net
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.