撰稿 |陳茜
今年3月初,一款名為“Manus”的通用AI agent產品發布之后爆火。到了3月底,Manus的母公司Butterfly Effec被爆正尋求新一輪融資,目標估值將超過5億美元。
由于Manus處于內測階段,僅以邀請碼形式開放使用,一度讓邀請碼在二手平臺上被炒到數萬人民幣,無數開發者、投資人和從業人員排著隊等測評。
與此同時,業內對Manus的評價從最開始一邊倒的追捧,開始有了越來越多質疑和批評的聲音。
對Manus的爭議一方面來自于這個團隊并沒有非常強的技術能力,大模型用的Antrhopic的Claude、之后與阿里通義千問合作,被質疑是“套殼”產品,沒啥門檻。公司打出的營銷話術“世界上第一個通用AI agent”明顯不屬實,國際開發者社區早就有這樣的general AI agent產品,加上各種媒體和自媒體早期夸張的修飾用詞,反而引發了不少人對Manus激進營銷的反感。
但是在另一方面,一些投資人和從業者卻看到了非常積極的一面,認為Manus在產品交互上確實做得可圈可點。他們指出這個年頭做demo容易,做出一款好產品卻很難,創業公司做推廣的時候大膽一點沒什么不好。
而更加讓人振奮的是,Manus雖然不夠好,但卻讓人看到了AI應用爆發前夕的黎明曙光。
這篇文章我們就來聊聊Manus引發的熱捧與爭議、AI agent的技術發展路線、目前面臨的技術瓶頸、什么是一款好的AI agent產品,以及通用AI agent何時才能來臨。
01
測評Manus
Chapter 1.1 開發者測評Manus
硅谷101也拿到了幾個邀請碼,團隊的小伙伴們都測試了一遍,但效果確實比期待中差了不少。
Jacob 硅谷101后期負責人: 我用Manus找一下稿件中的信息來源,我覺得對于GPT是更加聰明了一點,但是很簡單多任務它花了半個小時才跑完。
陳茜 硅谷101聯合創始人兼視頻主理人: 我讓它幫我整理分鏡稿,感覺它的審美像實習生,而且做文章的分鏡圖時卡了21個小時,現在還卡著。
泓君 硅谷101聯合創始人兼視頻主理人: 讓Manus整理微信文字稿時出現了幻覺問題。
王可倚 硅谷101特約研究員,《創客人生》主理人: 它最開始聽懂了我的需求,但是執行中途就跑偏了。
我們也邀請了AI agent開發者Nathan Wang來系統性地評測下Manus。Nathan在過去兩年有著豐富的AI agent及AI應用開發經驗,他希望能量化地表示模型的能力,所以建立了一個測評的機制,并且這個系統也可以去測評其他應用或是模型。以下為Nathan評測的部分內容:
我主要有三個衡量指標:“準確度”、“可用度”、“完成度”,同時以“研究”、“教育”、“生活”、“數據分析”、“創意性工作”這五項任務歸類。
我根據每個指標的表現從1到5打分,表現越好得分越高,表現越差得分越低,最后取三個維度的平均分。
先說它做得好的部分:研究方面為4分,教育方面為4.5分。這兩塊的能力是非常強的,正確性、完成度都很高。
但這兩個領域的結果其實是符合我們預期的,因為ChatGPT、 Claude還有Gemini都是有深度研究的功能,它其實就是在互聯網上幫你查找各種各樣的信息,根據需求讓大模型解釋,或者做出一些行動。
Manus AI構架背后用的是其他模型,據傳言說是Claude、DeepSeek-R1,Manus會利用這兩個模型,根據用戶需求生成一個任務列表,然后Manus可以通過編程、互聯網搜索,像人一樣查閱瀏覽器上的內容,來抓取信息。
總體來說,Manus更多是通過工具、函數、API來獲得信息并總結,或者通過渲染的形式給用戶表現出來,比如做成一個表格、執行一些程序等。
但除了研究和教育外,Manus在生活、數據分析、趣味性方面的得分卻比較低,“生活”為3.5 分,“數據分析”為2.5分,“趣味性”2.5分。
在我們的測試中,Manus遇到的比較大的問題是,它將不同信源信息整合在一起的能力不是特別強;模型本身的邏輯能力、信息綜合能力還不夠,尚不足以在用戶的實際體驗中提供有效的幫助。
以上是Nathan評測的一部分節選,想看完整版的觀眾可以收看硅谷101視頻或Nathan的微信視頻號“硅谷AI領航”。
簡單總結下Manus的能力:在簡單一些的任務上,它給到了很絲滑的通用AI Agent的交互產品形態,雖然Nathan認為這個產品在硅谷開發者社區中很早就有公司有人在做了,但是對非開發者2C用戶來說,當看到Manus頁面上展示出它真的在加速看視頻、讀取文檔、訪問不同的網站搜索信息時,確實讓用戶第一次感受到了“AI agent”在虛擬世界充當機器人、幫用戶完成一系列任務的潛力,還是非常驚艷的。
當然對于稍微有難度的任務它完成得不太好,甚至出現了卡殼幾十個小時的現象,說明它還處于非常早期的產品階段,之后還需要很多的迭代。
Chapter 1.2 2C產品的用戶閾值與“叫醒鈴”
也有嘉賓認為,我們應該對AI初代產品有所謂的“閾值”概念。在到達AGI之前,也許不會有準確度100%、完全準確不出錯的通用AI agent。大家需要給AI agent一些時間和耐心,不同人群的需求,會從簡單到復雜逐漸迭代地被實現。
周煒 創世伙伴資本(CCV)創始主管合伙人 前KPCB中國基金主管合伙人: 我認為Manus這個產品超過了用戶的閾值。用戶要把一個產品作為生產力工具,它必須要超過達到某個滿意度以上才可以完整的使用。 ToB端其實有很多AI產品已經有很好的收入了,但是C端來說,大家以前沒有感覺到有個產品改善了生活,我認為Manus做到了這點,它把用戶體驗做得很不錯。雖然目前它的能力比較普通,最終也不可能面面俱到,但至少從目前來看,它的一些功能都做得很完善,未來還有繼續提升空間。
我們看到一些爭議,說它只是AI操縱大師,指揮另外兩個AI底層模型來完成任務,這種討論說明了一個問題,那就是目前AI從業者群體里面有一個很大的誤區:在技術上自嗨。 我印象很深的是,喬布斯被踢出蘋果又回去后,在一個公開大會上有1000多個工程師,其中一個工程師站起來挑戰他說:你又不懂技術,憑什么指導我們、做這個公司的領導者?喬布斯的回答是:我知道如何滿足用戶需求、用戶需要什么樣的產品、并且我可以把它賣出去。
我覺得這就很好地回答了現在對Manus的質疑,在指責它僅僅是一個AI指揮大師的時候,為什么你不去做一個完美的用戶界面來實現用戶真正的需求?這才是現在AI從業者需要思考的問題,怎么讓產品體驗超越用戶的閾值、能夠變成生產力工具,如果做到了這一點,市場認可度就會很高。
Deepseek對全球來說一個Wake-up call(叫醒鈴),它告訴大家:原來大模型還可以用這種路徑來實現,而不是通過暴力堆疊的路徑。而Manus我覺得也是一個叫醒鈴,它告訴所有的AI從業者,不要癡迷于技術底層,你要做的是提供一個完整度高的產品,讓大家都用起來,最終實現技術平權、技術普惠,如果連老爺爺、老奶奶都開始用它并且覺得好用,這才是目前ToC端產品的大成就。 Manus給了一個非常清晰的信號:大模型底座已經準備就緒了,足夠做一個完成度高的產品。所以我覺得現在是非常好的發力時機。
TensorOpera AI聯合創始人何朝陽認為,要做好AI agent產品,有四個緯度:“模型”、“工具”、“數據”、“基礎設施”。產品或公司至少要在其中兩項占絕對優勢,才能保持領先。他認為,Manus占據了“工具”和“數據”這兩個優勢。
何朝陽 TensorOpera AI ChainOpera AI聯合創始人: Manus占到了工具的優勢,因為他把多個工具縫合到了一起,他可能也有一些獨特方式,比如指揮多個agent相互合作。我覺得把各種工具縫合本身就是一個特點,它確實可能用的是其他的底層模型,但它可以收集用戶發送的prompt(提示詞),對比哪些提示詞輸出的結果更好,這樣就可以幫助它迭代升級。
因為Manus有先發優勢,可以早點拿到用戶數據,可能會發現哪些agent更重要,然后更快速的迭代它,所以它其實已經在不斷升級數據和工具的路上了,這剛好是應用創業者要去做的。 至于模型和基礎設施,我覺得跟大廠合作就好了,就不要去四兩撥千斤了。
“技術已經Ready了”,這是我們和很多AI從業者和投資人交流的時候,他們透露出的信號和見解。
02
AI Agent技術發展史
過去一段時間“agent”這個詞稍微有點被“太泛化”了,門檻有點過低,所以我們先明確下AI Agent的定義。
技術人員通常將AI Agent定義為:具有“邏輯推理能力和決策能力”(Reasoning)、“記憶能力和上下文理解”(Memory)、“工具使用能力”(Tools)這三種能力,甚至更進一步說,還需要具備學習使用不同新工具的能力。
Keith Zhai Tiny Fish聯合創始人: 我們自己定義的agent,它應該在某種意義上像人一樣,可以使用各種網頁工具,也同時還可以學習怎么使用不同的東西,但這點對Agent來說是非常難的挑戰。
我們來看看過去幾年,AI生態圈是怎么發展推理(Reasoning)、記憶(Memory)和工具(Tools)這三種主要能力的。
Chapter 2.1 推理能力
Nathan Wang 硅谷101特邀研究員 AI Agent開發者: AI Agent需要有很強的邏輯能力,因為它最終幫用戶執行任務的時候,需要理清楚這個任務該如何決策?用哪些工具?得到信息之后應該做哪些動作?所以推理(Reasoning)是最重要的能力之一。
2022年10月,就在ChatGPT上線的一個多月前,ReAct框架被普林斯頓和Google Brain合作的團隊提出。
ReAct是一個將推理和行為與LLMs(大語言模型)相結合通用的范例,這讓大模型不僅能回答問題,還能推理并采取行動。簡單來說,就是讓AI在回答問題的同時,能夠執行一些動作,不只是“動動嘴皮子”。
Nathan Wang 硅谷101特邀研究員 AI Agent開發者: ReAct所做的事情更加偏向于prompt engineering(提示詞工程),他其實是通過設定一些不同的提示詞,能讓大語言模型按照一定的格式去輸出。
比如說第一步是先理解用戶想要的是什么,然后再思考下一步要去做什么,同時也告訴模型,有哪些工具可供選擇。當模型有邏輯能力之后,它會選擇一種工具,比如用戶要訂機票,那就要去搜索機票相關的信息,然后agent就會通過調用某個工具或API,也可以是模型自己寫的功能,來完成這一系列的動作。得到這些信息后,agent還要思考,下一步是要幫用戶定這個機票,還是告訴用戶這個信息,再讓用戶來決定。所以所有AI Agent的構架其實都是從這篇論文開始的。
但當時的最先進模型GPT-3.5的能力相對有限,使得AI Agent的邏輯推理能力并不出彩,錯誤率很高。
而后來發布的GPT-4在理解能力、推理能力、回答質量都大幅提升。同時2023年3月23日,ChatGPT插件功能Plugin發布,允許大語言模型調用外部工具并開發APT,支持開發者將LLM與數據庫、工具和互聯網連接。這些都讓AI agent的開發者們興奮不已。
Nathan Wang 硅谷101特邀研究員 AI Agent開發者: 剛開始ChatGPT只能做一些對話、生成文本,但后來它就可以搜索互聯網上的內容了,還可以讓它接入不同的數據庫去提取信息,或者使用一些工具。 那時開發者社區沸騰了,因為整個模型有了推理能力,也可以接入各式各樣的工具來完成一系列復雜的操作。當時有個公司比較有意思,叫做Zapier,這個公司是2011年成立的,但它們主要做一些自動化工具。但大語言模型發布后,他們就第一時間去幫大語言模型去做這系列工具,很多早期的開發者應該都用過Zapier,比如它可以讓大語言模型接入谷歌郵箱,或許其他的應用,讓大語言模型可以完成更復雜的工作。
所以在2023年初,AI Agent技術三大要素的第一步已經搭建好了,邏輯推理能力提到了顯著提升,也可以接各種外部API、調用外部工具來完成任務。
接下來,開發者生態進入到了技術發展的第二章:記憶能力與上下文理解。
Chapter 2.2 記憶能力
Nathan Wang 硅谷101特邀研究員 AI Agent開發者: 剛開始GPT大概只有4096個token,其實是非常少的,大概只能輸入3000多個英文單詞,那時大家非??鄲罌]有辦法輸入更多信息讓模型去執行地更好。 但到5月份的時候,OpenAI最大的競爭對手Anthropic,發布Claude模型。這個模型一開始得到開發者的關注,主要原因就在于,跟ChatGPT相比,Anthropic可接受的token大概提升了100多倍,意味著它可以獲得更多的信息去思考和決策。所以Anthropic的發布也是技術史上非常關鍵的一筆。
2023年5月11日,Anthropic推出的Claude模型可以支持10萬token的上下文窗口,使得LLM能夠處理更大規模的信息,并增強基于大量信息的推理和決策能力。
不久之后的2023年6月13日,OpenAI也在這一方向做出了技術迭代,發布函數調用(Function Calling),引入JSON模式和1.6萬token的上下文窗口。這讓AI可以更可靠地調用外部API,比如說查天氣、自動填表等等任務。
緊接著在2023年11月21日,Anthropic的Claude 2.1版本又進一步,把上下文窗口擴展到20萬個token,相當于AI一次性可以記住一整本教科書的內容,思考能力大大提升。也意味著能進一步擴大大模型的記憶能力,優化推理和決策過程。
再之后在2024年2月,谷歌發布Gemini 1.5的時候,將上下文窗口的token數擴展到了百萬級別,至此,“記憶”這個AI Agent發展必備中的第二個技術壁壘也完全被打破,對于開發者們來說不再是大問題。
Chapter 2.3 工具使用
2023年底,前兩個技術壁壘的突破,讓大語言模型能充當虛擬世界的機器人這件事情變得更加可行,這時一些初創公司開始在硅谷生態圈活躍了起來。
Nathan Wang 硅谷101特邀研究員 AI Agent開發者: 我知道的第一個讓大語言模型去控制用戶電腦的AI Agent應用公司是Simular,它應該是2023年12月底的時候發布了第一版Demo。大家看到AI agent的功能已經變得越來的強大了,從開始使用各種工具、接各種數據庫、調用不同的應用,已經發展成可以操控電腦了。這一點讓我覺得AI Agent的技術路線有了極大的飛躍。
2024年10月底,Claude發布了“computer use”功能,讓AI Agent直接控制計算機的能力更進了一步,AI變得更像真正的、可以行動起來的智能助手。
Nathan Wang 硅谷101特邀研究員 AI Agent開發者: 你可以看到開發者社區或初創公司其實走的比大廠要早很多。
AI圈備受關注的Andrew Ng(吳恩達)教授在2024年底關于AI Agent的演講,徹底燃起了技術圈和非技術圈人們對于AI Agent的期待和熱情,“2025年將成為AI Agent應用元年”的預測開始出現在各大媒體頭版上。
雖然各種各樣的AI Agent應用demo在全球開發者社群中早就屢見不鮮了,但在Manus出現之前,大部分AI Agent創業公司主要聚焦于企業級(ToB)應用,而非直接面向消費者(ToC)。所以難點在哪里呢?
Keith Zhai Tiny Fish聯合創始人: 其實自從有互聯網開始,網絡上所有工具的設計方式,主要目標都是為了讓人類使用,在這樣的邏輯下,機器想完成準確、大面積的交互是很難的,這是在大語言模型出現前人類無法解決的問題。
在AI Agent之前行業沒有形成范式共識,所以現在距離AI Agent實現通用化還差一步,那就是整個產業的支持。
Chapter 2.4 一步之遙
我們前面提到的邏輯推理、上下文記憶、工具調用這些能力,在何朝陽看來,都屬于“single agent”(單獨智能體)的技術發展。
但要讓AI Agent真正發展起來,做到主流化、規?;?,那還需要實現multi-agent(多個智能體)之間的通信和互聯,不同的Agent需要在不同設備、不同機房之間去做計算和聯動,才能推動上億級別用戶機會的應用。這其中的難點在于通用的、標準化的協議適配范式。
何朝陽 TensorOpera AI ChainOpera AI聯合創始人: 用大模型來驅動邏輯推理、上下文記憶、工具調用這些能力,所產生的AI agent,被大家定義為單獨智能體,這是第一個發展階段。 第二階段的標志,就在于agent之間能實現互相通信。 第三階段是讓agent在不同的設備、不同的機房之間計算、聯動,我覺得它是未來支持億級別用戶必須要有的架構,這是一個單點是無法做到的。
目前,我們仍然處于第三階段的競爭和嘗試中,這個階段要解決的問題是,很多網站或者工具不支持AI agent的調用。
比如說很多網站和服務都會有“反機器人/anti-bot”的設置,我們也看到Manus執行任務時也經常因為訪問不了一些數據而導致任務失敗,所以在這個階段中,我們需要打造一個通用協議來解決這個問題,才能支持不同AI agent之間的聯動。
包括Anthropic等在內的很多公司正在做協議適配上的嘗試。2024年11月初,Anthropic推出“模型上下文協議”(Model Context Protocol,簡稱MCP),引進了“應用如何為LLM提供上下文”的規范。
Anthropic將MCP協議稱為“AI應用的USB-C端口”,支持將大模型直接連接到數據源。此前,企業和開發者要把不同的數據接入AI系統,都得單獨開發對接方案,而MCP做的,就是提供一個 “通用” 協議來解決這個問題。
然而,MCP解決了第三代技術的問題,還有最后一代問題,是目前AI Agent應用大規模爆發的壁壘,那就是:真正統一的Agent-Agent之間Protocol通信標準與分布式計算,就像如今的安卓與iOS一樣,我們也需要一個全球承認且通用的AI OS。
何朝陽 TensorOpera AI ChainOpera AI聯合創始人: 舉個例子,現在有兩個獨立的agent,如果要讓這兩個agent之間互相協作,就需要造第三個agent,這個agent來負責和前兩個agent之間互相通信。 但agent之間的交互沒有標準,可能一個協議是A,另一個協議是B,所以第三個agent就要把各自的協議給改一下,讓兩者之間能互相通信。
就好比10年、20 年前,有兩種電腦,一個是IBM造的,另一個是Intel造的,它們之間底層的鏈路沒有打通,就會導致軟兩個軟件之間沒有辦法溝通,那時還沒有TCP/IP的時候就比較麻煩。但到移動互聯網的時候,比如說基站的通訊標準TTL、 TEL等等,如果所有設備軟件都符合這個標準,大家是可以互相交流的。
圖片來源:pexels
所以今天單獨智能體內部調用工具的問題,MCP已經一定程度地解決了,但兩個agent之間如何通信,是更高維的通信協議。我對未來AI的想象就是,有一個非常復雜的分布式網絡,有大量的服務,用戶的訴求分發到整個網絡里面,然后得到一個反饋。 我已經看到安卓的創始人(之一)出來親自做AI OS 這件事情,我覺得安卓一定要被重構,可能這個系統你打開之后就是一個框,你可以問的一切問題,所有的信息或動作都會呈現在這個框的里。這個是我認為協議的核心。
2024年11月底,一個由安卓系統前高管們創業的公司,/dev/agents吸引了外界和媒體的注意,他們宣布獲得了5600萬美元的種子輪資金,聯合創始人兼首席執行官David Singleton表示:“我們需要一個類似于安卓系統的人工智能時刻”。
他們想要打造的就和何朝陽的公司一樣,希望開發一個通用操作系統,為AI Agent提供一個統一的平臺。如果做到了,最后一個AI Agent的技術壁壘也就打通了,AI Agent就達到了第四階段。
何朝陽 TensorOpera AI ChainOpera AI聯合創始人: 我們想做一個真正的distributed multi-agent framework(分布式多代理框架),并且是hybrid as cloud(混合云)的架構,這樣的話就需要agent之間的通信,并且不是一個單系統,它是公司之間的協作。 目前Router這種技術(如何確定分發意圖、打通不同的agent的協議),我們現在是一個一個地去找合作伙伴適配,我們正慢慢地嘗試去推廣這種通用的協議。 但根據10年前的教訓,這件事最終應該是幾個大廠、或者然后國家隊聯合起來一起推廣,有點像通信領域的 5G、6G標準。
總結一下何朝陽從整個AI Agent生態角度來看待的四代技術:
第一階段是planner規劃(也就是邏輯推理)、記憶memory、工具tools,讓單個智能體在技術上的成熟。
第二階段是通過planner的發展,在單機上實現多個智能體之間的通信。
第三極端是AI Agent在不同設備和機房之間能聯動,這將推動上億級別的用戶承載量。
第四階段是Agent-Agent之間的通信標準與分布式計算,也就是一個全新的AI OS。這也是我們現在正在突破的階段。
何朝陽與很多AI從業者們都說,在黑夜中探索了這么久,現在天快亮了。
何朝陽 TensorOpera AI ChainOpera AI聯合創始人: 如果是一個產品經理的視角,我覺得現在的階段應該說是天亮了。
如今,隨著AI Agent基建的進一步完善,包括底座大模型在內的各項技術進一步提升,以及科技巨頭、初創企業、開發者生態中對協議和標準的進一步探索以及統一,我們似乎能感受到,AI Agent的爆發只有一步之遙。
Manus和類似的通用AI Agent公司只是給我們打了個樣,之后的路還有很漫長。但這一步的距離其實還有挺多沒有解決的問題。
Nathan Wang 硅谷101特邀研究員 AI Agent開發者: 推理、記憶、工具調用這三個能力,只能讓開發者做一個成熟的demo出來,但是如果想變成一個真正可用的產品,其實還需要解決兩個技術瓶頸。 一個是可靠性,比如說至少有90~95%以上的情況能給用戶正確且相關的信息。 二個是這個魯棒性,怎么樣讓大模型或AI agent 能夠具有魯棒性,在各種邊緣情況下都能夠滿足用戶需求,是非常有挑戰性的。
Keith Zhai Tiny Fish聯合創始人: 對企業來說有很多問題需要考慮,比如第一步出錯的概率是1%,第二步是2%,第三步可能是1%,但最糟糕的情況是,它會有一個疊加的錯誤效果,等它完成到第十步的時候,錯誤率就非常高了,很多企業辦公流程達到了十幾二十步,最后可能錯誤率會非常高。
Keith表示他們公司Tiny Fish扒了一下網上的數據,全美國有1.5萬家接受了融資的初創企業在做AI agent方向的創業,這顯示出AI agent這個大賽道的生態火熱。
03
硅谷AI Agent公司版圖
接下來由硅谷101的特約評論員王可倚來歸類下,AI Agent公司的版圖和大家在嘗試的方向。
目前的AI Agent產品主要分為以下三類:
1. 以Manus為代表、直面用戶的通用型agent;
2. Agent基礎設施與框架層,也就是幫助搭建agent應用的地基和工具;
3. 面向特定行業的垂直化agent,比如編程、客服、銷售、科研、商業分析與調研、甚至供應鏈管理等領域。
通用型agent前面已經討論很多了,接下來重點講講后面兩類。
Chapter 3.1 Agent基礎設施與框架層
說到架構,不少開發者小伙伴一定會首先想到LangChain。這個誕生幾個月內就獲得了超5.5萬GitHub星標、和3千萬美元融資的開源工具,迄今是agent開發者用來讓大語言模型調用外部工具與數據庫、擁有長程記憶、及完成多步驟工作流的首選工具包之一。
還有一些其他熱門工具,比如Pinecone這類幫助agent高效檢索外部知識的向量數據庫,或讓agent能更好處理私域數據的LlamaIndex等等,雖然并非僅針對agent,但也都是目前agent應用開發必不可少的“左膀右臂”。
同時各大云服務商也都爭先恐后地推出了agent工具包,例如微軟的Semantic Kernel、AWS的Bedrock Agents等,用來組合多種AI技能,主打對agent開發者體貼入微。
就像前面提到的,隨著AI Agent基建和框架層的進一步探索和完善,這一塊也是這兩年VC風投資本們非常熱門的投資方向,使得開發者們能用的工具和支持生態越來越成熟。
我們在過去幾個月看到不同行業和場景中,不少創業公司們的Agent應用嘗試。接下來我們聊聊具體的垂直賽道的明星公司們。
Chapter 3.2 AI編程Agent
如今,AI agent應用被認為最早落地的是編程類的agent:它們不僅能自動補全代碼,還能協助程序員們編寫、調試,甚至自主部署軟件。
GitHub Copilot在2025年2月推出的agent模式,想必碼農小伙伴們都很熟悉。由初創公司推出的編程agent不僅多到讓人眼花,還可以稱得上AI屆“造星工廠”。
號稱首位“AI軟件工程師”的Devin,背后是“生下來就在羅馬”的新貴初創公司Cognition AI,成立不到半年,估值就躍升到20億美金。Devin宣稱能替代初級碼農獨立閱讀技術文檔、編寫。
Devin的野心很宏大,每月高達500美金的訂閱費也很美麗,但我身邊的程序員朋友卻吐槽: Devin寫代碼一般般,做調研倒還不錯。所以現實情況是,定位于企業級用戶的Devin在龐大冗雜的代碼庫、欠缺的技術文檔和模糊不清的背景信息(context)這三座大山前,有點力不從心。
Cursor是另一個風頭正勁的AI編程助手,誕生于四位MIT本科生于2022年創立的公司Anysphere。Cursor由于好用、速度快,對用戶代碼庫理解能力出色,且成本遠低于Devin,迅速成為了很多碼農的首選,包括OpenAI、Shopify、Instacart的團隊都有使用。
據業內消息,不到三歲的Anysphere已實現1.5億美金年化收入,且正在洽談估值可能高達百億美金的新一輪融資。
其他還有很多編程類agent,比如擁有2000萬開發者用戶的Replit,旗下的AI Agent可以根據自然語言指令生成完整的網頁端應用。還有正在以近30億美金估值融資的Codeium,旗下的Windsurf已拿下包括戴爾在內的超一千家企業級用戶;以及字節跳動針對中文開發者推出的編程助手Trae等等。
看來AI編程領域的agent賽馬越來越精彩,不知各位碼農朋友是欣喜還是擔憂呢?
Chapter 3.3 客服與銷售Agent
客服與銷售是兩個勞動密集型崗位,但如今AI agent在這兩個領域中凸顯了效率優勢,受到大量企業采納的領域。
客服助理中表現突出的是Decagon。這家炙手可熱的AI初創公司已融資超1億美元,客戶包括大家熟悉的Duolingo、Notion和Eventbrite等。
Decagon的AI客服能自動處理高達70%的客服工單,為企業節省每年數百萬美元的人力開支。企業客戶之一Bilt曾說:使用Decagon就像一夜之間多招聘了65名全職客服人員。
與此同時,銷售領域則有快速崛起的AI獨角獸Clay,它利用AI agent自動抓取和擴充目標客戶數據,批量與潛在客戶進行量身定制地互動,并幫銷售人員處理大量工作中的臟活,從而成倍放大銷售團隊的生產力,目前已積累了十萬名用戶。
Chapter 3.4 其他新興應用場景
除了上面說到的幾個領域之外,AI agent還在以下許多領域擴大影響。
1. 商業調研:作為商業數據分析領域的頭部AI agent,Hebbia服務于全球資管規模前50名基金中的近1/3,以及多家大型律所、咨詢公司、甚至美國空軍。
2. 科研:學術界明星科研助手Elicit擅長自動生成論文部分內容并處理海量數據,目前全球已有超過200萬科研人員使用;它極大提升了機器學習、制藥與生物科技等領域的研究效率。
3. 供應鏈優化:被譽為美國最神秘的大數據公司Palantir近期在其人工智能平臺(AIP)推出了agent功能,用于自動化管理物流與庫存,已在60余家大型企業投入使用。
4. 醫療健康:美國最大的醫療信息公司Epic利用AI agent,將大量繁瑣重復的行政工作自動化,比如患者預約與分流、基本溝通、手續查驗與項目批準等,有效減輕了醫護人員的負擔。
Chapter 3.5 AI Agent應用小結
隨著AI agent技術的發展,為什么一些應用場景會更快地落地應用呢?我們發現目前取得成功的agent大多具備以下幾個特征:
1.任務定義明確且高度重復,比如客服、銷售等場景,AI能顯著提效且風險相對較低。
2.工作流模塊化且相對獨立,比如經過良好切割的軟件開發任務,agent可以不需要大量背景知識,在封閉、可控環境中運行。
3.注重信息檢索、分析與推理,大量自然語言交互,且不需借助復雜外部工具的場景。比如各種形式的調研,利于AI揚長避短。
4.聚焦于協助而非完全取代人類,讓企業能夠逐步、穩妥地將AI整合到現有工作流中。
總得來說,業界普遍認為大模型和agentic AI的底層技術,已發展到了足以支撐大量2B領域商業化的階段,而2C領域MVP(最小可行產品)的雛形也已經顯現。
當然,想讓AI agent承擔更復雜的角色,在長期記憶、多模態、API整合、以及多agent協作等方面,還有很長的路要走。此外,企業也要做好內部流程、數據和文檔標準化的工作,才能讓AI agent更有用武之地,這或許會像10年前的企業上云,并非朝夕之功。
04
AI Agent的未來
在Manus引發的熱潮和爭議不久,OpenAI發布了新的Agent功能,推出專用于簡化agent開發的API和工具,包括Responses API、內置工具和Agent SDK,幫助開發人員和企業構建有用且可靠的AI Agent。
所以Manus可能只是一道前菜,而精彩的部分才剛剛開始,Agentic這個詞也注定會成為2025年AI賽道的關鍵詞。
周煒 創世伙伴資本(CCV)創始主管合伙人 前KPCB中國基金主管合伙人: ToB端其實去年就有一些產品收入很高了,ToC端的話,我認為今年會是AI應用的元年。 我覺得一個通用的 AI agent想覆蓋所有的應用場景是不可能的,所有在AGI達到之前,日常生活中應該需要多種AI agent互相配合,比如有買機票的agent,買保險的agent,買房的agent等等。 其實不用把agent想得太神秘,它就是相當于日常生活中,某個垂直領域的顧問或者是從業人員在幫你做這個事兒。所有在AI agent它應該也有很多個,針對不同的方向幫你解決不同的問題。
當然,我相信未來所有的agent會是大一統的狀態,但道路還很漫長,所以我覺得沒必要觀點太終極。我覺得現在創業公司得先專注在垂直領域把它做到非常精細。 Perplexity這個產品就給了大家一個非常明確的方向,你看它從一開始就是專心在“研究”這一塊做得非常的專業,我覺得就走這條路,足夠成就一家很好的公司。
當然,一個新技術和新范式的產生少不了失敗,這個失敗在于對創業路徑的失敗,也在于對時機判斷的失敗,還有對于燒錢速度的失敗等等。
在AI Agent這條道路上,我們已經看到一個初創明星公司的倒下:這就是Adept。
Adept總融資額增至4.15億美金、公司B輪估值超過10億美金晉升獨角獸之后,卻因為技術研發受阻而自己又研發基礎模型所以燒錢太狠,不得不最終在2024年年中“賣身”給亞馬遜。當時,這給所有想要從事AI Agent賽道的初創公司都槍響了警鐘。
如果Adept能撐過黑夜、撐到如今的黎明時刻,說不定能比Manus拿出更好的產品、公司的結局會不會不一樣呢?
無論如何,如今天快亮了,但新的一天才剛剛開始。長路慢慢,還早著呢。
視頻有視覺和音樂的加持,更能呈現出這些精彩的故事細節。 請跳轉至硅谷101【視頻號】收看完整版
注:部分圖片來源于網絡
【本期節目不構成任何投資建議】
【視頻播放渠道】
國內:b站|騰訊|視頻號|西瓜|頭條|百家號|36kr|微博|虎嗅
海外:Youtube
聯系我們:video@sv101.net
【創作團隊】
監制|泓君 陳茜
撰稿 |陳茜
主持|陳茜
剪輯動效|Jacob
剪輯助理|Jessica 孫澤平
運營|王梓沁 何源清 孫澤平
特約研究員|王可倚 Nathan Wang
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.