上周,一款號稱“全球首款真正意義上的通用AI Agent”的軟件Manus迅速走紅互聯網,被稱為是第二個“DeepSeek時刻”。然而在不到一天的時間內,針對該軟件的評論迅速出現分化,形成三個陣營。
支持者認為,在Manus官網展示的旅途規劃、股票分析、面試安排等工作,可以自動使用搜索引擎查詢、下載數據,閱讀PDF文檔,使用Python進行數據分析與可視化操作,甚至能夠啟動電子郵件客戶端,撰寫郵件并自動發送。大語言模型始終離不開它的對話框,而Manus則可以讓AI真正開始干活了,一個全新的AI時代,似乎正以不可阻擋之勢到來。
與此同時,對Manus也不乏質疑者,其主要觀點是,Manus的各項技術并非首創或獨有,更像是一個融合各種技術的“套殼”軟件。其次,Manus目前并未完全開放,網絡上的大量報道,只是復述了官網公開的演示視頻,不能代表Manus在真實環境下的使用體驗。
亦有少數用戶號稱拿到了Manus的邀請碼并撰寫了體驗報告,其中可信度較高的是劉潤在其公眾號發布的一篇文章——《拿到Manus的邀請碼之后,我趕緊問了4個問題》。從劉潤的體驗看,Manus的確具有較強的自動化水平,無論是使用搜索引擎、分析數據,還是生成PDF都可以有效完成。但是在執行過程中,依然存在瑕疵。如當搜索不到指定內容時,Manus會生成模擬內容來完成任務(有趣的是Manus會告知用戶,最終結果是模擬內容)。這類用戶對Manus的態度相對中立,認為其現階段不夠成熟,仍需繼續發展。
Manus之所以能夠引爆網絡,原因在于相比于底層的大語言模型,應用層的AI智能體可以適配更加豐富的應用場景、產生更多創新性的產品。如同在移動互聯網時代,雖然我們缺乏底層的安卓、iOS等操作系統,但是在移動App上我們涌現出諸如微信、滴滴、抖音等超級App。雖然有些App的功能并非原創,但依靠龐大的國內市場需求,以及在商業模式上的創新,我國在移動App的競爭中不乏優勝者。
與移動互聯網時代類似,AI時代大語言模型注定是寡頭之間的游戲。而對于技術和資本投入要求相對較低,面向各個領域應用的AI智能體,則蘊藏著豐富的創業機會。美國麻省大學羅威爾分校孫黎教授,將這種優化產品或服務的效率或成本、結合場景的創新,稱為可負擔創新(Affordable Innovations),更適合初創企業的快速崛起。
AI智能體是什么
批評Manus的觀點之一是,作為一個AI智能體,Manus沒有自己的大語言模型,這意味著它不過是一個“套殼”軟件。針對這一批評,公司聯合創始人季逸超并不諱言Manus采用了基于Claude和阿里千問(Qwen)的大語言模型技術。
從AI智能體的定義看——“AI智能體是一種能夠感知環境、自主決策并執行任務的人工智能系統。它通常被設計為在特定或多種場景中獨立運行,以實現特定目標或完成復雜任務。”與大語言模型只能通過對話交互返回結果不同,AI智能體可以完成具體的任務,如行程安排,AI智能體不僅能夠制定日程,還能操作App或者登錄網站,直接預定機票和酒店。通過它編寫程序,則可以直接生成一個編譯好的可執行文件。
之所以能夠實現上述功能,是因為AI智能體一般包括四個組成部分(圖 1),分別是:
1. 大語言模型(LLM):它是AI 智能體的“大腦”,負責協調決策。它通過任務進行推理、規劃行動、選擇適當的工具,并管理對實現目標的必要數據的訪問。
2. 規劃模塊(Planning Modules):規劃模塊使AI智能體能夠將復雜任務分解為可作的步驟。
3. 內存模塊(Memory Modules):AI智能體依靠內存來維護上下文,并適應正在進行的或歷史任務。這是AI智能體能夠持續運行分解任務的關鍵。
4. 工具(Tools):AI代理本身可以用作工具,但它們也可以通過與外部系統集成來擴展其功能,例如:
(1)API:訪問實時數據或以編程方式執行作。
(2)數據庫和RAG管道(RAG pipelines):檢索相關信息并確保準確的知識庫。
(3)其他AI模型:與其他模型協作完成專業任務。
因此,智能體并不需要擁有一個自有大語言模型,而是整合相關技術,提供一個完整的解決方案。如果我們以熟悉的汽車行業的例子類比,大語言模型是發動機,AI智能體則是整車。
圖 1 AI智能體架構及代表產品示意圖
AI智能體,有沒有護城河?
在Manus引爆媒體之后的數小時內,另一個AI開發團隊——MetaGPT,在GitHub上開源了功能與之類似的OpenManus軟件。
這不禁讓人思考,AI智能體有沒有護城河?
護城河理論源自于邁克爾·波特分析企業面對競爭時的五種力量(圖 2)。
圖 2 波特五力模型
AI智能體的供應商主要是大語言模型廠商。從目前的產業生態看,雖然以DeepSeek、阿里千問為代表的開源模型性能已取得極大的發展,但與頭部閉源的大語言模型,如ChatGPT、Claude、Gemini相比,仍有一定的差距。由于大語言模型廠商逐漸呈現寡頭市場的趨勢,相對AI智能體企業,大語言模型廠商的議價能力仍然較強。當前大語言模型廠商主要以API的形式出售Tokens,對于下游廠商,也未使用歧視性的定價策略。對于AI智能體廠商而言,短期內成本亦相對可控。
從潛在進入者看,大語言模型廠商最有可能開發AI智能體。但當前大語言模型廠商的主要精力聚焦在提升大語言模型的智能和性能,尚無暇顧及向下游的AI智能體延伸。從技術門檻看,大語言模型廠商進入AI智能體市場,對智能體廠商而言可能是降維式的技術整合優勢,如Open AI的Deep Research。與大語言模型深度整合的全功能智能體,可能是普通AI智能體公司最難挑戰的競爭對手。
其次是以微軟、蘋果為代表的操作系統、手機/電腦終端廠商,它們雖然沒有自有大語言模型,但掌握著系統級的入口,憑借與操作系統或終端設備系統級的整合,在通用智能體或個人助理類智能體領域(如微軟的Copilot),可能有擁有較為明顯的優勢。
從用戶(買方)端看,AI智能體還沒有大型廠商出現,用戶選擇余地較多,議價空間大。而且用戶長期養成了免費使用互聯網產品的習慣,除非AI智能體能為用戶帶來極為明顯的價值增加,否則很難向用戶收費。
在替代品方面,AI智能體尚處于發展早期,在技術未出現明顯變革的情況下,暫時沒有替代品的威脅。但由于AI智能體開發的技術難度并不高,行業內的同質化競爭預計會非常激烈。
互聯網的經營思維,可能不適用于AI智能體
從產業角度看,AI智能體很難形成自己的護城河。那么互聯網時代所推崇的數據,能否構成AI智能體的護城河呢?
數據之所以能成為互聯網公司的護城河,原因在于數據能夠為公司帶來用戶增長。吉姆·柯林斯將這種增長模式稱為“飛輪效應”。如圖 3是一個典型的互聯網企業(Uber)的增長飛輪。如圖所示,Uber上注冊的司機越多,接單速度就越快,這會刺激更多的用戶注冊為Uber會員,帶來更大的需求。需求的擴大,會刺激更多的司機加入平臺,Uber則可以覆蓋更多的服務面積。而同時Uber擁有更多的數據,可以用來改進車輛調度算法,進一步提升平臺的效率,用戶等待時間更短、價格更實惠,這會刺激更多用戶的加入,需求的擴大又再次吸引司機加入,形成一個不斷增長的飛輪。
圖 3 Uber的增長飛輪
由此可見,增長飛輪的生效,需要企業處于雙邊市場,即一方(買方或賣方)參與者的收益,取決于該平臺另一方參與者的數量。企業只需要刺激一方參與者的數量增加,就會帶動整個平臺的繁榮。
但AI智能體不屬于雙邊市場,用戶在一個AI智能體使用的時長越多,這個智能體會越懂用戶,帶來單個用戶的使用時長的增加,但對其他用戶并不會帶來更好的價值。因此數據不會為AI智能體企業帶來用戶數量的增長,增長飛輪無法跑通。
盡管有所爭議,但不可否認,運用互聯網思維的確誕生了一批高增長企業。互聯網思維的核心是盡可能擴大企業規模,實現網絡效應,即便早期虧損,企業通常也在所不惜。在互聯網思維中起到根本作用的是網絡效應,即網絡價值與網絡節點數量的平方成正比。網絡效應發揮作用的前提是,網絡上的各個節點能夠互動。最典型的例子就是社交網絡。但AI智能體的用戶,似乎并不存在交流互動,網絡效應難以發揮作用。
所以我們看到目前AI智能體,甚至大語言模型都是基于銷售Tokens的模式,與傳統貨品銷售并無本質上的區別。當前AI智能體的Tokens消耗量較高,要實現盈利,非常考驗公司商業模式的設計能力。據智東西3月7日報道,一位用戶測試使用Open Manus回答“杭州哪些醫院支持異地醫保直接結算?”這一問題,消耗Claude 3.7模型的Tokens約為24萬,大約相當于36萬~48萬個中文字符,花費3.6美元。如果按照這個成本定價,對AI智能體企業而言,產品使用費用將非常高昂,預計很難吸引到用戶付費使用。如何設計企業的盈利模式,可能是擺在AI智能體企業面前的一道難題。
to B還是to C?
一般而言,企業通常愿意為服務付費,to B業務能夠讓創業企業獲得較為穩定的現金流。但是to B業務一般不會出現爆發式的增長,追求高成長的AI智能體企業,可能會選擇to C的業務模式。
AI智能體的創業者,選擇面向企業的to B業務,還是選擇面向個人的to C業務?
在回答此問題之前,我們不妨先看Manus的一個演示案例。筆者選取了Manus官網上,分析特斯拉股票這個示例操作。與通常部署在用戶本地的開源AI智能體不同,Manus采用了在云端虛擬機運行的方式。圖 4展示了部分分析過程,我們可以看到操作過程主要是在基于Ubuntu的Linux虛擬機中建立相應文件,編寫Python程序執行分析等。
圖 4 Manus分析特斯拉股票的部分操作步驟
Manus采用云端虛擬機的方式,可能是因為,目前智能體執行操作大量依賴臨時生成的Python程序文件,這對用戶操作系統和開發環境有較高的要求。筆者嘗試在本地部署開源的Open Manus,在生成Python程序時遇到多次報錯,通過手動排錯才使工作流順利完成。當前大語言模型的能力,還不足以一次性生成可用的程序,直接部署到用戶端,難以保證執行效果。Manus提供的虛擬機,則可以由公司事先配置好虛擬機的操作系統和各類開發環境,以保障任務能夠得以正確的執行。
但是這種模式下,企業的算力負擔很重,虛擬機需要大量的硬件資源開銷。根據少量獲得邀請碼的用戶測試,即便很簡單的任務,Manus依然需要數小時才能完成。因此從當前的技術需求看,to C的智能體,無論是新增用戶,還是收費模式,都有較大的挑戰,如果沒有龐大資金的支持,to C智能體在盈利之前,就因耗盡資金而失敗。
而對企業來說,則更愿意為服務付費。這可以類比開源軟件公司RedHat,雖然公司的產品Linux系統本身免費,但公司通過銷售軟件服務,在2016年成為全球第一家銷售額超過20億美元的開源軟件公司。2018年IBM以340億收購RedHat公司,是截至該年度美國科技史上的第三大交易。
因此,從短期內看,面向企業端的AI智能體似乎更容易生存。
盡管當前AI智能體仍處于早期發展階段,但如同移動互聯網的時代一樣,我們無法預測Uber、滴滴、微信這樣的原生商業模式;也未曾預測到誕生在PC時代的淘寶,以“All in無線”創造增長神話。
無論Manus是否曇花一現,它的出現至少將AI智能體引入大眾視野,引起了投資人、企業家的關注。移動互聯時代,我們誕生了一批比肩世界的超級App,AI時代會產生哪些創新,我們將拭目以待。
資料來源鏈接:
圖1: https://www.madrona.com/ai-agent-infrastructure-three-layers-tools-data-orchestration/
圖3: https://www.woshipm.com/share
/5987614.html
圖4: Manus官網
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.