文 | 硅谷101
你或許已在工作中體驗過AI助手的便利,也可能在新聞里見過Agent自動完成復雜任務的報道。Agent作為硅谷AI領域最熱門的關鍵詞之一,各類產品如雨后春筍般涌現,它們正以前所未有的速度滲透進我們的工作與生活。IDC認為,2025年,AI Agent將迎來規模化落地浪潮,其通過智能化任務處理重構標準化作業流程的潛力備受期待。
然而,一系列關鍵問題亟待解答:當下的AI Agent究竟能為我們做什么,又存在哪些局限?當硅谷巨頭紛紛布局,創業公司該如何突圍?更重要的是,當AI從工具進化為 “團隊成員”,人機關系將如何重構,人類的獨特價值又將體現在何處?
本期節目,《硅谷101》邀請到7位來自AI研發、商業分析、心理學等不同領域的嘉賓,由我們的特約研究員、Entrepreneurs of Life主理人Sophie帶領大家從用戶體驗、技術挑戰、商業邏輯和社會影響四個維度,展開一場關于AI Agent的深度對話。以下是這次對話內容的精選:
01 用戶視角:理想與現實之差 Chapter 1.1 什么是Agent?從工具到伙伴
Sophie:首先,讓我們從最基礎的問題開始:到底什么是AI Agent?我們發現,不同人的理解還真不一樣。我們先來聽聽一位典型極客的看法。
鴨哥是大型物流軟件公司Samsara的AI應用科學家,也是活躍在開源社區的AI達人;他在GitHub上魔改Cursor的開源項目獲得了超過五千個星標。在鴨哥看來,AI Agent需要滿足三個必要條件。
鴨哥: 在我看來,Agent需滿足三個必要條件:第一,具備工具使用能力,如調用搜索引擎搜索或調用編程語言;第二,擁有自主決策能力,明確獲取任務后可自主分解任務,并按順序調用工具參數以完成最終目標;第三,決策需為多步、自我迭代的動態過程,即能根據前一步結果動態決定下一步行動,而非工作流式的靜態固定流程,例如依據搜索結果判斷是停止搜索還是更換關鍵詞深挖。
綜上我認為,滿足“工具調用”“自主決策”和“多輪迭代”這三個條件以后,才能稱為Agent。
Sophie:鴨哥從技術視角給出的定義非常清晰;與此同時,另一位非AI技術背景的嘉賓,在世界500強公司擔任數據策略總監、業余身為播客主播的新琦,她對Agent的定義重點在于人與AI的合作關系。
新琦:從合作視角看,人Agent是真正的甲方與乙方關系,而非聘用合同工的關系。與合同工合作需要我們去定義問題、拆解關鍵步驟并檢查交付成果,而真正的甲乙關系是:乙方作為端到端承接整條流程的系統,在關鍵節點主動介入、提供決策建議,在接收高層指令后自動執行,最終交付成品而非半成品。
Sophie:新琦在采訪過程中提到,她目前使用的Agent產品雖有不少亮點,但離她心目中Agent的標準還有距離。
下面,咱們來聽聽他們各自使用Agent產品驚喜、震撼時刻的場景,以及打動他們的功能或體驗。
鴨哥告訴我們,他從上班寫代碼到下班帶娃都離不開三類Agent的幫忙,讓我們來聽聽看。
Chapter 1.2 Agent的多重驚喜
鴨哥: 我經常使用的AI Agent主要分為三類: 教練型、秘術型和搭檔型。
教練型:比如OpenAI的Deep Research、ChatGPT的O3,主要用于獲取調研信息、輔助深度思考,我把它當做了解不熟悉領域的窗口。
秘書型:如近期較火的Manus、Devin(均為訂閱工具),適合處理相對簡單的非沉浸式工作。例如哄娃睡覺時,我會讓Manus 基于《白雪公主》故事改編內容,融入“好好吃飯”等教育引導,再調用TTS工具生成音頻文件播放——秘書型工具擅長此類任務,能讓我在娃睡前直接播放定制語音哄睡。
搭檔型:我比較喜歡用Cursor、Windsurf等做正經的軟件開發工作,因為它們支持并鼓勵高頻交互,允許我全程參與指導:先討論設計方案,再讓它把一個個小積木搭起來,最后我作為架構師再組合這些積木并審計結果,確保達成開發目標,更符合科班化、高標準的工作流程。
Sophie:CreateWise是一款我參與內測的AI軟件。你只要一鍵上傳音軌,軟件就能直接輸出完整剪輯后的音頻,甚至能提供“哪些地方需要剪輯”的決策建議,以及利用AI模仿聲音擬合結構,使語句更清晰,并對修改語句進行高亮顯示,方便用戶對比前后效果。我試用后向開發團隊提出,你需要給我逐句剪輯的空間,因為有的剪輯是我喜歡的,有的剪輯不是我要的。他們現在已經提升這個功能的優先級并上線了。
此外,CreateWise能根據用戶對剪輯的選擇,直接串聯到“文案生成和宣發”模塊,針對不同平臺生成相應文案,比如為音頻平臺生成shownotes、金句、標題建議。針對YouTube或Instagram等平臺,它還能依據視頻尺寸比例等細節,生成可以直接發布的內容。
來源:CreateWise
Sophie:這款專注于播客制作場景的產品通過對工作流的深度了解和針對每一環節的特定優化讓新琦印象深刻。而另一方面,有幾款通用型Agent產品也在一般性任務的執行上,受到了用戶紐約大學應用心理學系大三學生Kolento的好評。
Kolento:我說幾個不同的場景。
通用層面,我近期一直使用Manus。前幾天新出現的Genspark Janus Park中,Super Agent模式對我來說比較驚艷,能協助我完成此前不太想完成的事務。這兩者的差異之一是用戶體驗:起初,Manus的UI/UX視覺沖擊力最吸引我;Genspark則具備類似將大量圖片、內容及鏈接組合的功能,我此前主要用它進行旅游搜索,但它的界面視覺沖擊力不及Manus,在一定程度上降低了我持續使用的熱情。
另外,從本質來看,Genspark和Manus均支持Agent執行過程的鏈接分享與回放功能,用戶可以回顧完整對話過程,甚至能基于該上下文延續對話。同時,它們也都能調用許多工具。不過,我對它們背后的規則了解有限,只聽說Manus可能未使用MCP,而是采用CodeAct,但我并不知道Genspark具體內部使用的算法或工具。它們都能對任務做良好的規劃與拆解,也會調用很多不同的工具,只是各自設計的工具可能存在細微差別,因為我感覺Genspark之前在旅游等場景上的表現相當不錯,所以他們可能配備了一些預設的旅游搜索工具。
還有一個有趣的差異:Genspark的部分功能可能是Manus尚未具備的,比如“call for me”功能可以幫你打電話、預約酒店等,當時讓我有一個小的“Aha moment”。
來源:Manus
編程層面,我比較喜歡Replit Rapid。我之前用Cursor和Windsurf,但Replit Rapid更像 Agent,能承擔更多角色。
學術層面,我近期用Elicit,但它沒有達到我心中Agent的定義。
Chapter 1.3 用戶吐槽大會
Sophie:AI有驚喜點,當然也有槽點。
在聽聽具體槽點之前,我想分享鴨哥一項有意思的洞察,那就是隨著各種Agent產品的不斷發布,他的槽點在飛速地進化;很多他以前吐槽過的點現在卻吐槽不了了,比如復雜任務中工具調用能力不足、寫作AI味兒太重、上下文窗口不夠長等等,他在近期發布的產品新版本中都看到了很大程度的改善。所以,用戶今天的槽點和痛點,也將是Agent搭建者下一步重點攻堅的方向。在聽完槽點后,我們緊接著也會聽聽幾位搭建者相應的思考和回應。先從鴨哥的槽點開始。
鴨哥:當前AI模型的指令遵循能力雖然較以往有顯著提升,但仍然存在不足。以GPT 4.1為例,當我要求它根據五章提綱先完成1-3章、再續寫4-5章且明確要求不在1-3章結尾添加“未完待續”時,模型還是總以“未完待續”或“我們下一次再繼續寫,你還有其他想寫的嗎?”等類似表述收尾。我嘗試了多種提示工程方法,均未解決該問題,最終只好通過逆向思維方法:將模型強制添加的“未完待續”字符串通過程序替換為空,從而完美地解決了這個問題。但如果AI模型的指令遵循能力足夠完善,就不會出現這些亂七八糟的事情。
第二個槽點是在我使用AI產品的過程中,許多產品仍存在“為了使用AI而使用AI”的現象。例如Claude的Computer Use或OpenAI的Operator,都會用一個例子來展示“我很厲害,可以幫你訂機票,輸入信用卡號,輸入各種信息,幫你點擊預訂機票的按鈕”。但用戶預訂機票時最耗時的環節并非填寫信息,而是確定出行日期——如果我選擇前一天晚上出發,需要權衡酒店費用與機票價格、是否能避免早起,后一天出發需要考慮送孩子上學的時間、綜合比較酒店加機票總價等。這些最麻煩的選擇和考量才是用戶的核心痛點。因此對AI產品開發者而言,需要針對用戶實際需求設計產品,避免為用AI而生硬使用AI。
第三個觀察到的現象是:AI雖然能力強大,但人類社會本質上是“人類友好”(human friendly)系統,專為人類設計。因此,許多信息或資源只有人類能夠接觸和獲取,AI則完全無法訪問。
例如在商務洽談或事務處理中,無論是公司內部討論設計方案還是外部商務談判,很多重要決策并沒有正式書面文檔作為依據,而是在非正式場合(如喝咖啡、飯桌上)作出。而AI無法獲取這些存在于人際交流中、尚未被文字記錄的“部落知識”(tribal knowledge)。這并非AI自身的問題——你也不可能要求人們在與客戶飲酒洽談時,攜帶攝像機記錄一切并輸入給AI。這種困境根植于人類社會的運作方式,目前我也不知道該如何解決,但這確實是一個令人感到無奈的方面。當前AI能獲取的信息或許只是冰山一角,大量隱性未記錄的“廢墟信息”仍無法觸及,如果能突破這一限制,AI將實現更廣泛的應用場景。
Sophie:Agent不服從指令,為了AI而AI、和缺乏人類世界暗信息——鴨哥的這三個槽點涉及了技術、產品設計、和人類社會對AI的環境局限等種種方面。而新琦則以她的親身體會說明了Agent產品缺乏人情味的問題。
新琦:我現在看到很多Agent或者AI產品所不具備的,就是“真實性”。我們在多人播客里會有笑場,但是比如說我用CreateWise,它會將多人同時發出的“哈哈哈”視為重復詞而刪減,僅保留少量“哈哈”。可是在我看來,這才是這個節目很有意思的地方。或者,多人播客里集體的沉默在很多的AI軟件里會被認為需要壓縮,因為AI覺得要保持一定的信噪比和信息密度輸出。但是,集體沉默很多時候是非常有意思的,比如主播拋出一個問題的時候,如果有3秒沉默,就說明這個問題非常值得探討。這類留白是內容深度的體現,卻會被AI當作無效信息去除。
當我們在說音頻剪輯的時候,一是語言類型,不同AI產品對中文音頻的識別、轉譯及剪輯能力與英文存在顯著差距。二是節目形式,即單人播客或多人群聊播客:單人播客相對簡單;而多人播客則復雜得多,核心在于多人播客需依賴多軌處理而非單音軌合并——既要保證聽眾聽清對話內容,又需保留搶話時的真實氛圍,這非常考驗手藝人的“手藝活兒”。目前,多數AI軟件或Agent在這方面能力不足,即便支持多軌上傳,連多軌對齊都很難做到精準。
國內市場的風險偏好整體低于美國分析師或從業者。品牌傾向于控制色彩、色號數量及SKU總量,使得庫存周轉長期維持在相對穩健的位置上。彩妝品類長期盈利困難,包括資生堂在內的許多品牌均承認色彩類產品不賺錢。因此,二級市場在評估彩妝品類時,對一級市場品牌興衰的紅利期心存疑慮,更期待品牌上市后能長期保持穩健與可預期性。尤其在國內,二級市場機構投資者傾向于“先學挨打再學打人”,希望品牌控制風險,做到SKU可控:哪怕有50個色號,也至少需要明確告知重點生產的是哪些色號,其余則視為品牌建設的成本。
Chapter 1.4 思維升級:從用戶到共創者
Sophie:面對我的吐槽邀請,有一位嘉賓卻出人意料地吐槽了這個環節本身,覺得它代表了用戶對于Agent在心態上的一種誤區。這位嘉賓是身為Statsig數據科學家、博主和AI社區Superlinear Academy發起人的課代表立正。他是這么說的:
課代表立正:我覺得這個吐槽的做法本身是錯誤的。第一是理解上的錯誤,第二是使用上的錯誤。
理解上的錯誤在于,Agents并沒有魔法,而是由過去的大語言模型、現有工具及協議逐步搭建而成。因此,指望它在當下就達到完美無缺的狀態并不現實。人們的心態往往帶有上一個時代的烙印——過去大多數工具是圖形用戶界面(GUI),點擊按鈕便就應該產生預期效果,如果按鈕無效,可以直接吐槽。但AI并非如此,所以要學會如何用好它,才能發揮它真正的用處。
Sophie:在探索怎么用好Agent工具這一點上,課代表立正曾在他的博客里分享過用Manus反復嘗試一項任務15次,終于成功的經歷。他說:
課代表立正:如果大家沒有一個學習的路徑或改進的路徑,肯定用不好AI。以我分享的Manus為例,它雖然出了14次錯,但第15次成功了,說明它本身具備成功的潛力,問題可能出在我前14次的使用方式上。我該吐槽Manus,還是該反思為什么我自己花了14次迭代才成功,而不是一次就調教成功呢?這說明我使用AI的能力還有待提高。
對待AI不能沿用普通用戶的心態,而是必須用搭建者的心態。如果你還是像用戶心態那樣,今天吐槽產品設計不足、明天批評功能不完善,會被這個時代落下的。
Sophie:聽了這么多用戶的喜悅和困惑,這些問題從開發者的角度看又是怎樣的呢?我們把視角轉向搭建者,看看他們對用戶提出的痛點有什么回應,以及他們在技術和產品上的思考方向。
02 搭建者回應:技術攻堅進行時,更是價值觀 Chapter 2.1 預期管理、指令遵循與人類暗信
2.1.1 用戶預期管理:AI如職場新人
Sophie:說到痛點,我個人作為Agent用戶的一項體會是,Agent對自身能力邊界似乎沒有清晰的認知,它們時常不知道自己哪些任務能順利完成,哪些可能會遇到困難、需要和我更多交互,而哪些完全在它的能力之外。這導致Agent不大擅長管理我的預期,而是無論什么需求都一口答應,最終結果卻時有不盡人意。我把這個問題拋給了身為Agent搭建者的曲曉音,她創立的HeyBoss AI今年初剛上線,主打用戶一句話提示詞生成完整網站或APP服務。曉音分享了她的看法。
曉音:我認為這個問題的核心,首先在于AI Agent背后的語言模型本身還不夠智能,但更反映了工作方式的變革。舉個例子,比如一個特別有才華、但沒有工作經驗的清華學生來公司當實習生,無論讓ta做什么都自信滿滿,說“沒問題,包在我身上”。然而,ta的實際產出卻不符合預期,且難以預判風險,或無法有效溝通。隨著工作經驗的積累,這位清華學生才逐漸懂得評估任務耗時、預判風險并提前同步——這種能力提升源于經驗沉淀,而非智商差異。
類比到AI領域,工作5-10年的職場人能精準管理預期,AI也需要通過處理大量重復任務積累經驗,從而判斷結果好壞。核心衡量標準不僅在于AI是否完成任務,更在于用戶是否感知其完成——這有點像清華實習生的工作成果也需要以老板滿意度為衡量標準:老板滿意了,那才叫真正做好了,否則即使自認為完成了也無效。
我認為相關的數據,比如用戶滿意度、任務完成度、老板滿意度等反饋,更多地掌握在應用層的AI Agent開發者手中,也就是像我們這樣的AI應用公司,而不是掌握在OpenAI這類基礎模型提供商那里。預期的標準本身是由“老板”(用戶)來設定的。如果我們擁有足夠的數據,就能判斷預期是否得到了滿足。當我們缺乏來自“老板”的數據時,就無法了解他們真正的預期是什么。
因此,我認為當前AI面臨的最大問題在于:它就像一個沒有工作經驗的清華學生。我們需要為它提供“工作經驗”,并給予它來自“老板”的反饋——比如,做得是好還是不好?完成了還是沒完成?打幾分?這樣的話,AI的表現會更加準確。
此外,使用場景需要具備一定聚攏性。部分產品宣稱“無所不能”,業務范圍從給孩子訂餐延伸至解決宇宙問題,覆蓋過于寬泛反而導致聚焦不足,用戶評價體系也難以形成特定模式。比如,我們聚焦于做網站和APP從而幫助小企業主、創業公司或者營銷部門。每個場景都可以明確評判是否達成了用戶需求及使用目的,由此能積累大量重復性數據,從而評估服務效果。反之,如果場景分散,評判體系將因缺乏統一標準而難以有效建立。
Sophie:曉音的比喻非常生動,將Agent比作一個聰明但缺乏工作經驗的實習生,解釋了需要積累用戶反饋數據,才能幫Agent建立自身能力與用戶預期比較的標尺;同時,她也強調了專注于特定領域可以幫助Agent積累更有價值的反饋。
另一方面,鴨哥前面提到的"Agent不遵守指令",則是另一位搭建者嘉賓重點攻克的議題之一。俞舟是哥倫比亞大學計算機副教授,她的創業公司Arklex.AI為新東方、沃爾瑪等企業級客戶內部Agent應用開發提供框架與工具,同時也面向終端用戶提供自營Agent產品。她從技術層面給出了“如何讓Agent更聽話”的應對策略。
2.1.2 指令遵循:評測、防護欄與工作流
俞舟:實際上,Agent并非只有一個或某種單一的東西,而是包含了很多組成部分。比如Guardrails的核心目標是防范各類不良情況,而這一過程相當復雜。它并非只是一個工具,而是會傳授一套完成任務的完整最佳方式。而且非常重要的一點是必須開展測試與評估——如果不明確Agent行為的好壞標準,僅憑主觀隨意操作,肯定無法得到理想結果。我們會根據它的評測結果做各種調整,可以用Agent的工作流來處理這些問題。
Sophie:Evaluation評測、Guardrail防護欄和Workflow工作流這三個關鍵詞非常值得關注。在工作流方面,曉音從產品設計角度,提出了一種具體的解決方案。
曉音:我們也提供了很多工具,不是通過AI來修改,而是讓用戶像改PPT 那樣,圈一下這個字,把它弄大弄小、改個動畫。我們發現很多情況下,用戶還是希望結果更可控。他們可能選擇替換字、詞、圖片,或者添加效果,傾向于用PPT的這種傳統方法,而不是AI的方法——因為覺得不太可控。所以,“可能不可控”和“可控但是限制性”的功能都需要。
2.1.3 人類暗信壁壘:場景滲透困境
Sophie:最后,關于鴨哥提到的“AI缺乏人類暗信息”這個根本性挑戰,曉音的看法是:這個問題的確難以短期內解決,但它在不同應用場景下的嚴重程度是不同的。
曉音:我們工作的性質原本就是線上完成的,例如開發一個網站時,與巴基斯坦的外包公司或發布平臺上的公司合作。合作方很少與我們進行線下會面,更不會通過握手力度來判斷彼此的契合度,這些對于我們而言并非關鍵要素。因此,從人際溝通的角度來看,線上線下之間沒有顯著差異。
這恰恰是我們所處賽道比較適合AI來超越人類的一個原因。然而對于某些行業,比如線下服務領域,或是大型企業的銷售崗位,很多關鍵性的工作或決策往往是在高爾夫球場的包廂等非正式、面對面的場合完成的。在這種情況下,AI所能獲取的相關輸入數據確實不足。所以,我認為這更多地取決于該領域Agent本身的特性,以及它所要取代的人類工作的具體性質。
Sophie:所以,搭建者們在考慮Agent創業方向時,應用場景對于暗信息的依賴程度或許是需要思考的。
Chapter 2.2 技術突圍、產品設計和市場培育
Sophie:除了應對這些用戶痛點,我們也很好奇,Agent搭建者們目前還在哪些方向上尋求突破呢?我們的嘉賓們分享了他們在技術、產品設計和市場培育三個方面重點攻堅的議題。
2.2.1 技術攻堅:自我進化與多Agent協作
Sophie:俞舟教授介紹了她和團隊正在探索的前沿技術。
俞舟:在我自己的實驗室里,我們也在做一些我認為非常重要、具備創新能力的研究。比如自我糾正和各種各樣的自我學習能力。
Sophie:而曉音則透露,他們正在深度挖掘多個Agent協作的潛力。
曉音:多Agent協作會越來越普遍。當下討論的核心不是向用戶售賣單個Agent,而是提供一套需多Agent協同的解決方案。為了提升協作效能,需要引入AI CEO或AI Leader Agent統籌調度其他Agent。這可能是一個發展趨勢,優勢在于通過聚合多Agent的能力、多元技能及靈活合作模式,來解決單一Agent或單一技能無法應對的復雜問題。
Sophie:“眾人拾柴火焰高”--這句老話或許對Agent也適用。但俞舟也提醒我們,這條路上還有不少技術挑戰。
俞舟:當有很多Agent同時在一臺機器上工作時,就會產生問題,如果讓多個Agent分別在不同的分布式系統節點或不同的機器上工作,又會帶來更多問題。關于如何更好地、更高效地、低成本地、處理這些問題,同時還要解決很多并發以及其他各種各樣的問題,我們還有很多工作要做。
Sophie:尤其是在企業級應用中,安全問題將成為最大的技術挑戰。
俞舟:最大的難關就是安全。以一個最簡單的系統問題為例——數據庫。以前數據庫是供人使用的,人有權限去修改數據庫的內容。但現在,Agent需要去修改這些內容。如果同時有多個Agent要去修改同一個數據庫,我們該怎么辦?萬一它們修改后,數據庫里的數據變得不一致了,甚至需要花大量時間去恢復原狀,怎么辦?而目前數據庫本身無法提供一種既高效又便捷的方式來存儲數據,并與Agent進行連接。
比如,當兩個Agent交互時,哪些記憶可以分享,哪些不能?還有,數據庫需要有governance layer(治理層)——有些Agent可以接觸某些數據,而有些Agent則不能,這就像人一樣,一旦你存在安全漏洞,沒有相應權限,就不能接觸核心數據。此外,還需要區分哪些是對外接口,哪些是內部接口等等。這里面有很多非常具體的工作要做。
2.2.2 產品設計:行業經驗和用戶洞察
Sophie:除了技術層面,產品設計同樣是搭建者們關注的重點。在這一點上,曉音提出:在大模型實力之上,Agent應用還亟需積累具體的行業經驗和用戶洞察。
曉音:大模型的變化有點類似于人的智商水平。大模型更聰明并不代表它在具體技能上更懂行,這是因為掌握一項技能除了需要聰明才智,可能還需要一些行業的技術訣竅(know-how),或者是對具體應用場景的理解,這些往往依賴經驗積累而非單純的智商驅動。所以對我們來講,這兩者都非常重要。
以具體場景為例:創業者要做一個公司官網,小企業主想賣課,或者咖啡店需要處理訂單時,僅靠大模型的通用智能遠遠不夠,AI工具還需要精準把握行業特性,比如了解該行業的最新運營模式、競爭對手動態等,最終目標是確保網站和APP切實為業務創造商業價值。
我們需要:第一,了解特定行業;第二,與時俱進地了解行業,跟上行業變化;第三,讓AI具備一定的品位——更多的是AI本身的設計能力。即使你自己不懂設計,但是AI提供的方案要有一定的調性和個性,并且符合品牌預期。
這并不一定是大模型越強大,品位就越好。品位的形成更多源于我們的訓練過程,也源于設計這些Agent的人員自身的品位,以及我們對客戶所處行業的所需品位的理解。這是因為有些客戶無法清晰表述他們期望的品位,他們可能僅僅指出“太亂、太土、不夠直觀”,這些描述都相當模糊。例如,如果這位小企業主是健身博主,他所說的“土”是什么含義?如果他是一位銷售水電工具的商家,他所說的“土”又是什么含義?如果是一家AI創業公司,“土”又意味著什么?每個人對“土”的定義是不同的。我們需要深入理解,透過表面現象探尋本質。
Sophie:AI的"智商"提高了,但不代表它懂得行業最新趨勢或者審美標準,這些需要專門的訓練和調整。
2.2.3 市場培育:企業流程重構
Sophie:在市場培育方面,俞舟提出了一項經常被技術人忽視的關鍵挑戰。
俞舟:當前這個領域似乎被炒得很火,但實際的投資回報率(ROI)并不顯著,在大企業中的部署應用也相對較少。然而,我認為這更多是一個時間問題。因為大企業的組織結構使其變革和推進新事物通常較為緩慢。技術本身往往不是最難的,真正的挑戰在于“人”的因素。我們需要重新構建他們的工作流程,這實質上是在調整生產關系,因此需要深入了解企業并設法“教育”員工,引導他們更好地利用AI。以上過程需要循序漸進,并非產品一經推出就能立刻投入使用。它需要企業自上而下、以“頂層設計”的方式,系統性地解決這個問題。
Sophie:“技術容易,人事困難”——這句話道破了很多技術創新最終失敗的原因。引導市場和客戶重構工作流程和生產關系往往比開發技術本身更具挑戰性。
03 商業視角:初創企業競爭指南
Sophie: 聽了這些搭建者的分享,我對Agent從前沿黑科技到進入尋常百姓家需要克服的挑戰有了更立體的理解。那么,這些技術和產品如何轉化為擁有壁壘的長期商業模式呢?我們切換到商業視角,一起聽聽來自投資和創業領域的觀點。
Chapter 3.1 打破SaaS壁壘:高質數據與客戶關系
高寧:首先,正如硅谷投資人Sarah Guo在去年年底的一次分享中點明的,當前具備多模態、強理解與總結能力的 Agent能產出新的數據,而這正為打破傳統SaaS的既有格局提供了可能。新興公司所實現的新數據,其來源已不完全掌握在傳統SaaS公司手中。以醫療診斷記錄為例:傳統模式下,醫生手動錄入訪談數據至表格。雖然存在很多門診SaaS及病例管理公司,但數據掌控權并不集中在它們手中。如今的語音數據經AI整理后,生成更新、更準確、更豐富的信息。掌握此類新數據的初創公司,其競爭力未必遜于傳統SaaS,因為豐富、高質量的數據才是核心價值點。
在于渠道與客戶關系。許多初創公司面臨這一挑戰。如果能服務高速增長的初創企業,并伴隨其成長為未來的平臺型巨頭乃至上市公司,就能自然構建起新的渠道與客戶關系。從這一點看,傳統公司的優勢并非牢不可破。所以我持樂觀態度。尤其是在外包或傳統服務驅動型領域,它們原本依賴人力處理大量數據并總結工作,而Agent或AI的介入能更高效地輸入和輸出結構化、豐富且高價值的結果。這是初創公司挑戰現有市場格局的一條路徑。
當然,部分反應迅速的傳統SaaS公司,特別是仍處于高速增長期的公司(如Salesforce),也具備追趕潛力。許多處于成長階段的SaaS公司,如果能積極探索Agent路徑,同樣有望迎頭趕上。
Sophie: 傳統SaaS積累的數據可能在AI時代反而不再那么有價值,而新的數據采集和處理方式可能重新洗牌競爭格局。 那么,Agent創業公司如何建立自己的新護城河呢?這里,高寧強調了工程能力和產品設計與運營的重要性。
Chapter 3.2 建立護城河:用戶默契培育
高寧:當前,對模型的理解正轉化為工程能力,并應用于具體產品之中,這一過程本身相當復雜,具備相關能力的人才也較為稀缺。因此,這在某種意義上構成了技術壁壘——無論基于模型的表現進行評估和調優,還是對模型本身進行精細調整,你都需要深刻理解如何運用模型、明確調整的方向,才能使你的產品呈現更好的效果。
Manus的合伙人張濤曾在極客平臺分享過類似見解,讓我很受啟發。這其中蘊含著重要的專業知識和實踐經驗,同時也涉及對不同模型的選擇。當前各類大小模型不斷涌現,發展速度和迭代頻率均十分迅速。因此對模型的理解本身,也可以視為一種技術壁壘。
此外,產品層面的體驗設計與呈現方式同樣關鍵,例如如何降低用戶使用門檻?如何優化on boarding流程,讓它更順暢?以及如何引導用戶創造更多use case并提升用戶活躍度?這還關聯到市場營銷、用戶增長等諸多方面,這些因素在我看來也至關重要。
所以,我認為現在初創公司所面臨的挑戰正日益嚴峻。然而從另一個角度看,各方面能力的精進都能構成其獨特的競爭壁壘。
Sophie:懂得如何調用和優化模型,并將其轉化為優秀的產品體驗,這本身就是一種稀缺的能力。鴨哥則從了解用戶偏好和使用習慣的角度,提出了"默契"這個有趣的護城河概念。
鴨哥:最淺顯的護城河或體現在數據層面。以Manus或Devin為例,它們具備一項功能:記錄用戶對輸出的糾正,并將這些知識應用于后續的對話中。假設某公司使用Manus制作PPT,初次生成的版本主色系是綠色。假設用戶不滿意,要求把主色系改為藍色,這就是一個數據積累的例子。當未來該用戶或公司內其他成員再次請求制作PPT時,系統能根據這次數據自動采用藍色作為主色系。隨著這類糾正和反饋的持續累積,用戶與AI之間會逐漸形成一種“默契”。用戶會感受到系統的高度適配性,覺得其“好用”,因為它已了解老板喜歡什么、知道公司內部的各種規章制度,無需用戶反復糾正。
此時,如果出現一個競爭對手,即使它的技術實力強大,但由于缺乏對該公司特定內部信息的了解,它生成的PPT可能仍會沿用綠色主色系,這可能引發用戶對它能力的質疑。這就是一個非常大的護城河,哪怕它真的很聰明,但用戶也不愿意去用。此時創業者或產品經理就應該思考:如何有效利用數據構建類似的數字護城河?如何促進用戶與AI之間產生這種默契感?這或許是當下最有效的競爭策略。
Sophie:俗話說“衣不如新,人不如舊”;當Agent競品的技術水平足夠接近、足夠滿足用戶基本需要時,我們是否也會說,“AI不如舊”呢?曉音還進一步指出,真正的護城河是解決用戶的終極目標,而不只是提供中間步驟。
曉音:幫用戶實現最終目的、把價值鏈做長更難被取代。
我們表面上是在編寫代碼,但實際上,我們的工作是幫助用戶運營他們的業務。我們通過我們的軟件、應用程序或網站,協助用戶塑造品牌形象,吸引并留住用戶,最終幫助他們更好地盈利。所以最終來講,一個Agent的目的也應是幫助用戶賺錢,而不僅僅是提供一個軟件或工具供他們使用。
在這種情況下,我們需要更深入地了解用戶,尤其是要掌握更多后臺數據,比如用戶的引流效果如何,他們在網站上停留了多長時間等等。我們需要了解這些方面的數據。我們在特定垂直領域做得越深入,我們的不可替代性就越強。
如果我們只是單純停留在設計和開發網站,不再考慮用戶是否真的使用、是否實現了轉化,那么我們構建的護城河就不會很高。相反,如果我們能直接幫助用戶實現最終的盈利目標,我們就更難被取代。
Sophie:這種"價值鏈延伸"的思路值得思考,從做網站到幫助獲客、留存、變現,這種全鏈路服務更難做好,也自然更難被替代。
Chapter 3.3 大模型公司是否擠壓Agent初創公司
Sophie:說到替代,我們不得不面對一個尖銳的問題:OpenAI、Anthropic這些大模型公司自己也在加強Agent能力,它們會不會最終擠壓創業公司、尤其是通用類Agent公司的生存空間?高寧對此有一個很辯證的看法。
高寧:像現在的 GPT、Deepresearch、Manus或者Genspark,這些通用型的Agent,理論上多少存在一些既競合關系。但因為它們都在吸引越來越多的新用戶,讓更多的小白用戶了解Agent能做什么事情,所以在中短期內,我認為這個問題并不大。
長期來看,當模型和模型產品的用戶越來越多時,如果用戶同時使用兩款產品,而這兩款產品表現出的差異并不明顯,那么一定會有一些替代。但對于這種應用型的產品,它的好處在于其背后依賴的是一個模型,而且這種依賴是無感知的。也就是說,用戶可以根據哪個模型表現更好,甚至哪種模型組合的效果更好、成本更低、效率更高來選擇各種各樣的模型。
因此,我認為大模型和初創公司各有優缺點。
Sophie:所以短期內,有足夠的市場空白和增量機會避免太激烈的競爭;但長期來看,差異化將尤為重要。俞舟教授也從企業級應用的角度,進一步強調了應用層中立性的價值。
俞舟:中立第三方平臺,如我們這類平臺,在推進相關事務時往往更容易、更快速。因為誰也不知道未來是否與OpenAI形成綁定關系,各方普遍不愿與任何單一公司建立深度綁定關系,都希望保留備選方案。大企業通常都要做Multi cloud,那么為什么要跟AWS綁定、用它的框架?萬一它突然不行了,需要更換,我該怎么辦呢?我們這類中立平臺,恰恰為這種需求提供了可能。
Sophie:那么具體而言,Agent創業公司應該如何避免與大模型公司正面競爭呢?高寧給出了一個很實際的建議,那就是——去做大模型公司不會做的臟活、累活。
高寧:這一邏輯更適用于垂直領域 Agent。以VI為例,它也傾向于與Harvey等垂直應用合作而非自主開發,背后有兩點核心考量:首先數據壁壘上,完全掌握各公司的私有數據幾乎不可行;其次,打通工作流需要深度理解用戶工作流程、上下游關系和系統架構等細節,這類基礎性事務性工作,對當前聚焦通用人工智能(AGI)或模型基礎能力提升的公司而言,并非首選。
另一方面,對于通用型產品而言,這也存在一定的風險。無論是文生圖應用還是Agent相關產品,它們不太可能完全取代現有市場,所有用戶都轉向ChatGPT。對此,應用型產品的破局路徑可能在于:針對核心用戶群體,將產品形態逐步升級為基于工作流的SaaS工具;或者積極與大客戶合作,提供定制化解決方案。我相信,不少初創公司已經意識到了,并且我也觀察到一些公司正在積極調整策略,鞏固自身的競爭力。
Sophie:這是一個接地氣的建議。垂直行業理解、私有數據處理、流程打通、定制解決方案,這些看似瑣碎但又必不可少的工作,恰恰是創業公司的機會所在。
Chapter 3.4 盈利邏輯:先談效果,再談成本
Sophie:最后,我們來聊一個很現實的問題:Agent由于需要多輪交互和調用工具,往往消耗大量tokens,這會不會帶來嚴重的成本壓力?對此,HeyBoss AI創始人曉音的回答很有意思。
曉音:我們以結果為導向。小白用戶的比價邏輯在于:比如,過去雇傭一個涵蓋設計、文案、SEO等崗位的巴基斯坦工程師團隊,費用可能高達數千美元。而我們的服務無論價格多高,都不會超過該團隊成本;無論交付多慢,也不會比該團隊效率更低。因此,用戶對我們的預期核心在于 “交付結果”,只要能達成這一點,價格和速度已足夠讓我驚艷。
Sophie:在專業服務領域,效果才是王道;相比傳統的人力成本,Agent的token開銷可能算是小問題了。
通過這些商業視角的分享,我們看到Agent創業公司既面臨挑戰,也有不少機遇。它們可以通過新數據、深度行業理解和端到端服務來建立自己的壁壘,同時謹慎處理與大模型公司的關系,尋找互補而非競爭的定位。
04 哲學與未來:Agent時代的深層思考與展望
Sophie:講到這里,我想把話題引向一個更宏觀的層面。技術發展從來不僅僅是技術本身的事,它往往會帶來深遠的社會影響。隨著Agent技術的普及,它可能會重塑人與機器的關系,甚至影響社會結構。接下來,讓我們一起來聽聽嘉賓們對Agent時代的哲學思考和未來展望。
Chapter 4.1 用戶愿景:構建AI原生環境,解放人類雙手
Sophie:首先,我們來聽聽用戶對未來Agent形態的期待。Kolento分享了他對Agent與人交互方式演變的一些思考。
Kolento:傳統的AI工作流程是:人類先為AI搭建好一步步的操作指令,然后AI執行操作并給出響應,最后由人類查看結果。在這個過程中,人類實際上有兩個審核點:一個是在搭建過程之中進行審核;另一個是在AI給出結果之后,對結果進行審核,審核完后再返回第一步進行修改。這樣有點麻煩,因為需要檢查兩次。
但我更傾向于認為,審核的次數可能不會減少,但方式有所變化。未來的Agent應該在第一步就對齊你的價值觀、記憶以及所有偏好——不僅僅是行為上,而是對齊用戶整個人,從而用戶可以放手讓AI在識別清楚意圖之后完成所有任務。那么,僅在出現一些高危或者極端情況時,Agent才會來找用戶進行確認。
這種形態我在Rapid這款產品上看到了,它讓我有這種Aha moment。輸入請求時,它不會每一步都要求用戶確認。而如果使用Manus、Winserve時不開啟自動模式,每一步都得確認——其實很多步驟是不需要確認的。然而,“工作流程”也許不會被淘汰,因為很多東西終究需要人來設計好——人的一個優勢在于足夠穩定、足夠可被信任。
Sophie:這個從"流程搭建+分布結果審核"到"價值觀對齊+放手去做"的轉變趨勢,代表了一種信任模式的根本變化。這種根本變化需要的不僅僅是Agent本身能力的進步。鴨哥從更廣泛的社會適配角度,討論了在他看來對于賦能Agent有關鍵影響的環境因素。
鴨哥:AI到底能夠在人類的社會中、在我們的日常工作中發揮多少作用,在很大程度上取決于我們本身的“AI友好程度”,或者說“AI原生程度”,就像剛才說的蒸汽機的例子一樣,如果我們能圍繞蒸汽機來構建船舶的整體工作方式,那么這很可能成為實現工作流程最優化的關鍵。
從數字世界的視角來看,即便AI沒有物理世界的隔閡,在數字領域仍面臨諸多挑戰,原因在于許多事物并非“AI原生”的。例如,當我們編寫一段代碼或一個庫希望他人使用,或開發產品期待用戶采納時,當前產品說明書或文檔大多面向人類設計——內容零散且因人類認知局限(如閱讀速度慢)被拆分為多頁面,需要用戶自行點擊超鏈接瀏覽。但AI處理文本和代碼毫無障礙,即使一次性提供數萬字文本,它也能快速處理,因此AI真正需要的是代碼密集、內容集中的呈現方式。
試想未來存在兩個庫或軟件:一個具備“AI友好”特性,提供的相關信息能讓AI(例如Cursor)迅速理解并據此編寫代碼;另一個則設計為“人類友好”型。展望未來,我認為前者所擁有的競爭優勢將極為顯著。這正是AI原生性在現實中體現的重要價值。
Sophie:鴨哥提出的"AI原生"或"AI友好"的概念讓我想到了城市規劃中的無障礙設施,只不過這次是為AI設計的"無障礙接口"。
Chapter 4.2 人機協作:人類價值不可替代性
Sophie:AI能力的快速進化一方面激動人心,另一方面,越來越多的人開始關心在AI跟前,人應該扮演怎樣的角色,又有哪些AI難以替代的價值。Kolento就表達了這樣的憂慮。
Kolento:我們與機器之間的交互界面正變得越來越“薄”——交互的層次在減少,更趨近于直接對話。以Google Search為例,用戶發出一個query,系統返回一個response,這種交互模式在一定程度上是相對平等的,盡管系統會提供多個結果供選擇,但整體結構依然清晰。
然而,當我們與GPT這類模型交互時,就變得“無邊界”了。對話可以持續進行直到token耗盡。你提出一個請求,模型可能生成一段長篇的回復;或者,你給一個更復雜的任務,Manus可能運行80分鐘才能完成。那你的意義在哪呢?你只是給這種高層引導,那未來是不是你也可以被替代?
Sophie:"你的意義在哪",這個問題直指人類存在的本質;面對這種擔憂,新琦提出了她對人類創造價值的理解。
新琦:我認為我依然是那個能夠首先形成想法、提供指令、精雕細琢、保障成品的人,而AI是我的一個合伙人,我需要它給我出力氣。
在音頻領域,真正具有價值的內容,往往并非那些結構化、易于被AI獲取的信息,因為這類信息無法構成增量價值。價值更多體現在兩個方面:一是在某個特定領域擁有深度,且尚未被AI消化的商業洞察或學術研究;二是那些源自個人生活、未以結構化形式上傳至互聯網的信息。此外,以我們的播客節目為例,我們三位主播身處不同時區、處于人生不同階段,我們的討論通常來說是更立體、更多元,并且更有火花碰撞的。我認為在AI時代,我們要不斷鼓勵觀點的碰撞和認知的迭代,而這往往是與AI合作難以實現的。
Sophie:增量信息、真實體驗和差異化觀點碰撞,這三點非常精準地點出了人類在內容生產中的獨特價值。而鴨哥則從人與AI的工作關系角度,提出了一個有啟發性的觀點。
鴨哥:我們可以把AI想象成一個團隊成員,而不僅僅是工具。這意味著我們與AI之間的關系正在發生轉變。過去,當我們談論工具(比如螺絲刀或汽車)時,通常會說“我用螺絲刀”或“我開車”,但不會說“我把某項任務委托給汽車”。但當我們說“這件事交給AI來做”時,大家覺得非常自然。這正是AI與傳統工具的不同之處——它能做的事情越來越多,因此我們與它的關系更趨近于領導和下屬模式。這就意味著我們的核心競爭力正從過去“如何使用計算器”這樣的技能,轉變為“如何管理AI”。這是一個重大但常被忽視的問題,因為擅長管理人的人非常少。
管理本身是一門博大精深的學問,需要大量的培訓和學習。管理AI并非像使用螺絲刀那樣,拿到說明書看一遍就會了,而是需要具備管理能力才能真正用好它,這是另一個我們需要做好的思維轉變。
Sophie:把AI視為團隊成員而非工具,這種思維轉變可能真的會重新定義人機關系。我們需要學習的不再是"如何使用工具",而是"如何管理AI"。最后,Kolento還強調了人類在價值判斷上的不可替代性。
Kolento:從哲學層面講,我認為AI無法替代人類進行價值判斷。這也是為什么我不認為AI能勝任法官的原因。我不放心將價值判斷交給AI,一部分原因在于它的“黑盒”特性——我們對它的運作機制不夠了解。即便未來我們能夠完全理解它,其可能表現出的“過于全能”特性,也讓我們不禁思考:人類自身的價值與價值觀在哪?AI、Agent的價值觀終究是由其創造者所決定的。畢竟,我們觀察到GPT和Claude在行為上存在本質差異,這很可能源于它們訓練數據的差異。
Sophie:AI可能越來越擅長“怎么做”,但“做什么”和“為什么這么做”或許仍然需要來自人類的答案。
Chapter 4.3 Agent時代:倫理治理與社會系統
Sophie:除了人機關系,Agent時代的社會結構也值得我們思考。互聯網2.0時代,Google、Facebook等中心化平臺掌控了絕大多數用戶流量和內容分發,一方面創造了巨大的效率提升和企業盈利,另一方面也造就了不少問題。那么在AI和Agent時代,我們是不是有機會走出一條不一樣的路?我們每個人獨特的需求和價值觀是否能充分得到AI Agent的個性化尊重?Kolento對此有著自己的洞見。
Kolento:我之前曾寫過一個片段,提到了計算機發展史中“分久必合,合久必分”的規律。很多人認為AI或Agent的出現是整合的趨勢,但實際上,Agent本身還是在分散。例如,要實現一個完整的Agent部署,即便你使用Defi構建了工作流并將其嵌入編碼,最終部署仍需依賴多種工具——這看似在整合,但這些工具本身又成為了碎片化的一部分。
如果回看每一段歷史,你會發現整合都是以犧牲個性化為代價的。因此我開始想:什么東西應該堅持個性化,什么東西又是我們不該放棄的。我認為,人的主體性絕對不能放棄。然而我們與機器之間的交互界面卻變得越來越“薄”,這讓我很擔心人的價值所在。
我認為需要個人專屬的大模型。當前所有主流AI如GPT、Claude、Gemini等都屬于中心化模式。正如“想要打敗魔法,唯有魔法本身”,要對抗中心化,或許需要一種“個人化的中心化”——賦予每個人可擁有、可遷移的AI。因此我非常關心AI如何與人對齊,以及如何實現負責任的AI發展。如果以硅谷的兩派觀點作比喻,我更傾向于杰弗里·辛頓(Geoffrey Hinton)的路線,而不是薩姆·奧爾特曼(Sam Altman)。
Sophie:“用魔法打敗魔法”,充分個性化、個人可擁有、可遷移的AI Agent或許能讓我們在接近全知全能的中心化AI面前,仍舊能感受到作為個體被聆聽、被尊重的溫度。最后,曉音則從更宏觀的社會學角度,思考了AI社會可能出現的新型關系。
曉音:我之前看過一個心理學研究,說人類與其他物種的本質區別在于:人類能夠組織起大量的人群。很多動物,比如大象,一個族群可能不超過100個或50個,而人類可以組織幾百萬甚至幾千萬人。
那么下一個問題是,AI能不能組織更多AI Agent?能不能像人類一樣,組織幾百萬甚至上千萬的AI Agent去做各種各樣的事情?如果AI能做到這一點,是不是意味著AI可以迸發出更強大的能力?我認為這種能力是存在的,只是我們可能需要讓AI的語言模型更加強大,它的上下文窗口(context window)更大,工具使用(tool use)更加完善,并且AI的評估(evaluation)能力能夠管理更復雜的架構。
另外,AI與AI Agent之間會不會存在所謂的利益不一致?就像人多總會發生沖突一樣,AI與Agent之間會不會也“打架”?我覺得其實也會的,因為它們各自對“成功”的判別標準不同,所以存在利益不一致的地方,就像人類一樣。
在這種情況下,如果AI與AI Agent之間發生沖突,該如何評判誰對誰錯?我們是期待一種類似民主的投票制,由AI Agent進行投票,還是期待一個獨裁的政府,即一個AI CEO說“你們都聽我的,閉嘴”?我覺得我們可能很快就會面臨類似于人類社會架構上的問題。
還有一個點是,有可能AI Agent會管理人類,同時人類也會管理一部分AI Agent。
我們現在已經發現了這樣的問題,并正在思考:如何設計這樣的體系?如何評判AI CEO?如何與它對接?如何讓它提升技術能力、工作水平?
Sophie:AI之間會不會產生類似人類社會的結構和沖突?人類和AI之間的管理關系會如何演變?這些問題聽起來像是科幻,但實際上可能已經悄然在前沿技術中萌芽了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.