如何定義 AI Agent?如何看待 AI Agent 領域存在的過度炒作現象?如何找到 AI Agent的最佳切入點?哪些關鍵 KPI 可以驗證 AI Agent 項目的實際業務價值?
文|牛透社;整理|保文
在崔牛會策劃的“DeepTalk|DeepSeek猜想系列”對話中,由崔牛會創始人&CEO 崔強主持,邀請了Gartner 公司副總裁孫鑫(Julian Sun),圍繞“真假 AI Agent:貼牌陷阱vs技術泡沫”的主題,展開了深入探討。
孫鑫提到,目前國內的AI Agent正處于一個頂峰點,未來兩到五年,AI Agent可能進入生產的成熟期,但目前企業對于AI Agent 的探索還應保持相對謹慎的態度,技術瓶頸、可靠性、成本、場景適用性仍是重要的制約;Deep Seek 拉平了很多企業在應用大模型技術上的差距,但企業更應考慮的是讓自身數據與大模型產生協同效應,讓大模型為自己所用;在談及如何衡量 AI 投入的 ROI 時,孫鑫提到了效率、質量、財務和安全四個維度。
閱讀目錄
1. “Agent Washing” :熱鬧背后的理性思考
2. 回歸客戶期待:如何定義AI Agent?
3. AI重力+用戶使用:大模型時代的“護城河”
4. AI 投入的衡量指標和落地“三步走”
以下是經牛透社編輯整理的對話內容:(有刪減)
“Agent Washing” :熱鬧背后的理性思考
崔強:今天聊一個大家比較關注的話題:真假 AI Agent,到底是貼牌陷阱,還是一個技術泡沫?今晚的嘉賓是Gartner公司副總裁孫鑫。今晚的話題,也源于Gartner 的一篇文章,文章題目是「Gartner: 警惕 “Agent Washing” ,辨別炒作與實質」。
Agent到底是不是新瓶裝舊酒?這在國內外都是一個很常見的問題。針對這一問題,Gartner給出了一個非常嚴苛的AI Agent定義標準。在Gartner眼中,到底什么才是真正的AI Agent?怎樣定義企業級的 AI Agent?目前 Salesforce以及國內很多廠商也都推出了 AI Agent 產品,這些產品到底算不算AI Agent?今天晚上我們就聊一下這個話題。請孫總先介紹一下自己,然后介紹一下寫這篇文章的背景。
孫鑫:好的,謝謝崔老師。我叫孫鑫,大家可能更熟悉我另外一個名字Julian。我就職于Gartner,Gartner是一家美國研究型咨詢機構,專門服務于全球的首席信息官,即 CIO 以及他們的團隊,包括大數據主管,以及企業的 AI 一號位等人群。我主要負責Gartner中國區的研究團隊,主要研究方向是人工智能和數據分析。
這篇文章來源于美國人常說的一個詞: “FOMO”(錯失恐懼癥,Fear of Missing Out),意思是企業或者個人害怕忘記了(錯過了)什么事情,實際上這樣的事經常發生。比如很多年以來,國內非常多的廠商都稱自己為某某云(Cloud),再往前幾年是某某中臺,十幾個月之前是某某GPT,到了今天可能就是某某 Agent。
我們覺得“Agent Washing” ,是指這樣一種現象:在供應商側,將它們現有的技術重新包裝成Agent,而這些“現有的技術”,實際上是缺乏一些產品的自主性和復雜決策能力的,這樣就導致了甲方企業市場的混亂,或者出現誤導性投資。
我們看到很多組織或者企業過度支出,并且大大低估了現在部署AI Agent 的成本和復雜性,最終可能無法達到過度炒作所帶來的期望,這就是我們寫這篇文章的一個初衷。
崔強:在當前背景之下,廠商肯定愿意去占AI Agent這個概念。以往大數據出來,大家都是大數據公司?,F在 AI 出來,大家都是 AI 公司。 “Agent Washing”,在當前市場主要表現為哪些特征呢?
孫鑫:這些特征很明顯:一種是比較簡單粗暴的,比如改名字。原來的 RPA 公司,或者應用公司,直接變成AI Agent 公司,這屬于一種營銷側的“極簡敘事”,它可能對產品的邏輯性上并沒有過多追求,卻極具煽動性,能夠將一般用戶吸引過去。
AI 產品比較有意思,它服務的更多是 Prosumer用戶(參與生產的消費者),而不是一般的 Consumer 用戶(消費者用戶),它相對于專業型消費者用戶是有觸達力的。所以一旦廠商把名字改成Agent,就會極大地吸引一些 to C 端比較喜歡鉆研新產品的用戶嘗試。很多廠商的產品,在幾個月前叫某某Copilot,之后又改成某某 Agent。
分享一個Gartner數據:我們 2024 年 Q2 到 Q4 關于 Agent 的咨詢量增長了750%,這是一個非常驚人的數字。但據我們關于甲方 Agent 部署的調研來看,成功率不到 30% 。看起來非常熱鬧,但真正做出成果,部署成功的比例其實非常低。
所以,這一場 “Washing”,對于很多乙方也許有一定的成功意義,但對于甲方來說還遠談不上成功。
崔強:剛才你提到兩個數據, 關于 Agent 的咨詢量增長了750% ,但只有 30% 的客戶成功部署了 AI Agent。成功部署的場景主要集中在哪些方面?
孫鑫:其實這 30% 的客戶,很多可能并不一定是 AI Agent,更多可能是一個Workflow(工作流技術)。我們看到的客服,知識庫的 Agentic RAG(智能體增強檢索生成)模式,Coding(軟件研發)模塊,都是一些比較成功的場景類別。
崔強:國內外的整體趨勢相似嗎,還是有區別?
孫鑫:國外的選擇可能會更多一些。無論是什么技術型產品,都存在一個“buy or build”(購買或自建)的選擇。
在 ChatGPT 的初始階段,我們看到國內外市場的一個明顯區別:國內企業是 build (自建)的模式,而國外企業則是 buy (購買)的模式,這和 SaaS 的部署非常類似。但在自建過程中,中國的企業客戶可能會面臨非常多的技術局限性。
然而自今年 1 月份開始,尤其是 DeepSeek 的崛起,在推理模型對于 Agent 的助力之下,這種情況出現了一個非常大的變化。據我們去年 6 月份的一項調研,中國企業客戶生成式 AI 的部署成功率是8%,當時全球的成功率在23~24%左右;今年這個數字雖然還沒有發布,但國內企業已經非常接近全球化水平了。所以,DeepSeek對于這件事是有推動性的。
崔強:是的,原來和 IT 行業不相干的人都在談論如何使用DeepSeek。剛才你提到兩個數據,包括Gartner技術曲線,現在看來這波生成式 AI 處于技術曲線的哪個位置?
孫鑫:我可以簡單地介紹一下Gartner技術曲線。Gartner覺得所有技術趨勢基本上都會遵循一個技術成熟度曲線(The Hype Cycle,炒作曲線),一開始會進入技術萌芽期:當一項新技術取得突破進展,或者進行大規模傳播時,會引起媒體和行業的極大興趣,我們稱之為技術萌芽期;然后會進入期望膨脹期。當外界對于一項技術趨勢給予過高熱情和不切實際的期待時,一些領軍企業可能會大力宣傳,但往往只有一小部分取得成功。
我認為,目前生成式 AI 正處于期望膨脹期,國內的Agent正處于一個頂峰點,大家期望非常高,甚至有些廠商宣稱做出了通用的 AI Agent,但實際上這件事是不太可能的;之后有些技術會進入到泡沫破裂的低谷期,從最高點跌落到最低點,再逐漸進入一個穩步爬升的復蘇期。隨著新技術的融入,以及更多商業化方法論和工具的實現,最終達到成熟期。
(圖源Gartner網站)
每一個階段,我們都會給予客戶一定指導,評估技術投入策略。在我們對 AI Agent的技術成熟度曲線中,對它有一個benefit(有益性)評級是非常高的。
另外,我們預測在兩到五年內,AI Agent可能進入生產成熟期,AGI 實現要更早到來。從某種程度來講,Agent 為很多企業實現愿望提供了一個很好的渠道,包括 MCP 等輔助技術的出現,很多企業覺得過去不能干活的大模型現在可以幫我們干活了,這也是一些甲方側的期待被廠商實現的例子。
崔強:我們看到,當年SaaS被資本追捧的情形在 AI 端重現了。我感覺 AI 可能比SaaS更快地進入Gartner技術曲線的周期里面。在AI技術的投入上,結合當下中國 AI 的狀態,你會給廠商什么樣的建議?
孫鑫:我建議現在對于 AI Agent 的探索相對謹慎一點比較合適。首先,現在的AI Agent還存在非常多的瓶頸或者技術局限性,還沒辦法做出一個非常好的Agent。
其次,最常見的問題還是它的可靠性?,F在的 AI Agent 是依賴一些不可靠的組件構成的,最常見的組件就是大語言模型。假設一個AI Agent工作流包括 10 個步驟,每個步驟都基于大模型推理,大概有 10% 的出錯概率,整體下來一個Agent真正的正確率可能只有1/3左右,這種錯誤的累積其實對于企業是不太可以接受的。
第三,成本問題 。如果不計成本地使用token,讓 AI Agent 去實現一些任務,對企業未必是一個合適的選擇。所以,更多企業面對的問題是:是否真的有必要去建一個Agent ,或者是否一定要把項目做成Agent?因為 Agent 的復雜性和它的價值都是同比例增長的。
此外,Agent 也不是適用所有應用場景。不是所有場景、所有公司現在都需要去做 Agent 這件事情。
崔強:剛才你提到 AI Agent 只適合某一些場景,現在國內還有哪些場景,用 AI Agent 是能夠在低成本并且相對可靠的狀態下實現的?
孫鑫:分成四個維度看這個問題會比較合適。第一,復雜度。是不是足夠復雜,需要足夠多的步驟,需要在一個足夠不可控的外界環境下實現,這可能是比較適合AI Agent的場景;第二,收益。能不能帶來足夠多的收益;第三,現有技術的可行性;第四,這件事的出錯率。
結合這幾個維度,你會發現寫代碼是非常適合做成 Agent 的。首先,寫代碼這件事足夠復雜;第二,請一個程序員成本很高,尤其在北美地區;第三,現在 AI 寫代碼已經比較靠譜了,比如Claude 3.7 Sonnet 已經可以做到非常好了;此外,寫代碼可以通過一個非常嚴苛的測試去檢測。
結合以上四個維度,可以很好地判斷一件事值不值得通過 Agent 來實現。
崔強:一個網友問,有哪些比較好的,已經走通的智能體商業化例子?
孫鑫:現在市面上比較認可的幾個 Agent 大家可能都聽過,比如 OpenAI 的 Deep Research,是一個研究型的智能體;寫代碼的有Cursor、Devin,它們都是非常好的智能體,可以在統一的平臺下,端到端地解決某一類問題。
崔強:它們都是國外的產品,國內有沒有一些比較成功的例子?
孫鑫:現在國內我還沒有明確地看到哪一家 Agent 公司是比較好的,即可以提供現成的、比較好的Agent產品的公司,但確實有非常多好的 Agent Builder(智能體平臺) 公司,可以提供工具集,讓企業自建 Agent,這種公司是有不少的。
回歸客戶期待:如何定義AI Agent?
崔強:我讀完那篇關于 “Agent Washing”的文章之后,第一感受是這個標準非??量?。根據這個標準,現在國內幾乎找不到一家產品,或者只有為數不多的幾個產品能被稱為 AI Agent 的。為什么會用這樣嚴苛的標準來定義呢?能否再向大家介紹一下這個標準。
孫鑫:首先是一個大的市場趨勢。AI Agent之所以能夠吸引大量資金投入,一定是構建了一個非常龐大的愿景,能力也一定要匹配得上。Gartner對于AI Agent 的定義是:一個自主或半自主的軟件實體,它利用了人工智能的技術去感知、做出決策、采取行動,并且在數字和物理環境中實現企業或者個人的業務目標。
我把這些關鍵詞再梳理一下:首先是一個自主或半自主的軟件實體。如果它是一個半自主的形態,也不能說它不是Agent,在某些關鍵節點,它是可以把人類的角色納入進來的,但最重要的一點是,它必須擁有自主決策的能力。
第二,它是一個軟件實體,而非一個大模型。這個軟件實體將 AI 組件放入其中,但最終的執行仍然是在軟件層進行協調的,也就是說最終干活的仍然是該軟件實體。
第三,提到使用 AI 技術,AI Agent,并不是必須且只有大語言模型才能被稱為 AI Agent。大模型出現以前,已經有非常多的企業嘗試用 Agent 方式去做一些工作,比如用更傳統的機器學習,或者用符號 AI (symbolic AI) 的方式去做 Agent,使結果更可預知、更穩定,甚至通過代碼來實現一些工作,這仍然是可以被稱為 AI Agent。
AI Agent要用人工智能技術進行感知,獲取外界信息,這種感知能力可能是目前技術上一個較大的瓶頸,因為外界環境很可能必須在統一的流程中,甚至在統一的云平臺、大廠環境中,才能更好地協調。
第四,要做出決策, AI Agent 可能會調用不一樣的功能制定行動計劃,做出一些決策。 第五,采取行動,要把活給干了。我們要用 Agent 把一些工具、接口、技能和功能調用起來,對目標環境產生影響。
上面提到了一系列我們在定義AI Agent時的關鍵詞,都是基于我們現在客戶所提到的,或者說是客戶對于AI Agent 的一個期待。目前的市場環境中,的確充斥著非常多炒作的聲音,是很難實現這樣一個愿景的。
目前國內市場能夠被稱為Agent 的軟件實體是非常少的。企業可能更應當關注如何通過 Agent Builder Platform,構建符合自身需要的 Agent 。
崔強:剛才你提到,國內還是比較喜歡用自建的方式,而不是購買成熟的商業產品。而且國內成熟的 Agent 產品幾乎也看不到。DeepSeek 這波AI 浪潮之后,是不是也為很多 CIO 或者企業提供了一種快速構建AI Agent的可能性?
孫鑫:DeepSeek 的出現,或者說很多國外大廠推出的開源模型,拉平了很多企業的差距,但對于一些頭部甲方企業影響并不大,對于Tier Two(二級供應商),或者原來獲得大模型非常困難的企業帶來了新的可能性,但很多時候這也是需要企業自己去把握的。
企業可能更需要考慮的是如何讓自己的數據能夠與大模型真正產生協同效應,讓大模型為自己所用。如果大家都是用同樣的大模型,怎么才能凸顯自身的差異性?作為一個供應商,如何通過大模型來實現自己的愿景,構筑自己的護城河,這是真正值得去思考的。
另外,現在我們非常巧奪天工地設計一些Workflow,通過 AI 工程搭建一些 Agent,在未來某一個時間點可能也會有問題。因為大模型的能力會向越來越多的豐富場景延伸,一方面它可以處理多模態數據了,另一方面它自己可能就會是一個工具,或者從一個大語言模型變成一個大行動模型。
這意味著,今天你可能做了非常多的Agent,但以后大模型稍微發力,就把這樣一個能力直接取代了。
所以,我們要做的不是要等待一個新的大模型出現,而是應當考慮怎樣結合自己的數據、企業的 Know-how,通過Reinforce learning(強化學習)實現一些新的功能,構筑屬于自己的護城河,這一點非常重要。
崔強:確實是這樣。這里有一個評論,好的 Agent 一定是有數據邊界的,數據質量高度就是 Agent 的高度。這個觀點你怎么看?
孫鑫:好的數據質量高度可能決定這個大模型本身的高度,因為現在企業已經基本上認識到:要做一個通用型 Agent 不太可能,更重要的是如何把 Agent 的邊界劃分清楚。比如做文檔處理、數據獲取、可視化等。邊界的劃分,以及如何在一個predefine(預定義)好的工作流下順利完成工作,高效地實現企業的一些愿望,這才是一個 Agent 的邊界感。
大多數企業要做的,很可能就是Multi-Agent(多智能體協同),單個Agent很難讓客戶產生一個很好的預期。當然你的數據越好,質量越高,這是一個非常好的底座。
崔強:剛才你提到DeepSeek的出現,為一些無法擁有頭部企業預算的中小型企業,提供了一種構建 AI Agent的可能性,它們如何找到最佳的切入方式,你有什么樣的建議呢?
孫鑫:雖然國內可以直接購買的、好的、現成的 Agent 產品非常少,但我們的建議是如果想要涉獵這一領域,可以先借鑒一些AI先行者們buy to build( 先購買再自建)的歷程,或者嘗試兩條路并行的方式。
我們看到的最成功的試點項目,應該是著重展現業務潛力,而不是一種技術的可行性。企業在進行一些技術試點時,如果僅僅為了驗證現有智能體的方式,在我們的系統或者說工作流中是可行的話,它為企業帶來的只是微小的改進,反而會忽略這項技術可能帶來的真正變革能力。
所以,我們不會建議企業現在一定要去做一個通用型的Agent,而是要先將一個你覺得可以讓企業受益的,可以讓業務潛力得以實現的點先做好,然后再去考慮多Agent的模式。
AI重力+用戶使用:大模型時代的“護城河”
崔強:DeepSeek 為大家帶來的焦慮是巨大的,幾乎每個行業都要被 AI 重塑、改造了,聚焦企業軟件或者 SaaS 領域,Agent 與 SaaS 或企業軟件接下來的關系會是什么樣子?我想聽聽你的看法,或者Gartner觀察到的一些觀點。
孫鑫:這個問題非常有意思。我們也經常討論到,大模型和 Agent 廠商未來將是一種什么樣的“相愛相殺”的關系。因為Agent 需要調用一些工具能力,這些工具能力可能是來自 SaaS 、傳統軟件。
從 SaaS 廠商角度,只要能把 SaaS 工具更好地用起來,能夠產生用量,它也愿意被調用。但另一方面,大模型廠商也想干這個活,而且它們也是有能力構建這些工具的,這樣就不需要通過MCP的方式去連接外界工具,相當于把原來 SaaS 廠商的工作都在大模型中實現,這就類似于大型云廠商跟 ISV 之間的關系了。
在國外,我們已經看到了類似的端倪,比如 OpenAI 的 Deep Research 并沒有開放 API ,它希望用戶打開 ChatGPT的界面,把大模型當做一個 Agent 來使用,而它將來就成為一個能夠實現各種業務能力的平臺。
對于前端 SaaS 廠商、工具型廠商來說,短期的做法可能會像 Salesforce 一樣,結合自己的Know-how,在自己的平臺中構建各種Agent。但未來,它們一定會考慮如何構建自己的大模型,讓自己擁有一個“中樞大腦”,保持對客戶有一個 AI 重力的吸引,這一點對于 SaaS 廠商也是非常重要的。
長期來看,SaaS 廠商、工具型廠商也會投入自己的模型建設,比如 Perplexity 在建自己的大模型。大家都會向用戶側更多發力,將過去的數據重力、平臺重力逐漸向 AI 重力轉移。
為什么要提“AI 重力”?我們過去經常講數據重力,是指如果我能夠把握企業數據,就有更多機會吸引企業在我的數據平臺之上構建各種應用能力。比如企業買了一個廠商的數據庫,就很可能在這個廠商的數據庫上去買它的數據分析產品,包括搭建應用能力等。
AI 重力的吸引力,源于它帶來了一個獨特的 Agentic 體驗,也會讓很多的企業,由于 AI 能力,愿意購買更多平臺上的工具和能力,所以,未來的爭奪一定是在 AI 重力上。
在 AI 的技術發展上,東西方其實有非常不一樣的評估標準。西方包括美國一些主流媒體,可能更關注大模型本身能力好不好,國內可能更注重的是日活、月活這樣一些比較基本的指標。
在OpenAI CEO奧特曼的一些近期采訪中,他也提到建最好的模型未必是最重要的,最有效的方式是有 10 億日活在我的平臺上。
最近,GPT 4o推出了一個圖形渲染能力,可以讓更多用戶在平臺上使用,就是利用了 AI 重力,讓更多的用戶使用,從而構建最堅固的護城河。AI 重力+用戶使用,無疑是一個非常好的配套。
崔強:剛才你提到了大廠和 SaaS 之間的相愛相殺。這種相愛相殺的狀態早期在大廠和 ISV 之間已經走過一輪了,現在可能會重現第二輪。未來,Salesforce等廠商和通用大模型廠商的關系會有什么變化?是不是也要自建 AI 生態圈,和生態中的 ISV 們一起成長。這一點到了 SaaS 或者 ISV 端會變成什么樣子?
孫鑫:Salesforce、ServiceNow,它們對于自身領域都有著非常獨到的經驗,有自己獨特的護城河。短期內,它們會推出各種GPT,今天是各種Agent。它們可能是在邊界感上維持得最好的,現在只不過用一個更好的Agentic的界面,讓用戶有更好的體驗。
對于這些廠商來講,接下來一定會優先在數據層發力。比如 Salesforce 在最近的財報或電話財報會議中,都會反復強調自己 Data Cloud 的重要性。
這表明,數據才是Salesforce覺得真正重要的一個環節,它也一定會在自己的數據之上更好地訓練出符合自己企業情境的模型。
Salesforce之所以能夠做成這種平臺式的 Agent 協同的方式,一方面是為了給用戶提供更好的體驗;另一方面,是為了讓客戶有更好的黏性,并且可以讓客戶看見未來使用 Salesforce 的一個場景或者一種可能性。
相比較而言,中國企業可能比較實在一些,不會在乎背后用的是什么模型,更注重實際價值,而不是在跑分上能夠贏過你。
崔強:就是更務實、更落地一些。一個網友在問,Agent 怎么能夠更好地處理端到端的問題?
孫鑫:以往的Agent ,更像一個全棧自研的過程,MCP 全新協議的出現,帶來一個從全棧自研到協議組裝的轉變。很多中小企業可以通過MCP,將一些標準化零件進行Agent 的組裝式搭建,雖然不能稱之為端到端,但卻是一種更省時、更合理,而且是在一個管理流程中搭建 Agent的過程。
此外,還有一種方式就是像ServiceNow、Salesforce 這類大廠推出的Agent,所有應用都是長在自身平臺上的。
崔強:未來,很多 SaaS 公司,比如Salesforce這樣的大平臺,有沒有可能也通過 MCP 調用平臺外的能力。假設 ServiceNow 需要一個銷售模塊,是否也可以通過 MCP 協議來調用。而從客戶側來看,在解決某一個具體場景的過程中可能調用了很多來自不同平臺、廠家的產品,有沒有這種可能性?
孫鑫:這依賴于 MCP 協議的進一步發展。一方面要看這些大廠、 SaaS 廠商是不是會開放自己MCP 的服務;另一方面也要看客戶是否真的需要。
假如一個中國客戶從來沒有使用過 Salesforce 的服務,他會選擇去連接 Salesforce 的 Agent 嗎?
此外,成本也是一個重要的因素。本來 10 塊錢就能干的事,如果現在要花 15 塊錢,要看客戶愿不愿意花這個錢,這是個很現實的問題。對于很多企業來說,是否真的要通過搭建一個 Agent Swarm (多Agent框架)的形式來實現你的數字化野心?其實是沒有必要的。
崔強:你講得非常務實,不要追逐技術,花最少錢解決企業最核心的問題,才是最重要的。
說到連接和開放問題的,前兩天我去了國內一家RPA + Agent 的公司,他們也提到MCP可以讓大家連接起來,但問題是大家都不開放接口,所以只能用原來 RPA的那種方式,反而可能更切合實際一些。所以,又不能不考慮國內現有的情況。
另外,在客戶側,在自研和采購之間,國內客戶對商業化產品接受度也不夠,雖然這些年有改變,但本質上還沒有變很多,你覺得最核心問題在哪里呢?
孫鑫:其實自研跟采購的討論是持續存在的,國內的生態相對而言比較封閉。我們在國外會看到所謂的 Data Ecosystem(數據生態系統),或者Cloud Ecosystem(云生態系統),廠商與廠商之間各自賺各自的錢,由客戶來選擇,只要使用了你的產品,你就可以獲得收益。
但國內廠商可能更愿意封閉地自我開發,而不是與別人對接,以至于很多廠商都說自己是做端到端生意。當然,這也是甲方的一個訴求,無可厚非。
從甲方視角來看,可以通過場景判斷自研和采購的比例。如果是一個核心差異化的業務,自研的比例可能要高一點;如果是通用高頻的需求,比如文檔分類,完全可以通過采購的方式,自研比例可以非常低;這需要企業有一個頭腦比較清醒的 AI 一號位,判斷自己的場景適合自研還是采購。
AI 投入的衡量指標和落地“三步走”
崔強:前兩天我們還開玩笑,有的老板說了要制定出未來三年的 AI 規劃,但 AI 幾乎是一周一個變化,規劃一個月也許都顯得有點長。在這方面,你可以給 CEO 哪些建議,比如說通過哪些KPI,來衡量CIO在這波 AI 里邊貢獻?
孫鑫:這方面我們一直有非常多的研究報告,這里我簡單講一個四層評估模型。第一層是效率層,即有 AI 和沒 AI,到底會讓企業的任務耗時降低多少?這是一種防御性的 KPI。
第二層,是質量層,這是一種比較進取型的 KPI 。以往我們總覺得大模型是會有幻覺的,或者不太能夠符合企業的訴求,比如 Chat BI,它的決策準確率就非常值得審視。如何利用大模型,讓它在做決策時能夠符合企業預期,或者讓準確率可被接受,質量層就非常重要。
第三層,是財務層,這是相對比較進取型的指標。比如過去做不到的事,現在因為DeepSeek和各種開源模型,我們可以開發出 AI 賦能的產品,從而為企業帶來新的收益增長點,這是財務層的一個指標。
第四層,是安全指標,這是一個底線??赡苓^去很多企業沒那么在意,但現在有非常多的 MCP 協議,由于還處于萌芽期,可能會存在非常多的安全隱患,如何能把潛在風險降到最低?或者說如何既能夠保護企業最重要的數據資產,同時又能夠利用好 AI 能力,這也是 CIO 需要關注的。
簡單來講就是效率、質量、財務和安全。
崔強:你們還寫了一個構建 Agent 能力的“三步走”路線圖。在這方面,會給大家一些什么建議呢?
孫鑫:我們確實有一個AI Roadmap的設計,但它并不是三個階段那么簡單。這里也可以簡單說下這三個步驟:第一,先要去做一些能力試點,在試點的選擇上,有些能力要放棄,有些事情不能做;如果一些試點成功的話,可以嘗試在多個業務中做一些拓展。
第二,能力拓展。一些過去企業可能并不是很在乎的能力,現在可以附加到用戶身上。企業中能不能構建出更多的 Prosumer ,開發出一些自己想要的應用,甚至是一些 Agent 的能力。
第三,是生態整合,怎樣把我們 AI 賦能的產品融入大的業態當中,能夠在一個大環境中為企業創造新的業務增收點。主要是這三個階段的智能化躍升。
說明:文章為牛透社原創,未經允許,謝絕轉載
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.