99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI Agent、傳統(tǒng)聊天機器人有何區(qū)別?這篇30頁綜述講明白了

0
分享至



論文作者包括來自上海交通大學的朱家琛、芮仁婷、單榕、鄭琮珉、西云佳、林江浩、劉衛(wèi)文、俞勇、張偉楠,以及華為諾亞研究所的朱夢輝、陳渤、唐睿明。

本文第一作者是朱家琛,上海交通大學博士生,主要研究興趣集中在大模型推理,個性化 Agent。本文通訊作者是張偉楠,上海交通大學教授,研究方向包含強化學習、數(shù)據(jù)科學、機器人控制、推薦搜索等。

自從 Transformer 問世,NLP 領域發(fā)生了顛覆性變化。大語言模型極大提升了文本理解與生成能力,成為現(xiàn)代 AI 系統(tǒng)的基礎。而今,AI 正不斷向前,具備自主決策和復雜交互能力的新一代AI Agent也正加速崛起。

不同于以往只會對話的 LLM 機器人,AI Agent 能夠接入互聯(lián)網(wǎng)、調用各類 API,還能根據(jù)真實環(huán)境反饋靈活調整策略。AI Agent 因此具備了感知環(huán)境和自主決策的能力,已經(jīng)突破了傳統(tǒng) “問答模式” 的限制,能夠主動執(zhí)行任務、應對各種復雜場景,真正成為用戶身邊可靠的智能助手。

在這股 AI Agent 浪潮中,每個人都可以有屬于自己的 AI Agent。而如何衡量自己的 AI Agent 是否足夠強大呢?海量的 Agent 評測方式層出不窮,你是否挑得眼花繚亂?如何在這千軍萬馬中挑選出最適合你的測評方式呢?作為 AI Agent 的開發(fā)者,你是否也在思考該從哪個角度來提升你的 “秘密武器”,在這場激烈的 AI Agent 大戰(zhàn)中脫穎而出?

因此,這引出了一個順理成章的問題:

AI Agent 到底和傳統(tǒng)聊天機器人有何本質區(qū)別?又該如何科學評測 AI Agent?



  • 論文標題:Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey
  • 論文鏈接:https://arxiv.org/pdf/2506.11102

一、從 LLM Chatbot 到 AI Agent

論文指出,AI Agent 的出現(xiàn)是 AI 發(fā)展的新階段。它們不僅僅回復人類對話,還具備了五個維度的進化:

1.復雜環(huán)境:Agent 不再局限于單一對話場景,可以與代碼庫、網(wǎng)頁、操作系統(tǒng)、移動端、科學實驗等各類環(huán)境交互。

2.多源指令:Agent 不只接收人工輸入,還能結合自我反思、智能體協(xié)作等多源指令。

3.動態(tài)反饋:Agent 運行于連續(xù)多樣的反饋環(huán)境,可基于指標、獎勵等動態(tài)反饋持續(xù)優(yōu)化自身能力,不再局限于被動對話糾正。

4.多模態(tài):Agent 擁有跨模態(tài)處理能力,能理解文本、視覺、聽覺等多種數(shù)據(jù)。

5.高級能力:隨著外部環(huán)境復雜化,Agent 具備了復雜規(guī)劃、持久記憶、自主推理等能力,實現(xiàn)從被動響應到自主執(zhí)行的躍遷。



圖 1:AI Agent 與 LLM Chatbot 演化的五個維度。

LLM Chatbot 向 AI Agent 的演進,背后主要受兩方面推動:一是外部環(huán)境的日益復雜,二是內(nèi)部能力的不斷提升。復雜的外部環(huán)境促使 Agent 不斷成長,而 Agent 能力的提升又推動人們?nèi)ヌ剿鞲咛魬?zhàn)性的應用場景。正是這種內(nèi)外循環(huán)、相互促進,成為現(xiàn)代 AI Agent 加速進化的根本動力。因此,論文的總體框架如圖 2 所示:我們系統(tǒng)梳理了現(xiàn)有 AI Agent 評測基準,提出 “環(huán)境 - 能力” 兩方面的分類學。隨后進行趨勢討論,對 Agent 評測方法演化趨勢的討論,涉及環(huán)境角度,Agent 角度,評估者角度,指標角度,并最終提出基準選擇的方法論。



圖 2:論文框架總覽

二、評測框架與基準盤點

面對 Agent 能力的指數(shù)級擴展,原有的聊天機器人評測方法已無法勝任。論文系統(tǒng)梳理了現(xiàn)有 AI Agent 評測基準,提出 “環(huán)境 - 能力” 兩方面的分類:

1.環(huán)境維度:細分為代碼、網(wǎng)頁、操作系統(tǒng)、移動端、科學、游戲等環(huán)境。

2.能力維度:涵蓋規(guī)劃、自我反省、交互、記憶等高級能力。

針對每種環(huán)境與能力,論文整理了當前最具代表性的評測基準,并梳理出一套 “實用屬性表”,幫助研究者在眼花繚亂的 benchmark 中挑選符合要求的。

以表 1 為例,我們列出了我們認為最重要的屬性:真實性,離線 / 在線,評測者,輸入模態(tài),主要挑戰(zhàn)。并將所有 web 環(huán)境的基準歸到這些屬性中。



表 1:Web 環(huán)境下的 Agent 基準以及其各類屬性

三、AI Agent 評測方法的進化趨勢



圖 3:AI Agent 評測未來演化的四個視角。

論文深刻總結了 AI Agent 評測方法的未來趨勢,不再只是 “比誰答得對”,而是從四個關鍵視角全面升級:

1. 環(huán)境視角:從單模態(tài)到多模態(tài)、從靜態(tài)到動態(tài)、從少狀態(tài)到多狀態(tài)。

最初,Agent 評測只圍繞文本展開,如今則逐漸擴展到圖片、音頻、視頻等多種信息形式。靜態(tài)的數(shù)據(jù)集已經(jīng)不能滿足需求,動態(tài)、實時更新的真實環(huán)境成為新常態(tài)。同時,評測方式也在轉變,開始關注智能體在連續(xù)任務過程中的表現(xiàn)和調整,而不再只看最終結果。

2. 智能體視角:從單 Agent 到多 Agent、從單輪到多輪互動。

新一代評測不僅關注單個 Agent 的能力,更重視多個 Agent 間的協(xié)作與博弈。與此同時,任務由簡單的一問一答,演化為多輪對話、持續(xù)推理和復雜任務鏈,考驗 Agent 的全局規(guī)劃與長期記憶。

3. 評測者視角:從人工到 AI 自動評測、從通用到個性化。

AI 不再只是被動接受人類評分,越來越多的 Agent 可以自動評判同行,實現(xiàn)規(guī)模化、自主化評測。同時,未來的評測將更加關注個性化,衡量 Agent 是否能針對不同用戶給出個性化的服務。

4. 指標視角:從粗粒度到細粒度,從關注正確率到關注效率、安全與社會價值。

單一的正確率已無法反映 Agent 真實能力。未來評測更強調任務效率、細粒度決策的質量、安全性和倫理性,比如防止誤操作、保障用戶利益、促進社會善意等。

四、行動指南:

如何選擇合適的 Agent 評測基準

面對 AI Agent 的快速發(fā)展,論文圍繞 “如何用演化視角系統(tǒng)評估 AI Agent” 這一核心問題,提出了一套二階段的基準選擇方法論:

第一階段:從當下出發(fā)。

根據(jù)實際任務環(huán)境和 Agent 能力,先鎖定對應的環(huán)境和能力分類(圖 2),從屬性表(表 1)中精準匹配最適用的評測基準。例如,開發(fā)者 Z 開發(fā)了能預訂航班和酒店的 Agent,應優(yōu)先考慮 Web 環(huán)境和交互能力,選用如 WebVoyager 和 ComplexFuncBench 等基準進行測試。

第二階段:為未來考慮。

結合評測進化趨勢(圖 3),開發(fā)者 Z 應持續(xù)關注環(huán)境變化、多模態(tài)挑戰(zhàn)和社會價值等新維度。隨著產(chǎn)品商業(yè)化,適時引入動態(tài)環(huán)境(如 BFCL)、安全性(如 ST WebAgentBench)和個性化(如 PeToolBench)等多樣化評測基準,確保 Agent 持續(xù)優(yōu)化與進化。

結語

AI Agent 正在從 “會對話” 進化為 “會行動”,推動人工智能邁向更智能、更自主、更有價值的下一個時代。而如何科學評測 AI Agent,是驅動這一切的關鍵。如果讀者你也關心如何評測新穎的 AI Agent,我們的綜述值得一讀。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
太恐怖!南京一貴族學校一期學費2.4萬,生源不缺,家長全力托舉

太恐怖!南京一貴族學校一期學費2.4萬,生源不缺,家長全力托舉

明月雜談
2025-07-02 13:13:04
谷歌中國工程師殺妻案丨細節(jié)披露:現(xiàn)場監(jiān)控首次公開,前女友出庭并承認與兇手糾纏不清。

谷歌中國工程師殺妻案丨細節(jié)披露:現(xiàn)場監(jiān)控首次公開,前女友出庭并承認與兇手糾纏不清。

貼小君
2025-07-02 06:00:13
公然支持亂港分子,詆毀愛國人士,香港這家商業(yè)巨頭如今下場凄慘

公然支持亂港分子,詆毀愛國人士,香港這家商業(yè)巨頭如今下場凄慘

一家說
2025-07-03 09:54:19
王欣瑜自帶水杯喝水,主裁多次提醒要遮擋,原因竟是不能露商標

王欣瑜自帶水杯喝水,主裁多次提醒要遮擋,原因竟是不能露商標

老夳古裝影視解說
2025-07-03 01:53:33
離開CBA?上海年度最佳外援洛夫頓代表綠軍打夏聯(lián) 再次沖NBA

離開CBA?上海年度最佳外援洛夫頓代表綠軍打夏聯(lián) 再次沖NBA

醉臥浮生
2025-07-03 08:05:38
特朗普政府或注銷民主黨市長候選人國籍

特朗普政府或注銷民主黨市長候選人國籍

參考消息
2025-07-02 21:31:05
殘忍的基因選擇:父母如果有這8種疾病,后代的基因大概率會復制

殘忍的基因選擇:父母如果有這8種疾病,后代的基因大概率會復制

阿燕姐說育兒
2025-06-27 15:54:21
獨行俠喜訊不斷,湖人重磅簽約!尼克斯敲定新主帥,勇士太難了

獨行俠喜訊不斷,湖人重磅簽約!尼克斯敲定新主帥,勇士太難了

世界體育圈
2025-07-03 12:57:00
太難了!南通某星級飯店都開始擺攤了,半小時賣完...

太難了!南通某星級飯店都開始擺攤了,半小時賣完...

好通網(wǎng)
2025-07-03 11:25:52
巴黎官方祝福迪馬利亞:祝你回家順利??

巴黎官方祝福迪馬利亞:祝你回家順利??

懂球帝
2025-07-03 08:59:23
一個容易得脂肪肝的壞習慣,你可能天天在重復

一個容易得脂肪肝的壞習慣,你可能天天在重復

全科與心理
2025-06-30 20:42:10
周琦突然宣布退出!中國男籃再遭重創(chuàng),千萬別讓楊瀚森回來

周琦突然宣布退出!中國男籃再遭重創(chuàng),千萬別讓楊瀚森回來

德譯洋洋
2025-07-03 12:34:42
南京奧體6萬多個座椅已經(jīng)擦了一遍,當年C羅來都沒這陣仗

南京奧體6萬多個座椅已經(jīng)擦了一遍,當年C羅來都沒這陣仗

現(xiàn)代快報
2025-07-02 21:17:15
碳化硅雷達裝上殲-20,美國懵了:剛搞的氮化鎵雷達瞬間不香了!

碳化硅雷達裝上殲-20,美國懵了:剛搞的氮化鎵雷達瞬間不香了!

青青子衿
2025-07-02 22:41:56
事實證明,人一輩子最艱難的,就是49歲到59歲這十年,原因有三點

事實證明,人一輩子最艱難的,就是49歲到59歲這十年,原因有三點

新時代的兩性情感
2025-07-02 10:32:33
有一種“尷尬”叫李一桐玩性感,身材平平無奇,卻偏要露點什么

有一種“尷尬”叫李一桐玩性感,身材平平無奇,卻偏要露點什么

崽下愚樂圈
2025-07-02 15:20:49
第一次感受到“硫磺皂”的殺傷力,2塊錢竟能解決那么多生活痛點

第一次感受到“硫磺皂”的殺傷力,2塊錢竟能解決那么多生活痛點

裝修秀
2025-07-01 11:40:03
隊記:火箭預計在7月8日前裁掉蘭代爾,并可能送走惠特莫爾

隊記:火箭預計在7月8日前裁掉蘭代爾,并可能送走惠特莫爾

雷速體育
2025-07-03 08:18:29
140斤“多肉女孩”曬照,身材太犯規(guī),一夜爆紅

140斤“多肉女孩”曬照,身材太犯規(guī),一夜爆紅

健身迷
2025-07-03 09:43:12
做完手術人就廢了,4種手術不需要做,別讓無知害了自己

做完手術人就廢了,4種手術不需要做,別讓無知害了自己

牛鍋巴小釩
2025-06-27 16:15:41
2025-07-03 13:59:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10774文章數(shù) 142353關注度
往期回顧 全部

科技要聞

再不改飯碗都快沒了?百度搜索終于放大招

頭條要聞

玉淵譚天:中方首次制裁菲政客 禁止其入境香港有深意

頭條要聞

玉淵譚天:中方首次制裁菲政客 禁止其入境香港有深意

體育要聞

這位機場工作人員,5個月前還是英冠主帥

娛樂要聞

劉端端:我愿意在角色嘗試上繼續(xù)冒險

財經(jīng)要聞

起底“醫(yī)美四大家族”:人性、泡沫與時代

汽車要聞

強化安全標簽,沃爾沃轉型的守與破

態(tài)度原創(chuàng)

健康
數(shù)碼
房產(chǎn)
公開課
軍事航空

呼吸科專家破解呼吸道九大謠言!

數(shù)碼要聞

較 MSRP 高出 200 元,技嘉 RTX 5050 OC LP 顯卡以 2299 元上市

房產(chǎn)要聞

10000+房源集體降價!海口二手房東,自刀太狠了!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:若敵人再次侵略 將做出毀滅性回應

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 沐川县| 北川| 桐城市| 福泉市| 松溪县| 安顺市| 梨树县| 瓦房店市| 宁波市| 新沂市| 新乐市| 繁峙县| 河津市| 微山县| 宜黄县| 图们市| 舟山市| 阳谷县| 南靖县| 正蓝旗| 清河县| 靖远县| 大英县| 信丰县| 青海省| 阜新| 合山市| 芜湖市| 体育| 田林县| 林口县| 新源县| 平乐县| 阿尔山市| 轮台县| 商丘市| 游戏| 忻城县| 喀喇| 马鞍山市| 奎屯市|