論文作者包括來自上海交通大學的朱家琛、芮仁婷、單榕、鄭琮珉、西云佳、林江浩、劉衛(wèi)文、俞勇、張偉楠,以及華為諾亞研究所的朱夢輝、陳渤、唐睿明。
本文第一作者是朱家琛,上海交通大學博士生,主要研究興趣集中在大模型推理,個性化 Agent。本文通訊作者是張偉楠,上海交通大學教授,研究方向包含強化學習、數(shù)據(jù)科學、機器人控制、推薦搜索等。
自從 Transformer 問世,NLP 領域發(fā)生了顛覆性變化。大語言模型極大提升了文本理解與生成能力,成為現(xiàn)代 AI 系統(tǒng)的基礎。而今,AI 正不斷向前,具備自主決策和復雜交互能力的新一代AI Agent也正加速崛起。
不同于以往只會對話的 LLM 機器人,AI Agent 能夠接入互聯(lián)網(wǎng)、調用各類 API,還能根據(jù)真實環(huán)境反饋靈活調整策略。AI Agent 因此具備了感知環(huán)境和自主決策的能力,已經(jīng)突破了傳統(tǒng) “問答模式” 的限制,能夠主動執(zhí)行任務、應對各種復雜場景,真正成為用戶身邊可靠的智能助手。
在這股 AI Agent 浪潮中,每個人都可以有屬于自己的 AI Agent。而如何衡量自己的 AI Agent 是否足夠強大呢?海量的 Agent 評測方式層出不窮,你是否挑得眼花繚亂?如何在這千軍萬馬中挑選出最適合你的測評方式呢?作為 AI Agent 的開發(fā)者,你是否也在思考該從哪個角度來提升你的 “秘密武器”,在這場激烈的 AI Agent 大戰(zhàn)中脫穎而出?
因此,這引出了一個順理成章的問題:
AI Agent 到底和傳統(tǒng)聊天機器人有何本質區(qū)別?又該如何科學評測 AI Agent?
- 論文標題:Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey
- 論文鏈接:https://arxiv.org/pdf/2506.11102
一、從 LLM Chatbot 到 AI Agent
論文指出,AI Agent 的出現(xiàn)是 AI 發(fā)展的新階段。它們不僅僅回復人類對話,還具備了五個維度的進化:
1.復雜環(huán)境:Agent 不再局限于單一對話場景,可以與代碼庫、網(wǎng)頁、操作系統(tǒng)、移動端、科學實驗等各類環(huán)境交互。
2.多源指令:Agent 不只接收人工輸入,還能結合自我反思、智能體協(xié)作等多源指令。
3.動態(tài)反饋:Agent 運行于連續(xù)多樣的反饋環(huán)境,可基于指標、獎勵等動態(tài)反饋持續(xù)優(yōu)化自身能力,不再局限于被動對話糾正。
4.多模態(tài):Agent 擁有跨模態(tài)處理能力,能理解文本、視覺、聽覺等多種數(shù)據(jù)。
5.高級能力:隨著外部環(huán)境復雜化,Agent 具備了復雜規(guī)劃、持久記憶、自主推理等能力,實現(xiàn)從被動響應到自主執(zhí)行的躍遷。
圖 1:AI Agent 與 LLM Chatbot 演化的五個維度。
LLM Chatbot 向 AI Agent 的演進,背后主要受兩方面推動:一是外部環(huán)境的日益復雜,二是內(nèi)部能力的不斷提升。復雜的外部環(huán)境促使 Agent 不斷成長,而 Agent 能力的提升又推動人們?nèi)ヌ剿鞲咛魬?zhàn)性的應用場景。正是這種內(nèi)外循環(huán)、相互促進,成為現(xiàn)代 AI Agent 加速進化的根本動力。因此,論文的總體框架如圖 2 所示:我們系統(tǒng)梳理了現(xiàn)有 AI Agent 評測基準,提出 “環(huán)境 - 能力” 兩方面的分類學。隨后進行趨勢討論,對 Agent 評測方法演化趨勢的討論,涉及環(huán)境角度,Agent 角度,評估者角度,指標角度,并最終提出基準選擇的方法論。
圖 2:論文框架總覽
二、評測框架與基準盤點
面對 Agent 能力的指數(shù)級擴展,原有的聊天機器人評測方法已無法勝任。論文系統(tǒng)梳理了現(xiàn)有 AI Agent 評測基準,提出 “環(huán)境 - 能力” 兩方面的分類:
1.環(huán)境維度:細分為代碼、網(wǎng)頁、操作系統(tǒng)、移動端、科學、游戲等環(huán)境。
2.能力維度:涵蓋規(guī)劃、自我反省、交互、記憶等高級能力。
針對每種環(huán)境與能力,論文整理了當前最具代表性的評測基準,并梳理出一套 “實用屬性表”,幫助研究者在眼花繚亂的 benchmark 中挑選符合要求的。
以表 1 為例,我們列出了我們認為最重要的屬性:真實性,離線 / 在線,評測者,輸入模態(tài),主要挑戰(zhàn)。并將所有 web 環(huán)境的基準歸到這些屬性中。
表 1:Web 環(huán)境下的 Agent 基準以及其各類屬性
三、AI Agent 評測方法的進化趨勢
圖 3:AI Agent 評測未來演化的四個視角。
論文深刻總結了 AI Agent 評測方法的未來趨勢,不再只是 “比誰答得對”,而是從四個關鍵視角全面升級:
1. 環(huán)境視角:從單模態(tài)到多模態(tài)、從靜態(tài)到動態(tài)、從少狀態(tài)到多狀態(tài)。
最初,Agent 評測只圍繞文本展開,如今則逐漸擴展到圖片、音頻、視頻等多種信息形式。靜態(tài)的數(shù)據(jù)集已經(jīng)不能滿足需求,動態(tài)、實時更新的真實環(huán)境成為新常態(tài)。同時,評測方式也在轉變,開始關注智能體在連續(xù)任務過程中的表現(xiàn)和調整,而不再只看最終結果。
2. 智能體視角:從單 Agent 到多 Agent、從單輪到多輪互動。
新一代評測不僅關注單個 Agent 的能力,更重視多個 Agent 間的協(xié)作與博弈。與此同時,任務由簡單的一問一答,演化為多輪對話、持續(xù)推理和復雜任務鏈,考驗 Agent 的全局規(guī)劃與長期記憶。
3. 評測者視角:從人工到 AI 自動評測、從通用到個性化。
AI 不再只是被動接受人類評分,越來越多的 Agent 可以自動評判同行,實現(xiàn)規(guī)模化、自主化評測。同時,未來的評測將更加關注個性化,衡量 Agent 是否能針對不同用戶給出個性化的服務。
4. 指標視角:從粗粒度到細粒度,從關注正確率到關注效率、安全與社會價值。
單一的正確率已無法反映 Agent 真實能力。未來評測更強調任務效率、細粒度決策的質量、安全性和倫理性,比如防止誤操作、保障用戶利益、促進社會善意等。
四、行動指南:
如何選擇合適的 Agent 評測基準
面對 AI Agent 的快速發(fā)展,論文圍繞 “如何用演化視角系統(tǒng)評估 AI Agent” 這一核心問題,提出了一套二階段的基準選擇方法論:
第一階段:從當下出發(fā)。
根據(jù)實際任務環(huán)境和 Agent 能力,先鎖定對應的環(huán)境和能力分類(圖 2),從屬性表(表 1)中精準匹配最適用的評測基準。例如,開發(fā)者 Z 開發(fā)了能預訂航班和酒店的 Agent,應優(yōu)先考慮 Web 環(huán)境和交互能力,選用如 WebVoyager 和 ComplexFuncBench 等基準進行測試。
第二階段:為未來考慮。
結合評測進化趨勢(圖 3),開發(fā)者 Z 應持續(xù)關注環(huán)境變化、多模態(tài)挑戰(zhàn)和社會價值等新維度。隨著產(chǎn)品商業(yè)化,適時引入動態(tài)環(huán)境(如 BFCL)、安全性(如 ST WebAgentBench)和個性化(如 PeToolBench)等多樣化評測基準,確保 Agent 持續(xù)優(yōu)化與進化。
結語
AI Agent 正在從 “會對話” 進化為 “會行動”,推動人工智能邁向更智能、更自主、更有價值的下一個時代。而如何科學評測 AI Agent,是驅動這一切的關鍵。如果讀者你也關心如何評測新穎的 AI Agent,我們的綜述值得一讀。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.