網易首頁 > 網易號 > 正文申請入駐

你的模型評測搭子上線：Evaluation Agent懂你更懂AI

2025-07-17 19:07:55　來源: 機器之心Pro

河北舉報

分享至

本文作者來自于上海人工智能實驗室與新加坡南洋理工大學，分別是張凡、田淑琳、黃子琪，指導老師是喬宇老師與劉子緯老師。

怎么快速判斷一個生成模型好不好？

最直接的辦法當然是 —— 去問一位做圖像生成、視頻生成、或者專門做評測的朋友。他們懂技術、有經驗、眼光毒辣，能告訴你模型到底強在哪、弱在哪，適不適合你的需求。

但問題是：

朋友太忙，沒法一條條幫你看；
你問題太多，不只是想知道「好不好」，還想知道「哪里不好」「為啥好」「適不適合我」。

你需要一位專業、耐心、隨叫隨到的評估顧問。

于是，來自上海人工智能實驗室 & 南洋理工大學 S-Lab 的研究者合作研發了一個AI 版本的「懂行朋友」——Evaluation Agent。

它不僅評測，還能聽你提問、為你定制測試、寫出人類專家一樣的分析報告。

你問「它拍古風視頻怎么樣？」，它就給你規劃方案；
你問「懂光圈焦距嗎？」，它就設計針對測試；
你想知道適不適合你，它還真能給出解釋。

這就是視覺生成模型評估的新范式：

Evaluation Agent 入選 ACL 2025 主會 Oral 論文。

論文：https://arxiv.org/abs/2412.09645
代碼：https://github.com/Vchitect/Evaluation-Agent
網頁：https://vchitect.github.io/Evaluation-Agent-project/
論文標題：Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

為什么選擇 Evaluation Agent？

1. 可定制：你說關注點，它來定方案。

不同人對生成模型有不同期待 —— 風格？多樣性？一致性？

只需用自然語言說出你的關注點，Evaluation Agent 就能：

自動規劃合適的評估流程
根據中間結果靈活調整評估方向
針對性地深入分析你關心的能力維度

真正實現「按需評估」，服務你的具體任務。

2. 高效率：更少樣本，評得更快

傳統評估動輒需要幾千張樣本，Evaluation Agent 通過多輪交互式評估與智能采樣策略，大幅減少樣本數量。整體評估過程的耗時可以壓縮到傳統方法的 10% 左右，尤其適合在迭代開發中快速反饋。

3. 可解釋：讓評估結果說人話

結果不僅是表格和數字，Evaluation Agent 會以自然語言生成分析報告，不僅涵蓋模型能力的全面總結，還能指出模型的局限性和改進方向。

4. 可擴展：支持不同任務、工具、指標的集成

Evaluation Agent 是一個開放框架，支持集成新評估工具和指標，適用于不同的視覺生成任務（如圖片生成和視頻生成）。

框架工作原理

Evaluation Agent 框架主要由兩個階段組成：

1. 提案階段（Proposal Stage）

Plan Agent：分析用戶需求，動態規劃評估路徑。
PromptGen Agent：為每個子任務生成專屬的評估提示（prompt）。

這一階段的目標是：根據你的關注點，量身定制評估方案。

2. 執行階段（Execution Stage）

框架利用視覺生成模型生成內容，并通過相應評估工具進行質量分析。

視覺生成模型：根據上階段設計的 prompt 生成樣本
評估工具包：根據提案階段的規劃選用合適的工具對采樣內容進行評估

3. 動態多輪交互

評估不是一次性完成的。Execution 階段的每一輪評估結果，都會反饋給 Proposal 階段，用于優化后續 prompt 和任務設置。通過這種多輪協同，Evaluation Agent 實現了對模型能力的動態、深入評估。

結果展示

1. 對比傳統評測框架

視頻生成模型評測效率上與 VBench 評測框架的對比

圖片生成模型評測效率上與 T2I-CompBench 評測框架的對比

研究團隊在圖片生成任務（T2I）和視頻生成任務（T2V）上對 Evaluation Agent 進行了全面驗證。結果表明，其評估效率顯著高于現有基準框架（如 VBench、T2I-CompBench），相較于傳統的評測框架節省了 90% 以上的時間，且評估結果具有較高一致性。

2. 用戶開放式評估場景

對用戶開放問題評估的部分樣例

Evaluation Agent 不僅能夠高效評估模型的表現，還能靈活處理用戶提出的個性化評估需求，例如：

模型能否生成特定歷史場景的高質量視頻？
模型是否理解并能應用焦距、光圈、ISO 等攝影概念？

在處理用戶的開放式查詢時，Evaluation Agent 展現了卓越的靈活性和深度。它能夠根據用戶的定制需求，系統地探索模型在特定領域的能力，從基本問題開始，逐步動態深入，最終通過自然語言詳細分析和總結評估結果。

例如，對于問題「模型是否能夠在保持原始風格的同時生成現有藝術作品的變體？」，下面展示了完整的評估過程。

在 Evaluation Agent 工作中，開放式用戶評估問題數據集(Open-Ended User Query Dataset) 是檢驗框架開放式評估能力的重要組成部分。該數據集為系統提供了多樣化的評估場景，特別是在面臨復雜的、用戶特定的評估需求時，能夠展現出系統的靈活性和動態評估能力。

開放式用戶評估問題數據集首先通過用戶調研收集了來自用戶的一系列針對模型能力的開放問題。隨后，經過數據清洗、過濾、擴展以及標簽打標等處理，最終完成了數據集的構建。該數據集涵蓋了廣泛的評估維度，能夠全面評估模型的各項能力。下圖展示了該數據集在不同類別下的統計分布。

開放式用戶評估問題數據集統計分布

前景與進一步計劃

Evaluation Agent 的初步研究已經證明其在視覺生成模型評估中的高效性和靈活性。未來，該方向可能在以下領域進一步拓展和深入研究：

1. 擴展評估能力，涵蓋更多視覺任務

目前 Evaluation Agent 已適用于圖像和視頻生成模型，未來將擴展到3D 內容生成、AIGC 視頻編輯等更復雜的生成任務。
增加對多模態 AI（如結合文本、音頻、視頻的生成模型）的評估能力，探索不同 AI 模型在跨模態任務中的表現。

2. 優化開放式評估機制

進一步完善開放式用戶評估問題數據集，提升 Evaluation Agent 對復雜、抽象概念（如風格遷移、藝術融合、情感表達等）的理解和評估能力。
引入強化學習機制，使 Evaluation Agent 能夠利用基于用戶反饋的數據實現自我優化，提高評估的精準性和適應性。

3. 從自動評測邁向智能推薦

未來，該框架可拓展用于視覺生成模型的個性化推薦，依據用戶的具體需求自動匹配最合適的生成模型，并生成詳盡的評估報告。
研究如何利用眾包數據，收集不同領域的專業人士（如設計師、攝影師、影視制片人）對 AI 生成內容的反饋，以提升評估框架在多領域場景下的適應性和泛化能力。

總結

Evaluation Agent 提出了一種高效、靈活、可解釋的視覺生成模型評估新范式。它突破了傳統評估方式的限制，能夠根據用戶需求動態分析模型表現，為生成式 AI 的理解與優化提供支持。無論關注的是準確性、多樣性，還是風格與創意，這一框架都能給出清晰、有針對性的評估結果。

研究團隊希望這一方法能為視覺生成模型的評估帶來新的思路，推動更智能、更靈活的評估體系發展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.