99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

你的模型評測搭子上線:Evaluation Agent懂你更懂AI

0
分享至



本文作者來自于上海人工智能實驗室與新加坡南洋理工大學,分別是張凡、田淑琳、黃子琪,指導老師是喬宇老師與劉子緯老師。

怎么快速判斷一個生成模型好不好?

最直接的辦法當然是 —— 去問一位做圖像生成、視頻生成、或者專門做評測的朋友。他們懂技術、有經驗、眼光毒辣,能告訴你模型到底強在哪、弱在哪,適不適合你的需求。

但問題是:

  • 朋友太忙,沒法一條條幫你看;
  • 你問題太多,不只是想知道「好不好」,還想知道「哪里不好」「為啥好」「適不適合我」。

你需要一位專業、耐心、隨叫隨到的評估顧問。

于是,來自上海人工智能實驗室 & 南洋理工大學 S-Lab 的研究者合作研發了一個AI 版本的「懂行朋友」——Evaluation Agent。

它不僅評測,還能聽你提問、為你定制測試、寫出人類專家一樣的分析報告。

  • 你問「它拍古風視頻怎么樣?」,它就給你規劃方案;
  • 你問「懂光圈焦距嗎?」,它就設計針對測試;
  • 你想知道適不適合你,它還真能給出解釋。

這就是視覺生成模型評估的新范式:

Evaluation Agent 入選 ACL 2025 主會 Oral 論文。



  • 論文:https://arxiv.org/abs/2412.09645
  • 代碼:https://github.com/Vchitect/Evaluation-Agent
  • 網頁:https://vchitect.github.io/Evaluation-Agent-project/
  • 論文標題:Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

為什么選擇 Evaluation Agent?

1. 可定制:你說關注點,它來定方案。

不同人對生成模型有不同期待 —— 風格?多樣性?一致性?

只需用自然語言說出你的關注點,Evaluation Agent 就能:

  • 自動規劃合適的評估流程
  • 根據中間結果靈活調整評估方向
  • 針對性地深入分析你關心的能力維度

真正實現「按需評估」,服務你的具體任務。

2. 高效率:更少樣本,評得更快

傳統評估動輒需要幾千張樣本,Evaluation Agent 通過多輪交互式評估與智能采樣策略,大幅減少樣本數量。整體評估過程的耗時可以壓縮到傳統方法的 10% 左右,尤其適合在迭代開發中快速反饋。

3. 可解釋:讓評估結果說人話

結果不僅是表格和數字,Evaluation Agent 會以自然語言生成分析報告,不僅涵蓋模型能力的全面總結,還能指出模型的局限性和改進方向。

4. 可擴展:支持不同任務、工具、指標的集成

Evaluation Agent 是一個開放框架,支持集成新評估工具和指標,適用于不同的視覺生成任務(如圖片生成和視頻生成)。

框架工作原理



Evaluation Agent 框架主要由兩個階段組成:

1. 提案階段(Proposal Stage)

  • Plan Agent:分析用戶需求,動態規劃評估路徑。
  • PromptGen Agent:為每個子任務生成專屬的評估提示(prompt)。

這一階段的目標是:根據你的關注點,量身定制評估方案。

2. 執行階段(Execution Stage)

框架利用視覺生成模型生成內容,并通過相應評估工具進行質量分析。

  • 視覺生成模型:根據上階段設計的 prompt 生成樣本
  • 評估工具包:根據提案階段的規劃選用合適的工具對采樣內容進行評估

3. 動態多輪交互

評估不是一次性完成的。Execution 階段的每一輪評估結果,都會反饋給 Proposal 階段,用于優化后續 prompt 和任務設置。通過這種多輪協同,Evaluation Agent 實現了對模型能力的動態、深入評估。

結果展示

1. 對比傳統評測框架



視頻生成模型評測效率上與 VBench 評測框架的對比



圖片生成模型評測效率上與 T2I-CompBench 評測框架的對比

研究團隊在圖片生成任務(T2I)和視頻生成任務(T2V)上對 Evaluation Agent 進行了全面驗證。結果表明,其評估效率顯著高于現有基準框架(如 VBench、T2I-CompBench),相較于傳統的評測框架節省了 90% 以上的時間,且評估結果具有較高一致性。

2. 用戶開放式評估場景



對用戶開放問題評估的部分樣例

Evaluation Agent 不僅能夠高效評估模型的表現,還能靈活處理用戶提出的個性化評估需求,例如:

  • 模型能否生成特定歷史場景的高質量視頻?
  • 模型是否理解并能應用焦距、光圈、ISO 等攝影概念?

在處理用戶的開放式查詢時,Evaluation Agent 展現了卓越的靈活性和深度。它能夠根據用戶的定制需求,系統地探索模型在特定領域的能力,從基本問題開始,逐步動態深入,最終通過自然語言詳細分析和總結評估結果。

例如,對于問題「模型是否能夠在保持原始風格的同時生成現有藝術作品的變體?」,下面展示了完整的評估過程。

在 Evaluation Agent 工作中,開放式用戶評估問題數據集(Open-Ended User Query Dataset) 是檢驗框架開放式評估能力的重要組成部分。該數據集為系統提供了多樣化的評估場景,特別是在面臨復雜的、用戶特定的評估需求時,能夠展現出系統的靈活性和動態評估能力。

開放式用戶評估問題數據集首先通過用戶調研收集了來自用戶的一系列針對模型能力的開放問題。隨后,經過數據清洗、過濾、擴展以及標簽打標等處理,最終完成了數據集的構建。該數據集涵蓋了廣泛的評估維度,能夠全面評估模型的各項能力。下圖展示了該數據集在不同類別下的統計分布。



開放式用戶評估問題數據集統計分布

前景與進一步計劃

Evaluation Agent 的初步研究已經證明其在視覺生成模型評估中的高效性和靈活性。未來,該方向可能在以下領域進一步拓展和深入研究:

1. 擴展評估能力,涵蓋更多視覺任務

  • 目前 Evaluation Agent 已適用于圖像和視頻生成模型,未來將擴展到3D 內容生成、AIGC 視頻編輯等更復雜的生成任務。
  • 增加對多模態 AI(如結合文本、音頻、視頻的生成模型)的評估能力,探索不同 AI 模型在跨模態任務中的表現。

2. 優化開放式評估機制

  • 進一步完善開放式用戶評估問題數據集,提升 Evaluation Agent 對復雜、抽象概念(如風格遷移、藝術融合、情感表達等)的理解和評估能力。
  • 引入強化學習機制,使 Evaluation Agent 能夠利用基于用戶反饋的數據實現自我優化,提高評估的精準性和適應性。

3. 從自動評測邁向智能推薦

  • 未來,該框架可拓展用于視覺生成模型的個性化推薦,依據用戶的具體需求自動匹配最合適的生成模型,并生成詳盡的評估報告。
  • 研究如何利用眾包數據,收集不同領域的專業人士(如設計師、攝影師、影視制片人)對 AI 生成內容的反饋,以提升評估框架在多領域場景下的適應性和泛化能力。

總結

Evaluation Agent 提出了一種高效、靈活、可解釋的視覺生成模型評估新范式。它突破了傳統評估方式的限制,能夠根據用戶需求動態分析模型表現,為生成式 AI 的理解與優化提供支持。無論關注的是準確性、多樣性,還是風格與創意,這一框架都能給出清晰、有針對性的評估結果。

研究團隊希望這一方法能為視覺生成模型的評估帶來新的思路,推動更智能、更靈活的評估體系發展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
太突然!傳奇歌后去世

太突然!傳奇歌后去世

魯中晨報
2025-07-17 20:34:01
杭州市成立專班,宗馥莉娃哈哈董事長還坐得穩嗎?

杭州市成立專班,宗馥莉娃哈哈董事長還坐得穩嗎?

藍鯨新聞
2025-07-18 11:33:19
瘋了!連續8個20CM一字漲停,暴漲超過4倍,股民:坐等塌方

瘋了!連續8個20CM一字漲停,暴漲超過4倍,股民:坐等塌方

八百者也
2025-07-18 13:29:15
92%臺灣島民眾不支持統一,如果登島,解放軍會傷亡慘重嗎?

92%臺灣島民眾不支持統一,如果登島,解放軍會傷亡慘重嗎?

領悟看世界
2025-07-16 17:52:08
“山東省測繪局十五人到此一游”,黑神話悟空取景地佛像被刻字

“山東省測繪局十五人到此一游”,黑神話悟空取景地佛像被刻字

不掉線電波
2025-07-18 14:41:43
54歲王琳自曝“家丑”,被兒子打的牙出血,承認自己水性楊花

54歲王琳自曝“家丑”,被兒子打的牙出血,承認自己水性楊花

橙星文娛
2025-07-18 11:55:28
越野男別停辱罵摩托騎手后續:山東老總身份被扒秒認慫,騎手發聲

越野男別停辱罵摩托騎手后續:山東老總身份被扒秒認慫,騎手發聲

吭哧有力
2025-07-18 10:30:25
獸樓處丨娃娃娃娃哈哈

獸樓處丨娃娃娃娃哈哈

獸樓處
2025-07-18 13:09:28
深圳一電商園區停車場被泥水淹沒,停放的電動車受損

深圳一電商園區停車場被泥水淹沒,停放的電動車受損

極目新聞
2025-07-18 17:52:16
牛彈琴:全世界看得目瞪口呆

牛彈琴:全世界看得目瞪口呆

大象新聞
2025-07-18 07:48:38
戶口博弈:男子拿到北京戶口就跳槽,戶口被公司直接遷到湖北宜昌

戶口博弈:男子拿到北京戶口就跳槽,戶口被公司直接遷到湖北宜昌

阿傖說事
2025-07-18 09:09:24
劉慧被查!曾任寧夏自治區主席,是二十大以來落馬又一女正部

劉慧被查!曾任寧夏自治區主席,是二十大以來落馬又一女正部

南方都市報
2025-07-18 13:43:27
為討好特朗普,卡尼對華加稅25%,中方轉手將訂單交給了澳大利亞

為討好特朗普,卡尼對華加稅25%,中方轉手將訂單交給了澳大利亞

掌青說歷史
2025-07-18 16:03:15
強行阻擋救護車、消防車后續!老年暴走團拒不讓路,各方回應

強行阻擋救護車、消防車后續!老年暴走團拒不讓路,各方回應

奇思妙想草葉君
2025-07-18 15:13:35
特朗普舉著孩子照片,對哭泣的母親承諾:我相信中國會執行死刑的

特朗普舉著孩子照片,對哭泣的母親承諾:我相信中國會執行死刑的

江平舟
2025-07-18 12:34:25
宗慶后澳洲旅游照曝光,一家點4個菜,兒子宗繼盛三級運動員水平

宗慶后澳洲旅游照曝光,一家點4個菜,兒子宗繼盛三級運動員水平

古希臘掌管松餅的神
2025-07-18 08:31:56
局勢升級!伊朗批準460億美元國防撥款,中國紅旗-9BE機會來了?

局勢升級!伊朗批準460億美元國防撥款,中國紅旗-9BE機會來了?

胖福的小木屋
2025-07-17 16:47:19
中超巨大爭議!亞泰進球被吹,蘇亞雷斯暴怒染黃,前國腳不滿判罰

中超巨大爭議!亞泰進球被吹,蘇亞雷斯暴怒染黃,前國腳不滿判罰

奧拜爾
2025-07-18 17:39:45
極端高溫致河南室內大量蚊子被熱死

極端高溫致河南室內大量蚊子被熱死

魯中晨報
2025-07-18 09:16:05
大反轉!宗慶后沒辦信托,杜建英被畫餅20年,21億美元出境水太深

大反轉!宗慶后沒辦信托,杜建英被畫餅20年,21億美元出境水太深

南南說娛
2025-07-18 12:26:11
2025-07-18 18:12:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10897文章數 142384關注度
往期回顧 全部

科技要聞

凌晨,OpenAI重磅更新,Manus們算白忙活嗎

頭條要聞

女正部任上被查 今年已有6名正部級官員落馬

頭條要聞

女正部任上被查 今年已有6名正部級官員落馬

體育要聞

楊瀚森4戰43+20+15+9帽:開拓者4戰3勝

娛樂要聞

王琳自曝被兒子打,承認自己水性楊花

財經要聞

美國國會正式批準穩定幣法案

汽車要聞

售30萬?方程豹鈦7高配版有激光雷達/車載無人機

態度原創

親子
家居
旅游
公開課
軍事航空

親子要聞

教孩子拒絕以小博大的道德綁架

家居要聞

簡構智居 現代功能美學

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國稱不支持以色列近期在敘利亞的行動

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 普格县| 通城县| 乾安县| 灵山县| 石林| 宁安市| 盐山县| 江西省| 揭东县| 元江| 菏泽市| 长沙县| 噶尔县| 海晏县| 顺昌县| 永定县| 阜新市| 保定市| 安达市| 抚远县| 道真| 成安县| 泽库县| 孝昌县| 进贤县| 社会| 格尔木市| 中卫市| 钦州市| 绥滨县| 阿克苏市| 苗栗县| 雅安市| 鄱阳县| 东光县| 琼结县| 乐安县| 高邑县| 双柏县| 太和县| 房山区|