99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

視頻生成統一評估架構,上交x斯坦福聯合讓MLLM像人類一樣打分

0
分享至

Video-Bench團隊 投稿
量子位 | 公眾號 QbitAI

視頻生成技術正以前所未有的速度革新著當前的視覺內容創作方式,從電影制作到廣告設計,從虛擬現實到社交媒體,高質量且符合人類期望的視頻生成模型正變得越來越重要。

那么,要如何評估AI生成的視頻是否符合人類的審美和需求呢?

Video-Bench視頻評估框架,能夠通過模擬人類的認知過程,建立起連接文本指令與視覺內容的智能評估體系。

簡單地說,能夠讓多模態大模型(MLLM)“像人一樣評估視頻”。

實驗結果表明,Video-Bench不僅能精準識別生成視頻在物體一致性(0.735相關性)、動作合理性等維度的缺陷,還能穩定評估美學質量等傳統難題,顯著優于現有的評估方法。



Video-Bench的研究團隊來自上海交通大學、斯坦福大學、卡內基梅隆大學等機構。

Video-Bench:基于MLLM的自動化視頻評估框架

Video-Bench團隊在面對已有的視頻評估方法時,發現了兩個問題:

1.簡單的評分規則往往無法捕捉視頻流暢度、美學表現等復雜維度——

那么,當評判“視頻質量”時,如何將人類出于“直覺”的模糊感受轉化為可量化的評估指標?

2.現有基于大語言模型(Large Language Model,LLM)的基準雖能更好模擬人類評估邏輯,但在視頻-條件對齊評估中存在跨模態比較困難,在視頻質量評估中則面臨文本評價標準模糊化的局限——

那么,評估”視頻是否符合文字描述”時,評估系統如何實現跨模態對比?

針對上述的兩個問題,Video-Bench作出了兩點核心創新:



(1)系統性地構建了覆蓋視頻-條件對齊(Video-Condition Alignment)視頻質量(Video quality)的雙維度評估框架。

(2)引入了鏈式查詢(Chain-of-Query)少樣本評分(Few-shot scoring)兩項核心技術。

鏈式查詢通過多輪迭代的”描述-提問-驗證”流程,有效解決了文本與視頻跨模態對齊的評估難題;少樣本評分則通過多視頻對比建立相對質量標尺,將主觀的美學評判轉化為可量化的客觀標準。

這樣的功能設計使Video-Bench突破了現有視頻質量評估方法的限制,能夠更全面、更智能地對視頻進行評分。

更全面、更智能

一方面,Video-Bench將視頻生成質量解構為“視頻-條件對齊”和“視頻質量”兩個正交維度,分別評估生成內容與文本指令的符合度以及視頻本身的觀感質量。

視頻-條件一致性關注評估生成的視頻是否準確地反映了文本提示中的內容,包括以下幾個關鍵維度對象類別一致性、動作一致性、顏色一致性、場景一致性、視頻-文本一致性;

視頻質量的評估則側重于視頻本身的視覺保真度和美學價值。包括成像質量、美學質量、時間一致性、運動質量。

這種雙維度的評估框架能使Video-Bench全面覆蓋視頻生成的各個要素,在評估視頻是否“保真”的同時,關注到視頻的美觀程度。

另一方面,Video-Bench的評估框架利用多模態大語言模型(Multimodal Large Language Model,MLLM)的強大能力,通過鏈式查詢技術和少樣本評分技術,實現對視頻生成質量的高效評估:



(1)鏈式查詢技術:通過多輪問答的方式,逐步深入地評估視頻與文本提示之間的一致性。

這種方法避免了直接的跨模態比較,而是先將視頻內容轉換為文本描述,然后通過一系列精心設計的問題,逐步檢查視頻內容是否與文本提示完全一致,有效解決了跨模態對比的語義鴻溝問題。



(2)少樣本評分技術:模仿人類橫向比較的本能,通過同時對比多個同主題視頻,使抽象的美學評價變得可量化。

例如在評估”電影感”時,Video-Bench會橫向比較不同生成結果的運鏡流暢度、光影層次感,而非孤立打分。

“像人一樣評估視頻”



將Video-Bench與當前主流評估方法進行系統性對比,可以看到,在視頻-條件對齊維度,Video-Bench以平均0.733的Spearman相關系數顯著優于傳統方法CompBench;在視頻質量維度,其0.620的平均相關性同樣領先EvalCrafter。

此外,在對象類別一致性這一關鍵指標上,Video-Bench達到0.735的相關性,較基于GRiT的方法提升56.3%。



為驗證評估結果的可靠性,Video-Bench還組織了10人專家小組對35,196個視頻樣本進行標注。

對齊結果顯示,評估者間一致性(Krippendorff’s α)達0.52,與人類自評水平相當。



通過組件設計的消融實驗,可以看到,鏈式查詢使視頻-條件對齊評估提升了9.3%,少樣本評分將成像質量評估相關性從46.1%(單樣本)提升至62.4%(7樣本)。

組合使用兩項技術時,評估穩定性(TARA@3)達67%,Krippendorff’s α達0.867,驗證了這些組件設計的有效性。



魯棒性測試結果發現,添加高斯噪聲后,Video-Bench的視頻-文本一致性評估誤差<5%,且三次重復實驗的評分一致性達87%,對不同復雜度提示的評估穩定性優于基線方法32%

現有視頻生成模型的測評結果



使用Vedio-Bench對7個主流視頻生成模型進行測評,結果發現,商業模型整體優于開源模型(Gen3綜合得分4.38v.s.VideoCrafter2綜合得分3.87),不同模型存在顯著特長差異(如CogVideoX在視頻-文本一致性領先,而Gen3在成像質量最優)。

總體來看,當前的模型在動作合理性(平均2.53/3)和動態模糊(3.11/5)等動態維度表現較弱。



對不同基礎模型進行比較,結果發現,與Gemini1.5pro和Qwen2vl-72b相比,GPT-4o通常在視頻質量和一致性評分上表現更優,特別是在成像質量(0.807)和視頻-文本一致性(0.750)方面,GPT-4o-0806表現尤為突出。

然而,性能并不總是隨著GPT-4o版本的更新而持續提升。例如,GPT-4o-1120在運動效果方面相較于GPT-4o-0806有所下降(0.309vs.0.469),這表明在更新過程中,時間運動檢測可能存在潛在退化。

作者簡介

共同第一作者

韓慧,上海交通大學碩士生,研究方向為多模態語言模型

李思遠,上海交通大學碩士生,研究方向為多模態語言模型

陳家棋,復旦大學碩士,斯坦福訪問學者,Fellou 研究員,研究方向為 LLM agent

袁怡雯,CMU 本科,xAI 研究員,研究方向為多模態語言模型和 RAG

通訊作者為倪泳鑫,波士頓大學博士

代碼鏈接:https://github.com/Video-Bench/Video-Bench.git
論文地址:https://arxiv.org/html/2504.04907v1

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
6月15日,券商給予評級并且給出目標價的公司一覽

6月15日,券商給予評級并且給出目標價的公司一覽

A股數據表
2025-06-15 05:55:03
章子怡亮相上海國際電影節,剪了短發不敢認了!年輕了十歲!

章子怡亮相上海國際電影節,剪了短發不敢認了!年輕了十歲!

阿廢冷眼觀察所
2025-06-15 03:48:59
被無數人吐槽的“蠢設計”,得知正確用法后:原來蠢的是我自己!

被無數人吐槽的“蠢設計”,得知正確用法后:原來蠢的是我自己!

室內設計師有料兒
2025-01-02 12:34:48
僅6分鐘19個導彈連全軍覆沒,82架戰機被擊落,以色列如何做到的

僅6分鐘19個導彈連全軍覆沒,82架戰機被擊落,以色列如何做到的

歷史求知所
2025-04-20 18:40:05
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
梵蒂岡任命中國主教,背后藏著哪些門道?

梵蒂岡任命中國主教,背后藏著哪些門道?

小陸搞笑日常
2025-06-14 16:39:01
玩家玩NS2版《2077》遇成人畫面:身邊有母親和女友

玩家玩NS2版《2077》遇成人畫面:身邊有母親和女友

游民星空
2025-06-14 19:07:13
我出差巴基斯坦,意外看到穆斯林女人面紗下的秘密,她給我兩個選擇

我出差巴基斯坦,意外看到穆斯林女人面紗下的秘密,她給我兩個選擇

紅豆講堂
2025-05-28 14:34:55
印航空難唯一幸存者:恢復意識后發現仍被安全帶固定在座位上,剛從裂口爬出就聽見爆炸

印航空難唯一幸存者:恢復意識后發現仍被安全帶固定在座位上,剛從裂口爬出就聽見爆炸

紅星新聞
2025-06-14 21:14:15
從賓館服務員干到廳級領導柴高潮被查!非法收受巨額財物 退休多年后仍被查

從賓館服務員干到廳級領導柴高潮被查!非法收受巨額財物 退休多年后仍被查

閃電新聞
2025-06-14 15:25:20
時隔34年,華盛頓再啟閱兵式

時隔34年,華盛頓再啟閱兵式

中國青年報
2025-06-13 15:26:07
世上最快樂地方? 1家游迪士尼1天花1400美元,父親:這里是地獄

世上最快樂地方? 1家游迪士尼1天花1400美元,父親:這里是地獄

環球趣聞分享
2025-05-22 15:17:34
19分鐘轟15分!中國女籃又一23歲王牌崛起:李夢替身變張子宇絕配

19分鐘轟15分!中國女籃又一23歲王牌崛起:李夢替身變張子宇絕配

李喜林籃球絕殺
2025-06-14 07:43:29
一碗面罰三千,從渦陽農商行宴請事件看基層治理的“左”與“度”

一碗面罰三千,從渦陽農商行宴請事件看基層治理的“左”與“度”

江陽沽酒客
2025-06-14 15:26:09
以色列挑釁沙特,要炸東風基地?沙特:中國士兵在那,敢炸試試!

以色列挑釁沙特,要炸東風基地?沙特:中國士兵在那,敢炸試試!

東方點兵
2025-06-12 09:48:59
陳夢街上買菜被偶遇,沒有網上傳的那么好看,但皮膚白皙氣質出眾

陳夢街上買菜被偶遇,沒有網上傳的那么好看,但皮膚白皙氣質出眾

動物奇奇怪怪
2025-06-14 10:10:29
港影:郭富城新作《無名指》,荷蘭亞洲電影節首映,定檔八月末

港影:郭富城新作《無名指》,荷蘭亞洲電影節首映,定檔八月末

唐淚
2025-06-13 09:02:41
43歲知名主持人金昀離世!產后4個月患病,閨蜜曝最后搶救細節

43歲知名主持人金昀離世!產后4個月患病,閨蜜曝最后搶救細節

葉公子
2025-06-14 17:25:07
六大國有銀行 大額存單最新調整:2025年6月,全新存款利率利息表

六大國有銀行 大額存單最新調整:2025年6月,全新存款利率利息表

錘不倒的拖油瓶
2025-06-15 06:14:38
36歲女子猛撩29歲小伙,小伙直接找不著北,網友:姜還是老得辣

36歲女子猛撩29歲小伙,小伙直接找不著北,網友:姜還是老得辣

農村情感故事
2025-06-12 17:41:29
2025-06-15 08:16:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10666文章數 176167關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

伊朗數小時內或再襲擊 以色列進入"前所未有緊急狀態"

頭條要聞

伊朗數小時內或再襲擊 以色列進入"前所未有緊急狀態"

體育要聞

約戰天王山,步行者G4輸在了哪?

娛樂要聞

小S迎47歲生日,首個生日沒大S陪伴

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

游戲
本地
時尚
公開課
軍事航空

屏幕很能挨砸!Switch 2被錘子砸了50次后還能正常玩

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

中年女人少穿黑色和灰色,年輕色穿出減齡效果,看起來嫩十歲

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊媒:以色列國防部大樓被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 上林县| 高雄市| 秦安县| 虹口区| 西吉县| 北宁市| 永州市| 弥渡县| 清徐县| 铁岭市| 临安市| 大新县| 阆中市| 施甸县| 五华县| 辛集市| 法库县| 泸州市| 博湖县| 都匀市| 万荣县| 景泰县| 荣昌县| 贡山| 天等县| 正蓝旗| 喜德县| 鹤壁市| 团风县| 永春县| 北票市| 延川县| 田东县| 衡阳市| 蚌埠市| 汝城县| 绩溪县| 汽车| 陕西省| 崇左市| 扬州市|