文章轉(zhuǎn)載于量子位(QbitAI)
作者:克雷西
世界模型領(lǐng)域最新進(jìn)展,要比拼“世界生成”了。
李飛飛吳佳俊團(tuán)隊(duì)提出了全面評(píng)測(cè)基準(zhǔn)WorldScore,涵蓋了三大類評(píng)估指標(biāo),動(dòng)態(tài)靜態(tài)都有涉及,其數(shù)據(jù)集中包含了3000個(gè)測(cè)試樣例。
并且,WorldScore將3D場(chǎng)景生成、4D場(chǎng)景生成和視頻生成三類模型的評(píng)估,統(tǒng)一到了一起。
利用WorldScore基準(zhǔn),團(tuán)隊(duì)對(duì)一共19款模型進(jìn)行了全面評(píng)估。
評(píng)估的結(jié)果揭示了當(dāng)前世界生成技術(shù)面臨的相機(jī)控制能力不足、長(zhǎng)序列世界生成困難等主要挑戰(zhàn),為模型研究人員提供了重要參考。
正如網(wǎng)友所評(píng)價(jià),從單一場(chǎng)景到整體世界構(gòu)建的轉(zhuǎn)變,需要這樣的基準(zhǔn)來(lái)對(duì)研究做出指導(dǎo)。
1
3D/4D/視頻生成統(tǒng)一評(píng)測(cè)
研究團(tuán)隊(duì)認(rèn)為,之前的基準(zhǔn)測(cè)試(例如 VBench)僅能評(píng)估單個(gè)場(chǎng)景的生成能力,遠(yuǎn)未達(dá)到“世界”生成的層次。
并且以前的基準(zhǔn)測(cè)試僅考慮視頻模型,但世界生成模型還包括3D和4D方法,而WorldScore可以對(duì)所有這些模型進(jìn)行統(tǒng)一評(píng)估。
WorldScore將世界生成任務(wù)分解成一系列連續(xù)的下一場(chǎng)景生成任務(wù),每個(gè)任務(wù)由三個(gè)關(guān)鍵組成部分定義:
當(dāng)前場(chǎng)景:包含一張場(chǎng)景圖像和對(duì)應(yīng)的文本描述;
下一場(chǎng)景;
布局:一系列相機(jī)矩陣定義的相機(jī)軌跡,以及描述相機(jī)如何移動(dòng)的文本說(shuō)明。
數(shù)據(jù)集方面,WorldScore包含了3000個(gè)測(cè)試樣例,其中2000個(gè)用于評(píng)估靜態(tài)世界生成能力,1000個(gè)用于評(píng)估動(dòng)態(tài)世界生成能力。
靜態(tài)世界生成數(shù)據(jù)涵蓋了10個(gè)場(chǎng)景類別,包括5類室內(nèi)場(chǎng)景(餐飲空間、居住空間、通道、公共空間、工作空間)和5類室外場(chǎng)景(城市、郊區(qū)、水域景觀、陸地景觀、綠色景觀)。
動(dòng)態(tài)世界數(shù)據(jù)則包含了5種不同類型的運(yùn)動(dòng):關(guān)節(jié)運(yùn)動(dòng)、可變形運(yùn)動(dòng)、流體運(yùn)動(dòng)、剛體運(yùn)動(dòng)和多物體運(yùn)動(dòng)。
每個(gè)測(cè)試樣例都有兩個(gè)版本——真實(shí)風(fēng)格和藝術(shù)風(fēng)格,以評(píng)估模型在不同視覺(jué)域的表現(xiàn)。
所涉及的指標(biāo)則包括了可控性、質(zhì)量和動(dòng)態(tài)評(píng)估(靜態(tài)場(chǎng)景不涉及此項(xiàng))三個(gè)大類。
其中可控性評(píng)估,具體又包括了三項(xiàng)指標(biāo):
相機(jī)控制能力:通過(guò)計(jì)算生成視頻中相機(jī)運(yùn)動(dòng)與指定軌跡的偏差來(lái)評(píng)估,具體計(jì)算尺度不變的旋轉(zhuǎn)誤差和平移誤差,然后取其幾何平均值;
物體控制能力:使用開(kāi)放集物體檢測(cè)模型檢查指定物體是否出現(xiàn)在生成場(chǎng)景中,從文本提示中提取1-2個(gè)關(guān)鍵物體描述,計(jì)算檢測(cè)到這些物體的成功率;
內(nèi)容一致性:使用CLIPScore評(píng)估生成場(chǎng)景與完整文本描述的語(yǔ)義匹配程度。
質(zhì)量評(píng)估,涵蓋了四項(xiàng)內(nèi)容:
3D一致性:使用DROID-SLAM估計(jì)每幀的密集深度圖,計(jì)算連續(xù)幀之間可見(jiàn)像素的重投影誤差,評(píng)估場(chǎng)景幾何結(jié)構(gòu)的穩(wěn)定性;
光度一致性:通過(guò)計(jì)算連續(xù)幀之間的光流來(lái)評(píng)估外觀和紋理的穩(wěn)定性,使用平均端點(diǎn)誤差(AEPE)來(lái)量化不穩(wěn)定的視覺(jué)表現(xiàn);
風(fēng)格一致性:計(jì)算第一幀和最后一幀Gram矩陣之間的F范數(shù)差異,評(píng)估風(fēng)格保持程度;
主觀質(zhì)量:結(jié)合CLIP-IQA+和CLIP Aesthetic兩個(gè)自動(dòng)評(píng)估指標(biāo)(該組合經(jīng)過(guò)200人的人類研究驗(yàn)證最接近人類感知)。
動(dòng)態(tài)評(píng)估則包含三個(gè)方面:
運(yùn)動(dòng)準(zhǔn)確性:比較指定運(yùn)動(dòng)區(qū)域內(nèi)外的光流,評(píng)估運(yùn)動(dòng)是否出現(xiàn)在正確位置;
運(yùn)動(dòng)幅度:通過(guò)估計(jì)連續(xù)幀之間的光流大小來(lái)評(píng)估生成大幅度運(yùn)動(dòng)的能力;
運(yùn)動(dòng)平滑性:使用視頻幀插值模型生成平滑過(guò)渡作為參考,評(píng)估生成視頻的時(shí)間連續(xù)性。
最終,所有評(píng)估指標(biāo)都經(jīng)過(guò)線性歸一化處理到0-100區(qū)間,并通過(guò)計(jì)算控制和質(zhì)量維度各指標(biāo)的算術(shù)平均值得到WorldScore-Static得分。
在此基礎(chǔ)上,再加入動(dòng)態(tài)維度的三項(xiàng)指標(biāo)成績(jī),就得到了WorldScore-Dynamic評(píng)分。
1
3D模型更擅長(zhǎng)靜態(tài),視頻模型動(dòng)態(tài)效果更好
利用WorldScore,研究團(tuán)隊(duì)對(duì)19款不同類型模型的世界生成能力進(jìn)行了評(píng)測(cè),包括2款閉源模型和17款開(kāi)源模型。
評(píng)測(cè)結(jié)果顯示,在靜態(tài)世界生成方面,3D場(chǎng)景生成模型展現(xiàn)出明顯優(yōu)勢(shì)。其中WonderWorld和LucidDreamer分別以72.69分和70.40分位居榜首,遠(yuǎn)超表現(xiàn)最好的視頻模型CogVideoX-I2V的62.15分。
但在動(dòng)態(tài)世界生成方面,則是視頻模型展現(xiàn)出了較強(qiáng)的實(shí)力,開(kāi)源模型CogVideoX-I2V以59.12分的成績(jī)領(lǐng)先。
在不同場(chǎng)景類型的測(cè)試中,視頻模型在室內(nèi)場(chǎng)景表現(xiàn)相對(duì)較好,但在室外場(chǎng)景生成時(shí)與3D模型的差距明顯擴(kuò)大。
同時(shí),序列長(zhǎng)度對(duì)模型性能有顯著影響——所有模型在短序列任務(wù)上表現(xiàn)尚可,但視頻模型在處理長(zhǎng)序列時(shí)性能顯著下降,而3D模型則相對(duì)穩(wěn)定。
此外,研究者還對(duì)比了T2V和I2V兩類視頻模型的特點(diǎn)。結(jié)果表明,T2V模型在控制性和動(dòng)態(tài)生成能力方面較強(qiáng),更容易實(shí)現(xiàn)大幅度的相機(jī)運(yùn)動(dòng)。
相比之下,I2V模型傾向于保持輸入圖像的視角,雖然生成質(zhì)量較高,但相機(jī)運(yùn)動(dòng)相對(duì)保守。
1
作者簡(jiǎn)介
本文的兩名共同一作均來(lái)自吳佳俊團(tuán)隊(duì),分別是碩士生段皞一(Haoyi Duan)和博士生俞洪興(Hong-Xing Koven Yu)。
段皞一是浙江大學(xué)2023屆優(yōu)秀畢業(yè)生,還獲得了竺院榮譽(yù)學(xué)位,本科期間在周釗教授的指導(dǎo)下研究多模態(tài)學(xué)習(xí)。
俞洪興本科和和碩士均就讀于中山大學(xué),碩士期間導(dǎo)師是鄭偉詩(shī)教授(現(xiàn)任中山大學(xué)計(jì)算機(jī)學(xué)院副院長(zhǎng))。
俞洪興的主要研究方向是物理場(chǎng)景理解、動(dòng)力學(xué)模型與仿真,以及3D/4D視覺(jué)生成。
目前,兩人正在進(jìn)行密切合作。
今年入選CVPR HighLight的單圖生成交互式3D場(chǎng)景模型WonderWorld,也是兩人共同一作。
除了兩名共同一作和吳佳俊以及李飛飛之外,斯坦福碩士生Sirui (Ariel) Chen也參與了WorldScore的工作。
論文地址:
https://arxiv.org/abs/2504.00983
點(diǎn)個(gè) “愛(ài)心”,再走吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.