想讓 AI 能 「看著你的自拍就生成一致且自然的短視頻」 嗎?這就是Subject-to-Video(S2V)生成要解決的問題:讓視頻生成不僅對(duì)齊文本,還能準(zhǔn)確保留指定人物或物體的特征,讓生成的視頻既 「像」 又 「自然」。這一能力對(duì)于短視頻生成、虛擬人、AI 剪輯等都有巨大意義。
然而,要訓(xùn)練和評(píng)價(jià)這樣的模型,過去一直缺少公開可用的大規(guī)模數(shù)據(jù)集和細(xì)粒度評(píng)測(cè)基準(zhǔn),限制了 S2V 技術(shù)的快速突破。
為此,北大團(tuán)隊(duì)推出了全新的開源套件 OpenS2V-Nexus,專為 S2V 生成打造:
OpenS2V-Eval:全球首個(gè)面向主體一致性、自然度和文本對(duì)齊的 S2V 細(xì)粒度評(píng)測(cè)基準(zhǔn),讓不同模型在主體一致性上真正可比。
OpenS2V-5M:全球首個(gè)公開的500 萬條高質(zhì)量 720P 人物文本視頻三元組數(shù)據(jù)集,覆蓋真實(shí)和合成數(shù)據(jù),幫助研究者快速訓(xùn)練更強(qiáng)大的生成模型。
北大團(tuán)隊(duì)還在 18 個(gè)代表性 S2V 模型上進(jìn)行了系統(tǒng)評(píng)測(cè),首次揭示了目前主流模型在保持主體一致性和自然度方面的真實(shí)能力差距。
通過 OpenS2V-Nexus,未來做 AI 視頻生成不再盲人摸象,讓訓(xùn)練更高效、評(píng)測(cè)更科學(xué),讓真正可控、自然且保持人物一致的 AI 視頻生成技術(shù)更快落地到你的應(yīng)用里。
該工作帶來三大核心貢獻(xiàn):
- 構(gòu)建 OpenS2V-Eval:領(lǐng)域最全面的 S2V 評(píng)測(cè)基準(zhǔn),構(gòu)建了 180 個(gè)多領(lǐng)域提示詞 + 真實(shí) / 合成雙類別測(cè)試數(shù)據(jù)。提出了 NexusScore、NaturalScore 和 GmeScore,精準(zhǔn)量化模型在主體一致性、自然度、文本對(duì)齊三大維度的能力。
- 同步開源 OpenS2V-5M 百萬計(jì)數(shù)據(jù)集:包含 540 萬 720P 高清「圖片 - 文本 - 視頻」三元組,通過跨視頻關(guān)聯(lián)分割 + 多視角合成技術(shù),實(shí)現(xiàn)主題多樣性與高質(zhì)量標(biāo)注。
- 提供 S2V 模型選擇的新見解:基于全新評(píng)測(cè)框架,團(tuán)隊(duì)對(duì) 18 個(gè)主流 S2V 模型展開全面測(cè)評(píng),揭示不同方法在復(fù)雜場景下的優(yōu)劣差異。
- 論文地址:
- https://arxiv.org/abs/2505.20292
- 項(xiàng)目地址:
- https://pku-yuangroup.github.io/OpenS2V-Nexus/
- 數(shù)據(jù)集地址:
- https://huggingface.co/datasets/BestWishYsh/OpenS2V-5M
- 評(píng)估基準(zhǔn)地址:
- https://huggingface.co/datasets/BestWishYsh/OpenS2V-Eval
Subject-to-video 領(lǐng)域面臨著三大問題
(1)泛化能力不足:當(dāng)遇到訓(xùn)練中未見過的主體類別時(shí),模型的生成效果往往顯著下降。例如,僅在西方面孔上訓(xùn)練的模型,在生成亞洲人主體時(shí)通常表現(xiàn)更差。
(2)“復(fù)制粘貼” 問題:模型在生成視頻時(shí),往往會(huì)直接照搬參考圖像中的姿勢(shì)、光照和輪廓,導(dǎo)致生成結(jié)果缺乏自然感。
(3)人物一致性不足:相比于生成非人類主體,現(xiàn)有模型在保持人物身份一致性方面仍存在明顯不足。
一個(gè)有效的評(píng)測(cè)基準(zhǔn)理應(yīng)能夠揭示并量化這些問題。然而,即便生成的視頻主體看起來不自然或身份一致性較差,現(xiàn)有評(píng)測(cè)基準(zhǔn)往往仍給出較高的分?jǐn)?shù),阻礙了 S2V 領(lǐng)域的進(jìn)一步突破和改進(jìn)。
北大團(tuán)隊(duì)通過 OpenS2V-Eval 揭示了現(xiàn)有模型在這三個(gè)方面的缺陷,并提出 OpenS2V-5M 從數(shù)據(jù)層面解決這些問題。
OpenS2V-Eval 評(píng)測(cè)基準(zhǔn)
現(xiàn)有的視頻生成評(píng)測(cè)基準(zhǔn)大多聚焦于文本生成視頻(text-to-video)任務(wù),典型代表包括 VBench 和 ChronoMagic-Bench。雖然 ConsisID-Bench 可用于 S2V 任務(wù),但其評(píng)測(cè)范圍僅限于面部一致性。Alchemist-Bench、VACE-Benchmark 和 A2 Bench 支持對(duì)開放域 S2V 模型進(jìn)行評(píng)測(cè),但它們主要采用的是全局、粗粒度的評(píng)測(cè)方式。例如,這些基準(zhǔn)未能對(duì)生成視頻中主體的自然度進(jìn)行有效評(píng)估。
為應(yīng)對(duì)這一挑戰(zhàn),團(tuán)隊(duì)提出了 OpenS2V-Eval,這是領(lǐng)域內(nèi)首個(gè)全面的 Subject-to-Video(S2V)評(píng)測(cè)基準(zhǔn)。具體而言,團(tuán)隊(duì)定義了七大類別(見圖示):① 單人臉生成視頻,② 單人全身生成視頻,③ 單實(shí)體生成視頻,④ 多人臉生成視頻,⑤ 多人全身生成視頻,⑥ 多實(shí)體生成視頻,⑦ 人物與實(shí)體混合生成視頻。針對(duì)每個(gè)類別,設(shè)計(jì)了 30 個(gè)富含視覺內(nèi)容的測(cè)試樣本,用于全面評(píng)測(cè)模型在不同主體上的泛化能力。
并且,針對(duì)現(xiàn)有自動(dòng)化評(píng)測(cè)穩(wěn)健性不足的問題,團(tuán)隊(duì)首先提出 NexusScore,結(jié)合圖像檢測(cè)和多模態(tài)檢索模型,用于精準(zhǔn)評(píng)估主體一致性。其次,團(tuán)隊(duì)提出基于 VLM 的 NaturalScore,填補(bǔ)了當(dāng)前評(píng)測(cè)中對(duì)主體自然度評(píng)價(jià)的空白。最后,團(tuán)隊(duì)提出 GmeScore,相比傳統(tǒng)方法能更準(zhǔn)確地評(píng)估文本相關(guān)性。
OpenS2V-5M 百萬級(jí)數(shù)據(jù)集
此外,當(dāng)社區(qū)嘗試將基礎(chǔ)模型擴(kuò)展到下游任務(wù)時(shí),現(xiàn)有數(shù)據(jù)集在支持復(fù)雜任務(wù)方面仍存在明顯不足(見表格對(duì)比)。為彌補(bǔ)這一限制,團(tuán)隊(duì)提出了 OpenS2V-5M,這是首個(gè)專為 Subject-to-Video(S2V)設(shè)計(jì)的百萬級(jí)規(guī)模數(shù)據(jù)集,同時(shí)也可用于文本生成視頻等任務(wù)。
以往方法通常直接從訓(xùn)練視頻幀中裁剪出主體圖像,著可能導(dǎo)致模型傾向于學(xué)習(xí)捷徑而非真正的內(nèi)在知識(shí)。為了解決這一問題,團(tuán)隊(duì)在數(shù)據(jù)層面引入了 Nexus Data,具體包括:(1)通過跨視頻關(guān)聯(lián)構(gòu)建豐富的配對(duì)信息;(2)在原始幀上使用多模態(tài)大模型生成多視角表示,以豐富數(shù)據(jù)的多樣性和泛化能力,從而有針對(duì)性地應(yīng)對(duì)前述的三大核心挑戰(zhàn)。常規(guī)數(shù)據(jù)與 Nexus 數(shù)據(jù)之間的比較如下圖 5 所示,可見 OpenS2V-5M 具有更高的質(zhì)量,有望解決 S2V 模型面臨的三大核心挑戰(zhàn)。
評(píng)估實(shí)驗(yàn)
團(tuán)隊(duì)評(píng)估了幾乎所有的 S2V 模型,包括四個(gè)閉源模型和十二個(gè)開源模型。這些模型涵蓋了支持所有類型主體的模型,以及僅支持人物身份的模型。結(jié)果如下圖所示,總體而言,閉源模型在整體能力方面表現(xiàn)出明顯優(yōu)勢(shì)(例如 Kling)。以 Phantom 和 VACE 為代表的開源模型正在逐步縮小這一差距;然而,這兩種模型都存在以下三個(gè)共同問題:(1)泛化能力差:某些主體的保真度較低。例如,在下圖 6 的案例 2 中,Kling 生成了錯(cuò)誤的操場背景,而 VACE、Phantom 和 SkyReels-A2 生成了保真度較低的人物和鳥類;(2)復(fù)制粘貼問題:在圖 7 中,SkyReels-A2 和 VACE 錯(cuò)誤地將參考圖像中的表情、光照或姿態(tài)復(fù)制到生成視頻中,導(dǎo)致輸出不自然;(3)人類保真度不足:圖 7 顯示所有模型都未能準(zhǔn)確渲染人物側(cè)臉。此外,還觀察到:(1)隨著參考圖像數(shù)量的增加,保真度逐漸下降;(2)初始幀可能模糊或直接被復(fù)制;(3)保真度隨時(shí)間逐漸下降。
驗(yàn)證實(shí)驗(yàn)
團(tuán)隊(duì)還通過人工交叉驗(yàn)證驗(yàn)證指標(biāo)和數(shù)據(jù)集的有效性。顯然,所提出的三個(gè)指標(biāo)與人類感知一致,能夠準(zhǔn)確反映主體一致性、主體自然性和文本相關(guān)性。并且數(shù)據(jù)集能有效解決 S2V 的三大核心問題。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.