網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

500萬視頻數(shù)據(jù)集+全新評(píng)測(cè)框架！北大開源OpenS2V-Nexus

2025-07-08 17:52:48　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

想讓 AI 能「看著你的自拍就生成一致且自然的短視頻」嗎？這就是Subject-to-Video（S2V）生成要解決的問題：讓視頻生成不僅對(duì)齊文本，還能準(zhǔn)確保留指定人物或物體的特征，讓生成的視頻既「像」又「自然」。這一能力對(duì)于短視頻生成、虛擬人、AI 剪輯等都有巨大意義。

然而，要訓(xùn)練和評(píng)價(jià)這樣的模型，過去一直缺少公開可用的大規(guī)模數(shù)據(jù)集和細(xì)粒度評(píng)測(cè)基準(zhǔn)，限制了 S2V 技術(shù)的快速突破。

為此，北大團(tuán)隊(duì)推出了全新的開源套件 OpenS2V-Nexus，專為 S2V 生成打造：

OpenS2V-Eval：全球首個(gè)面向主體一致性、自然度和文本對(duì)齊的 S2V 細(xì)粒度評(píng)測(cè)基準(zhǔn)，讓不同模型在主體一致性上真正可比。

OpenS2V-5M：全球首個(gè)公開的500 萬條高質(zhì)量 720P 人物文本視頻三元組數(shù)據(jù)集，覆蓋真實(shí)和合成數(shù)據(jù)，幫助研究者快速訓(xùn)練更強(qiáng)大的生成模型。

北大團(tuán)隊(duì)還在 18 個(gè)代表性 S2V 模型上進(jìn)行了系統(tǒng)評(píng)測(cè)，首次揭示了目前主流模型在保持主體一致性和自然度方面的真實(shí)能力差距。

通過 OpenS2V-Nexus，未來做 AI 視頻生成不再盲人摸象，讓訓(xùn)練更高效、評(píng)測(cè)更科學(xué)，讓真正可控、自然且保持人物一致的 AI 視頻生成技術(shù)更快落地到你的應(yīng)用里。

該工作帶來三大核心貢獻(xiàn)：

構(gòu)建 OpenS2V-Eval：領(lǐng)域最全面的 S2V 評(píng)測(cè)基準(zhǔn)，構(gòu)建了 180 個(gè)多領(lǐng)域提示詞 + 真實(shí) / 合成雙類別測(cè)試數(shù)據(jù)。提出了 NexusScore、NaturalScore 和 GmeScore，精準(zhǔn)量化模型在主體一致性、自然度、文本對(duì)齊三大維度的能力。
同步開源 OpenS2V-5M 百萬計(jì)數(shù)據(jù)集：包含 540 萬 720P 高清「圖片 - 文本 - 視頻」三元組，通過跨視頻關(guān)聯(lián)分割 + 多視角合成技術(shù)，實(shí)現(xiàn)主題多樣性與高質(zhì)量標(biāo)注。
提供 S2V 模型選擇的新見解：基于全新評(píng)測(cè)框架，團(tuán)隊(duì)對(duì) 18 個(gè)主流 S2V 模型展開全面測(cè)評(píng)，揭示不同方法在復(fù)雜場景下的優(yōu)劣差異。

論文地址：
https://arxiv.org/abs/2505.20292
項(xiàng)目地址：
https://pku-yuangroup.github.io/OpenS2V-Nexus/
數(shù)據(jù)集地址：
https://huggingface.co/datasets/BestWishYsh/OpenS2V-5M
評(píng)估基準(zhǔn)地址：
https://huggingface.co/datasets/BestWishYsh/OpenS2V-Eval

Subject-to-video 領(lǐng)域面臨著三大問題

（1）泛化能力不足：當(dāng)遇到訓(xùn)練中未見過的主體類別時(shí)，模型的生成效果往往顯著下降。例如，僅在西方面孔上訓(xùn)練的模型，在生成亞洲人主體時(shí)通常表現(xiàn)更差。

（2）“復(fù)制粘貼” 問題：模型在生成視頻時(shí)，往往會(huì)直接照搬參考圖像中的姿勢(shì)、光照和輪廓，導(dǎo)致生成結(jié)果缺乏自然感。

（3）人物一致性不足：相比于生成非人類主體，現(xiàn)有模型在保持人物身份一致性方面仍存在明顯不足。

一個(gè)有效的評(píng)測(cè)基準(zhǔn)理應(yīng)能夠揭示并量化這些問題。然而，即便生成的視頻主體看起來不自然或身份一致性較差，現(xiàn)有評(píng)測(cè)基準(zhǔn)往往仍給出較高的分?jǐn)?shù)，阻礙了 S2V 領(lǐng)域的進(jìn)一步突破和改進(jìn)。

北大團(tuán)隊(duì)通過 OpenS2V-Eval 揭示了現(xiàn)有模型在這三個(gè)方面的缺陷，并提出 OpenS2V-5M 從數(shù)據(jù)層面解決這些問題。

OpenS2V-Eval 評(píng)測(cè)基準(zhǔn)

現(xiàn)有的視頻生成評(píng)測(cè)基準(zhǔn)大多聚焦于文本生成視頻（text-to-video）任務(wù)，典型代表包括 VBench 和 ChronoMagic-Bench。雖然 ConsisID-Bench 可用于 S2V 任務(wù)，但其評(píng)測(cè)范圍僅限于面部一致性。Alchemist-Bench、VACE-Benchmark 和 A2 Bench 支持對(duì)開放域 S2V 模型進(jìn)行評(píng)測(cè)，但它們主要采用的是全局、粗粒度的評(píng)測(cè)方式。例如，這些基準(zhǔn)未能對(duì)生成視頻中主體的自然度進(jìn)行有效評(píng)估。

為應(yīng)對(duì)這一挑戰(zhàn)，團(tuán)隊(duì)提出了 OpenS2V-Eval，這是領(lǐng)域內(nèi)首個(gè)全面的 Subject-to-Video（S2V）評(píng)測(cè)基準(zhǔn)。具體而言，團(tuán)隊(duì)定義了七大類別（見圖示）：① 單人臉生成視頻，② 單人全身生成視頻，③ 單實(shí)體生成視頻，④ 多人臉生成視頻，⑤ 多人全身生成視頻，⑥ 多實(shí)體生成視頻，⑦ 人物與實(shí)體混合生成視頻。針對(duì)每個(gè)類別，設(shè)計(jì)了 30 個(gè)富含視覺內(nèi)容的測(cè)試樣本，用于全面評(píng)測(cè)模型在不同主體上的泛化能力。

并且，針對(duì)現(xiàn)有自動(dòng)化評(píng)測(cè)穩(wěn)健性不足的問題，團(tuán)隊(duì)首先提出 NexusScore，結(jié)合圖像檢測(cè)和多模態(tài)檢索模型，用于精準(zhǔn)評(píng)估主體一致性。其次，團(tuán)隊(duì)提出基于 VLM 的 NaturalScore，填補(bǔ)了當(dāng)前評(píng)測(cè)中對(duì)主體自然度評(píng)價(jià)的空白。最后，團(tuán)隊(duì)提出 GmeScore，相比傳統(tǒng)方法能更準(zhǔn)確地評(píng)估文本相關(guān)性。

OpenS2V-5M 百萬級(jí)數(shù)據(jù)集

此外，當(dāng)社區(qū)嘗試將基礎(chǔ)模型擴(kuò)展到下游任務(wù)時(shí)，現(xiàn)有數(shù)據(jù)集在支持復(fù)雜任務(wù)方面仍存在明顯不足（見表格對(duì)比）。為彌補(bǔ)這一限制，團(tuán)隊(duì)提出了 OpenS2V-5M，這是首個(gè)專為 Subject-to-Video（S2V）設(shè)計(jì)的百萬級(jí)規(guī)模數(shù)據(jù)集，同時(shí)也可用于文本生成視頻等任務(wù)。

以往方法通常直接從訓(xùn)練視頻幀中裁剪出主體圖像，著可能導(dǎo)致模型傾向于學(xué)習(xí)捷徑而非真正的內(nèi)在知識(shí)。為了解決這一問題，團(tuán)隊(duì)在數(shù)據(jù)層面引入了 Nexus Data，具體包括：（1）通過跨視頻關(guān)聯(lián)構(gòu)建豐富的配對(duì)信息；（2）在原始幀上使用多模態(tài)大模型生成多視角表示，以豐富數(shù)據(jù)的多樣性和泛化能力，從而有針對(duì)性地應(yīng)對(duì)前述的三大核心挑戰(zhàn)。常規(guī)數(shù)據(jù)與 Nexus 數(shù)據(jù)之間的比較如下圖 5 所示，可見 OpenS2V-5M 具有更高的質(zhì)量，有望解決 S2V 模型面臨的三大核心挑戰(zhàn)。

評(píng)估實(shí)驗(yàn)

團(tuán)隊(duì)評(píng)估了幾乎所有的 S2V 模型，包括四個(gè)閉源模型和十二個(gè)開源模型。這些模型涵蓋了支持所有類型主體的模型，以及僅支持人物身份的模型。結(jié)果如下圖所示，總體而言，閉源模型在整體能力方面表現(xiàn)出明顯優(yōu)勢(shì)（例如 Kling）。以 Phantom 和 VACE 為代表的開源模型正在逐步縮小這一差距；然而，這兩種模型都存在以下三個(gè)共同問題：（1）泛化能力差：某些主體的保真度較低。例如，在下圖 6 的案例 2 中，Kling 生成了錯(cuò)誤的操場背景，而 VACE、Phantom 和 SkyReels-A2 生成了保真度較低的人物和鳥類；（2）復(fù)制粘貼問題：在圖 7 中，SkyReels-A2 和 VACE 錯(cuò)誤地將參考圖像中的表情、光照或姿態(tài)復(fù)制到生成視頻中，導(dǎo)致輸出不自然；（3）人類保真度不足：圖 7 顯示所有模型都未能準(zhǔn)確渲染人物側(cè)臉。此外，還觀察到：（1）隨著參考圖像數(shù)量的增加，保真度逐漸下降；（2）初始幀可能模糊或直接被復(fù)制；（3）保真度隨時(shí)間逐漸下降。

驗(yàn)證實(shí)驗(yàn)

團(tuán)隊(duì)還通過人工交叉驗(yàn)證驗(yàn)證指標(biāo)和數(shù)據(jù)集的有效性。顯然，所提出的三個(gè)指標(biāo)與人類感知一致，能夠準(zhǔn)確反映主體一致性、主體自然性和文本相關(guān)性。并且數(shù)據(jù)集能有效解決 S2V 的三大核心問題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.