99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

500萬視頻數(shù)據(jù)集+全新評(píng)測(cè)框架!北大開源OpenS2V-Nexus

0
分享至



想讓 AI 能 「看著你的自拍就生成一致且自然的短視頻」 嗎?這就是Subject-to-Video(S2V)生成要解決的問題:讓視頻生成不僅對(duì)齊文本,還能準(zhǔn)確保留指定人物或物體的特征,讓生成的視頻既 「像」 又 「自然」。這一能力對(duì)于短視頻生成、虛擬人、AI 剪輯等都有巨大意義。

然而,要訓(xùn)練和評(píng)價(jià)這樣的模型,過去一直缺少公開可用的大規(guī)模數(shù)據(jù)集和細(xì)粒度評(píng)測(cè)基準(zhǔn),限制了 S2V 技術(shù)的快速突破。

為此,北大團(tuán)隊(duì)推出了全新的開源套件 OpenS2V-Nexus,專為 S2V 生成打造:

OpenS2V-Eval:全球首個(gè)面向主體一致性、自然度和文本對(duì)齊的 S2V 細(xì)粒度評(píng)測(cè)基準(zhǔn),讓不同模型在主體一致性上真正可比。

OpenS2V-5M:全球首個(gè)公開的500 萬條高質(zhì)量 720P 人物文本視頻三元組數(shù)據(jù)集,覆蓋真實(shí)和合成數(shù)據(jù),幫助研究者快速訓(xùn)練更強(qiáng)大的生成模型。

北大團(tuán)隊(duì)還在 18 個(gè)代表性 S2V 模型上進(jìn)行了系統(tǒng)評(píng)測(cè),首次揭示了目前主流模型在保持主體一致性和自然度方面的真實(shí)能力差距。

通過 OpenS2V-Nexus,未來做 AI 視頻生成不再盲人摸象,讓訓(xùn)練更高效、評(píng)測(cè)更科學(xué),讓真正可控、自然且保持人物一致的 AI 視頻生成技術(shù)更快落地到你的應(yīng)用里。

該工作帶來三大核心貢獻(xiàn):

  • 構(gòu)建 OpenS2V-Eval:領(lǐng)域最全面的 S2V 評(píng)測(cè)基準(zhǔn),構(gòu)建了 180 個(gè)多領(lǐng)域提示詞 + 真實(shí) / 合成雙類別測(cè)試數(shù)據(jù)。提出了 NexusScore、NaturalScore 和 GmeScore,精準(zhǔn)量化模型在主體一致性、自然度、文本對(duì)齊三大維度的能力。
  • 同步開源 OpenS2V-5M 百萬計(jì)數(shù)據(jù)集:包含 540 萬 720P 高清「圖片 - 文本 - 視頻」三元組,通過跨視頻關(guān)聯(lián)分割 + 多視角合成技術(shù),實(shí)現(xiàn)主題多樣性與高質(zhì)量標(biāo)注。
  • 提供 S2V 模型選擇的新見解:基于全新評(píng)測(cè)框架,團(tuán)隊(duì)對(duì) 18 個(gè)主流 S2V 模型展開全面測(cè)評(píng),揭示不同方法在復(fù)雜場景下的優(yōu)劣差異。



  • 論文地址:
  • https://arxiv.org/abs/2505.20292
  • 項(xiàng)目地址:
  • https://pku-yuangroup.github.io/OpenS2V-Nexus/
  • 數(shù)據(jù)集地址:
  • https://huggingface.co/datasets/BestWishYsh/OpenS2V-5M
  • 評(píng)估基準(zhǔn)地址:
  • https://huggingface.co/datasets/BestWishYsh/OpenS2V-Eval

Subject-to-video 領(lǐng)域面臨著三大問題

(1)泛化能力不足:當(dāng)遇到訓(xùn)練中未見過的主體類別時(shí),模型的生成效果往往顯著下降。例如,僅在西方面孔上訓(xùn)練的模型,在生成亞洲人主體時(shí)通常表現(xiàn)更差。

(2)“復(fù)制粘貼” 問題:模型在生成視頻時(shí),往往會(huì)直接照搬參考圖像中的姿勢(shì)、光照和輪廓,導(dǎo)致生成結(jié)果缺乏自然感。

(3)人物一致性不足:相比于生成非人類主體,現(xiàn)有模型在保持人物身份一致性方面仍存在明顯不足。

一個(gè)有效的評(píng)測(cè)基準(zhǔn)理應(yīng)能夠揭示并量化這些問題。然而,即便生成的視頻主體看起來不自然或身份一致性較差,現(xiàn)有評(píng)測(cè)基準(zhǔn)往往仍給出較高的分?jǐn)?shù),阻礙了 S2V 領(lǐng)域的進(jìn)一步突破和改進(jìn)。

北大團(tuán)隊(duì)通過 OpenS2V-Eval 揭示了現(xiàn)有模型在這三個(gè)方面的缺陷,并提出 OpenS2V-5M 從數(shù)據(jù)層面解決這些問題。

OpenS2V-Eval 評(píng)測(cè)基準(zhǔn)



現(xiàn)有的視頻生成評(píng)測(cè)基準(zhǔn)大多聚焦于文本生成視頻(text-to-video)任務(wù),典型代表包括 VBench 和 ChronoMagic-Bench。雖然 ConsisID-Bench 可用于 S2V 任務(wù),但其評(píng)測(cè)范圍僅限于面部一致性。Alchemist-Bench、VACE-Benchmark 和 A2 Bench 支持對(duì)開放域 S2V 模型進(jìn)行評(píng)測(cè),但它們主要采用的是全局、粗粒度的評(píng)測(cè)方式。例如,這些基準(zhǔn)未能對(duì)生成視頻中主體的自然度進(jìn)行有效評(píng)估。



為應(yīng)對(duì)這一挑戰(zhàn),團(tuán)隊(duì)提出了 OpenS2V-Eval,這是領(lǐng)域內(nèi)首個(gè)全面的 Subject-to-Video(S2V)評(píng)測(cè)基準(zhǔn)。具體而言,團(tuán)隊(duì)定義了七大類別(見圖示):① 單人臉生成視頻,② 單人全身生成視頻,③ 單實(shí)體生成視頻,④ 多人臉生成視頻,⑤ 多人全身生成視頻,⑥ 多實(shí)體生成視頻,⑦ 人物與實(shí)體混合生成視頻。針對(duì)每個(gè)類別,設(shè)計(jì)了 30 個(gè)富含視覺內(nèi)容的測(cè)試樣本,用于全面評(píng)測(cè)模型在不同主體上的泛化能力。



并且,針對(duì)現(xiàn)有自動(dòng)化評(píng)測(cè)穩(wěn)健性不足的問題,團(tuán)隊(duì)首先提出 NexusScore,結(jié)合圖像檢測(cè)和多模態(tài)檢索模型,用于精準(zhǔn)評(píng)估主體一致性。其次,團(tuán)隊(duì)提出基于 VLM 的 NaturalScore,填補(bǔ)了當(dāng)前評(píng)測(cè)中對(duì)主體自然度評(píng)價(jià)的空白。最后,團(tuán)隊(duì)提出 GmeScore,相比傳統(tǒng)方法能更準(zhǔn)確地評(píng)估文本相關(guān)性。

OpenS2V-5M 百萬級(jí)數(shù)據(jù)集



此外,當(dāng)社區(qū)嘗試將基礎(chǔ)模型擴(kuò)展到下游任務(wù)時(shí),現(xiàn)有數(shù)據(jù)集在支持復(fù)雜任務(wù)方面仍存在明顯不足(見表格對(duì)比)。為彌補(bǔ)這一限制,團(tuán)隊(duì)提出了 OpenS2V-5M,這是首個(gè)專為 Subject-to-Video(S2V)設(shè)計(jì)的百萬級(jí)規(guī)模數(shù)據(jù)集,同時(shí)也可用于文本生成視頻等任務(wù)。



以往方法通常直接從訓(xùn)練視頻幀中裁剪出主體圖像,著可能導(dǎo)致模型傾向于學(xué)習(xí)捷徑而非真正的內(nèi)在知識(shí)。為了解決這一問題,團(tuán)隊(duì)在數(shù)據(jù)層面引入了 Nexus Data,具體包括:(1)通過跨視頻關(guān)聯(lián)構(gòu)建豐富的配對(duì)信息;(2)在原始幀上使用多模態(tài)大模型生成多視角表示,以豐富數(shù)據(jù)的多樣性和泛化能力,從而有針對(duì)性地應(yīng)對(duì)前述的三大核心挑戰(zhàn)。常規(guī)數(shù)據(jù)與 Nexus 數(shù)據(jù)之間的比較如下圖 5 所示,可見 OpenS2V-5M 具有更高的質(zhì)量,有望解決 S2V 模型面臨的三大核心挑戰(zhàn)。

評(píng)估實(shí)驗(yàn)

團(tuán)隊(duì)評(píng)估了幾乎所有的 S2V 模型,包括四個(gè)閉源模型和十二個(gè)開源模型。這些模型涵蓋了支持所有類型主體的模型,以及僅支持人物身份的模型。結(jié)果如下圖所示,總體而言,閉源模型在整體能力方面表現(xiàn)出明顯優(yōu)勢(shì)(例如 Kling)。以 Phantom 和 VACE 為代表的開源模型正在逐步縮小這一差距;然而,這兩種模型都存在以下三個(gè)共同問題:(1)泛化能力差:某些主體的保真度較低。例如,在下圖 6 的案例 2 中,Kling 生成了錯(cuò)誤的操場背景,而 VACE、Phantom 和 SkyReels-A2 生成了保真度較低的人物和鳥類;(2)復(fù)制粘貼問題:在圖 7 中,SkyReels-A2 和 VACE 錯(cuò)誤地將參考圖像中的表情、光照或姿態(tài)復(fù)制到生成視頻中,導(dǎo)致輸出不自然;(3)人類保真度不足:圖 7 顯示所有模型都未能準(zhǔn)確渲染人物側(cè)臉。此外,還觀察到:(1)隨著參考圖像數(shù)量的增加,保真度逐漸下降;(2)初始幀可能模糊或直接被復(fù)制;(3)保真度隨時(shí)間逐漸下降。













驗(yàn)證實(shí)驗(yàn)

團(tuán)隊(duì)還通過人工交叉驗(yàn)證驗(yàn)證指標(biāo)和數(shù)據(jù)集的有效性。顯然,所提出的三個(gè)指標(biāo)與人類感知一致,能夠準(zhǔn)確反映主體一致性、主體自然性和文本相關(guān)性。并且數(shù)據(jù)集能有效解決 S2V 的三大核心問題。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“法官收到的證據(jù)能有多離譜??”哈哈哈哈哈哈真的莫名其妙的笑了一下!

“法官收到的證據(jù)能有多離譜??”哈哈哈哈哈哈真的莫名其妙的笑了一下!

浪花媽媽
2025-07-07 22:52:27
扎克伯格曬出AI超級(jí)團(tuán)隊(duì)名單!11 位核心成員中8位是華人,本科來自清北南科浙

扎克伯格曬出AI超級(jí)團(tuán)隊(duì)名單!11 位核心成員中8位是華人,本科來自清北南科浙

TOP大學(xué)來了
2025-07-06 16:07:22
國防部回應(yīng)外國船只為防襲擊掛五星紅旗

國防部回應(yīng)外國船只為防襲擊掛五星紅旗

界面新聞
2025-07-08 16:02:30
距離9月3日閱兵不足兩月!哪些國家受邀請(qǐng)?哪些國家明確不來?

距離9月3日閱兵不足兩月!哪些國家受邀請(qǐng)?哪些國家明確不來?

浩舞纆畫
2025-07-07 17:09:35
陸偽娘「無套約炮1691男」性愛片外泄!竟是38歲大叔 健身鮮肉也受害

陸偽娘「無套約炮1691男」性愛片外泄!竟是38歲大叔 健身鮮肉也受害

ETtoday星光云
2025-07-08 09:36:11
騰訊怒噴華為鴻蒙系統(tǒng)不穩(wěn)定,微信適配堪比重做!

騰訊怒噴華為鴻蒙系統(tǒng)不穩(wěn)定,微信適配堪比重做!

回旋鏢
2025-07-08 17:54:42
紅姐到紅爺再到紅哥 無處不在的影像啊

紅姐到紅爺再到紅哥 無處不在的影像啊

攝影筆記
2025-07-08 13:57:11
外媒:德國財(cái)長稱,若不能達(dá)成公平貿(mào)易協(xié)議,歐盟準(zhǔn)備采取反制措施

外媒:德國財(cái)長稱,若不能達(dá)成公平貿(mào)易協(xié)議,歐盟準(zhǔn)備采取反制措施

環(huán)球網(wǎng)資訊
2025-07-08 18:46:29
沒板沒籃沒罰球!球迷呼吁宮魯鳴立即裁掉兩人,征召劉禹彤許晨妍

沒板沒籃沒罰球!球迷呼吁宮魯鳴立即裁掉兩人,征召劉禹彤許晨妍

南海浪花
2025-07-08 07:22:07
西媒:若塔車禍經(jīng)初步調(diào)查因輪胎問題和超速,司機(jī)為若塔本人

西媒:若塔車禍經(jīng)初步調(diào)查因輪胎問題和超速,司機(jī)為若塔本人

懂球帝
2025-07-08 20:53:16
受賄超2.71億元 16歲讀大學(xué)的副部級(jí)王勇一審被判死緩 通報(bào)曾稱其結(jié)交政治騙子

受賄超2.71億元 16歲讀大學(xué)的副部級(jí)王勇一審被判死緩 通報(bào)曾稱其結(jié)交政治騙子

紅星新聞
2025-07-08 18:32:11
“毒發(fā)糕”致天水233名幼兒血鉛異常,家長帶孩子跨省涌向西安醫(yī)院“排鉛”

“毒發(fā)糕”致天水233名幼兒血鉛異常,家長帶孩子跨省涌向西安醫(yī)院“排鉛”

上觀新聞
2025-07-08 19:49:34
坑騙1691名直男的南京紅姐被抓了!其中一位是健身網(wǎng)紅,已有妻兒

坑騙1691名直男的南京紅姐被抓了!其中一位是健身網(wǎng)紅,已有妻兒

古希臘掌管松餅的神
2025-07-07 22:19:12
徒步失聯(lián)女大學(xué)生遺體附近全是螞蟥,搜救犬身上多處遭到咬傷

徒步失聯(lián)女大學(xué)生遺體附近全是螞蟥,搜救犬身上多處遭到咬傷

映射生活的身影
2025-07-07 23:20:46
濟(jì)公爺爺開始帶貨,引發(fā)熱議!網(wǎng)友:人家走出來了,已經(jīng)出戲了…

濟(jì)公爺爺開始帶貨,引發(fā)熱議!網(wǎng)友:人家走出來了,已經(jīng)出戲了…

明月雜談
2025-07-07 18:57:38
警方最新通報(bào):南京紅老頭系38歲男子

警方最新通報(bào):南京紅老頭系38歲男子

微微熱評(píng)
2025-07-08 08:04:17
他們逃到文明國家捍衛(wèi)祖國的野蠻

他們逃到文明國家捍衛(wèi)祖國的野蠻

通往遠(yuǎn)方的路
2025-07-08 14:30:04
南京“紅老頭”事件引發(fā)疾病傳播擔(dān)憂,疾控部門介入:官方會(huì)采取措施

南京“紅老頭”事件引發(fā)疾病傳播擔(dān)憂,疾控部門介入:官方會(huì)采取措施

極目新聞
2025-07-08 12:27:18
男子因熱射病不幸走了!醫(yī)生提醒:高溫寧愿啃雪糕,也別干這些事

男子因熱射病不幸走了!醫(yī)生提醒:高溫寧愿啃雪糕,也別干這些事

逍遙史記
2025-07-05 10:38:05
美國宣布對(duì)烏23億美元新軍援,阿塞拜疆雇傭兵進(jìn)入烏克蘭對(duì)俄作戰(zhàn)

美國宣布對(duì)烏23億美元新軍援,阿塞拜疆雇傭兵進(jìn)入烏克蘭對(duì)俄作戰(zhàn)

史政先鋒
2025-07-07 13:32:23
2025-07-09 02:27:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10810文章數(shù) 142356關(guān)注度
往期回顧 全部

科技要聞

余承東回應(yīng)開車"睡覺":平生第一次去自首

頭條要聞

美媒問王毅外長會(huì)否在東亞外長會(huì)會(huì)見魯比奧 中方回應(yīng)

頭條要聞

美媒問王毅外長會(huì)否在東亞外長會(huì)會(huì)見魯比奧 中方回應(yīng)

體育要聞

17歲的朱正很好,但他救不了中國男籃

娛樂要聞

麻煩大了,鳳凰傳奇再次遭受“重創(chuàng)”

財(cái)經(jīng)要聞

新消費(fèi)浪潮下的資本敘事能持續(xù)嗎?

汽車要聞

遵循“極簡主義” 北京現(xiàn)代ELEXIO發(fā)布內(nèi)飾官圖

態(tài)度原創(chuàng)

健康
教育
手機(jī)
時(shí)尚
數(shù)碼

呼吸科專家破解呼吸道九大謠言!

教育要聞

真正的教育,是羞恥點(diǎn)燃自尊

手機(jī)要聞

蘋果全新自研 Wi-Fi 和藍(lán)牙芯片 Proxima 現(xiàn)身 iOS 18 代碼

顯瘦的夏日通勤搭配,復(fù)古又時(shí)髦!

數(shù)碼要聞

AIDA64 發(fā)布 7.70 正式版:首次支持 PCIe 7.0,提前支持 Zen 6

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 白玉县| 县级市| 鸡泽县| 博罗县| 马龙县| 荣成市| 古交市| 合水县| 常州市| 潼关县| 平凉市| 射阳县| 玉林市| 阳春市| 邵东县| 怀化市| 剑河县| 北流市| 商河县| 汤原县| 南汇区| 灯塔市| 浙江省| 永吉县| 阳原县| 陵水| 本溪| 泾川县| 平度市| 沽源县| 施甸县| 丽水市| 大兴区| 蒙自县| 儋州市| 望奎县| 宜良县| 舞钢市| 西乌珠穆沁旗| 庄浪县| 林州市|