99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

免剪輯直出!AI生成多角色同框對話視頻,動態路由精準綁定音頻

0
分享至


新智元報道

編輯:LRST

【新智元導讀】Bind-Your-Avatar是一個基于擴散Transformer(MM-DiT)的框架,通過細粒度嵌入路由將語音與角色綁定,實現精準的音畫同步,并支持動態背景生成。該框架還引入了首個針對多角色對話視頻生成的數據集MTCC和基準測試,實驗表明其在身份保真和音畫同步上優于現有方法。

近年來隨著視頻生成基礎模型的涌現,音頻驅動的說話人視頻生成領域也取得了顯著進展。

但現有方法主要聚焦于單角色場景,現有可生成兩個角色對話視頻的方法僅能單獨地生成兩個分離的說話人視頻。

針對這一挑戰,研究人員提出了首個專注同場景多角色說話視頻生成的框架Bind-Your-Avatar

該模型基于擴散Transformer(MM-DiT),通過細粒度的嵌入路由機制將「誰在說」與「說什么」綁定在一起,從而實現對音頻–角色對應關系的精確控制。


論文地址:https://arxiv.org/abs/2506.19833

項目地址:https://yubo-shankui.github.io/bind-your-avatar

作者同時構建了首個針對多角色對話視頻生成的完整數據集(MTCC)和評測基準,提供了端到端的數據處理流程。

大量實驗表明,Bind-Your-Avatar在多角色場景下生成效果優異,在人臉身份保真和音畫同步等指標上均顯著優于現有基線方法。



Bind-Your-Avatar

方法概覽

Bind-Your-Avatar基于一個多模態文本到視頻擴散Transformer(MM-DiT)搭建,模型輸入包括:文本提示、多路語音音頻流、多個角色的人臉參考圖像,以及(可選)一幀用于繪制背景的inpainting幀。

文本、音頻和人臉身份特征通過特征編碼器提取,并由Embedding路由引導的交叉注意力(Cross-Attention)將人臉和音頻信息選擇性地注入到視覺Token中,從而實現音畫同步性的關聯。


模型的訓練分為三個階段:第一階段只生成帶補全幀的靜音角色運動視頻(不使用音頻),第二階段加入單角色語音輸入學習音頻驅動的精細角色運動(通過LoRA輕量化微調),第三階段引入多角色語音輸入并聯合訓練Embedding路由(使用教師強制方法防止掩碼退化)。

細粒度Embedding路由引導的音頻–角色驅動

Embedding路由的作用輸出是一個時空掩碼矩陣M,用于指示每個視覺Token對應哪個角色(或背景),從而將說話人與具體語音綁定。

在訓練時,研究人員設計了交叉熵損失監督路由輸出,并結合幾何先驗引入時空一致性損失和層一致性損失,增強掩碼的準確性和平滑性。


論文中探討了三種路由實現方式:預去噪(Pre-Denoise,用靜態2D掩碼)、后去噪(Post-Denoise,兩階段生成后預測3D掩碼)以及內置去噪(Intra-Denoise)路由

Intra-Denoise路由在擴散去噪過程中動態生成細粒度3D時空掩碼,實現對各角色幀級獨立控制。這種設計不僅提升了音頻與對應角色口型的精度,還保持了角色身份的連貫性。


為了得到高質量的3D-mask,研究人員在路由的設計中提出了兩個有效的方法。其中,掩碼優化策略通過引入幾何先驗對掩碼進行正則化,提高了角色與背景區域分割的準確度和時序一致性;此外,研究人員還提出了一種掩碼細化流程,將初步預測的稀疏掩碼進行平滑和時間一致性校正,進一步增強掩碼質量。

MTCC數據集

為了支持多角色視頻生成,研究人員構建了MTCC數據集(Multi-Talking-Characters-Conversations),該數據集包含200+小時的多角色對話視頻。

數據處理流程包括:

視頻清洗(篩選分辨率、時長、幀率;確保視頻中恰有兩個清晰角色;姿態差異度過濾等)、音頻分離與同步篩選(使用AV-MossFormer和Sync-C指標確保音畫一致)、語音與文本標注(應用Wav2Vec提取音頻特征,QWen2-VL生成描述)以及SAM2生成角色區域掩碼作為監督信號。

MTCC附帶完整的開源處理代碼,為社區提供了從原始視頻到訓練數據的端到端流水線。

實驗與分析

定量分析

研究人員在MTCC測試集和全新基準集(Bind-Your-Avatar-Benchmark,含40組雙角色人臉和雙流音頻)上與多種基線方法進行了對比,包括最近的Sonic、Hallo3和Ingredients等。這些方法原本設計用于單角色或無背景場景,對本任務進行了適配。

定量指標涵蓋角色身份保持(Face Similarity)、音畫同步(Sync-C、Sync-D)以及視覺質量(FID、FVD)等。

結果表明,Bind-Your-Avatar在人臉相似度音畫同步度指標上均顯著優于各基線(同步指標尤其優異),而在FID/FVD等視覺質量指標上也保持競爭力。

消融實驗進一步驗證:細粒度3D掩碼比邊界框或靜態2D掩碼能更好地應對角色運動和近距離互動,提升了動態場景下的生成質量。


定性分析

Bind-Your-Avatar能自然處理多角色的交叉說話場景,同時生成統一、動態的背景,無需后期拼接。


例如,Bind-Your-Avatar能生成兩個角色同時講述不同內容的對話視頻,并保持每個角色的口型與對應語音高度同步,同時人物面部和表情逼真。


結語

Bind-Your-Avatar 首次提出了同場景多角色語音驅動視頻生成任務,并提供了從算法到數據集的完整解決方案。

其主要貢獻包括:細粒度Embedding路由機制(實現「誰在說什么」的精確綁定)、動態3D-mask路由設計(逐幀控制各角色),以及MTCC數據集和對應的多角色生成基準。

未來工作將聚焦于增強角色動作的真實感(如身體和手勢動作)并優化模型實時性能,以適應更大規模和在線化的多角色視頻生成需求。

研究人員后續將開源數據集和代碼,方便社區進一步研究。

參考資料:

https://arxiv.org/abs/2506.19833


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
黃仁勛35度穿皮衣?他說“只有一件西裝沒洗”,但明明很多大牌…

黃仁勛35度穿皮衣?他說“只有一件西裝沒洗”,但明明很多大牌…

商務范
2025-07-16 16:18:04
立訊精密的44萬股東,終于翻身了

立訊精密的44萬股東,終于翻身了

看財經show
2025-07-17 16:06:25
榮耀 Magic7 系列手機獲 MagicOS 9.0.0.182 升級

榮耀 Magic7 系列手機獲 MagicOS 9.0.0.182 升級

IT之家
2025-07-17 23:34:28
炸裂!獨生子留學后成女孩,媽媽崩潰想再生娃,爸爸寧愿他患絕癥

炸裂!獨生子留學后成女孩,媽媽崩潰想再生娃,爸爸寧愿他患絕癥

鋭娛之樂
2025-07-12 23:07:40
南美名記:奧索里奧是國足新帥候選,足協希望重點培養年輕球員

南美名記:奧索里奧是國足新帥候選,足協希望重點培養年輕球員

雷速體育
2025-07-17 21:27:30
情義江湖9:老韓的調查,加代算是仁義的

情義江湖9:老韓的調查,加代算是仁義的

金昔說故事
2025-07-17 08:46:41
明天起至22日,四川山東河北遼寧等局地有大暴雨! 青海遼寧等地致災氣象風險高

明天起至22日,四川山東河北遼寧等局地有大暴雨! 青海遼寧等地致災氣象風險高

魯中晨報
2025-07-17 16:28:57
東莞終于扛不住了又恢復了以前的娛樂模式實行“應批盡批”...

東莞終于扛不住了又恢復了以前的娛樂模式實行“應批盡批”...

林子說事
2025-07-16 13:52:53
米高道歉:從未有意冒犯任何人,承諾捐贈下一年薪水的20%-25%

米高道歉:從未有意冒犯任何人,承諾捐贈下一年薪水的20%-25%

直播吧
2025-07-17 15:38:23
多名院士提倡:年過60的老人,寧可在家看電視,也別出去做這幾事

多名院士提倡:年過60的老人,寧可在家看電視,也別出去做這幾事

白宸侃片
2025-07-17 17:34:39
男子情緒失控怒摔充電寶,機場立馬報警將其拘留5日

男子情緒失控怒摔充電寶,機場立馬報警將其拘留5日

映射生活的身影
2025-07-17 17:04:52
TVB花旦陳自瑤續任豐胸代言人!自爆升兩Cup!回應王浩信跳《大展鴻圖》油膩!

TVB花旦陳自瑤續任豐胸代言人!自爆升兩Cup!回應王浩信跳《大展鴻圖》油膩!

我愛追港劇
2025-07-16 23:04:35
NBA今夏補強最成功的6支球隊,湖人上榜,掘金獨一檔

NBA今夏補強最成功的6支球隊,湖人上榜,掘金獨一檔

大衛的籃球故事
2025-07-17 21:56:38
妻子生下三胞胎突然消失,父子四人苦尋千里,真相卻讓人崩潰!

妻子生下三胞胎突然消失,父子四人苦尋千里,真相卻讓人崩潰!

碎碎紀實
2025-04-24 19:05:07
朱孝天腸子都悔青?當年前腳帶李冰冰進酒店,后腳就說李冰冰主動

朱孝天腸子都悔青?當年前腳帶李冰冰進酒店,后腳就說李冰冰主動

洲洲影視娛評
2025-07-17 14:11:14
蔡琳和8歲兒子談心!想和前夫復婚對方有女友,眼神落寞嘴上很硬

蔡琳和8歲兒子談心!想和前夫復婚對方有女友,眼神落寞嘴上很硬

小咪侃娛圈
2025-07-09 13:27:12
不到倆月獲利上億!河南小伙靠假煙狂賺,投入200萬不到一周回本

不到倆月獲利上億!河南小伙靠假煙狂賺,投入200萬不到一周回本

特特農村生活
2025-07-17 03:37:47
萬梓良22歲兒子湖南參賽!脫胎換骨顏值逆天,撞臉TVB頂流小生

萬梓良22歲兒子湖南參賽!脫胎換骨顏值逆天,撞臉TVB頂流小生

熱鬧吃瓜大姐
2025-07-16 20:16:26
囂張男別停摩托后續:中聯重科連夜否認,身份曝光,已被行政拘留

囂張男別停摩托后續:中聯重科連夜否認,身份曝光,已被行政拘留

鋭娛之樂
2025-07-17 22:35:49
92歲游本昌直播帶貨被嘲吃相難看,會是下一個楊少華?真相來了!

92歲游本昌直播帶貨被嘲吃相難看,會是下一個楊少華?真相來了!

深析古今
2025-07-16 21:20:46
2025-07-18 02:08:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
13085文章數 66097關注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

遺產戰進入高潮 關鍵時刻"影子夫人"杜建英資金出狀況

頭條要聞

遺產戰進入高潮 關鍵時刻"影子夫人"杜建英資金出狀況

體育要聞

楊力維和楊舒予,是姐妹,也是戰友

娛樂要聞

又相信愛情了,董璇二婚現場照曝光!

財經要聞

杭州成立專班介入宗慶后遺產糾紛

汽車要聞

有望年內上市 奧迪A6L e-tron申報信息曝光

態度原創

本地
時尚
教育
健康
公開課

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調色盤?

宗氏家族爭產案,一個細節讓人反感

教育要聞

速看!多校公布錄取分數線!

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 高台县| 哈尔滨市| 三穗县| 喜德县| 方正县| 读书| 克拉玛依市| 务川| 卢湾区| 渝中区| 曲阜市| 高州市| 庄浪县| 墨脱县| 临桂县| 龙胜| 旬邑县| 南岸区| 巩留县| 雷波县| 察隅县| 新邵县| 乐陵市| 安福县| 友谊县| 怀柔区| 蓝田县| 资兴市| 湖口县| 香河县| 巴青县| 宁都县| 台湾省| 贵州省| 六安市| 鸡泽县| 思茅市| 邳州市| 罗平县| 正阳县| 萝北县|