網易首頁 > 網易號 > 正文申請入駐

免剪輯直出！AI生成多角色同框對話視頻，動態路由精準綁定音頻

2025-07-17 12:54:31　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】Bind-Your-Avatar是一個基于擴散Transformer（MM-DiT）的框架，通過細粒度嵌入路由將語音與角色綁定，實現精準的音畫同步，并支持動態背景生成。該框架還引入了首個針對多角色對話視頻生成的數據集MTCC和基準測試，實驗表明其在身份保真和音畫同步上優于現有方法。

近年來隨著視頻生成基礎模型的涌現，音頻驅動的說話人視頻生成領域也取得了顯著進展。

但現有方法主要聚焦于單角色場景，現有可生成兩個角色對話視頻的方法僅能單獨地生成兩個分離的說話人視頻。

針對這一挑戰，研究人員提出了首個專注同場景多角色說話視頻生成的框架Bind-Your-Avatar

該模型基于擴散Transformer（MM-DiT），通過細粒度的嵌入路由機制將「誰在說」與「說什么」綁定在一起，從而實現對音頻–角色對應關系的精確控制。

論文地址：https://arxiv.org/abs/2506.19833

項目地址：https://yubo-shankui.github.io/bind-your-avatar

作者同時構建了首個針對多角色對話視頻生成的完整數據集（MTCC）和評測基準，提供了端到端的數據處理流程。

大量實驗表明，Bind-Your-Avatar在多角色場景下生成效果優異，在人臉身份保真和音畫同步等指標上均顯著優于現有基線方法。

Bind-Your-Avatar

方法概覽

Bind-Your-Avatar基于一個多模態文本到視頻擴散Transformer（MM-DiT）搭建，模型輸入包括：文本提示、多路語音音頻流、多個角色的人臉參考圖像，以及（可選）一幀用于繪制背景的inpainting幀。

文本、音頻和人臉身份特征通過特征編碼器提取，并由Embedding路由引導的交叉注意力（Cross-Attention）將人臉和音頻信息選擇性地注入到視覺Token中，從而實現音畫同步性的關聯。

模型的訓練分為三個階段：第一階段只生成帶補全幀的靜音角色運動視頻（不使用音頻），第二階段加入單角色語音輸入學習音頻驅動的精細角色運動（通過LoRA輕量化微調），第三階段引入多角色語音輸入并聯合訓練Embedding路由（使用教師強制方法防止掩碼退化）。

細粒度Embedding路由引導的音頻–角色驅動

Embedding路由的作用輸出是一個時空掩碼矩陣M，用于指示每個視覺Token對應哪個角色（或背景），從而將說話人與具體語音綁定。

在訓練時，研究人員設計了交叉熵損失監督路由輸出，并結合幾何先驗引入時空一致性損失和層一致性損失，增強掩碼的準確性和平滑性。

論文中探討了三種路由實現方式：預去噪（Pre-Denoise，用靜態2D掩碼）、后去噪（Post-Denoise，兩階段生成后預測3D掩碼）以及內置去噪（Intra-Denoise）路由。

Intra-Denoise路由在擴散去噪過程中動態生成細粒度3D時空掩碼，實現對各角色幀級獨立控制。這種設計不僅提升了音頻與對應角色口型的精度，還保持了角色身份的連貫性。

為了得到高質量的3D-mask，研究人員在路由的設計中提出了兩個有效的方法。其中，掩碼優化策略通過引入幾何先驗對掩碼進行正則化，提高了角色與背景區域分割的準確度和時序一致性；此外，研究人員還提出了一種掩碼細化流程，將初步預測的稀疏掩碼進行平滑和時間一致性校正，進一步增強掩碼質量。

MTCC數據集

為了支持多角色視頻生成，研究人員構建了MTCC數據集（Multi-Talking-Characters-Conversations），該數據集包含200+小時的多角色對話視頻。

數據處理流程包括：

視頻清洗（篩選分辨率、時長、幀率；確保視頻中恰有兩個清晰角色；姿態差異度過濾等）、音頻分離與同步篩選（使用AV-MossFormer和Sync-C指標確保音畫一致）、語音與文本標注（應用Wav2Vec提取音頻特征，QWen2-VL生成描述）以及SAM2生成角色區域掩碼作為監督信號。

MTCC附帶完整的開源處理代碼，為社區提供了從原始視頻到訓練數據的端到端流水線。

實驗與分析

定量分析

研究人員在MTCC測試集和全新基準集（Bind-Your-Avatar-Benchmark，含40組雙角色人臉和雙流音頻）上與多種基線方法進行了對比，包括最近的Sonic、Hallo3和Ingredients等。這些方法原本設計用于單角色或無背景場景，對本任務進行了適配。

定量指標涵蓋角色身份保持（Face Similarity）、音畫同步（Sync-C、Sync-D）以及視覺質量（FID、FVD）等。

結果表明，Bind-Your-Avatar在人臉相似度和音畫同步度指標上均顯著優于各基線（同步指標尤其優異），而在FID/FVD等視覺質量指標上也保持競爭力。

消融實驗進一步驗證：細粒度3D掩碼比邊界框或靜態2D掩碼能更好地應對角色運動和近距離互動，提升了動態場景下的生成質量。

定性分析

Bind-Your-Avatar能自然處理多角色的交叉說話場景，同時生成統一、動態的背景，無需后期拼接。

例如，Bind-Your-Avatar能生成兩個角色同時講述不同內容的對話視頻，并保持每個角色的口型與對應語音高度同步，同時人物面部和表情逼真。

結語

Bind-Your-Avatar 首次提出了同場景多角色語音驅動視頻生成任務，并提供了從算法到數據集的完整解決方案。

其主要貢獻包括：細粒度Embedding路由機制（實現「誰在說什么」的精確綁定）、動態3D-mask路由設計（逐幀控制各角色），以及MTCC數據集和對應的多角色生成基準。

未來工作將聚焦于增強角色動作的真實感（如身體和手勢動作）并優化模型實時性能，以適應更大規模和在線化的多角色視頻生成需求。

研究人員后續將開源數據集和代碼，方便社區進一步研究。

參考資料：

https://arxiv.org/abs/2506.19833

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Transformer終結者！谷歌DeepMind全新MoR架構問世，新一代魔王來了

新智元 2025-07-17 12:54:17
6 跟貼 6
科學家將R1技術遷移到多模態領域，只需10條數據就能提升模型性能

DeepTech深科技 2025-03-05 18:08:03
0 跟貼 0

云計算一哥，剛剛重新定義了AI Agent的玩法

量子位 2025-07-17 15:26:31
1 跟貼 1

挖掘DiT位置解耦特性,Personalize Anything免訓練個性化圖像生成

機器之心Pro 2025-03-25 14:45:37
1 跟貼 1
全球最強開源「定理證明器」出世！十位華人核心，8B暴擊671B DeepSeek

新智元 2025-07-17 19:50:06
1 跟貼 1

你的模型評測搭子上線：Evaluation Agent懂你更懂AI

機器之心Pro 2025-07-17 19:07:55
0 跟貼 0

垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0

大學聯合會全球論壇召開《人工智能與教育未來》階段性成果研討會

中國高等教育學會 2025-07-17 21:27:40
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
有望成為Transformer殺手,谷歌DeepMind架構MoR實現兩倍推理速度

機器之心Pro 2025-07-17 13:08:14
0 跟貼 0
Transformer危！谷歌MoR架構發布：內存減半推理速度還翻倍

量子位 2025-07-17 17:22:15
2 跟貼 2
家長因女兒患惡性腫瘤致電動物園希望退年卡

澎湃新聞 2025-07-17 07:30:25
1214 跟貼 1214
全國一體化算力網探索與研究

通信世界 2025-04-23 15:02:10
0 跟貼 0
上海最貴？一碗面1588元，另收10%服務費，網友直呼：太瘋狂

環球網資訊 2025-07-16 09:10:08
13167 跟貼 13167
國產虛擬化逆襲時刻：新華三CAS以性能破局VMware替代潮

36氪 2025-07-16 17:44:25
1 跟貼 1
印度自豪地宣布，印軍大獲全勝，只用6架戰機代價，換回殲-10數據

谷火平 2025-07-15 06:07:43
21 跟貼 21
中國放榜，出三招GDP完勝美國！郭正亮曝一數據，川普傷不到中國

新時光點滴 2025-07-16 13:06:12
0 跟貼 0
河北邯鄲初中數學求值題，構造零零模型來解題！

三樂大掌柜 2025-07-17 07:48:11
2 跟貼 2
王楚欽奪冠被官方蓋章，官媒矩陣刷屏，國乒勝利成國家榮譽標桿！

煙雨洛神生 2025-07-17 01:10:24
4 跟貼 4
7月16日，上海網友發視頻稱，一群老人在麥當勞打牌。網友：用餐的人都沒地方坐。（編輯：琳琳）#麥當勞

中安在線 2025-07-17 11:55:36
9012 跟貼 9012
定位大六座純電，靜態體驗理想i8

閆闖說車 2025-07-17 10:30:00
11 跟貼 11
外媒：臺灣漢光41號演習持續推進？空警-500連飛數天全程數據監視

飽飽科普 2025-07-15 16:05:03
3 跟貼 3
王晶邀請向華強出演電影，為此還將角色臺詞表情全刪了

落凝綜藝 2025-07-16 11:04:18
0 跟貼 0
你知道馬東錫飾演的吉爾伽美什是怎樣的一個角色嗎

影帝俠 2025-07-16 20:30:07
1 跟貼 1
AI已成常態！今年1/5的Steam游戲用了生成式AI：激增近700%

快科技 2025-07-17 15:06:20
3 跟貼 3
印度成功獲得殲-10數據，以陣風換取五架戰機

一冰說法 2025-07-16 00:36:32
0 跟貼 0
日本算出中國戰機年產量，數據精確到個位數，殲20產能突然暴跌？

奇點使者 2025-07-17 19:17:23
0 跟貼 0
SR-72速度驚人，解放軍擔憂中國衛星追蹤其模型進展

蕭鮖記錄風土人情 2025-07-16 00:17:30
0 跟貼 0
如何給羊羔打疫苗，原來綁定工具張這樣，小羊被迫固定！

搞笑柒月 2025-07-17 13:39:27
1 跟貼 1
余杭多個小區自來水發臭市民超市搶購礦泉水官方回應：已處理

閃電新聞 2025-07-17 12:29:55
5321 跟貼 5321
沒有動力來源的模型飛機居然奇跡的載人飛了起來

酷啵追影 2025-07-16 17:27:56
1 跟貼 1
全系2.0T+9DCT，限時13.69萬起，靜態體驗哈弗猛龍燃油版

汽場汽車APP 2025-07-16 15:01:10
0 跟貼 0
調音師辛苦七八個小時，終于調好外放音效，內置效果還得遠程調試

阿東三農 2025-07-17 10:11:02
4 跟貼 4
魔獸懷舊服：HICC小怪削弱繼承，雙天賦出現BUG，0buff將持續四周

游戲農工 2025-07-18 00:44:50
2 跟貼 2
財政部調整超豪華小汽車消費稅政策

財聯社 2025-07-17 17:53:18
1593 跟貼 1593
浙江省政府印發通知：設立杭州職業技術大學和寧波職業技術大學

浙江發布 2025-07-17 16:26:58
107 跟貼 107
伊朗外長：感謝中方

環球時報 2025-07-17 10:34:38
102 跟貼 102
經濟大省半年報：廣東為何越來越好？

新快報新聞 2025-07-17 10:20:46
424 跟貼 424
中方公布一組恐怖數據，宣布關稅戰勝負，特朗普白打了

趙探長TALK 2025-07-17 17:22:10
0 跟貼 0

新智元

AI產業主平臺領航智能+時代

13085文章數 66097關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

時尚

教育

健康

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
你到底該和什么樣的人做朋友？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

免剪輯直出！AI生成多角色同框對話視頻，動態路由精準綁定音頻

沒有老黃不夸的中國公司了吧？？

遺產戰進入高潮 關鍵時刻"影子夫人"杜建英資金出狀況

遺產戰進入高潮 關鍵時刻"影子夫人"杜建英資金出狀況

楊力維和楊舒予，是姐妹，也是戰友

又相信愛情了，董璇二婚現場照曝光！

杭州成立專班介入宗慶后遺產糾紛

有望年內上市 奧迪A6L e-tron申報信息曝光

態度原創

換個城市過夏天 | 誰打翻了濰坊的調色盤？

宗氏家族爭產案，一個細節讓人反感

速看！多校公布錄取分數線！

呼吸科專家破解呼吸道九大謠言！

遺產戰進入高潮關鍵時刻"影子夫人"杜建英資金出狀況

遺產戰進入高潮關鍵時刻"影子夫人"杜建英資金出狀況

有望年內上市奧迪A6L e-tron申報信息曝光