字節 投稿
量子位 | 公眾號 QbitAI
僅基于一張參考圖像,生成主體保持高度一致的視頻,多人同臺也不串臉
字節發布多主體視頻生成神器——MAGREF(Masked Guidance for Any?Reference Video Generation)
比如,愛因斯坦版風馳電掣**摩托,效果be like:
牛頓縱情揮筆繪制大作:
提供一張圖靈的參考圖,也能生成動起來的全身視頻,人物面貌服飾在每一幀中保持高一致性,不會逐漸跑偏:
根據多樣文本提示,MAGREF可實現“一圖千面”:
無論輸入是誰、來自哪個時代、風格是否抽象,它都能精準復刻其身份特征,同時根據文本指令渲染出多變的動作、環境和光影氛圍。
重要的是,不僅是單一主體生成
MAGREF在不增加模型復雜度的前提下,通過引入掩碼引導與通道拼接機制,實現了對多樣參考圖像的統一處理能力。
無論是單人演繹、多人物互動,還是人物與物體、背景共同出現在畫面中,MAGREF都能生成身份穩定、結構一致、語義協調的視頻序列。
多人同臺不串臉,人物+物體+場景全控
在傳統視頻生成任務中,一旦涉及多個人物共同出現在鏡頭中,模型就容易出現身份混淆、面部融合、動作不協調等問題。MAGREF則打破了這一技術瓶頸。
下面多個示例中,兩人自拍、三位女孩喝飲料等復雜場景,全部是由MAGREF通過多張參考圖生成的完整視頻序列。
每一位角色的面貌、發型、神態與參考圖一致,表情自然,互動合理。
不論是兩人同框還是群體聯動,或是人物置于復雜背景中,MAGREF都能以統一結構精確建模,生成真實可信的多主體視頻。
另外,在圖像生成邁向視頻時代的過程中,想要同時控制人物身份、出現物體、背景語境三要素,是一項極具挑戰的任務。
而MAGREF展示了這一領域的嶄新能力邊界。
MAGREF只需輸入:一張人像圖、一張物體圖、一張環境參考圖和一段prompt,就能生成包含三類要素的完整視頻序列,人物與物體有真實交互,場景融入毫無違和感。
可以看到多種組合場景:
- 人與寵物共處草地、與貓嬉戲;
- 人物形象與服飾屬性一體生成,如黑色T恤、泳裝;
- 背景從綠地到寫字樓,從鄉村街景到東方園林,語義清晰且風格協調。
那MAGREF是如何做到的?
基于掩碼指導的的DiT視頻生成方案
首先,MAGREF采用了一個三階段數據處理流程,以構建高質量、結構清晰的視頻訓練樣本:
- 通用篩選與字幕生成:從原始視頻中切分出語義一致的片段,過濾低質量樣本,并為每段生成結構化文本。
- 主體提取與掩碼標注:通過標簽提取與語義分割識別出視頻中的關鍵物體(如動物、服飾、道具等),并進行后處理以獲得精準遮罩。
- 人臉識別與身份建模:檢測并分配視頻中人物身份,篩選高質量面部圖像用于參考圖構建,確保訓練過程中的身份一致性。
另外,MAGREF構建在DiT(Diffusion Transformer)架構之上,通過引入兩項關鍵機制——區域感知動態遮罩與像素級通道拼接,成功實現了一個統一模型適配單人、多人、人物與物體+背景混合 等復雜視頻生成任務的能力。
具體來說,MAGREF首先在生成空間中構建一塊空白畫布,將輸入的參考圖(可以是人臉、寵物、服飾、背景等)隨機排列其中。
隨后,模型為每張參考圖生成一張空間區域掩碼,指示該圖像在畫布中的語義位置。
這個區域感知動態遮罩機制可自動引導模型理解“誰控制哪一塊畫面”,使得在視頻生成中,即使參考圖數量和順序不同,系統也能保持結構一致、身份不串、關系明確。
為了進一步提升外觀細節保真度,MAGREF還采用了像素級通道拼接策略
將所有參考圖在特征維度上逐像素對齊拼接,避免傳統 token 拼接可能引發的圖像模糊或信息混疊問題。
該機制不僅增強了視覺一致性,也保持了生成結果對姿態、服飾、背景等細節的精準還原。
無需為不同任務單獨設計模型,MAGREF通過最小的架構改動和統一的訓練流程,全面支持多種參考圖配置,實現了強泛化性與高可控性的平衡。
總結來說,MAGREF作為一個統一的參考圖驅動視頻生成框架,具備高度的通用性和靈活性,適用于從個人內容創作到企業級生產的多種場景。
無論是通過一張自拍生成日常短片,還是合成多人互動的廣告腳本,又或是構建虛擬人與真實場景融合的數字影像,MAGREF都展現出極強的生成一致性與可控性。
展望未來,團隊計劃引入更先進的模型架構,進一步提升視頻的清晰度、運動連貫性與長時一致性。
同時,MAGREF將朝著統一多模態生成系統方向演進,結合多模態大語言模型(MLLM)在理解與視覺定位上的強大能力,實現視頻、音頻與文本的聯動生成。
這一擴展將使系統不僅能“看懂”圖文指令,還能“聽懂”“說出”場景語義,從而實現真正意義上的跨模態、協同一致的智能內容創作框架。
注:文中示例僅為展示模型效果。如有侵權或冒犯,請聯系論文作者,將及時刪除。
project: https://magref-video.github.io/magref.github.io/
code: https://github.com/MAGREF-Video/MAGREF
arXiv: https://arxiv.org/pdf/2505.23742
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.