智東西
作者 李水青
編輯 心緣
智東西5月15日報道,昨日晚間,阿里通義萬相團隊開源Wan2.1-VACE(Video All-in-one Creation and Editing model,視頻編輯與生成統一模型)。
這是目前業界功能最全的視頻生成與編輯模型。單一模型可同時支持文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時長延展等多種生成和編輯能力,并支持多任務組合生成。
例如,Wan2.1-VACE可將豎版《蒙娜麗莎》靜態圖擴展為橫版動態視頻,并為其“戴上”參考圖中的眼鏡,一次性完成畫幅擴展、時長延展和圖像參考三項任務。
該模型基于通義萬相V2.1基座訓練,本次共開源1.3B和14B兩個版本。其中1.3B版(輕量級)支持480P視頻輸出,可在消費級顯卡運行;14B版(滿血版)支持480P/720P,效果更優。
開發者可在GitHub、Huggingface及魔搭社區下載體驗,該模型還將逐步在通義萬相官網和阿里云百煉上線。
開源地址:
GitHub:https://github.com/Wan-Video/Wan2.1
HuggingFace:https://huggingface.co/Wan-AI
魔搭社區:https://www.modelscope.cn/organization/Wan-AI?tab=model
一、單一模型搞定視頻生成和編輯
Wan2.1-VACE定位為“視頻領域的全能模型”,支持全部主流輸入形式,涵蓋文本、圖像、視頻、Mask和控制信號,可以實現角色一致性、布局、運動姿態和幅度等要素的控制。
主要能力覆蓋了:
1.視頻重繪:支持通過景深、姿態、運動軌跡等多維度控制條件生成新視頻。
2.局部編輯:實現視頻對象的增刪改,例如擦除人物、替換物體(如熊貓變獅子)。
3.圖像參考生成:支持單圖/多圖作為主體或背景參考,例如將卡通形象與實景結合。
4.背景延展:自動擴展視頻畫幅(如橫屏變超寬屏),或生成新背景替換綠幕。
5.時長延展:支持在時域上的生成變化,如幀延續、片段延續、相接等。
6.基礎生成:基礎的文生視頻、圖生視頻、首尾幀等。
二、多任務組合,一次性完成視頻增刪改擴
Wan2.1-VACE的核心突破在于單模型支持多任務靈活組合處理,無需傳統多模型串聯的復雜工作流。
其支持任意基礎能力的自由組合,用戶無需針對特定功能訓練一個新的專家模型,即可完成更復雜的任務,極大地擴展了AI視頻生成的想象空間。
例如:在視頻中框選區域替換為貓,同時參考原視頻動作序列和新貓圖片,實現局部編輯+動作遷移。
這種靈活的組合機制,不僅大幅簡化創作流程,也極大拓展了 AI 視頻生成的創意邊界,例如:
組合圖片參考 + 主體重塑功能 → 視頻中物體替換
組合運動控制 + 首幀參考功能 → 靜態圖片的姿態控制
組合圖片參考 + 首幀參考 + 背景擴展 + 時長延展 → 將豎版圖拓展為橫屏視頻,并且在其中加入參考圖片中的元素。
三、模型亮點解讀:統一四大輸入,破解多模態難題
Wan2.1-VACE基于通義萬相文生視頻模型研發,同時創新性提出了全新的視頻條件單元 VCU,它在輸入形態上統一了文生視頻、參考圖生視頻、視頻生視頻、局部視頻生視頻4大類視頻生成和編輯任務。
視頻條件單元 VCU將多模態的各類上下文輸入,總結成了文本、幀序列、Mask序列三大形態,在輸入形式上統一了 4 類視頻生成與編輯任務的統一。VCU 的幀序列和Mask序列在數學上可以相互疊加,為多任務的自由組合創造條件。
同時,Wan2.1-VACE還進一步解決了多模態輸入的token序列化難題,將VCU輸入的幀序列進行概念解耦,分開重構成可變序列和不可變序列后進行編碼。
結語:視頻生成技術進化,從單任務向多任務組合邁進
通義萬相Wan2.1-VACE的推出,體現了視頻生成技術從單任務向多任務組合邁進的趨勢。其開源策略或有望降低AI視頻創作門檻,從而進一步推動生成式AI在影視、廣告等領域的應用。
自今年2月以來,通義萬相已先后開源文生視頻模型、圖生視頻模型和首尾幀生視頻模型,目前在開源社區的下載量已超330萬,在GitHub上斬獲超1.1w star,是同期最受歡迎的視頻生成模型。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.