網易首頁 > 網易號 > 正文申請入駐

畫到哪，動到哪！字節跳動發布視頻生成「神筆馬良」ATI，已開源

2025-07-02 20:13:18　來源: 機器之心Pro

天津舉報

分享至

Angtian Wang 是字節跳動的研究員，研究方向包括視頻生成、3D 視覺、differentiable rendering。博士畢業于約翰霍普金斯（Johns Hopkins University）大學。師從 Dr. Alan Yuille。

近年來，隨著擴散模型（Diffusion Models）、Transformer 架構與高性能視覺理解模型的蓬勃發展，視頻生成任務取得了令人矚目的進展。從靜態圖像生成視頻的任務（Image-to-Video generation）尤其受到關注，其關鍵優勢在于：能夠以最小的信息輸入生成具有豐富時間連續性與空間一致性的動態內容。

然而，盡管生成質量不斷提升，當前主流方法普遍面臨一個關鍵瓶頸：缺乏有效、直觀、用戶友好的運動控制方式。

用戶在創作動態視頻時，往往具有明確的運動意圖，例如人物要往哪個方向奔跑、鏡頭如何推進拉遠、動物的跳躍軌跡等。但現有方法普遍依賴于預設模板、動作標簽或風格提示，缺少一種既自由又精準的方式來指定對象與攝像機的運動路徑。尤其是在存在多個主體或復雜場景交互的情況下，這種控制能力的缺失，極大限制了生成系統的創意表達能力與實際應用價值。

為了解決這一問題，字節跳動提出了ATI——一種全新的、以「軌跡為指令」的可控視頻生成框架。ATI 的核心理念是：將用戶在輸入圖像上手繪的任意軌跡，轉化為驅動物體與攝像機運動的顯式控制信號，并以統一的潛在空間建模方式注入視頻生成過程。這使得視頻創作從「參數調控」轉變為「可視化創意」，讓用戶「畫到哪，動到哪」，以直觀方式實現幀級精準控制。

Title：ATI: Any Trajectory Instruction for Controllable Video Generation
Paper：https://arxiv.org/pdf/2505.22944
Project page：https://anytraj.github.io/
Github：https://github.com/bytedance/ATI
Hugging Face：https://huggingface.co/bytedance-research/ATI
ComfyUI：https://github.com/kijai/ComfyUI-WanVideoWrapper

方法

ATI 接受兩個基本輸入：一張靜態圖像和一組用戶手繪軌跡。這些軌跡可以在圖像上自由繪制，支持任意形狀，包括直線、曲線、折線、回環乃至抽象形狀。ATI 通過高斯運動注入器（Gaussian Motion Injector）將這些軌跡編碼為潛在空間中的運動向量，再注入至擴散生成流程中，進而引導生成過程逐幀呈現對應的物體運動與視角變換。

如上圖所示，我們希望讓視頻生成模型「理解」用戶畫出的運動軌跡，并在后續幀里按照這條軌跡產生動作。為此，我們在模型的輸入特征空間上，對每一個軌跡點都注入一個「高斯權重」。使得模型就能在特征圖上「看到」一顆顆從時刻 0 到 t 按軌跡移動的小「亮點」，并在訓練中逐步理解輸入軌跡在輸入特征上和 denoise 生成視頻的關聯。

編碼圖像：先用一個「編碼器」把原始圖片轉換成一張低分辨率的特征圖。

采樣特征：對于軌跡的起始點，從特征圖上精確地（通過雙線性差值，保持小數位置精度）取出一個特征向量。

生成高斯權重：在每一幀，對應軌跡點的位置，都用一個小圓形「高斯」亮點去覆蓋周圍的像素，越靠近圓心的像素，權重越高。

注入特征：把起始點的特征向量，按照這些高斯權重「軟」地分配到特征圖上的鄰近區域，并在模型在生成視頻時輸入給模型。

這樣一來，當我們給生成器喂入圖像和這組「高斯掩碼+特征」，模型就能直觀地「看懂」在每一幀里，哪兒應該動、怎樣動，從而生成符合用戶手繪軌跡的連貫動畫效果。借助高斯運動注入器（Gaussian Motion Injector）與像素級通道拼接策略（Pixel-wise Channel Fusion），ATI 能夠統一控制對象級動作、局部身體部位運動與攝像機視角變化，無需切換模型或模塊結構，即可高效支持多目標、多風格、多任務的視頻生成需求。同時 ATI 支持多個視頻生成模型，可以在 Seaweed-7B 以及 Wan2.1-I2V-14B 等不同結構以及大小的模型上均有穩定的表現。

結果展示

用戶僅需在原圖上以手指或鼠標拖拽繪制任意軌跡，ATI 即可實時捕捉該軌跡路徑并將其注入擴散模型。借助高斯運動注入器，無論直線、曲線還是復雜回環，均能被轉化為連貫自然的動態視頻——畫到哪兒，動到哪兒。

在人物或動物肖像場景中，用戶可以指定奔跑、跳躍、揮臂等關鍵動作的軌跡。ATI 對每一幀中的關鍵點進行細粒度采樣與編碼，準確還原關節弧度與質心移動，生成符合生物力學規律的自然運動序列。

當場景包含多個目標時，ATI 最多可并行處理 8 條獨立軌跡。系統通過空間掩碼和通道分離策略，保證各對象身份信息互不干擾，從而呈現復雜群體互動時的連貫動態。

ATI 不僅支持對象級運動控制，還能同步驅動攝像機視角。用戶可在原圖上繪制推拉、平移、旋轉等鏡頭軌跡，將其與對象軌跡共同注入潛在空間，生成包含搖鏡、跟隨和俯仰等電影級鏡頭語言的視頻。

在同一推理過程中，物體與攝像機軌跡可同時注入，借助像素級通道拼接策略實現多條運動指令的無縫融合。系統無需模塊化切換，即可在潛在特征中并行呈現角色動作、群體互動與鏡頭切換，輸出豐富而連貫的動態敘事。

ATI 展示出良好的跨領域泛化能力，覆蓋寫實電影、卡通插畫、油畫質感、水彩渲染、游戲美術等多種藝術風格。通過更換參考圖與輸入軌跡，系統能夠在保留原始風格特征的基礎上生成對應的運動視頻，滿足多元化的應用需求。

用戶可在潛在空間中繪制超越物理邊界的軌跡，以生成飛天、伸縮、扭曲等非現實動作效果，為科幻或魔幻場景提供無限創意空間。

基于 Wan2.1-I2V-14B 的高精度模型，ATI 可生成與實拍媲美的視頻短片，精準還原面部表情、服飾材質與光影細節；同時提供輕量級 Seaweed-7B 版本，以滿足資源受限環境中的實時交互需求。

模型開源

目前，ATI 的 Wan2.1-I2V-14B 模型版本已在 Hugging Face 社區正式開源，為研究人員與開發者提供了高質量、可控的視頻生成能力。圍繞該模型的社區生態也在快速完善：Kijai開發的 ComfyUI-WanVideoWrapper 插件支持 FP8 量化模型（如 Wan2_1-I2V-ATI-14B_fp8_e4m3fn.safetensors），顯著降低顯存需求，方便在消費級 GPU 上進行推理部署。同時，Benji在 YouTube 發布的教學視頻《ComfyUI Wan 2.1 任意軌跡指令運動控制教程》為創作者提供了詳盡的實操指南。完整代碼與模型請參閱 GitHub（bytedance/ATI）及 Hugging Face 模型庫。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.