隨著人工智能技術的飛速發展,圖像到視頻(I2V)生成已成為藝術與科技融合的前沿領域。然而,現有方法在將靜態繪畫轉化為動態視頻時,仍面臨兩大核心挑戰:
(1)不動:現有模型無法準確解讀和執行文本提示中的運動指令,導致生成的視頻缺乏動態效果或完全靜止;
(2)亂動:模型在嘗試賦予靜態繪畫動態效果的過程中,可能會出現與原作品風格不符或破壞其完整性的現象。
針對上述難題,西安交通大學、合肥工業大學以及澳門大學的研究團隊聯合提出一個零訓練圖像轉視頻框架——“Every Painting Awakened”,成功實現靜態繪畫的動態化生成。
該技術不僅能讓靜態油畫根據提示文本動起來,更可精準保持原畫筆觸的微妙漸變,解決了藝術動畫領域長期存在的動態失真與風格偏離兩大難題。
論文標題: Every Painting Awakened: A Training-free Framework for Painting-to-Animation Generation 論文鏈接: https://arxiv.org/abs/2503.23736 項目主頁: https://painting-animation.github.io/animation/
Every Painting Awakened 示例 一、從靜態到動態:藝術動畫的終極挑戰
“Every Painting Awakened” 創新性地引入雙路徑分數蒸餾技術與混合潛在融合機制,突破性實現:
動態精準控制:通過預訓練圖像模型的文本-圖像對齊能力,將文本提示編碼進圖像域空間。
風格完美繼承:在潛在空間進行球面線性插值,確保動態化過程不損傷原作色彩、筆觸等藝術特征。
即插即用部署:無需額外訓練,可直接增強現有 I2V 模型。
Every Painting Awakened 架構
“Every Painting Awakened” 框架首先應用一個預先訓練的圖像模型從真實繪畫中生成一個代理圖像,代理圖像作為后續步驟的未來指導。隨后將雙路徑分數蒸餾采樣應用于真實繪畫和代理圖像,得到兩個更新的初始視頻潛在向量。
這兩個向量沿時間維度進行球形插值,以生成融合的潛在向量。該融合向量被用作 I2V 模型的輸入,用于視頻生成。
框架的核心技術主要集中在兩個方面:
1. 雙路徑得分蒸餾(Dual-path Score Distillation)
問題:靜態繪畫缺乏動態數據支撐,模型難以捕捉運動規律。
方案:構建雙路徑架構,從代理圖像中提取動態先驗,同時從真實繪畫中保留原畫靜態細節。
效果:既保證畫作風格的完整性,又為動態生成提供運動邏輯支持。
2. 混合潛在融合(Hybrid Latent Fusion)
問題:動態生成過程中,畫面過渡生硬或風格斷裂。
方案:在潛在空間中通過球面線性插值(Slerp)融合真實繪畫特征與代理圖像的動態特征。
效果:實現自然流暢的時序過渡,確保動態與靜態元素的和諧統一。
三、實驗結果
研究顯示,“Every Painting Awakened”不僅能夠大幅提升與文本提示語義上的契合度,同時也能忠實地保留原繪畫的獨特風格和完整性。
在各 I2V 基礎模型上的評估結果和消融實驗結果
AnimateAnything 模型上的示例
ConsistI2V 模型上的示例
Cinemo 模型上的示例 四、總結與未來方向
“Every Painting Awakened” 框架為數字藝術、影視特效等領域提供了高效工具。例如,博物館可將經典畫作轉化為動態展覽。當靜態藝術遇上動態 AI,技術與美學的邊界再次被突破。
這項研究不僅讓靜態繪畫“活”了起來,更以零訓練成本的優勢,為創意產業注入新動能。未來,研究將探索復雜場景推理優化,進一步提升長視頻生成的連貫性。
參考文獻
[1] Z. Dai, Z. Zhang, Y. Yao, B. Qiu, S. Zhu, L. Qin, W. Wang, Fine-grained opendomain image animation with motion guidance, arXiv (2023).
[2] W. Ren, H. Yang, G. Zhang, C. Wei, X. Du, W. Huang, W. Chen, Consisti2v: Enhancing visual consistency for image-to-video generation, Transactions on Machine Learning Research (TMLR) (2024).
[3] X. Ma, Y. Wang, G. Jia, X. Chen, Y.-F. Li, C. Chen, Y. Qiao, Cinemo: Consistentand controllable image animation with motion diffusion models, Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition (2025).
來源:公眾號【PaperWeekly】
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數智核心科技領域的新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.