網易首頁 > 網易號 > 正文申請入駐

人大聯合值得買科技在CVPR 2025提全新圖像到有聲視頻生成框架

2025-05-29 11:52:15　來源: 機器之心Pro

北京舉報

分享至

本文介紹工作由中國人民大學高瓴人工智能學院宋睿華團隊、李崇軒、許洪騰與值得買科技 AI 團隊共同完成。第一作者王希華是人大高瓴博士生（導師：宋睿華），他的研究興趣主要在多模態生成，之前提出利用音頻布局（audio layout）為視頻生成同步聲音的TiVA模型，已發表在MM 2024。宋睿華的團隊主要研究方向為多模態理解、生成與交互。

想象一下：只需一張靜態圖片，系統就能自動生成一段「動態的、有聲音的」的短視頻，畫面中的人或物做出自然動作變化的同時，也發出對應的聲音——比如小雞抬頭打鳴、手指按下快門并伴隨咔嚓聲，這正是「圖像轉有聲視頻（Image-to-Sounding-Video, I2SV）」的目標。

近日，來自中國人民大學高瓴人工智能學院與值得買科技 AI 團隊在 CVPR 2025 會議上發表了一項新工作，首次提出了一種從靜態圖像直接生成同步音視頻內容的生成框架。其核心設計 JointDiT（Joint Diffusion Transformer）框架實現了圖像 → 動態視頻 + 聲音的高質量聯合生成。

論文標題：Animate and Sound an Image
項目主頁：https://anonymoushub4ai.github.io/JointDiT

為什么圖像轉有聲視頻是「AI 多模態生成」的新藍海？

人類對世界的感知本質上是多模態的。視覺與聽覺作為最主要的感官通道，通常以協同互補的方式構建起完整的認知體驗——枝葉搖曳伴隨沙沙風聲，浪花飛濺伴隨潮汐轟鳴，這些視聽融合的場景不僅豐富了感官感受，也承載了我們對物理世界深層次的理解。

盡管近年來生成模型在單一模態的內容合成上已取得長足進展，如生成高保真的視頻畫面或自然的音頻片段，但視覺與聽覺這對天然耦合的模態，長期以來卻被拆分為兩條相對獨立的研究路徑，缺乏統一的建模機制。

最近，谷歌在其視頻生成模型 Veo 3 中引入了同步音頻的功能，讓視頻生成真正邁入「有聲時代」，成為行業關注的亮點。與這一趨勢不謀而合，本文首次提出并系統定義了圖像到有聲視頻生成（Image-to-Sounding-Video，I2SV）這一新任務：讓靜態圖像「動」起來的同時，生成與之語義匹配、時間同步的音頻內容。

雖然當前已有技術能夠分別實現從圖像生成視頻或音頻，但將兩者「拼接」在一起往往難以自然融合，常見的問題包括語義錯位與節奏失調：比如視頻中的小狗并未張嘴，卻配上了汪汪的叫聲；又或是吠叫的動作剛發生，聲音卻慢半拍甚至不協調。

圖像生成有聲視頻示例：上：圖生視頻（SVD）+ 圖生音頻（Im2Wav），下：本工作 JointDiT

因此，如何從一張圖片出發，生成同時具備視覺動態性與聽覺一致性的完整「視聽視頻」，成為多模態生成領域亟待突破的關鍵挑戰。

JointDiT：實現圖像 → 同步音視頻的聯合生成

任務定義：這項研究把圖像轉有聲視頻任務（I2SV）定義為：以靜態圖像作為輸入條件（并看作輸出視頻首幀），生成一個語義匹配、時序同步的「視頻 + 音頻」（有聲視頻）片段。

解決方案：論文提出了一種全新架構 JointDiT，探討了如何利用兩個強大的單模態預訓練擴散模型（一個視頻生成器，一個音頻生成器），在其上構建統一的聯合生成框架實現多模態協同生成。

其主要設計包括：

分解與重組預訓練模型，實現聯合生成框架

為了構建高效的圖像轉聲音視頻模型，JointDiT 采用了「重組 + 協同」的創新思路：首先，作者對預訓練的音頻和視頻擴散模型進行層級解構，將每個模型劃分為三大模塊：輸入層（負責模態嵌入）、專家層（模態內部理解與壓縮）、輸出層（解碼生成）。隨后，在兩個模態的專家層之間引入聯合注意力機制與前向模塊，形成核心的「Joint Block」，實現音視頻間的深層交互。最終，通過共享 Joint Block、獨立輸入輸出層的設計，JointDiT 在保持模態差異處理能力的同時，實現了真正協同的多模態生成，創新性地實現了從一張圖片直接生成同步音視頻內容。

引入感知式聯合注意力，精準建模跨模態互動

傳統的在全序列（音視頻序列）上應用自注意力機制（Full Attention）難以處理視頻與音頻在時間、空間、頻率維度上的異構差異。JointDiT 專為此設計了感知式聯合注意力機制（Perceiver Joint Attention），使用模態特定的 Query-Key-Value 映射，實現對視頻幀與音頻序列之間的細粒度互動建模，有效提升同步與語義一致性。

聯合引導機制，兼顧條件控制與模態協同

傳統的無分類器引導（classifier-free guidance, CFG）技術主要用于強化生成結果對條件的響應，同時抑制低質量輸出。但在多模態生成中，單純的條件對齊并不足以保障音視頻之間的深度協同。為此，JointDiT 提出聯合無分類器引導（JointCFG）及其增強版 JointCFG*，在保留圖像條件引導對齊的同時，強化了模型對跨模態之間交互的關注，進而提升了音視頻之間的語義一致性與時間同步性。該策略不僅優化了生成質量，還顯著增強了視頻的動態表現力。

實驗結果如何？高質量、高一致性！

研究團隊在三個標準數據集（AVSync15、Landscape 和 GreatestHits）上進行了大量測試，從視頻質量、音頻質量、同步性和語義一致性四個維度全面評估。

結果顯示，JointDiT 在視頻質量與音頻自然度方面均實現顯著提升，FVD、FAD 等核心指標全面優于基于 pipeline 組合的多階段方法。音視頻同步性表現優異，在自動評價指標上與當前最強的音頻驅動視頻生成模型持平。語義匹配也更為精準，視頻畫面與聲音的「含義」更加契合。

相比之下，諸如 CogVideoX、HunyuanVideo 等文本驅動的大模型，雖然具備強大的生成能力，但由于依賴圖片生成文本描述（caption）作為中介，過程中伴隨大量視覺信號丟失，導致最終畫面和輸入圖片匹配度（如 FVD、IB-IV 指標）表現不如直接采用圖像生成音視頻的 JointDiT。事實表明，直接建模圖像到音視頻的統一路徑，能更有效保留原始視覺信息，生成結果更加真實一致。

在用戶主觀打分測試中，JointDiT 在「視頻質量」、「音頻質量」、「語義一致性」、「同步性」與「整體效果」五項評分中均排名第一，領先第二名近 20%。

一張圖生成動態有聲視頻，背后竟有這么多玄機？

我們以四個生成案例為例（輸入圖像均作為視頻首幀）：

案例 1：手指演奏畫面中是一根手指搭在吹奏的小號上，生成的視頻中指頭輕微顫動，音頻同步響起清脆的撥弦音，仿佛看見了真實演奏。

案例 2：棍擊物體輸入圖像中，一只手正握著棍子對準物體。JointDiT 生成的視頻中，棍子精準敲擊目標，畫面同步傳來清脆的敲擊聲，聲音的質感還根據被敲物體的材質發生變化，真實自然，打擊感十足。

案例 3：保齡球擊瓶靜態圖中是一顆保齡球朝瓶子方向滾動。生成視頻中，保齡球沿軌道前行，撞擊瓶子時發出「砰」的撞擊聲，瓶子傾倒時伴隨一連串碰撞與倒地聲，整個過程視聽同步、節奏自然，細節豐富，極具臨場感。

案例 4：閃電雷鳴輸入圖像為烏云密布的天空。JointDiT 生成的視頻中，一道閃電劃破長空，緊接著傳來低沉有力的雷鳴聲，電光與聲響之間保留自然的時間延遲，模擬真實物理世界中的視聽順序，帶來逼真的沉浸式體驗。

結語與展望

JointDiT 的提出，不僅是一次生成技術的突破，更彰顯了 AI 向多模態統一建模演進的趨勢。它不僅可應用于娛樂內容創作、影視制作等實際場景，也為多模態通用模型乃至「世界模型」的研究提供了新的思路與啟發。接下來，研究團隊計劃將 JointDiT 擴展至圖像、文本、音頻、視頻四模態的聯合建模，為構建更通用、更智能的多模態生成系統奠定基礎。

未來，或許我們只需一張照片、一段文字，就能完整聽到看到它講述的故事。

如需了解更多技術細節與案例演示，請訪問官方 Demo 頁，論文、代碼和模型將近期公開，敬請期待！

文中視頻鏈接：https://www.jiqizhixin.com/articles/2025-05-29

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.