99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

人大聯合值得買科技在CVPR 2025提全新圖像到有聲視頻生成框架

0
分享至




本文介紹工作由中國人民大學高瓴人工智能學院宋睿華團隊、李崇軒、許洪騰與值得買科技 AI 團隊共同完成。第一作者王希華是人大高瓴博士生(導師:宋睿華),他的研究興趣主要在多模態生成,之前提出利用音頻布局(audio layout)為視頻生成同步聲音的TiVA模型,已發表在MM 2024。宋睿華的團隊主要研究方向為多模態理解、生成與交互。

想象一下:只需一張靜態圖片,系統就能自動生成一段「動態的、有聲音的」的短視頻,畫面中的人或物做出自然動作變化的同時,也發出對應的聲音——比如小雞抬頭打鳴、手指按下快門并伴隨咔嚓聲,這正是「圖像轉有聲視頻(Image-to-Sounding-Video, I2SV)」的目標。

近日,來自中國人民大學高瓴人工智能學院與值得買科技 AI 團隊在 CVPR 2025 會議上發表了一項新工作,首次提出了一種從靜態圖像直接生成同步音視頻內容的生成框架。其核心設計 JointDiT(Joint Diffusion Transformer)框架實現了圖像 → 動態視頻 + 聲音的高質量聯合生成。



  • 論文標題:Animate and Sound an Image
  • 項目主頁:https://anonymoushub4ai.github.io/JointDiT

為什么圖像轉有聲視頻是「AI 多模態生成」的新藍海?

人類對世界的感知本質上是多模態的。視覺與聽覺作為最主要的感官通道,通常以協同互補的方式構建起完整的認知體驗——枝葉搖曳伴隨沙沙風聲,浪花飛濺伴隨潮汐轟鳴,這些視聽融合的場景不僅豐富了感官感受,也承載了我們對物理世界深層次的理解。

盡管近年來生成模型在單一模態的內容合成上已取得長足進展,如生成高保真的視頻畫面或自然的音頻片段,但視覺與聽覺這對天然耦合的模態,長期以來卻被拆分為兩條相對獨立的研究路徑,缺乏統一的建模機制。

最近,谷歌在其視頻生成模型 Veo 3 中引入了同步音頻的功能,讓視頻生成真正邁入「有聲時代」,成為行業關注的亮點。與這一趨勢不謀而合,本文首次提出并系統定義了圖像到有聲視頻生成(Image-to-Sounding-Video,I2SV)這一新任務:讓靜態圖像「動」起來的同時,生成與之語義匹配、時間同步的音頻內容。

雖然當前已有技術能夠分別實現從圖像生成視頻或音頻,但將兩者「拼接」在一起往往難以自然融合,常見的問題包括語義錯位與節奏失調:比如視頻中的小狗并未張嘴,卻配上了汪汪的叫聲;又或是吠叫的動作剛發生,聲音卻慢半拍甚至不協調。





圖像生成有聲視頻示例:上:圖生視頻(SVD)+ 圖生音頻(Im2Wav),下:本工作 JointDiT

因此,如何從一張圖片出發,生成同時具備視覺動態性與聽覺一致性的完整「視聽視頻」,成為多模態生成領域亟待突破的關鍵挑戰。

JointDiT:實現圖像 → 同步音視頻的聯合生成

任務定義:這項研究把圖像轉有聲視頻任務(I2SV)定義為:以靜態圖像作為輸入條件(并看作輸出視頻首幀),生成一個語義匹配、時序同步的「視頻 + 音頻」(有聲視頻)片段。

解決方案:論文提出了一種全新架構 JointDiT,探討了如何利用兩個強大的單模態預訓練擴散模型(一個視頻生成器,一個音頻生成器),在其上構建統一的聯合生成框架實現多模態協同生成。

其主要設計包括:

分解與重組預訓練模型,實現聯合生成框架

為了構建高效的圖像轉聲音視頻模型,JointDiT 采用了「重組 + 協同」的創新思路:首先,作者對預訓練的音頻和視頻擴散模型進行層級解構,將每個模型劃分為三大模塊:輸入層(負責模態嵌入)、專家層(模態內部理解與壓縮)、輸出層(解碼生成)。隨后,在兩個模態的專家層之間引入聯合注意力機制與前向模塊,形成核心的「Joint Block」,實現音視頻間的深層交互。最終,通過共享 Joint Block、獨立輸入輸出層的設計,JointDiT 在保持模態差異處理能力的同時,實現了真正協同的多模態生成,創新性地實現了從一張圖片直接生成同步音視頻內容。



引入感知式聯合注意力,精準建模跨模態互動

傳統的在全序列(音視頻序列)上應用自注意力機制(Full Attention)難以處理視頻與音頻在時間、空間、頻率維度上的異構差異。JointDiT 專為此設計了感知式聯合注意力機制(Perceiver Joint Attention),使用模態特定的 Query-Key-Value 映射,實現對視頻幀與音頻序列之間的細粒度互動建模,有效提升同步與語義一致性。

聯合引導機制,兼顧條件控制與模態協同

傳統的無分類器引導(classifier-free guidance, CFG)技術主要用于強化生成結果對條件的響應,同時抑制低質量輸出。但在多模態生成中,單純的條件對齊并不足以保障音視頻之間的深度協同。為此,JointDiT 提出聯合無分類器引導(JointCFG)及其增強版 JointCFG*,在保留圖像條件引導對齊的同時,強化了模型對跨模態之間交互的關注,進而提升了音視頻之間的語義一致性與時間同步性。該策略不僅優化了生成質量,還顯著增強了視頻的動態表現力。



實驗結果如何?高質量、高一致性!





研究團隊在三個標準數據集(AVSync15、Landscape 和 GreatestHits)上進行了大量測試,從視頻質量、音頻質量、同步性和語義一致性四個維度全面評估。

結果顯示,JointDiT 在視頻質量與音頻自然度方面均實現顯著提升,FVD、FAD 等核心指標全面優于基于 pipeline 組合的多階段方法。音視頻同步性表現優異,在自動評價指標上與當前最強的音頻驅動視頻生成模型持平。語義匹配也更為精準,視頻畫面與聲音的「含義」更加契合。

相比之下,諸如 CogVideoX、HunyuanVideo 等文本驅動的大模型,雖然具備強大的生成能力,但由于依賴圖片生成文本描述(caption)作為中介,過程中伴隨大量視覺信號丟失,導致最終畫面和輸入圖片匹配度(如 FVD、IB-IV 指標)表現不如直接采用圖像生成音視頻的 JointDiT。事實表明,直接建模圖像到音視頻的統一路徑,能更有效保留原始視覺信息,生成結果更加真實一致。



在用戶主觀打分測試中,JointDiT 在「視頻質量」、「音頻質量」、「語義一致性」、「同步性」與「整體效果」五項評分中均排名第一,領先第二名近 20%。

一張圖生成動態有聲視頻,背后竟有這么多玄機?

我們以四個生成案例為例(輸入圖像均作為視頻首幀):

案例 1:手指演奏畫面中是一根手指搭在吹奏的小號上,生成的視頻中指頭輕微顫動,音頻同步響起清脆的撥弦音,仿佛看見了真實演奏。



案例 2:棍擊物體輸入圖像中,一只手正握著棍子對準物體。JointDiT 生成的視頻中,棍子精準敲擊目標,畫面同步傳來清脆的敲擊聲,聲音的質感還根據被敲物體的材質發生變化,真實自然,打擊感十足。



案例 3:保齡球擊瓶靜態圖中是一顆保齡球朝瓶子方向滾動。生成視頻中,保齡球沿軌道前行,撞擊瓶子時發出「砰」的撞擊聲,瓶子傾倒時伴隨一連串碰撞與倒地聲,整個過程視聽同步、節奏自然,細節豐富,極具臨場感。



案例 4:閃電雷鳴輸入圖像為烏云密布的天空。JointDiT 生成的視頻中,一道閃電劃破長空,緊接著傳來低沉有力的雷鳴聲,電光與聲響之間保留自然的時間延遲,模擬真實物理世界中的視聽順序,帶來逼真的沉浸式體驗。



結語與展望

JointDiT 的提出,不僅是一次生成技術的突破,更彰顯了 AI 向多模態統一建模演進的趨勢。它不僅可應用于娛樂內容創作、影視制作等實際場景,也為多模態通用模型乃至「世界模型」的研究提供了新的思路與啟發。接下來,研究團隊計劃將 JointDiT 擴展至圖像、文本、音頻、視頻四模態的聯合建模,為構建更通用、更智能的多模態生成系統奠定基礎。

未來,或許我們只需一張照片、一段文字,就能完整聽到看到它講述的故事。

如需了解更多技術細節與案例演示,請訪問官方 Demo 頁,論文、代碼和模型將近期公開,敬請期待!

文中視頻鏈接:https://www.jiqizhixin.com/articles/2025-05-29

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
法網全亂了,又一個大滿貫冠軍被淘汰出局,中國金花強勢晉級

法網全亂了,又一個大滿貫冠軍被淘汰出局,中國金花強勢晉級

極度說球
2025-05-29 23:04:09
550萬在美華人數據全公開,88%中國籍博士留在美國!

550萬在美華人數據全公開,88%中國籍博士留在美國!

霹靂炮
2025-05-29 23:14:55
人保集團財會部總經理瞿棟開會期間突發心梗離世,終年55歲

人保集團財會部總經理瞿棟開會期間突發心梗離世,終年55歲

魯中晨報
2025-05-29 19:09:47
緊急提醒!35℃+雨雨雨+7級大風即將殺到天津!華北地區將再迎冰雹?更可怕的是···

緊急提醒!35℃+雨雨雨+7級大風即將殺到天津!華北地區將再迎冰雹?更可怕的是···

天津生活通
2025-05-30 13:04:54
在外企常看到的“BP”是什么意思啊?

在外企常看到的“BP”是什么意思啊?

實習僧
2025-05-12 10:43:45
法醫女博士在烤肉店用餐,嘗到肉后便趕快放下筷子報警:這是人肉

法醫女博士在烤肉店用餐,嘗到肉后便趕快放下筷子報警:這是人肉

懸案解密檔案
2025-05-27 10:08:53
終結安洗瑩27連勝,陳雨菲用勝利回應質疑:我有能力與她抗衡

終結安洗瑩27連勝,陳雨菲用勝利回應質疑:我有能力與她抗衡

文匯報
2025-05-30 15:08:34
400年前明代狀元試卷展出,全文2460字工整如同印刷,高考前預約參觀火爆

400年前明代狀元試卷展出,全文2460字工整如同印刷,高考前預約參觀火爆

福州晚報
2025-05-30 08:08:20
意外!上海嘉定匯龍官宣老帥下課,球迷推薦俱樂部可以試試謝暉

意外!上海嘉定匯龍官宣老帥下課,球迷推薦俱樂部可以試試謝暉

我就愛說足球
2025-05-30 11:19:21
中方在中業島突然動真格!菲律賓呼叫北約增援,5國艦隊將抵南海

中方在中業島突然動真格!菲律賓呼叫北約增援,5國艦隊將抵南海

說天說地說實事
2025-05-26 21:18:08
全國跳水冠軍賽收官,廣東隊在領獎臺大合照,嬋寶恩師何威儀也在

全國跳水冠軍賽收官,廣東隊在領獎臺大合照,嬋寶恩師何威儀也在

妙知
2025-05-30 10:50:47
剛剛,何伯何太同時被捕......

剛剛,何伯何太同時被捕......

港你知
2025-05-30 13:06:44
魔獸懷舊服:國服首把橙斧問世,懲戒騎傷害爆表,99分大佬被斷層

魔獸懷舊服:國服首把橙斧問世,懲戒騎傷害爆表,99分大佬被斷層

胖哥游戲說
2025-05-30 13:32:47
法網誕生慘案!2大種子爆冷出局,連吞0-6慘敗!中國金花連傳捷報

法網誕生慘案!2大種子爆冷出局,連吞0-6慘敗!中國金花連傳捷報

知軒體育
2025-05-30 01:17:59
128合1卡帶中最垃圾的FC游戲,如今卻是無數玩家的遺憾

128合1卡帶中最垃圾的FC游戲,如今卻是無數玩家的遺憾

街機時代
2025-05-29 18:35:03
陰云密布下,美國領館簽證見聞

陰云密布下,美國領館簽證見聞

城市的地得
2025-05-29 15:05:31
屈海燕,認罪悔罪

屈海燕,認罪悔罪

新京報
2025-05-29 17:55:17
59元/位,為什么吃不垮牛肋條自助?

59元/位,為什么吃不垮牛肋條自助?

IC實驗室
2025-05-30 14:23:46
這世界太瘋狂!上海一女子2個月被騙2548萬,平均每天被騙42.47萬

這世界太瘋狂!上海一女子2個月被騙2548萬,平均每天被騙42.47萬

火山詩話
2025-05-29 05:50:21
中國造了300架殲-16,戰力遠超殲-10C,為啥一架都沒外銷?

中國造了300架殲-16,戰力遠超殲-10C,為啥一架都沒外銷?

科羅廖夫
2025-05-29 14:50:00
2025-05-30 17:24:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10560文章數 142329關注度
往期回顧 全部

科技要聞

榮耀新CEO放話:下半年重返前三,靠譜嗎?

頭條要聞

銷量承壓下寶馬重回"價格戰" 5系裸車價最低跌至26萬

頭條要聞

銷量承壓下寶馬重回"價格戰" 5系裸車價最低跌至26萬

體育要聞

當我終于回國時,可能已認不出我的家

娛樂要聞

趙麗穎新劇撲街?演技扛劇能力遭質疑

財經要聞

美國政府殺瘋了,全世界目瞪口呆

汽車要聞

可城能野更智能 猛士M817把硬派SUV玩出花

態度原創

家居
游戲
健康
藝術
手機

家居要聞

原木純白 邂逅自然本真

系列制作人:《真三國無雙》在西方仍然不能算成功

唇皰疹和口腔潰瘍是"同伙"嗎?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

華為Pura 80系列即將官宣 博主:視頻拍攝強得可怕

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 定西市| 兴海县| 德格县| 泸溪县| 迭部县| 永善县| 噶尔县| 沾化县| 江孜县| 固安县| 枣阳市| 沙田区| 齐齐哈尔市| 阿城市| 福鼎市| 彰武县| 丹东市| 十堰市| 沙坪坝区| 荔波县| 长春市| 新泰市| 富顺县| 易门县| 大庆市| 湖州市| 泰宁县| 德化县| 密云县| 高清| 武安市| 雅安市| 五指山市| 丹棱县| 松原市| 汾阳市| 大埔区| 治县。| 罗城| 三原县| 临高县|