99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

夸克、浙大開源OmniAvatar,一張圖+一段音,就能生成長視頻

0
分享至



近期,夸克技術團隊和浙江大學聯合開源了OmniAvatar,這是一個創新的音頻驅動全身視頻生成模型,只需要輸入一張圖片和一段音頻,OmniAvatar即可生成相應視頻,且顯著提升了畫面中人物的唇形同步細節和全身動作的流暢性。此外,還可通過提示詞進一步精準控制人物姿勢、情緒、場景等要素。

OmniAvatar已開源:

  • Model:https://huggingface.co/OmniAvatar/OmniAvatar-14B
  • Code:https://github.com/Omni-Avatar/OmniAvatar
  • Arxiv:https://arxiv.org/abs/2506.18866
  • Project Page:https://omni-avatar.github.io/

以下,是OmniAvatar在播客、唱歌、交互、動態背景等場景下的部分案例。



實驗表明,OmniAvatar在唇形同步、面部及半身視頻生成、文本控制等多個維度上,均取得領先表現,并更好地平衡了視頻質量、準確度、審美三要素。





此外,OmniAvatar專門針對長視頻生成進行了優化,可以更好地保持人物一致性和時間連貫性。

模型能力

圖片+音頻=全身視頻

當前,音頻驅動人體運動的技術已取得顯著進展,但大多數方法仍集中在面部運動,缺乏全身驅動的能力,且難以進行精確的提示詞控制。

OmniAvatar以Wan2.1-T2V-14B為基礎模型,利用LoRA方法進行微調,有效地引入了音頻特征。這種結合不僅保留了Wan2.1-T2V-14B在視頻生成方面的強大能力,還提高了模型對音頻輸入的適應性和生成質量。



OmniAvatar架構圖

接下來,我們將通過一些具體案例,更詳細地展示模型在多種場景下的能力。

OmniAvatar能夠根據輸入的音頻和提示詞,生成虛擬人物視頻,其中,人物的唇形運動與音頻內容吻合,場景則反映了提示詞內容:

通過調整提示詞,還可實現對人物情緒的精確控制:

在帶有鏡頭運動的場景中,OmniAvatar仍能夠保持面部、動作和背景的自然流暢,展現了模型在動態場景下的強大適應能力:

對于長視頻生成,OmniAvatar通過參考圖像嵌入策略和幀重疊技術,確保了視頻的連貫性和人物身份的一致性:

像素級多層次音頻嵌入策略

精準唇部運動+自然肢體動作

大多數現有方法通常依賴交叉注意力機制來引入音頻特征,雖然效果良好,但會引入大量額外的計算開銷,并且容易過度關注音頻與面部特征之間的關系。

針對這一問題,團隊提出了一種基于像素的音頻嵌入策略,使音頻特征可以直接在模型的潛在空間中以像素級的方式融入。通過這一方法,不僅可以自然地將唇部運動與音頻內容對齊,還能夠確保音頻信息在整個視頻像素中均勻分布,從而使模型生成更協調、更自然的身體動作來匹配音頻。

該策略首先使用Wav2Vec2模型提取音頻特征,然后對這些特征進行分組打包和壓縮,再通過音頻打包模塊映射到視頻的潛在空間中。



接下來,為了確保模型在深層網絡中能有效地學習和保留音頻特征,OmniAvatar采用了一種多層級音頻嵌入策略,將音頻信息嵌入到DiT模塊的不同階段中。為防止音頻特征對潛在空間產生過度干擾,音頻嵌入僅應用于模型的第二層至中間層之間的模塊 。此外,這些層的權重不共享,使模型能夠在不同層次上保持獨立的學習路徑。

基于LoRA的優化策略

平衡微調,兼顧質量與細節

目前,針對音頻條件擴散模型的方法主要遵循兩種策略:一種是訓練完整的模型,另一種是僅微調特定層。

在進行完整訓練時,團隊發現更新所有層反而會導致模型生成的連貫性和視頻質量下降。具體來看,由于模型過度擬合人類語音數據集,導致泛化能力差,容易生成不切實際或靜態的內容,難以捕捉細節。但另一方面,僅微調和音頻特征相關的層會導致音頻和視頻之間的對齊效果差,唇形同步性能受損。



效果對比

為了解決這些挑戰,團隊提出了一種基于LoRA的平衡微調策略。該策略不同于以上兩種方法,而是使用LoRA策略高效地適應模型。LoRA通過在注意力和前向傳播(FFN)層的權重更新中引入低秩矩陣,使模型能夠在不改變底層模型容量的情況下學習音頻特征。

長視頻生成

身份保留+時間一致性

長視頻連續生成是音頻驅動視頻生成的難點,也是一項關鍵挑戰。為此,團隊提出了參考圖嵌入和重疊幀策略,以實現人物的身份保留和時間一致性。



代碼示例

身份保留。OmniAvatar引入了一個參考幀,作為人物身份的固定指導。具體來看,首先需提取參考幀的潛在表示;然后將這些表示多次重復,使其長度與視頻幀數匹配;接下來,再在每個時間步,將這個重復的參考幀潛在表示與視頻潛在表示進行連接。因此,通過參考幀設計,可有效錨定人物身份,確保在整個長視頻序列中的人物一致性。

時間一致性。為了實現無縫的視頻連續性,OmniAvatar采用了一種潛在重疊策略。首先,在訓練時使用單幀和多幀前綴潛在變量的組合進行訓練;其次,在推理過程中,對于第一批的幀,參考幀既作為前綴潛在變量,又作為身份指導;對于后續批次,則用前一組的最后幀作為潛在變量,參考幀仍保持固定用作身份指導。

One More Thing

OmniAvatar是團隊在多模態視頻生成上的初步嘗試,并在實驗數據集上得到了初步驗證,但尚未達到產品級應用水平。未來,團隊還將在復雜指令處理能力、多角色交互等方面進一步探索,擴大模型在更多場景中的應用。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
洪森:不想打了,快停火

洪森:不想打了,快停火

寰宇大觀察
2025-07-26 11:24:39
吃他汀猝死的人增多!鐘南山反復叮囑:天熱吃他汀,這7點要注意

吃他汀猝死的人增多!鐘南山反復叮囑:天熱吃他汀,這7點要注意

華庭講美食
2025-07-26 15:07:10
關于基孔肯雅熱病毒!張文宏首次發聲

關于基孔肯雅熱病毒!張文宏首次發聲

第一財經資訊
2025-07-26 14:47:43
AC米蘭4-2利物浦 萊奧傳射奧卡福雙響索博吊射利物浦后防送禮

AC米蘭4-2利物浦 萊奧傳射奧卡福雙響索博吊射利物浦后防送禮

直播吧
2025-07-26 21:36:14
馬拉松小姐姐不滿男友狀態,買10盒西地那非,嚇得男友跑路分手

馬拉松小姐姐不滿男友狀態,買10盒西地那非,嚇得男友跑路分手

扮貓騎老虎
2025-07-26 16:35:29
懂車帝確實懂車,但是不懂規矩

懂車帝確實懂車,但是不懂規矩

美芳
2025-07-25 22:18:55
俄軍第20近衛集團軍爆發嘩變,士兵槍殺指揮官,精銳部隊為何兵變

俄軍第20近衛集團軍爆發嘩變,士兵槍殺指揮官,精銳部隊為何兵變

暮光視界
2025-07-25 15:25:13
女飛行員劉憶北錄取事件發酵,說話凸牙眼鏡斜,女承父業惹人質疑

女飛行員劉憶北錄取事件發酵,說話凸牙眼鏡斜,女承父業惹人質疑

四斤
2025-07-25 11:21:55
突發!老撾加入對柬埔寨的打擊

突發!老撾加入對柬埔寨的打擊

Ck的蜜糖
2025-07-26 13:51:47
疫情已外溢,多地出現基孔肯雅熱病例;上海最新情況通報,張文宏首次發聲

疫情已外溢,多地出現基孔肯雅熱病例;上海最新情況通報,張文宏首次發聲

上觀新聞
2025-07-26 17:15:02
太悲痛了!東北大學遇難者的母親來接孩子了,她們的淚水早已哭干

太悲痛了!東北大學遇難者的母親來接孩子了,她們的淚水早已哭干

火山詩話
2025-07-26 06:01:01
佛山確診病例超4000!山東疾控提醒→

佛山確診病例超4000!山東疾控提醒→

魯中晨報
2025-07-26 15:42:02
臉都不要了,但還是低估了他們的無恥

臉都不要了,但還是低估了他們的無恥

胖胖說他不胖
2025-07-26 16:25:01
49歲梅婷夜店熱舞火了!帶孩子、家務都不會,卻被2婚老公寵上天

49歲梅婷夜店熱舞火了!帶孩子、家務都不會,卻被2婚老公寵上天

文藝館
2025-07-25 20:29:10
泰軍集束彈藥暴打柬軍,已打死100人,柬埔寨四處求救

泰軍集束彈藥暴打柬軍,已打死100人,柬埔寨四處求救

史政先鋒
2025-07-26 11:55:09
突發!老柬邊境爆發激烈交火!泰柬交火第三天,泰國向中美俄等26國發函!泰國承認使用了集束彈,并稱“可能開戰”,此前佩通坦含淚發聲

突發!老柬邊境爆發激烈交火!泰柬交火第三天,泰國向中美俄等26國發函!泰國承認使用了集束彈,并稱“可能開戰”,此前佩通坦含淚發聲

每日經濟新聞
2025-07-26 14:53:54
前NBA球員阿里扎宣布破產,生涯總薪資1.16億美元

前NBA球員阿里扎宣布破產,生涯總薪資1.16億美元

懂球帝
2025-07-26 15:56:14
打起來了,大批以色列軍官被斬首,以總理誓言復仇,特朗普大怒

打起來了,大批以色列軍官被斬首,以總理誓言復仇,特朗普大怒

議紀史
2025-07-25 23:20:03
炸裂!健身房女人都是“不穿內褲”的嗎?

炸裂!健身房女人都是“不穿內褲”的嗎?

馬拉松跑步健身
2025-07-26 14:13:08
釋永信被調查風波:袈裟下的商業帝國

釋永信被調查風波:袈裟下的商業帝國

無忌財談
2025-07-26 21:38:54
2025-07-27 00:31:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10954文章數 142394關注度
往期回顧 全部

科技要聞

AI教父辛頓現身上海:人類如何不被AI殺掉

頭條要聞

佩通坦再發聲:雖無法履行總理職責 但一直在聽取匯報

頭條要聞

佩通坦再發聲:雖無法履行總理職責 但一直在聽取匯報

體育要聞

楊瀚森效力NBA期間 青島男籃將暫存球隊15號球衣

娛樂要聞

董璇首談保釋前夫細節!高云翔突然不回消息

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

"得房率"超90% 全新嵐圖知音空間信息曝光

態度原創

親子
旅游
房產
家居
公開課

親子要聞

免費學前教育要來了!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

分數線集體飆漲!海中867分!2025海南中招格局大變!

家居要聞

環繞設計 空間動線合理

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 桂平市| 纳雍县| 潮州市| 五河县| 太康县| 晋州市| 桑日县| 苍梧县| 剑川县| 南郑县| 平昌县| 保靖县| 安丘市| 阳东县| 阳春市| 万安县| 黎城县| 衡水市| 吐鲁番市| 时尚| 台前县| 望江县| 钟山县| 伊春市| 临夏市| 天祝| 建德市| 正镶白旗| 镇坪县| 财经| 吉木乃县| 陇川县| 广南县| 博客| 普兰店市| 旺苍县| 武义县| 定远县| 孟村| 偏关县| 灵山县|