99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

500美元刷新SOTA!訓(xùn)練成本砍到1/200,華人團(tuán)隊重構(gòu)視頻生成范式

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

你可能聽說過OpenAI的Sora,用數(shù)百萬視頻、千萬美元訓(xùn)練出的AI視頻模型。

但你能想象,有團(tuán)隊只用3860段視頻、不到500美元成本,也能在關(guān)鍵任務(wù)上做到SOTA?

比如這個圖生視頻:攀巖者在小行星攀巖,人體運(yùn)動與太空光影完美仿真。



視頻擴(kuò)展也是不在話下,給定起始幀或結(jié)束幀,讓存錢罐小豬直接在大溪地的沖浪圣地上沖浪。



這些精美的視頻就來自于香港城市大學(xué)等團(tuán)隊最新聯(lián)合發(fā)布的圖像-視頻生成模型——Pusa V1.0(菩薩1.0)。



Pusa V1.0在基礎(chǔ)大模型Wan2.1-T2V-14B的基礎(chǔ)上引入向量時間步適應(yīng)(vectorized timestep adaptation,VTA )機(jī)制,僅使用3860對視頻-文字?jǐn)?shù)據(jù)、約500美元成本進(jìn)行微調(diào),就在圖像轉(zhuǎn)視頻 (I2V) 超越了Wan-I2V-14B,實現(xiàn)了SOTA,并解鎖了諸多零樣本任務(wù)能力。



500美元實現(xiàn)SOTA

如上文所說,Pusa V1.0文本到視頻(T2V)模型 Wan-T2V-14B 微調(diào)而來,用于圖像到視頻生成(I2V)。

與其他會破壞基礎(chǔ)模型架構(gòu)的微調(diào)模型不同,Pusa采用VTA機(jī)制,從而實現(xiàn)最小、非破壞性的優(yōu)化,將時間步長從標(biāo)量擴(kuò)大到矢量。它完全保留了基礎(chǔ)模型的預(yù)訓(xùn)練先驗,并實現(xiàn)了更有效的時間學(xué)習(xí)。

全面的任務(wù)支持

憑借其靈活的矢量化時間步適應(yīng)策略,Pusa僅需10個推理步驟就能夠執(zhí)行多種視頻生成任務(wù)。

這些能力都是其“涌現(xiàn)屬性”,能夠以零樣本方式(無需任何任務(wù)特定的訓(xùn)練)擴(kuò)展到:圖像到視頻、開始-結(jié)束幀、視頻擴(kuò)展、文字轉(zhuǎn)視頻、視頻轉(zhuǎn)場等任務(wù)中。

例如,以9個起始幀(左視頻)和12個結(jié)束幀(右視頻)作為條件,讓模型生成中間的60幀畫面。



或者,直接輸入文字,讓模型把一輛汽車從金色變成白色。



VTA如何讓視頻生成更自然?

由于視頻本質(zhì)上是按固定幀率(如電影的每秒 24 幀)連續(xù)播放的一系列圖片。在視頻擴(kuò)散模型(VDM)中,模型通常將整段視頻拆解為逐幀圖像進(jìn)行建模。

在傳統(tǒng)的做法中,所有幀共享一個標(biāo)量時間步長變量,模型對所有幀同步進(jìn)行相同程度的降噪。不過,這就意味著讓所有幀在降噪過程中步調(diào)一致,同時演化。

由此,后面的畫面無法獲得前一幀畫面的約束信息,從而使I2V(image-to-video)的效果過于僵硬。

此外,由于圖像輸入不同于模糊抽象的文本輸入,其作為剛性條件,對“視頻生成起點”限制非常嚴(yán)格。模型在保持原圖約束的同時,必須自己“猜”這個圖像之后會怎么動。

因此,為了生成連貫動態(tài)的視頻,不同幀之間應(yīng)該以不同速度/時間狀態(tài)進(jìn)行演化,從而讓后續(xù)幀的去噪過程能盡可能的受到前一幀先驗的控制。

由此,研究提出VTA,為每一幀引入一個獨立的時間編碼。這樣就允許模型能對每幀的去噪進(jìn)度和時間位置進(jìn)行精細(xì)控制,從而更好地模擬現(xiàn)實中幀的時序演化,使生成的視頻在動態(tài)表現(xiàn)上更連貫、自然。



具體而言,VTA通過幀感知的流匹配(Frame-Aware Flow Matching, FAFM)使每一幀能夠獨立演化,同時賦予模型對同步與異步時間結(jié)構(gòu)的建模能力。最終,它通過向DiT注入自定義的時間嵌入,實現(xiàn)了高效、統(tǒng)一、非破壞性的多任務(wù)視頻生成。

在訓(xùn)練層面,Pusa 采用了幀感知的流匹配(FAFM)目標(biāo)函數(shù),模擬每一幀在時間軸上獨立演化的理想速度。此外,為了始終保持起始圖像作為條件約束,其對應(yīng)的時間步分量在整個推理過程中都被設(shè)置為零。

在模型結(jié)構(gòu)上,VTA 則將這一目標(biāo)通過向量時間步嵌入落實到 DiT 框架中,實現(xiàn)推理階段的幀級動態(tài)控制。

在推理時,Pusa 允許為每一幀指定不同時間步長,從而實現(xiàn)起始幀固定、末幀補(bǔ)齊、關(guān)鍵幀約束等多種時間控制策略。這種“從目標(biāo)到機(jī)制”的結(jié)合,是 Pusa 不僅生成自然,更易泛化的關(guān)鍵。

Pusa V1.0使用LORA+DeepSpeed Zero2在8張80GB內(nèi)存的GPU上進(jìn)行微調(diào)。實驗表明,Pusa V1.0 超越了同樣基于Wan-I2V-14B微調(diào)而來的Wan-I2V,實現(xiàn)了SOTA。



與此同時,Pusa V1.0所需的參數(shù)更新數(shù)比Wan-I2V少10倍以上,這表明Pusa僅僅關(guān)注與時間相關(guān)的模塊,從而保留了基礎(chǔ)模型的先驗知識。與之相對的,Wan-12V則表現(xiàn)出對基礎(chǔ)模型先驗知識的破壞。



可以說,Pusa V1.0以極致輕量化的訓(xùn)練成本為之后的視頻生成建立了可擴(kuò)展且多功能的范例。

模型目前已開源,詳情可參考文末鏈接。

One More Thing

根據(jù)Pusa的介紹文檔,模型的名稱源于中文中的菩薩(“千手觀音”)。

觀音菩薩多手的圖案象征著她無邊的慈悲和無量的能力。

團(tuán)隊采用這個名稱是為了表明模型使用多個時間步長變量來實現(xiàn)豐富的視頻生成功能。

模型更小,意味著它能更快地進(jìn)入每個人的電腦,而只有當(dāng)技術(shù)真正服務(wù)于每一個創(chuàng)作者的時候,它才成為了真正的“菩薩”。

[1]項目主頁:https://yaofang-liu.github.io/Pusa_Web/

[2]huggingface:https://huggingface.co/RaphaelLiu/PusaV1

[3]arxiv:https://arxiv.org/abs/2410.03160

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
一定要戴手套!上海男子8天離世,死亡率近100%:你我都在犯!

一定要戴手套!上海男子8天離世,死亡率近100%:你我都在犯!

華庭講美食
2025-07-17 01:55:44
未來首發(fā)中鋒?美媒曬利拉德重返開拓者全新陣容:楊瀚森位列五虎之中

未來首發(fā)中鋒?美媒曬利拉德重返開拓者全新陣容:楊瀚森位列五虎之中

雷速體育
2025-07-18 06:39:10
7月18日精選熱點:碳纖維再次重磅利好,這些核心龍頭受益

7月18日精選熱點:碳纖維再次重磅利好,這些核心龍頭受益

元芳說投資
2025-07-17 21:21:09
施幼珍對宗慶后幫襯少,娘家沒資源,自己實力弱,沒追生兒子

施幼珍對宗慶后幫襯少,娘家沒資源,自己實力弱,沒追生兒子

歡樂大意
2025-07-17 21:21:30
中聯(lián)重科別車車主后續(xù),知情人爆料身份大快人心,官方回復(fù)秒打臉

中聯(lián)重科別車車主后續(xù),知情人爆料身份大快人心,官方回復(fù)秒打臉

素衣讀史
2025-07-17 17:41:16
官方價沒套路,捷豹XEL官降,15.98w起

官方價沒套路,捷豹XEL官降,15.98w起

熱點科技
2025-07-17 17:59:31
WTO有點過時了,如今 CPTPP成為香餑餑!我們要二次申請了……

WTO有點過時了,如今 CPTPP成為香餑餑!我們要二次申請了……

翻開歷史和現(xiàn)實
2025-07-16 20:57:29
倒閉1.2萬家!80后集體記憶轟然崩塌,50臺電腦年入千萬神話破滅

倒閉1.2萬家!80后集體記憶轟然崩塌,50臺電腦年入千萬神話破滅

財經(jīng)八卦
2025-07-17 23:34:18
科技股大牛市!天量資金涌入三大板塊

科技股大牛市!天量資金涌入三大板塊

君臨財富
2025-07-17 16:30:02
17個交易日后!西部實力一目了然:5隊S級、2隊A級!

17個交易日后!西部實力一目了然:5隊S級、2隊A級!

運(yùn)籌帷幄的籃球
2025-07-17 17:07:36
誰能想到,宗老變老宗,有沒有想過,他愛穿布鞋,是不是這個原因?

誰能想到,宗老變老宗,有沒有想過,他愛穿布鞋,是不是這個原因?

青苔同學(xué)
2025-07-16 16:29:15
生完孩子后,我出軌的欲望非常強(qiáng)烈!(女性勿入)

生完孩子后,我出軌的欲望非常強(qiáng)烈!(女性勿入)

性學(xué)研究僧
2025-06-17 22:37:40
住建部新定調(diào):滿25年房齡的老房子,一律按新規(guī)處理,業(yè)主要發(fā)財

住建部新定調(diào):滿25年房齡的老房子,一律按新規(guī)處理,業(yè)主要發(fā)財

阿傖說事
2025-07-17 09:08:01
董璇張維伊婚宴敬酒照、伴娘團(tuán)曝光,其女兒小酒窩成“最萌亮點”

董璇張維伊婚宴敬酒照、伴娘團(tuán)曝光,其女兒小酒窩成“最萌亮點”

文娛沒有圈
2025-07-17 16:16:29
“多處咬痕、身體被老虎鉗夾爛”,被凌辱致死的女人為何一言不發(fā)

“多處咬痕、身體被老虎鉗夾爛”,被凌辱致死的女人為何一言不發(fā)

大案九處
2025-07-17 14:30:40
杜建英段年輕時靚照曝光,長發(fā)溫柔短發(fā)干練,望著宗慶后好深情

杜建英段年輕時靚照曝光,長發(fā)溫柔短發(fā)干練,望著宗慶后好深情

葉公子
2025-07-16 15:04:57
網(wǎng)友們開始在念鐘睒睒的好了,因為他給宗慶后留足體面了

網(wǎng)友們開始在念鐘睒睒的好了,因為他給宗慶后留足體面了

清暉有墨
2025-07-17 09:03:22
央視曝光!這些產(chǎn)品中檢測出甲醛,嚴(yán)重可致癌,有人已中招

央視曝光!這些產(chǎn)品中檢測出甲醛,嚴(yán)重可致癌,有人已中招

削桐作琴
2025-07-17 15:32:28
俄羅斯應(yīng)對的三張牌:歸還遠(yuǎn)東領(lǐng)土,放棄外蒙古,唐努烏海回歸

俄羅斯應(yīng)對的三張牌:歸還遠(yuǎn)東領(lǐng)土,放棄外蒙古,唐努烏海回歸

阿芒娛樂說
2025-07-11 01:20:04
廣東省能源集團(tuán)黨委原副書記黎凱生接受審查調(diào)查

廣東省能源集團(tuán)黨委原副書記黎凱生接受審查調(diào)查

界面新聞
2025-07-17 17:03:20
2025-07-18 06:51:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10878文章數(shù) 176189關(guān)注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

知情人:宗慶后有個孩子2017年出生 生母為年輕員工

頭條要聞

知情人:宗慶后有個孩子2017年出生 生母為年輕員工

體育要聞

楊力維和楊舒予,是姐妹,也是戰(zhàn)友

娛樂要聞

又相信愛情了,董璇二婚現(xiàn)場照曝光!

財經(jīng)要聞

杭州成立專班介入宗慶后遺產(chǎn)糾紛

汽車要聞

有望年內(nèi)上市 奧迪A6L e-tron申報信息曝光

態(tài)度原創(chuàng)

教育
時尚
數(shù)碼
房產(chǎn)
家居

教育要聞

痛!放棄985,父母賣房供女兒讀悉尼大學(xué),4年后回國竟找不到工作

宗氏家族爭產(chǎn)案,一個細(xì)節(jié)讓人反感

數(shù)碼要聞

倍思同芯充Pro充電頭登場:45W氮化鎵,預(yù)購價138元

房產(chǎn)要聞

突發(fā)!海航陳峰被判12年,罰2.2億!

家居要聞

空間分明 時尚風(fēng)格并存

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 罗甸县| 抚远县| 荥经县| 保山市| 应用必备| 吉首市| 嘉鱼县| 大埔区| 龙南县| 年辖:市辖区| 宿松县| 龙川县| 黄梅县| 乌拉特前旗| 巨野县| 新沂市| 淮北市| 井陉县| 盐边县| 曲阜市| 福建省| 青神县| 崇州市| 武强县| 定日县| 息烽县| 九台市| 广南县| 鹤峰县| 延长县| 永吉县| 绥中县| 石台县| 锦屏县| 甘肃省| 长白| 河曲县| 岳西县| 婺源县| 恩平市| 天全县|