99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

500美元刷新SOTA!訓練成本砍到1/200,華人團隊重構視頻生成范式

0
分享至

henry 發自 凹非寺
量子位 | 公眾號 QbitAI

你可能聽說過OpenAI的Sora,用數百萬視頻、千萬美元訓練出的AI視頻模型。

但你能想象,有團隊只用3860段視頻、不到500美元成本,也能在關鍵任務上做到SOTA?

比如這個圖生視頻:攀巖者在小行星攀巖,人體運動與太空光影完美仿真。



視頻擴展也是不在話下,給定起始幀或結束幀,讓存錢罐小豬直接在大溪地的沖浪圣地上沖浪。



這些精美的視頻就來自于香港城市大學等團隊最新聯合發布的圖像-視頻生成模型——Pusa V1.0(菩薩1.0)。



Pusa V1.0在基礎大模型Wan2.1-T2V-14B的基礎上引入向量時間步適應(vectorized timestep adaptation,VTA )機制,僅使用3860對視頻-文字數據、約500美元成本進行微調,就在圖像轉視頻 (I2V) 超越了Wan-I2V-14B,實現了SOTA,并解鎖了諸多零樣本任務能力。



500美元實現SOTA

如上文所說,Pusa V1.0文本到視頻(T2V)模型 Wan-T2V-14B 微調而來,用于圖像到視頻生成(I2V)。

與其他會破壞基礎模型架構的微調模型不同,Pusa采用VTA機制,從而實現最小、非破壞性的優化,將時間步長從標量擴大到矢量。它完全保留了基礎模型的預訓練先驗,并實現了更有效的時間學習。

全面的任務支持

憑借其靈活的矢量化時間步適應策略,Pusa僅需10個推理步驟就能夠執行多種視頻生成任務。

這些能力都是其“涌現屬性”,能夠以零樣本方式(無需任何任務特定的訓練)擴展到:圖像到視頻、開始-結束幀、視頻擴展、文字轉視頻、視頻轉場等任務中。

例如,以9個起始幀(左視頻)和12個結束幀(右視頻)作為條件,讓模型生成中間的60幀畫面。



或者,直接輸入文字,讓模型把一輛汽車從金色變成白色。



VTA如何讓視頻生成更自然?

由于視頻本質上是按固定幀率(如電影的每秒 24 幀)連續播放的一系列圖片。在視頻擴散模型(VDM)中,模型通常將整段視頻拆解為逐幀圖像進行建模。

在傳統的做法中,所有幀共享一個標量時間步長變量,模型對所有幀同步進行相同程度的降噪。不過,這就意味著讓所有幀在降噪過程中步調一致,同時演化。

由此,后面的畫面無法獲得前一幀畫面的約束信息,從而使I2V(image-to-video)的效果過于僵硬。

此外,由于圖像輸入不同于模糊抽象的文本輸入,其作為剛性條件,對“視頻生成起點”限制非常嚴格。模型在保持原圖約束的同時,必須自己“猜”這個圖像之后會怎么動。

因此,為了生成連貫動態的視頻,不同幀之間應該以不同速度/時間狀態進行演化,從而讓后續幀的去噪過程能盡可能的受到前一幀先驗的控制。

由此,研究提出VTA,為每一幀引入一個獨立的時間編碼。這樣就允許模型能對每幀的去噪進度和時間位置進行精細控制,從而更好地模擬現實中幀的時序演化,使生成的視頻在動態表現上更連貫、自然。



具體而言,VTA通過幀感知的流匹配(Frame-Aware Flow Matching, FAFM)使每一幀能夠獨立演化,同時賦予模型對同步與異步時間結構的建模能力。最終,它通過向DiT注入自定義的時間嵌入,實現了高效、統一、非破壞性的多任務視頻生成。

在訓練層面,Pusa 采用了幀感知的流匹配(FAFM)目標函數,模擬每一幀在時間軸上獨立演化的理想速度。此外,為了始終保持起始圖像作為條件約束,其對應的時間步分量在整個推理過程中都被設置為零。

在模型結構上,VTA 則將這一目標通過向量時間步嵌入落實到 DiT 框架中,實現推理階段的幀級動態控制。

在推理時,Pusa 允許為每一幀指定不同時間步長,從而實現起始幀固定、末幀補齊、關鍵幀約束等多種時間控制策略。這種“從目標到機制”的結合,是 Pusa 不僅生成自然,更易泛化的關鍵。

Pusa V1.0使用LORA+DeepSpeed Zero2在8張80GB內存的GPU上進行微調。實驗表明,Pusa V1.0 超越了同樣基于Wan-I2V-14B微調而來的Wan-I2V,實現了SOTA。



與此同時,Pusa V1.0所需的參數更新數比Wan-I2V少10倍以上,這表明Pusa僅僅關注與時間相關的模塊,從而保留了基礎模型的先驗知識。與之相對的,Wan-12V則表現出對基礎模型先驗知識的破壞。



可以說,Pusa V1.0以極致輕量化的訓練成本為之后的視頻生成建立了可擴展且多功能的范例。

模型目前已開源,詳情可參考文末鏈接。

One More Thing

根據Pusa的介紹文檔,模型的名稱源于中文中的菩薩(“千手觀音”)。

觀音菩薩多手的圖案象征著她無邊的慈悲和無量的能力。

團隊采用這個名稱是為了表明模型使用多個時間步長變量來實現豐富的視頻生成功能。

模型更小,意味著它能更快地進入每個人的電腦,而只有當技術真正服務于每一個創作者的時候,它才成為了真正的“菩薩”。

[1]項目主頁:https://yaofang-liu.github.io/Pusa_Web/

[2]huggingface:https://huggingface.co/RaphaelLiu/PusaV1

[3]arxiv:https://arxiv.org/abs/2410.03160

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
今起,取消道路(輔路)停車位收費!陜西一市公告

今起,取消道路(輔路)停車位收費!陜西一市公告

91.6陜西交通廣播
2025-07-20 12:49:40
中國貨物被扣震驚歐洲!480箱全被攔下!7億歐元大案水有多深?

中國貨物被扣震驚歐洲!480箱全被攔下!7億歐元大案水有多深?

健身狂人
2025-07-20 14:27:54
決定了,正式歸船!下賽季最豪華陣容誕生,6巨頭劍指總冠軍

決定了,正式歸船!下賽季最豪華陣容誕生,6巨頭劍指總冠軍

籃球掃地僧
2025-07-20 12:36:19
探花里出現過的女生,哪一個才是yyds?哪一個是真情流露享受的?

探花里出現過的女生,哪一個才是yyds?哪一個是真情流露享受的?

說真話的小陳
2025-07-20 14:48:27
往事不堪回首…埃基蒂克巴黎生涯33場4球4助,遭棄用半年僅1出場

往事不堪回首…埃基蒂克巴黎生涯33場4球4助,遭棄用半年僅1出場

直播吧
2025-07-20 17:31:06
中山中考A類計劃出檔分:紀中535分、一中531分

中山中考A類計劃出檔分:紀中535分、一中531分

南方都市報
2025-07-20 14:15:10
秀恩愛!楊瀚森漂亮女友中國追星約基奇,小楊ins秒贊搶沙發:第一!

秀恩愛!楊瀚森漂亮女友中國追星約基奇,小楊ins秒贊搶沙發:第一!

818體育
2025-07-20 15:34:32
黑絲和肉絲的穿搭思路

黑絲和肉絲的穿搭思路

美女穿搭分享
2025-07-20 11:06:07
離譜!男生狂蹭電動車被拍+變性后學校依然把我分男寢被侵犯

離譜!男生狂蹭電動車被拍+變性后學校依然把我分男寢被侵犯

魔都囡
2025-07-20 03:40:45
“消失的嘴唇”,年紀一大嘴唇就變薄,顯老沒氣質,男神也變路人

“消失的嘴唇”,年紀一大嘴唇就變薄,顯老沒氣質,男神也變路人

上官晚安
2025-07-16 17:48:03
老年暴走團“涼了”!央媒怒批后 領隊還狡辯,身份被扒竟是慣犯

老年暴走團“涼了”!央媒怒批后 領隊還狡辯,身份被扒竟是慣犯

逍遙史記
2025-07-19 14:50:40
全球第四個!銳龍5 7600X3D在英國上架:賣到了近2900元

全球第四個!銳龍5 7600X3D在英國上架:賣到了近2900元

快科技
2025-07-20 16:59:08
一口氣刷完全集!BBC這部神劇看得我頭皮發麻

一口氣刷完全集!BBC這部神劇看得我頭皮發麻

天天美劇吧
2025-07-19 17:45:17
岳父去世,我偷偷把岳母接來養老,隔天大姨姐來家里說:不合規矩

岳父去世,我偷偷把岳母接來養老,隔天大姨姐來家里說:不合規矩

匹夫來搞笑
2025-07-20 12:28:01
1.2萬億砸向雅魯藏布江,工程建成后,還能看到原生態的西藏嗎?

1.2萬億砸向雅魯藏布江,工程建成后,還能看到原生態的西藏嗎?

視聽故事局
2025-07-20 15:12:23
若埃基蒂克轉會費確認為9000萬歐,利物浦今夏將刷新隊史轉會費前二

若埃基蒂克轉會費確認為9000萬歐,利物浦今夏將刷新隊史轉會費前二

懂球帝
2025-07-20 17:42:05
五年后就落伍?美媒:殲-35確認正式量產,但很快就會被取代?

五年后就落伍?美媒:殲-35確認正式量產,但很快就會被取代?

林子說事
2025-07-20 14:58:26
媒體人:遼寧簽回莫蘭德此前一直保密是為了防止廣東“節外生枝”

媒體人:遼寧簽回莫蘭德此前一直保密是為了防止廣東“節外生枝”

直播吧
2025-07-20 10:35:07
中國光伏再度突破!新能源車邊跑邊充電,西方國家驚嘆

中國光伏再度突破!新能源車邊跑邊充電,西方國家驚嘆

寒士之言本尊
2025-07-19 19:06:11
短跑運動員虞錦去世!年僅18歲太可惜,曝車禍現場,疑過快導致

短跑運動員虞錦去世!年僅18歲太可惜,曝車禍現場,疑過快導致

裕豐娛間說
2025-07-20 04:19:11
2025-07-20 18:04:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10893文章數 176192關注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創始人首次復盤

頭條要聞

極氪被指賣"0公里二手車"虛增銷量 官方:正常商業行為

頭條要聞

極氪被指賣"0公里二手車"虛增銷量 官方:正常商業行為

體育要聞

零成本搞定艾頓斯馬特 湖人還有大動作?

娛樂要聞

肖戰改名官宣!徹底不裝了,要自由

財經要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

數碼
家居
房產
藝術
公開課

數碼要聞

RTX 5050 Ti首次現身!可惜只是個誤會

家居要聞

簡構智居 現代功能美學

房產要聞

海南中學江東校區學區劃片重磅出爐!這些項目贏麻了!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 临猗县| 新泰市| 肇东市| 丹巴县| 滕州市| 唐海县| 九龙县| 马山县| 泸西县| 台北市| 宜兴市| 灵川县| 安福县| 阿勒泰市| 苗栗县| 彝良县| 宝丰县| 常德市| 玉林市| 明光市| 永清县| 托克托县| 贵阳市| 五原县| 湛江市| 正宁县| 来安县| 南昌县| 垣曲县| 尤溪县| 厦门市| 大港区| 临沭县| 彰武县| 来安县| 长兴县| 奉化市| 绥阳县| 芒康县| 辽源市| 安乡县|