網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

英偉達(dá)視頻模型Magic 1-For-1，1 分鐘生成 1 分鐘視頻，且開源

2025-02-19 08:50:26　來(lái)源: AI先鋒官

北京舉報(bào)

分享至

作者｜子川

來(lái)源｜AI先鋒官

開源的風(fēng)終于吹到了AI視頻生成領(lǐng)域。

近日，英偉達(dá)聯(lián)合北京大學(xué)和 Hedra Inc三方聯(lián)合開源了一款全新的AI視頻生成模型 Magic 1-For-1，其主要特點(diǎn)就是“生成速度超快”。

Magic 1-For-1 的核心優(yōu)勢(shì)在于高效的視頻生成能力，生成速度與視頻時(shí)長(zhǎng)幾乎1：1，5秒視頻3秒完成，1分鐘視頻僅需1分鐘。

這也意味著無(wú)論是短視頻創(chuàng)作者還是需要快速生成大量視頻素材的團(tuán)隊(duì)，Magic 1-For-1 都能輕松滿足需求。

最重要的是Magic 1-For-1開源了，并且它通過(guò)量化技術(shù)將模型體積從32GB壓縮至16GB，在RTX 4090等消費(fèi)級(jí)顯卡就可以跑。

論文名：Magic 1-For-1: Generating One Minute Video Clips within One Minute

論文鏈接：https://arxiv.org/pdf/2502.07701

開源代碼：https://magic-141.github.io/Magic-141/

其技術(shù)的核心思想很簡(jiǎn)單：將文本到視頻的生成任務(wù)分解為兩個(gè)相對(duì)簡(jiǎn)單的任務(wù)，用于擴(kuò)散步驟蒸餾，即文本到圖像生成和圖像到視頻生成。

話不多說(shuō)，接下來(lái)就帶大家欣賞一下的Magic 1-For-1大作~

Magic 1-For-1在描繪人物運(yùn)動(dòng)時(shí)能做到符合真實(shí)的運(yùn)動(dòng)規(guī)律，即使是復(fù)雜動(dòng)作也能很好的刻畫。

比如下面這個(gè)視頻，就完美的還原了小丑的名場(chǎng)面，從肢體動(dòng)作到面部表情的細(xì)微變化，每一個(gè)動(dòng)作都符合小丑的性格特點(diǎn)，一點(diǎn)都分辨不出它是AI生成的。

還有人物說(shuō)話的畫面，不僅動(dòng)作、神態(tài)十分逼真，甚至在口型的匹配上也做到了幾乎完美的還原，看起來(lái)毫無(wú)違和感。

除了運(yùn)動(dòng)，Magic 1-For-1還能模擬真實(shí)物理世界特性，生成的視頻更符合物理規(guī)律。

比如兩朵緩慢綻放的花，從花瓣的輕輕舒展到花蕊的逐漸露出，每一個(gè)細(xì)節(jié)都符合自然界的生長(zhǎng)規(guī)律。

此外，Magic 1-For-1支持生成不同風(fēng)格的視頻，比如動(dòng)畫風(fēng)格的視頻。

就像下面這樣。

它能夠完美地捕捉動(dòng)畫特有的風(fēng)格特點(diǎn)，生成小貓可愛(ài)的外觀——比如圓滾滾的眼睛、柔軟的毛發(fā)等。

對(duì)于擬人化的場(chǎng)景，Magic 1-For-1也是信手拈來(lái)，比如這只熊貓坐在湖邊彈吉他。

說(shuō)完優(yōu)點(diǎn)，下面我們來(lái)談?wù)勅秉c(diǎn)。

Magic 1-For-1 雖然在很多方面表現(xiàn)不錯(cuò)，但在處理高速運(yùn)動(dòng)場(chǎng)景時(shí)卻有點(diǎn)差強(qiáng)人意了，比如下面士兵射擊畫面時(shí)，子彈出膛瞬間的捕捉不夠精準(zhǔn)，大家只能看到槍口的紅光閃爍，甚至還出現(xiàn)紅光彎曲的現(xiàn)象。

還有這個(gè)汽車的視頻，濺起的水花效果顯得有些粗糙，給人一種廉價(jià)的“五毛特效”感。

而且在視頻質(zhì)量方面，Magic 1-For-1 僅支持 540×960 的分辨率，在目前1080p遍地走，電影級(jí)畫質(zhì)多如狗的視頻生成領(lǐng)域，多多少少遜色了些，但它開源了~~

最后給大家趴一下Magic 1-For-1都運(yùn)用了哪些獨(dú)特的技術(shù)？

任務(wù)分解與擴(kuò)散步驟蒸餾

Magic 1-For-1 把復(fù)雜的“文字變視頻”任務(wù)拆成了兩個(gè)簡(jiǎn)單任務(wù)：先從文字生成一張圖片，再?gòu)倪@張圖片生成視頻。這樣不僅讓生成過(guò)程更簡(jiǎn)單，還減少了計(jì)算步驟。實(shí)驗(yàn)發(fā)現(xiàn)，從圖片生成視頻比直接從文字生成視頻更容易，速度也更快。

多模態(tài)輸入與語(yǔ)義對(duì)齊

該模型引入了多模態(tài)輸入機(jī)制，不僅用文字，還結(jié)合了圖片來(lái)生成視頻來(lái)增強(qiáng)模型的語(yǔ)義理解和生成能力模，具體來(lái)說(shuō)就是會(huì)把文字和圖片的信息結(jié)合起來(lái)，更好地理解要生成的內(nèi)容，從而生成更符合描述的視頻。這種結(jié)合方式不僅讓模型學(xué)得更快，還提升了生成視頻的質(zhì)量。

擴(kuò)散步驟蒸餾技術(shù)

為了讓生成速度更快，Magic 1-For-1 用了一種叫“擴(kuò)散步驟蒸餾”的技術(shù)。簡(jiǎn)單來(lái)說(shuō)，就是訓(xùn)練一個(gè)“少步驟”的生成器來(lái)模仿“多步驟”生成器的結(jié)果。這樣，模型只需要 4步就能生成高質(zhì)量的視頻，而傳統(tǒng)方法可能需要幾十步甚至上百步。這大大減少了計(jì)算成本，同時(shí)保持了視頻質(zhì)量。

模型量化與內(nèi)存優(yōu)化

Magic 1-For-1 通過(guò)一種叫“量化”的技術(shù)，把模型的體積從 32GB 壓縮到 16GB，減少了內(nèi)存占用。這樣，模型不僅能在高性能計(jì)算設(shè)備上運(yùn)行，還能在普通的消費(fèi)級(jí)顯卡（比如 RTX 5090、A10 和 L20）上高效運(yùn)行。

滑動(dòng)窗口技術(shù)

生成長(zhǎng)視頻時(shí)，Magic 1-For-1 使用滑動(dòng)窗口技術(shù)逐步生成視頻片段，會(huì)把視頻分成一個(gè)個(gè)小片段，逐步生成。這種方法不僅保持了生成的高效性，還讓整個(gè)視頻看起來(lái)更連貫、質(zhì)量更高。通過(guò)這種技術(shù)，模型可以在一分鐘內(nèi)生成一分鐘的視頻。

隨著開源的力量涌入AI視頻生成領(lǐng)域，期待不久AI視頻生成領(lǐng)域也會(huì)有自己的Deepseek。

掃碼邀請(qǐng)進(jìn)群，我們帶你一起來(lái)玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問(wèn)、訊飛星火等AI大模型，順便學(xué)一些AI搞錢技能。

往期文章回顧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.