作者|子川
來(lái)源|AI先鋒官
開源的風(fēng)終于吹到了AI視頻生成領(lǐng)域。
近日,英偉達(dá)聯(lián)合北京大學(xué)和 Hedra Inc三方聯(lián)合開源了一款全新的AI視頻生成模型 Magic 1-For-1,其主要特點(diǎn)就是“生成速度超快”。
Magic 1-For-1 的核心優(yōu)勢(shì)在于高效的視頻生成能力,生成速度與視頻時(shí)長(zhǎng)幾乎1:1,5秒視頻3秒完成,1分鐘視頻僅需1分鐘。
這也意味著無(wú)論是短視頻創(chuàng)作者還是需要快速生成大量視頻素材的團(tuán)隊(duì),Magic 1-For-1 都能輕松滿足需求。
最重要的是Magic 1-For-1開源了,并且它通過(guò)量化技術(shù)將模型體積從32GB壓縮至16GB,在RTX 4090等消費(fèi)級(jí)顯卡就可以跑。
論文名:Magic 1-For-1: Generating One Minute Video Clips within One Minute
論文鏈接:https://arxiv.org/pdf/2502.07701
開源代碼:https://magic-141.github.io/Magic-141/
其技術(shù)的核心思想很簡(jiǎn)單:將文本到視頻的生成任務(wù)分解為兩個(gè)相對(duì)簡(jiǎn)單的任務(wù),用于擴(kuò)散步驟蒸餾,即文本到圖像生成和圖像到視頻生成。
話不多說(shuō),接下來(lái)就帶大家欣賞一下的Magic 1-For-1大作~
Magic 1-For-1在描繪人物運(yùn)動(dòng)時(shí)能做到符合真實(shí)的運(yùn)動(dòng)規(guī)律,即使是復(fù)雜動(dòng)作也能很好的刻畫。
比如下面這個(gè)視頻,就完美的還原了小丑的名場(chǎng)面,從肢體動(dòng)作到面部表情的細(xì)微變化,每一個(gè)動(dòng)作都符合小丑的性格特點(diǎn),一點(diǎn)都分辨不出它是AI生成的。
還有人物說(shuō)話的畫面,不僅動(dòng)作、神態(tài)十分逼真,甚至在口型的匹配上也做到了幾乎完美的還原,看起來(lái)毫無(wú)違和感。
除了運(yùn)動(dòng),Magic 1-For-1還能模擬真實(shí)物理世界特性,生成的視頻更符合物理規(guī)律。
比如兩朵緩慢綻放的花,從花瓣的輕輕舒展到花蕊的逐漸露出,每一個(gè)細(xì)節(jié)都符合自然界的生長(zhǎng)規(guī)律。
此外,Magic 1-For-1支持生成不同風(fēng)格的視頻,比如動(dòng)畫風(fēng)格的視頻。
就像下面這樣。
它能夠完美地捕捉動(dòng)畫特有的風(fēng)格特點(diǎn),生成小貓可愛(ài)的外觀——比如圓滾滾的眼睛、柔軟的毛發(fā)等。
對(duì)于擬人化的場(chǎng)景,Magic 1-For-1也是信手拈來(lái),比如這只熊貓坐在湖邊彈吉他。
說(shuō)完優(yōu)點(diǎn),下面我們來(lái)談?wù)勅秉c(diǎn)。
Magic 1-For-1 雖然在很多方面表現(xiàn)不錯(cuò),但在處理高速運(yùn)動(dòng)場(chǎng)景時(shí)卻有點(diǎn)差強(qiáng)人意了,比如下面士兵射擊畫面時(shí),子彈出膛瞬間的捕捉不夠精準(zhǔn),大家只能看到槍口的紅光閃爍,甚至還出現(xiàn)紅光彎曲的現(xiàn)象。
還有這個(gè)汽車的視頻,濺起的水花效果顯得有些粗糙,給人一種廉價(jià)的“五毛特效”感。
而且在視頻質(zhì)量方面,Magic 1-For-1 僅支持 540×960 的分辨率,在目前1080p遍地走,電影級(jí)畫質(zhì)多如狗的視頻生成領(lǐng)域,多多少少遜色了些,但它開源了~~
最后給大家趴一下Magic 1-For-1都運(yùn)用了哪些獨(dú)特的技術(shù)?
任務(wù)分解與擴(kuò)散步驟蒸餾
Magic 1-For-1 把復(fù)雜的“文字變視頻”任務(wù)拆成了兩個(gè)簡(jiǎn)單任務(wù):先從文字生成一張圖片,再?gòu)倪@張圖片生成視頻。這樣不僅讓生成過(guò)程更簡(jiǎn)單,還減少了計(jì)算步驟。實(shí)驗(yàn)發(fā)現(xiàn),從圖片生成視頻比直接從文字生成視頻更容易,速度也更快。
多模態(tài)輸入與語(yǔ)義對(duì)齊
該模型引入了多模態(tài)輸入機(jī)制,不僅用文字,還結(jié)合了圖片來(lái)生成視頻來(lái)增強(qiáng)模型的語(yǔ)義理解和生成能力模,具體來(lái)說(shuō)就是會(huì)把文字和圖片的信息結(jié)合起來(lái),更好地理解要生成的內(nèi)容,從而生成更符合描述的視頻。這種結(jié)合方式不僅讓模型學(xué)得更快,還提升了生成視頻的質(zhì)量。
擴(kuò)散步驟蒸餾技術(shù)
為了讓生成速度更快,Magic 1-For-1 用了一種叫“擴(kuò)散步驟蒸餾”的技術(shù)。簡(jiǎn)單來(lái)說(shuō),就是訓(xùn)練一個(gè)“少步驟”的生成器來(lái)模仿“多步驟”生成器的結(jié)果。這樣,模型只需要 4步 就能生成高質(zhì)量的視頻,而傳統(tǒng)方法可能需要幾十步甚至上百步。這大大減少了計(jì)算成本,同時(shí)保持了視頻質(zhì)量。
模型量化與內(nèi)存優(yōu)化
Magic 1-For-1 通過(guò)一種叫“量化”的技術(shù),把模型的體積從 32GB 壓縮到 16GB,減少了內(nèi)存占用。這樣,模型不僅能在高性能計(jì)算設(shè)備上運(yùn)行,還能在普通的消費(fèi)級(jí)顯卡(比如 RTX 5090、A10 和 L20)上高效運(yùn)行。
滑動(dòng)窗口技術(shù)
生成長(zhǎng)視頻時(shí),Magic 1-For-1 使用滑動(dòng)窗口技術(shù)逐步生成視頻片段, 會(huì)把視頻分成一個(gè)個(gè)小片段,逐步生成。這種方法不僅保持了生成的高效性,還讓整個(gè)視頻看起來(lái)更連貫、質(zhì)量更高。通過(guò)這種技術(shù),模型可以在 一分鐘內(nèi)生成一分鐘的視頻。
隨著開源的力量涌入AI視頻生成領(lǐng)域,期待不久AI視頻生成領(lǐng)域也會(huì)有自己的Deepseek。
掃碼邀請(qǐng)進(jìn)群,我們帶你一起來(lái)玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問(wèn)、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
往期文章回顧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.