Magi-1,開(kāi)源于北京,五道口 于是,很多朋友發(fā)現(xiàn)了: 在視頻圈子,Magi-1 映入了大家眼簾 不到兩天,在 GitHub 上拿到了 1.7k Star 這全球首個(gè)高質(zhì)量自回歸視頻模型 著實(shí)的,給中國(guó)開(kāi)源,漲了波臉
國(guó)產(chǎn) Magi-1,在物理真實(shí)性上,斷層第一
在物理真實(shí)性測(cè)試中,比谷歌的 VideoPoet,還高出 3 個(gè) Sora
github.com/google-deepmind/physics-IQ-benchmark Twitter 上的討論 大V Simo:誰(shuí)特么這么牛逼
OpenAI 的 Beyer,問(wèn) GPT:為什么他們做這么好? 來(lái)看看效果
相信我,這是一個(gè)劃時(shí)代的發(fā)布
A sense of speed /Xixi
Meditation /Wild Pusa
Violinist /Xixi
TwitterInnocent /Eddy 干得漂亮
務(wù)實(shí)一點(diǎn)說(shuō),Magi-1 在畫(huà)面穩(wěn)定性上,還有所欠缺。
但在常見(jiàn)場(chǎng)景中,開(kāi)源的 Magi,已經(jīng)能跟可靈們掰掰手腕了。
令人敬佩的是,他們驗(yàn)證了自回歸視頻模型 這條路線,使模型可以遵循現(xiàn)實(shí)的因果律,在相關(guān)推理任務(wù)中,遙遙領(lǐng)先。
你沒(méi)看錯(cuò),包括 Sora 在內(nèi)的各類(lèi)視頻生成 AI,是把整個(gè)片段同時(shí)畫(huà)出來(lái),不區(qū)分“先發(fā)生什么,后發(fā)生什么”,不存在時(shí)間,更無(wú)法遵從相關(guān)因果律。
而 Magi-1 大膽革新,做到了,而且做的很不錯(cuò)。
益于自回歸架構(gòu)的天然優(yōu)勢(shì),Magi 在預(yù)測(cè)物理行為方面,遠(yuǎn)超現(xiàn)有模型的精度
各類(lèi)相關(guān)量表
在指令遵循和運(yùn)動(dòng)質(zhì)量方面,Magi 表現(xiàn)不錯(cuò)
各類(lèi)相關(guān)量表
然后,這個(gè) Magi 開(kāi)源了,從4.5B到24B:
https://huggingface.co/sand-ai/MAGI-1
4.5B 模型預(yù)計(jì)4月底上,最低 4090 就能跑
再然后,他們還上線了一個(gè)可以開(kāi)箱即用的產(chǎn)品:
https://sand.ai/magi
Magi-1 背后的團(tuán)隊(duì),是 Sand.ai
創(chuàng)始人是曹越,「光年之外」聯(lián)合創(chuàng)始人。
之前,在他辦公室里聊了半個(gè)下午,問(wèn)了大量私貨,有了這篇文章
本篇,應(yīng)是對(duì) Sand.ai 最全面的介紹了
是誰(shuí)做的?
創(chuàng)始人是曹越。
清華特等獎(jiǎng)學(xué)金,ICCV 馬爾獎(jiǎng)(Marr Prize),Swin Transformer 共同一作,博士畢業(yè)后加入微軟亞洲研究院,后任智源研究院視覺(jué)中心負(fù)責(zé)人。
摸來(lái)了 ICCV 的 PPT
2023 年年初,他和王慧文、袁進(jìn)輝共同創(chuàng)立了大模型公司「光年之外」,擔(dān)任算法聯(lián)創(chuàng)。
之后,光年之外被收購(gòu)。
袁進(jìn)輝成立了「硅基流動(dòng)」,而曹越則繼續(xù)深耕視頻生成方向,并2024 年正式創(chuàng)立 Sand.ai(三呆科技...這名字太抽象了),Magi-1 便是團(tuán)隊(duì)推出的首個(gè)模型產(chǎn)品。
我眼中的曹越
曹越非常敏銳,思維極為清晰,不講玄虛,會(huì)把一個(gè)個(gè)概念拆成因果講清楚。
有一天,在 Sand.ai 的辦公室,我們就視頻生成的未來(lái),聊了整個(gè)下午。
主題很直接 視頻能不能被真正「生成」? 如果能,路徑應(yīng)該是怎樣的?
我們聊了視頻生成的各類(lèi)方法,比如 DiT。看起來(lái)高效、效果也不錯(cuò),但它本質(zhì)上是把幾秒鐘的視頻,一次性生成。
生成視頻的時(shí)候,過(guò)去和未來(lái)是同時(shí)出現(xiàn),不存在時(shí)間。
因此,在視頻生成的 AI 中:控制“場(chǎng)景”容易,控制“發(fā)生”很難。
問(wèn)題很直白 如果視頻是時(shí)間的表達(dá),那生成它的方式,就必須能處理時(shí)間。
這也是 Magi-1 的起點(diǎn):如果想讓視頻更符合人的認(rèn)知,就要有時(shí)間因果性,就不能假裝時(shí)間是靜態(tài)的。
于是,Magi-1 便開(kāi)始了此路徑上的探索:秒內(nèi) Dit,秒外自回歸,每一段視頻都是基于前面的內(nèi)容,往下推進(jìn)。
這也便有了后面會(huì)看到的 chunk-by-chunk 結(jié)構(gòu),也是為什么它可以精確到每一秒發(fā)生什么、能接著拍下去,而不是只是“畫(huà)出一段動(dòng)圖”。
團(tuán)隊(duì)不大,出身很硬
Sand.ai 的團(tuán)隊(duì)不大,三十人的團(tuán)隊(duì),幾乎都是技術(shù)人員,其中不乏科研出身的算法專(zhuān)家。
聯(lián)合創(chuàng)始人張拯,也是 Swin Transformer 的作者之一,ACM 亞洲金牌,MSRA 老同事。他和曹越在微軟合作了五年,一起打磨過(guò)不少視覺(jué)模型。 Google Scholar 引用接近 5 萬(wàn),算是這條路線里默默干活、極少拋頭露面的那種人。
還有幾位核心算法,背景都差不多——MSRA、智源、清華、華中科大。工程團(tuán)隊(duì)亦人才濟(jì)濟(jì),清華、北大、南大、廈大。
這也決定了他們?cè)诩夹g(shù)選型上的很多不尋常。比如:
? 不做并發(fā)采樣;
? 不用標(biāo)準(zhǔn)擴(kuò)散路徑,而是自回歸擴(kuò)散;
? 自寫(xiě)推理系統(tǒng),從 attention 到 chunk cache 都是自己改的。
把整個(gè)結(jié)構(gòu)從頭寫(xiě)一遍。
三輪融資,一路沒(méi)斷
Sand.ai 自打創(chuàng)立,便在 VC 圈里到了很多關(guān)注:目前已經(jīng)完成三輪、總計(jì)約六千萬(wàn)美金。
幾輪融資的主領(lǐng)投方分別是:源碼資本、今日資本、經(jīng)緯中國(guó)。
跟投方也很強(qiáng)大:創(chuàng)新工場(chǎng)、IDG、襄禾、商湯、華業(yè)天成,再加上一些業(yè)內(nèi)的個(gè)人投資者。
可見(jiàn),Sand.ai 很早就被人看懂了方向、認(rèn)了出來(lái)、下了重注:
? 這是新的路線探索;
? 能打穿結(jié)構(gòu) +基礎(chǔ)設(shè)施;
? 能 scale 的訓(xùn)練、推理體系。
不在追隨誰(shuí),而在走自己的路
技術(shù)原理
上面淺提了過(guò),比如 OpenAI 的 Sora 這樣 DiT 模型的工作方式:一口氣生成幾秒視頻,然后拼接起來(lái)播放。
這聽(tīng)上去沒(méi)什么問(wèn)題,甚至很高效。但本質(zhì)上,它們是并發(fā)生成,沒(méi)有時(shí)間順序。你寫(xiě)一個(gè) prompt,模型一次性把整個(gè)片段畫(huà)出來(lái),未來(lái)和過(guò)去是同時(shí)想象出來(lái)的:不區(qū)分先發(fā)生什么,后發(fā)生什么。
這就會(huì)帶來(lái)一個(gè)問(wèn)題:生成的視頻,未必遵循現(xiàn)實(shí)的因果律,缺乏真正的時(shí)間感
Magi-1 的解決思路
它采用的是一種叫做 chunk-by-chunk 的自回歸生成 方法。
視頻被劃分為一個(gè)個(gè)時(shí)間片段(chunk),每段比如 24 幀,相當(dāng)于 1 秒的視頻。 每生成一段,才會(huì)進(jìn)入下一段。下一段的內(nèi)容,要基于上一段的內(nèi)容來(lái)生成。
這個(gè)結(jié)構(gòu)天然地保留了因果性,時(shí)間在模型里是順序展開(kāi)的,而不是拼裝進(jìn)來(lái)的。
左側(cè):chunk 逐步生成流程,右側(cè):掩碼結(jié)構(gòu)
具體來(lái)說(shuō),它使用一種叫做 block-causal attention 的機(jī)制:
? 塊內(nèi)是全連接 ,保留短時(shí)段的一致性;
? 塊與塊之間是單向連接 ,只能“看前不看后”。
這種方式,保證了每一段的生成都帶著“記憶”,并且不會(huì)被未來(lái)的信息干擾。
Magi-1 的訓(xùn)練方法
訓(xùn)練時(shí),模型不是一次性還原整個(gè)視頻,而是逐段對(duì)每個(gè) chunk 進(jìn)行去噪。每個(gè) chunk 會(huì)被注入不同程度的噪聲(前面的噪聲少,后面的噪聲多),模型的任務(wù)是學(xué)習(xí)如何根據(jù)時(shí)間順序去還原這些 noisy chunk。
論文中這一機(jī)制叫作:時(shí)間上單調(diào)遞增的噪聲注入(temporally progressive noise levels)。
生成時(shí),Magi-1 會(huì)在 chunk 被“去噪到一定程度”時(shí)提前進(jìn)入下一個(gè) chunk 的生成。所以模型可以流式生成、邊播邊推,同時(shí)還能保持時(shí)間上的邏輯閉環(huán)。
模型結(jié)構(gòu)圖/邏輯演示
通過(guò)這些,Magi-1 有了幾個(gè)非常實(shí)際的能力:
? 無(wú)限時(shí)長(zhǎng)生成 :可以不斷續(xù)寫(xiě),一直“接著生成”,沒(méi)有固定長(zhǎng)度限制;
? 每秒控制粒度 :可以對(duì)每個(gè) chunk 加不同的 prompt,精確指定什么時(shí)候發(fā)生什么;
? 推理成本固定 :每個(gè) chunk 的計(jì)算開(kāi)銷(xiāo)是定值,長(zhǎng)視頻不爆顯存;

全新的算法范式,帶來(lái)了業(yè)界從未解決過(guò)的工程挑戰(zhàn)。
在之前,業(yè)界沒(méi)有解決方案可以同時(shí)滿(mǎn)足:
視頻的超長(zhǎng)序列
自回歸與 Chunk 結(jié)合帶來(lái)的復(fù)雜 attention
千卡集群訓(xùn)練
為了解決這個(gè)問(wèn)題,Sand.ai 從底層通信元語(yǔ)到上層調(diào)度算法,都做了全棧創(chuàng)新,并把全套解決方案開(kāi)源給技術(shù)社區(qū)。
能做視頻續(xù)寫(xiě)
有意思的是,Magi-1 不止支持 T2V(文本生視頻)和 I2V(圖生視頻),它的結(jié)構(gòu)天然也能做 V2V(視頻續(xù)寫(xiě)),而且效果遠(yuǎn)好于 I2V 模擬續(xù)寫(xiě)。
論文第16頁(yè)的實(shí)驗(yàn)對(duì)比非常直接:
? 筆旋轉(zhuǎn)的例子里,I2V 模型完全預(yù)測(cè)不了旋轉(zhuǎn)的速度;
? Magi-1 的 V2V 模式則能把動(dòng)作延續(xù)得很自然,因?yàn)樗_實(shí)“看到了前面”。

它的推理過(guò)程是“并行去噪 + pipeline 式推進(jìn)”,最多可以同時(shí)生成 4 個(gè) chunk,每段都帶有歷史記憶,但不會(huì)因?yàn)殚L(zhǎng)度變長(zhǎng)而爆顯存。得益于它的自回歸結(jié)構(gòu)和 KV 緩存機(jī)制,哪怕是分鐘級(jí)視頻,系統(tǒng)推理的峰值資源也不會(huì)變。
在論文第2頁(yè)有一句話(huà)說(shuō)得很清楚:
“Magi-1 的推理峰值資源使用量,與視頻長(zhǎng)度無(wú)關(guān)。”
這一點(diǎn)對(duì)于部署來(lái)說(shuō)意義非常大:它真的可以跑長(zhǎng)內(nèi)容、實(shí)時(shí)生成,不靠截?cái)唷⒉豢糠侄晤A(yù)處理。
再補(bǔ)充點(diǎn)細(xì)節(jié)
Magi-1 的結(jié)構(gòu)不是從 Diffusion Transformer 拿過(guò)來(lái)直接用,而是在 attention、FFN、條件編碼、位置編碼上都做了大量改進(jìn)。
包括:
? 3D 可學(xué)習(xí) RoPE 位置編碼;
? 平行 attention 結(jié)構(gòu)(合并 self-attn 和 cross-attn);
? SwiGLU 激活 + sandwich norm 穩(wěn)定訓(xùn)練;
? QK-Norm + GQA 以節(jié)省內(nèi)存并提升收斂穩(wěn)定性;
這些都藏在結(jié)構(gòu)實(shí)現(xiàn)里,沒(méi)有在首頁(yè)圖表里體現(xiàn),但在訓(xùn)練大模型時(shí)非常關(guān)鍵。
插圖:第5頁(yè) 圖3b/c,Attention 結(jié)構(gòu)與 FFN 結(jié)構(gòu)細(xì)節(jié) 回顧一下
Magi-1 做的是這樣一件事:
它讓視頻生成這件事,從“像畫(huà)圖一樣生成結(jié)果”, 變成了“像連續(xù)劇一樣,一集一集生成”。
這或許是一個(gè)新的范式。而這一切,現(xiàn)在已經(jīng)開(kāi)源了。
開(kāi)源了,而且是全套交付
是真的,全放了。
模型權(quán)重,從 4.5B 到 24B 的全尺寸都開(kāi)了。推理腳本和訓(xùn)練代碼也都在,支持文本生成視頻、圖像生成視頻,以及視頻續(xù)寫(xiě)。用的是標(biāo)準(zhǔn) HuggingFace 接口,也有 CLI 和 Gradio 的完整推理鏈路。
106 個(gè)關(guān)注者里,有我一個(gè)
部署也比較輕,不是那種只能跑在高性能集群里的模型。最小版本一張 4090 就能跑,開(kāi)箱即用,推理成本也不會(huì)隨著視頻長(zhǎng)度線性增長(zhǎng)。
最低 4090 能跑
伴隨代碼開(kāi)源的同時(shí),也有一份完整技術(shù)報(bào)告(61頁(yè)):從機(jī)制設(shè)計(jì)到訓(xùn)練策略、推理流程、基礎(chǔ)設(shè)施都講清楚了,把一整個(gè)系統(tǒng)的內(nèi)部文檔攤給你看,就像 DeepSeek 那種風(fēng)格。
論文總計(jì) 61 頁(yè),非常翔實(shí) 還有個(gè)產(chǎn)品
除了開(kāi)源,它還有個(gè)產(chǎn)品,已經(jīng)能用了。
官網(wǎng)在這:
https://sand.ai/magi
你開(kāi)源上傳一張圖,寫(xiě)一句話(huà),它就能生成視頻。每次生成的時(shí)長(zhǎng)由你控制,也可以開(kāi)啟“增強(qiáng)理解”“高質(zhì)量”等選項(xiàng)。
雞哥的唱跳時(shí)間,你可以隨意設(shè)定
最妙的是,它支持從任意時(shí)間點(diǎn)續(xù)寫(xiě)。你可以先生成一小段,然后從中間某一秒接著寫(xiě)下去,或者換個(gè) prompt 接續(xù)新鏡頭。不是“生一個(gè)開(kāi)頭”,而是一個(gè)可以不斷拓展、不斷演化的生成工具。
GieGie 可以分別唱、跳、Rap 和 籃球
開(kāi)源和產(chǎn)品一起推出來(lái),這在視頻模型里并不常見(jiàn)。
最后
Magi-1 想做的事其實(shí)挺樸素的:讓視頻這件事,能被生成,符合規(guī)律。
它沒(méi)有走當(dāng)下最主流的路線,也沒(méi)有追求最炸的效果,而是選了一條更難但更扎實(shí)的路徑:從時(shí)間出發(fā),構(gòu)建更真實(shí)的物理世界模擬器。
這件事的意義,在于它跑通了一個(gè)原本只有想象的可能
最后,用曹越的話(huà)來(lái)結(jié)尾
語(yǔ)言模型,偏向于虛擬世界; 視頻模型,更偏向于現(xiàn)實(shí)世界。 目前的視頻模型,還在一個(gè)比較早期的階段,但長(zhǎng)期所謂的“世界模型”,會(huì)在這個(gè)方向上。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.