網易首頁 > 網易號 > 正文申請入駐

Magi-1 開源&刷屏：首個高質量自回歸視頻模型，它的一切信息

2025-04-23 21:21:45　來源: 賽博禪心

北京舉報

分享至

Magi-1，開源于北京，五道口于是，很多朋友發現了：在視頻圈子，Magi-1 映入了大家眼簾不到兩天，在 GitHub 上拿到了 1.7k Star 這全球首個高質量自回歸視頻模型著實的，給中國開源，漲了波臉

國產 Magi-1，在物理真實性上，斷層第一

在物理真實性測試中，比谷歌的 VideoPoet，還高出 3 個 Sora

github.com/google-deepmind/physics-IQ-benchmark Twitter 上的討論大V Simo：誰特么這么牛逼 OpenAI 的 Beyer，問 GPT：為什么他們做這么好？來看看效果

相信我，這是一個劃時代的發布

A sense of speed /Xixi

Meditation /Wild Pusa

Violinist /Xixi

TwitterInnocent /Eddy 干得漂亮

務實一點說，Magi-1 在畫面穩定性上，還有所欠缺。

但在常見場景中，開源的 Magi，已經能跟可靈們掰掰手腕了。

令人敬佩的是，他們驗證了自回歸視頻模型 這條路線，使模型可以遵循現實的因果律，在相關推理任務中，遙遙領先。

你沒看錯，包括 Sora 在內的各類視頻生成 AI，是把整個片段同時畫出來，不區分“先發生什么，后發生什么”，不存在時間，更無法遵從相關因果律。

而 Magi-1 大膽革新，做到了，而且做的很不錯。

益于自回歸架構的天然優勢，Magi 在預測物理行為方面，遠超現有模型的精度

各類相關量表

在指令遵循和運動質量方面，Magi 表現不錯

各類相關量表

然后，這個 Magi 開源了，從4.5B到24B：

https://huggingface.co/sand-ai/MAGI-1

4.5B 模型預計4月底上，最低 4090 就能跑

再然后，他們還上線了一個可以開箱即用的產品：

https://sand.ai/magi

Magi-1 背后的團隊，是 Sand.ai

創始人是曹越，「光年之外」聯合創始人。

之前，在他辦公室里聊了半個下午，問了大量私貨，有了這篇文章

本篇，應是對 Sand.ai 最全面的介紹了

是誰做的？

創始人是曹越。

清華特等獎學金，ICCV 馬爾獎（Marr Prize），Swin Transformer 共同一作，博士畢業后加入微軟亞洲研究院，后任智源研究院視覺中心負責人。

摸來了 ICCV 的 PPT

2023 年年初，他和王慧文、袁進輝共同創立了大模型公司「光年之外」，擔任算法聯創。

之后，光年之外被收購。

袁進輝成立了「硅基流動」，而曹越則繼續深耕視頻生成方向，并2024 年正式創立 Sand.ai（三呆科技...這名字太抽象了），Magi-1 便是團隊推出的首個模型產品。

我眼中的曹越

曹越非常敏銳，思維極為清晰，不講玄虛，會把一個個概念拆成因果講清楚。

有一天，在 Sand.ai 的辦公室，我們就視頻生成的未來，聊了整個下午。

主題很直接視頻能不能被真正「生成」？如果能，路徑應該是怎樣的？

我們聊了視頻生成的各類方法，比如 DiT?？雌饋砀咝?、效果也不錯，但它本質上是把幾秒鐘的視頻，一次性生成。

生成視頻的時候，過去和未來是同時出現，不存在時間。

因此，在視頻生成的 AI 中：控制“場景”容易，控制“發生”很難。

問題很直白如果視頻是時間的表達，那生成它的方式，就必須能處理時間。

這也是 Magi-1 的起點：如果想讓視頻更符合人的認知，就要有時間因果性，就不能假裝時間是靜態的。

于是，Magi-1 便開始了此路徑上的探索：秒內 Dit，秒外自回歸，每一段視頻都是基于前面的內容，往下推進。

這也便有了后面會看到的 chunk-by-chunk 結構，也是為什么它可以精確到每一秒發生什么、能接著拍下去，而不是只是“畫出一段動圖”。

團隊不大，出身很硬

Sand.ai 的團隊不大，三十人的團隊，幾乎都是技術人員，其中不乏科研出身的算法專家。

聯合創始人張拯，也是 Swin Transformer 的作者之一，ACM 亞洲金牌，MSRA 老同事。他和曹越在微軟合作了五年，一起打磨過不少視覺模型。 Google Scholar 引用接近 5 萬，算是這條路線里默默干活、極少拋頭露面的那種人。

還有幾位核心算法，背景都差不多——MSRA、智源、清華、華中科大。工程團隊亦人才濟濟，清華、北大、南大、廈大。

這也決定了他們在技術選型上的很多不尋常。比如：

? 不做并發采樣；
? 不用標準擴散路徑，而是自回歸擴散；
? 自寫推理系統，從 attention 到 chunk cache 都是自己改的。

把整個結構從頭寫一遍。

三輪融資，一路沒斷

Sand.ai 自打創立，便在 VC 圈里到了很多關注：目前已經完成三輪、總計約六千萬美金。

幾輪融資的主領投方分別是：源碼資本、今日資本、經緯中國。

跟投方也很強大：創新工場、IDG、襄禾、商湯、華業天成，再加上一些業內的個人投資者。

可見，Sand.ai 很早就被人看懂了方向、認了出來、下了重注：

? 這是新的路線探索；
? 能打穿結構 +基礎設施；
? 能 scale 的訓練、推理體系。

不在追隨誰，而在走自己的路

技術原理

上面淺提了過，比如 OpenAI 的 Sora 這樣 DiT 模型的工作方式：一口氣生成幾秒視頻，然后拼接起來播放。

這聽上去沒什么問題，甚至很高效。但本質上，它們是并發生成，沒有時間順序。你寫一個 prompt，模型一次性把整個片段畫出來，未來和過去是同時想象出來的：不區分先發生什么，后發生什么。

這就會帶來一個問題：生成的視頻，未必遵循現實的因果律，缺乏真正的時間感

Magi-1 的解決思路

它采用的是一種叫做 chunk-by-chunk 的自回歸生成 方法。

視頻被劃分為一個個時間片段（chunk），每段比如 24 幀，相當于 1 秒的視頻。每生成一段，才會進入下一段。下一段的內容，要基于上一段的內容來生成。

這個結構天然地保留了因果性，時間在模型里是順序展開的，而不是拼裝進來的。

左側：chunk 逐步生成流程，右側：掩碼結構

具體來說，它使用一種叫做 block-causal attention 的機制：

? 塊內是全連接 ，保留短時段的一致性；
? 塊與塊之間是單向連接 ，只能“看前不看后”。

這種方式，保證了每一段的生成都帶著“記憶”，并且不會被未來的信息干擾。

Magi-1 的訓練方法

訓練時，模型不是一次性還原整個視頻，而是逐段對每個 chunk 進行去噪。每個 chunk 會被注入不同程度的噪聲（前面的噪聲少，后面的噪聲多），模型的任務是學習如何根據時間順序去還原這些 noisy chunk。

論文中這一機制叫作：時間上單調遞增的噪聲注入（temporally progressive noise levels）。

生成時，Magi-1 會在 chunk 被“去噪到一定程度”時提前進入下一個 chunk 的生成。所以模型可以流式生成、邊播邊推，同時還能保持時間上的邏輯閉環。

模型結構圖/邏輯演示

通過這些，Magi-1 有了幾個非常實際的能力：

? 無限時長生成 ：可以不斷續寫，一直“接著生成”，沒有固定長度限制；
? 每秒控制粒度 ：可以對每個 chunk 加不同的 prompt，精確指定什么時候發生什么；
? 推理成本固定 ：每個 chunk 的計算開銷是定值，長視頻不爆顯存；

連續敘事結構的示意分鏡

全新的算法范式，帶來了業界從未解決過的工程挑戰。

在之前，業界沒有解決方案可以同時滿足：

視頻的超長序列
自回歸與 Chunk 結合帶來的復雜 attention
千卡集群訓練

為了解決這個問題，Sand.ai 從底層通信元語到上層調度算法，都做了全棧創新，并把全套解決方案開源給技術社區。

能做視頻續寫

有意思的是，Magi-1 不止支持 T2V（文本生視頻）和 I2V（圖生視頻），它的結構天然也能做 V2V（視頻續寫），而且效果遠好于 I2V 模擬續寫。

論文第16頁的實驗對比非常直接：

? 筆旋轉的例子里，I2V 模型完全預測不了旋轉的速度；
? Magi-1 的 V2V 模式則能把動作延續得很自然，因為它確實“看到了前面”。

V2V vs I2V 對比圖（筆旋轉和遮擋恢復）推理效率下了功夫

它的推理過程是“并行去噪 + pipeline 式推進”，最多可以同時生成 4 個 chunk，每段都帶有歷史記憶，但不會因為長度變長而爆顯存。得益于它的自回歸結構和 KV 緩存機制，哪怕是分鐘級視頻，系統推理的峰值資源也不會變。

在論文第2頁有一句話說得很清楚：

“Magi-1 的推理峰值資源使用量，與視頻長度無關。”

這一點對于部署來說意義非常大：它真的可以跑長內容、實時生成，不靠截斷、不靠分段預處理。

再補充點細節

Magi-1 的結構不是從 Diffusion Transformer 拿過來直接用，而是在 attention、FFN、條件編碼、位置編碼上都做了大量改進。

包括：

? 3D 可學習 RoPE 位置編碼；
? 平行 attention 結構（合并 self-attn 和 cross-attn）；
? SwiGLU 激活 + sandwich norm 穩定訓練；
? QK-Norm + GQA 以節省內存并提升收斂穩定性；

這些都藏在結構實現里，沒有在首頁圖表里體現，但在訓練大模型時非常關鍵。

插圖：第5頁圖3b/c，Attention 結構與 FFN 結構細節回顧一下

Magi-1 做的是這樣一件事：

它讓視頻生成這件事，從“像畫圖一樣生成結果”，變成了“像連續劇一樣，一集一集生成”。

這或許是一個新的范式。而這一切，現在已經開源了。

開源了，而且是全套交付

是真的，全放了。

模型權重，從 4.5B 到 24B 的全尺寸都開了。推理腳本和訓練代碼也都在，支持文本生成視頻、圖像生成視頻，以及視頻續寫。用的是標準 HuggingFace 接口，也有 CLI 和 Gradio 的完整推理鏈路。

106 個關注者里，有我一個

部署也比較輕，不是那種只能跑在高性能集群里的模型。最小版本一張 4090 就能跑，開箱即用，推理成本也不會隨著視頻長度線性增長。

最低 4090 能跑

伴隨代碼開源的同時，也有一份完整技術報告（61頁）：從機制設計到訓練策略、推理流程、基礎設施都講清楚了，把一整個系統的內部文檔攤給你看，就像 DeepSeek 那種風格。

論文總計 61 頁，非常翔實還有個產品

除了開源，它還有個產品，已經能用了。

官網在這：

https://sand.ai/magi

你開源上傳一張圖，寫一句話，它就能生成視頻。每次生成的時長由你控制，也可以開啟“增強理解”“高質量”等選項。

雞哥的唱跳時間，你可以隨意設定

最妙的是，它支持從任意時間點續寫。你可以先生成一小段，然后從中間某一秒接著寫下去，或者換個 prompt 接續新鏡頭。不是“生一個開頭”，而是一個可以不斷拓展、不斷演化的生成工具。

GieGie 可以分別唱、跳、Rap 和籃球

開源和產品一起推出來，這在視頻模型里并不常見。

最后

Magi-1 想做的事其實挺樸素的：讓視頻這件事，能被生成，符合規律。

它沒有走當下最主流的路線，也沒有追求最炸的效果，而是選了一條更難但更扎實的路徑：從時間出發，構建更真實的物理世界模擬器。

這件事的意義，在于它跑通了一個原本只有想象的可能

最后，用曹越的話來結尾

語言模型，偏向于虛擬世界；視頻模型，更偏向于現實世界。目前的視頻模型，還在一個比較早期的階段，但長期所謂的“世界模型”，會在這個方向上。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

賽博禪心

拜AI古佛，修賽博禪心

64文章數 6關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

藝術

游戲

手機

房產

家居要聞

手機 / 數碼

房產 / 家居

Magi-1 開源&刷屏：首個高質量自回歸視頻模型，它的一切信息

別自嗨了！XREAL徐馳：AI眼鏡只有5歲智商

印度、孟加拉關切雅魯藏布江下游水電站工程 中方回應

印度、孟加拉關切雅魯藏布江下游水電站工程 中方回應

英格蘭最紅球星 也是加勒比島國驕傲

汪峰森林北同游日本 各帶各娃互不耽誤

律師解析娃哈哈遺產案:遺囑是最大變數

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

晨曦生活 明媚而放松

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

LPL第三階段：TES零封FPX，要想改變口碑，還需要成績說話

主流安卓品牌中，誰兼容蘋果生態最好？

海南自由貿易港全島封關，2025年12月18日正式啟動！

Magi-1 開源&刷屏：首個高質量自回歸視頻模型，它的一切信息

別自嗨了！XREAL徐馳：AI眼鏡只有5歲智商

印度、孟加拉關切雅魯藏布江下游水電站工程中方回應

印度、孟加拉關切雅魯藏布江下游水電站工程中方回應

英格蘭最紅球星也是加勒比島國驕傲

汪峰森林北同游日本各帶各娃互不耽誤

德系大招放盡場地極限測試全新奧迪A5L

晨曦生活明媚而放松

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

LPL第三階段：TES零封FPX，要想改變口碑，還需要成績說話

海南自由貿易港全島封關，2025年12月18日正式啟動！