Magi-1,開源于北京,五道口 于是,很多朋友發現了: 在視頻圈子,Magi-1 映入了大家眼簾 不到兩天,在 GitHub 上拿到了 1.7k Star 這全球首個高質量自回歸視頻模型 著實的,給中國開源,漲了波臉
國產 Magi-1,在物理真實性上,斷層第一
在物理真實性測試中,比谷歌的 VideoPoet,還高出 3 個 Sora
github.com/google-deepmind/physics-IQ-benchmark Twitter 上的討論 大V Simo:誰特么這么牛逼
OpenAI 的 Beyer,問 GPT:為什么他們做這么好? 來看看效果
相信我,這是一個劃時代的發布
A sense of speed /Xixi
Meditation /Wild Pusa
Violinist /Xixi
TwitterInnocent /Eddy 干得漂亮
務實一點說,Magi-1 在畫面穩定性上,還有所欠缺。
但在常見場景中,開源的 Magi,已經能跟可靈們掰掰手腕了。
令人敬佩的是,他們驗證了自回歸視頻模型 這條路線,使模型可以遵循現實的因果律,在相關推理任務中,遙遙領先。
你沒看錯,包括 Sora 在內的各類視頻生成 AI,是把整個片段同時畫出來,不區分“先發生什么,后發生什么”,不存在時間,更無法遵從相關因果律。
而 Magi-1 大膽革新,做到了,而且做的很不錯。
益于自回歸架構的天然優勢,Magi 在預測物理行為方面,遠超現有模型的精度
各類相關量表
在指令遵循和運動質量方面,Magi 表現不錯
各類相關量表
然后,這個 Magi 開源了,從4.5B到24B:
https://huggingface.co/sand-ai/MAGI-1
4.5B 模型預計4月底上,最低 4090 就能跑
再然后,他們還上線了一個可以開箱即用的產品:
https://sand.ai/magi
Magi-1 背后的團隊,是 Sand.ai
創始人是曹越,「光年之外」聯合創始人。
之前,在他辦公室里聊了半個下午,問了大量私貨,有了這篇文章
本篇,應是對 Sand.ai 最全面的介紹了
是誰做的?
創始人是曹越。
清華特等獎學金,ICCV 馬爾獎(Marr Prize),Swin Transformer 共同一作,博士畢業后加入微軟亞洲研究院,后任智源研究院視覺中心負責人。
摸來了 ICCV 的 PPT
2023 年年初,他和王慧文、袁進輝共同創立了大模型公司「光年之外」,擔任算法聯創。
之后,光年之外被收購。
袁進輝成立了「硅基流動」,而曹越則繼續深耕視頻生成方向,并2024 年正式創立 Sand.ai(三呆科技...這名字太抽象了),Magi-1 便是團隊推出的首個模型產品。
我眼中的曹越
曹越非常敏銳,思維極為清晰,不講玄虛,會把一個個概念拆成因果講清楚。
有一天,在 Sand.ai 的辦公室,我們就視頻生成的未來,聊了整個下午。
主題很直接 視頻能不能被真正「生成」? 如果能,路徑應該是怎樣的?
我們聊了視頻生成的各類方法,比如 DiT??雌饋砀咝?、效果也不錯,但它本質上是把幾秒鐘的視頻,一次性生成。
生成視頻的時候,過去和未來是同時出現,不存在時間。
因此,在視頻生成的 AI 中:控制“場景”容易,控制“發生”很難。
問題很直白 如果視頻是時間的表達,那生成它的方式,就必須能處理時間。
這也是 Magi-1 的起點:如果想讓視頻更符合人的認知,就要有時間因果性,就不能假裝時間是靜態的。
于是,Magi-1 便開始了此路徑上的探索:秒內 Dit,秒外自回歸,每一段視頻都是基于前面的內容,往下推進。
這也便有了后面會看到的 chunk-by-chunk 結構,也是為什么它可以精確到每一秒發生什么、能接著拍下去,而不是只是“畫出一段動圖”。
團隊不大,出身很硬
Sand.ai 的團隊不大,三十人的團隊,幾乎都是技術人員,其中不乏科研出身的算法專家。
聯合創始人張拯,也是 Swin Transformer 的作者之一,ACM 亞洲金牌,MSRA 老同事。他和曹越在微軟合作了五年,一起打磨過不少視覺模型。 Google Scholar 引用接近 5 萬,算是這條路線里默默干活、極少拋頭露面的那種人。
還有幾位核心算法,背景都差不多——MSRA、智源、清華、華中科大。工程團隊亦人才濟濟,清華、北大、南大、廈大。
這也決定了他們在技術選型上的很多不尋常。比如:
? 不做并發采樣;
? 不用標準擴散路徑,而是自回歸擴散;
? 自寫推理系統,從 attention 到 chunk cache 都是自己改的。
把整個結構從頭寫一遍。
三輪融資,一路沒斷
Sand.ai 自打創立,便在 VC 圈里到了很多關注:目前已經完成三輪、總計約六千萬美金。
幾輪融資的主領投方分別是:源碼資本、今日資本、經緯中國。
跟投方也很強大:創新工場、IDG、襄禾、商湯、華業天成,再加上一些業內的個人投資者。
可見,Sand.ai 很早就被人看懂了方向、認了出來、下了重注:
? 這是新的路線探索;
? 能打穿結構 +基礎設施;
? 能 scale 的訓練、推理體系。
不在追隨誰,而在走自己的路
技術原理
上面淺提了過,比如 OpenAI 的 Sora 這樣 DiT 模型的工作方式:一口氣生成幾秒視頻,然后拼接起來播放。
這聽上去沒什么問題,甚至很高效。但本質上,它們是并發生成,沒有時間順序。你寫一個 prompt,模型一次性把整個片段畫出來,未來和過去是同時想象出來的:不區分先發生什么,后發生什么。
這就會帶來一個問題:生成的視頻,未必遵循現實的因果律,缺乏真正的時間感
Magi-1 的解決思路
它采用的是一種叫做 chunk-by-chunk 的自回歸生成 方法。
視頻被劃分為一個個時間片段(chunk),每段比如 24 幀,相當于 1 秒的視頻。 每生成一段,才會進入下一段。下一段的內容,要基于上一段的內容來生成。
這個結構天然地保留了因果性,時間在模型里是順序展開的,而不是拼裝進來的。
左側:chunk 逐步生成流程,右側:掩碼結構
具體來說,它使用一種叫做 block-causal attention 的機制:
? 塊內是全連接 ,保留短時段的一致性;
? 塊與塊之間是單向連接 ,只能“看前不看后”。
這種方式,保證了每一段的生成都帶著“記憶”,并且不會被未來的信息干擾。
Magi-1 的訓練方法
訓練時,模型不是一次性還原整個視頻,而是逐段對每個 chunk 進行去噪。每個 chunk 會被注入不同程度的噪聲(前面的噪聲少,后面的噪聲多),模型的任務是學習如何根據時間順序去還原這些 noisy chunk。
論文中這一機制叫作:時間上單調遞增的噪聲注入(temporally progressive noise levels)。
生成時,Magi-1 會在 chunk 被“去噪到一定程度”時提前進入下一個 chunk 的生成。所以模型可以流式生成、邊播邊推,同時還能保持時間上的邏輯閉環。
模型結構圖/邏輯演示
通過這些,Magi-1 有了幾個非常實際的能力:
? 無限時長生成 :可以不斷續寫,一直“接著生成”,沒有固定長度限制;
? 每秒控制粒度 :可以對每個 chunk 加不同的 prompt,精確指定什么時候發生什么;
? 推理成本固定 :每個 chunk 的計算開銷是定值,長視頻不爆顯存;

全新的算法范式,帶來了業界從未解決過的工程挑戰。
在之前,業界沒有解決方案可以同時滿足:
視頻的超長序列
自回歸與 Chunk 結合帶來的復雜 attention
千卡集群訓練
為了解決這個問題,Sand.ai 從底層通信元語到上層調度算法,都做了全棧創新,并把全套解決方案開源給技術社區。
能做視頻續寫
有意思的是,Magi-1 不止支持 T2V(文本生視頻)和 I2V(圖生視頻),它的結構天然也能做 V2V(視頻續寫),而且效果遠好于 I2V 模擬續寫。
論文第16頁的實驗對比非常直接:
? 筆旋轉的例子里,I2V 模型完全預測不了旋轉的速度;
? Magi-1 的 V2V 模式則能把動作延續得很自然,因為它確實“看到了前面”。

它的推理過程是“并行去噪 + pipeline 式推進”,最多可以同時生成 4 個 chunk,每段都帶有歷史記憶,但不會因為長度變長而爆顯存。得益于它的自回歸結構和 KV 緩存機制,哪怕是分鐘級視頻,系統推理的峰值資源也不會變。
在論文第2頁有一句話說得很清楚:
“Magi-1 的推理峰值資源使用量,與視頻長度無關。”
這一點對于部署來說意義非常大:它真的可以跑長內容、實時生成,不靠截斷、不靠分段預處理。
再補充點細節
Magi-1 的結構不是從 Diffusion Transformer 拿過來直接用,而是在 attention、FFN、條件編碼、位置編碼上都做了大量改進。
包括:
? 3D 可學習 RoPE 位置編碼;
? 平行 attention 結構(合并 self-attn 和 cross-attn);
? SwiGLU 激活 + sandwich norm 穩定訓練;
? QK-Norm + GQA 以節省內存并提升收斂穩定性;
這些都藏在結構實現里,沒有在首頁圖表里體現,但在訓練大模型時非常關鍵。
插圖:第5頁 圖3b/c,Attention 結構與 FFN 結構細節 回顧一下
Magi-1 做的是這樣一件事:
它讓視頻生成這件事,從“像畫圖一樣生成結果”, 變成了“像連續劇一樣,一集一集生成”。
這或許是一個新的范式。而這一切,現在已經開源了。
開源了,而且是全套交付
是真的,全放了。
模型權重,從 4.5B 到 24B 的全尺寸都開了。推理腳本和訓練代碼也都在,支持文本生成視頻、圖像生成視頻,以及視頻續寫。用的是標準 HuggingFace 接口,也有 CLI 和 Gradio 的完整推理鏈路。
106 個關注者里,有我一個
部署也比較輕,不是那種只能跑在高性能集群里的模型。最小版本一張 4090 就能跑,開箱即用,推理成本也不會隨著視頻長度線性增長。
最低 4090 能跑
伴隨代碼開源的同時,也有一份完整技術報告(61頁):從機制設計到訓練策略、推理流程、基礎設施都講清楚了,把一整個系統的內部文檔攤給你看,就像 DeepSeek 那種風格。
論文總計 61 頁,非常翔實 還有個產品
除了開源,它還有個產品,已經能用了。
官網在這:
https://sand.ai/magi
你開源上傳一張圖,寫一句話,它就能生成視頻。每次生成的時長由你控制,也可以開啟“增強理解”“高質量”等選項。
雞哥的唱跳時間,你可以隨意設定
最妙的是,它支持從任意時間點續寫。你可以先生成一小段,然后從中間某一秒接著寫下去,或者換個 prompt 接續新鏡頭。不是“生一個開頭”,而是一個可以不斷拓展、不斷演化的生成工具。
GieGie 可以分別唱、跳、Rap 和 籃球
開源和產品一起推出來,這在視頻模型里并不常見。
最后
Magi-1 想做的事其實挺樸素的:讓視頻這件事,能被生成,符合規律。
它沒有走當下最主流的路線,也沒有追求最炸的效果,而是選了一條更難但更扎實的路徑:從時間出發,構建更真實的物理世界模擬器。
這件事的意義,在于它跑通了一個原本只有想象的可能
最后,用曹越的話來結尾
語言模型,偏向于虛擬世界; 視頻模型,更偏向于現實世界。 目前的視頻模型,還在一個比較早期的階段,但長期所謂的“世界模型”,會在這個方向上。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.