99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Magi-1 開源&刷屏:首個高質量自回歸視頻模型,它的一切信息

0
分享至


Magi-1,開源于北京,五道口 于是,很多朋友發現了: 在視頻圈子,Magi-1 映入了大家眼簾 不到兩天,在 GitHub 上拿到了 1.7k Star 這全球首個高質量自回歸視頻模型 著實的,給中國開源,漲了波臉


國產 Magi-1,在物理真實性上,斷層第一

在物理真實性測試中,比谷歌的 VideoPoet,還高出 3 個 Sora


github.com/google-deepmind/physics-IQ-benchmark Twitter 上的討論 大V Simo:誰特么這么牛逼 OpenAI 的 Beyer,問 GPT:為什么他們做這么好? 來看看效果

相信我,這是一個劃時代的發布

A sense of speed /Xixi

Meditation /Wild Pusa

Violinist /Xixi

TwitterInnocent /Eddy 干得漂亮

務實一點說,Magi-1 在畫面穩定性上,還有所欠缺。

但在常見場景中,開源的 Magi,已經能跟可靈們掰掰手腕了。

令人敬佩的是,他們驗證了自回歸視頻模型 這條路線,使模型可以遵循現實的因果律,在相關推理任務中,遙遙領先。

你沒看錯,包括 Sora 在內的各類視頻生成 AI,是把整個片段同時畫出來,不區分“先發生什么,后發生什么”,不存在時間,更無法遵從相關因果律

而 Magi-1 大膽革新,做到了,而且做的很不錯。

益于自回歸架構的天然優勢,Magi 在預測物理行為方面,遠超現有模型的精度


各類相關量表

在指令遵循和運動質量方面,Magi 表現不錯


各類相關量表

然后,這個 Magi 開源了,從4.5B到24B:

https://huggingface.co/sand-ai/MAGI-1


4.5B 模型預計4月底上,最低 4090 就能跑

再然后,他們還上線了一個可以開箱即用的產品:

https://sand.ai/magi


Magi-1 背后的團隊,是 Sand.ai

創始人是曹越,「光年之外」聯合創始人。

之前,在他辦公室里聊了半個下午,問了大量私貨,有了這篇文章

本篇,應是對 Sand.ai 最全面的介紹了


是誰做的?

創始人是曹越。

清華特等獎學金,ICCV 馬爾獎(Marr Prize),Swin Transformer 共同一作,博士畢業后加入微軟亞洲研究院,后任智源研究院視覺中心負責人。


摸來了 ICCV 的 PPT

2023 年年初,他和王慧文、袁進輝共同創立了大模型公司「光年之外」,擔任算法聯創。

之后,光年之外被收購。

袁進輝成立了「硅基流動」,而曹越則繼續深耕視頻生成方向,并2024 年正式創立 Sand.ai(三呆科技...這名字太抽象了),Magi-1 便是團隊推出的首個模型產品。

我眼中的曹越

曹越非常敏銳,思維極為清晰,不講玄虛,會把一個個概念拆成因果講清楚。

有一天,在 Sand.ai 的辦公室,我們就視頻生成的未來,聊了整個下午。

主題很直接 視頻能不能被真正「生成」? 如果能,路徑應該是怎樣的?

我們聊了視頻生成的各類方法,比如 DiT??雌饋砀咝?、效果也不錯,但它本質上是把幾秒鐘的視頻,一次性生成。

生成視頻的時候,過去和未來是同時出現,不存在時間。

因此,在視頻生成的 AI 中:控制“場景”容易,控制“發生”很難。

問題很直白 如果視頻是時間的表達,那生成它的方式,就必須能處理時間。

這也是 Magi-1 的起點:如果想讓視頻更符合人的認知,就要有時間因果性,就不能假裝時間是靜態的。

于是,Magi-1 便開始了此路徑上的探索:秒內 Dit,秒外自回歸,每一段視頻都是基于前面的內容,往下推進。

這也便有了后面會看到的 chunk-by-chunk 結構,也是為什么它可以精確到每一秒發生什么、能接著拍下去,而不是只是“畫出一段動圖”。

團隊不大,出身很硬

Sand.ai 的團隊不大,三十人的團隊,幾乎都是技術人員,其中不乏科研出身的算法專家。

聯合創始人張拯,也是 Swin Transformer 的作者之一,ACM 亞洲金牌,MSRA 老同事。他和曹越在微軟合作了五年,一起打磨過不少視覺模型。 Google Scholar 引用接近 5 萬,算是這條路線里默默干活、極少拋頭露面的那種人。

還有幾位核心算法,背景都差不多——MSRA、智源、清華、華中科大。工程團隊亦人才濟濟,清華、北大、南大、廈大。

這也決定了他們在技術選型上的很多不尋常。比如:

  • ? 不做并發采樣;

  • ? 不用標準擴散路徑,而是自回歸擴散;

  • ? 自寫推理系統,從 attention 到 chunk cache 都是自己改的。

把整個結構從頭寫一遍。

三輪融資,一路沒斷

Sand.ai 自打創立,便在 VC 圈里到了很多關注:目前已經完成三輪、總計約六千萬美金

幾輪融資的主領投方分別是:源碼資本、今日資本、經緯中國。

跟投方也很強大:創新工場、IDG、襄禾、商湯、華業天成,再加上一些業內的個人投資者。

可見,Sand.ai 很早就被人看懂了方向、認了出來、下了重注

  • ? 這是新的路線探索;

  • ? 能打穿結構 +基礎設施;

  • ? 能 scale 的訓練、推理體系。

不在追隨誰,而在走自己的路

技術原理

上面淺提了過,比如 OpenAI 的 Sora 這樣 DiT 模型的工作方式:一口氣生成幾秒視頻,然后拼接起來播放。

這聽上去沒什么問題,甚至很高效。但本質上,它們是并發生成,沒有時間順序。你寫一個 prompt,模型一次性把整個片段畫出來,未來和過去是同時想象出來的:不區分先發生什么,后發生什么。

這就會帶來一個問題:生成的視頻,未必遵循現實的因果律,缺乏真正的時間感

Magi-1 的解決思路

它采用的是一種叫做 chunk-by-chunk 的自回歸生成 方法。

視頻被劃分為一個個時間片段(chunk),每段比如 24 幀,相當于 1 秒的視頻。 每生成一段,才會進入下一段。下一段的內容,要基于上一段的內容來生成。

這個結構天然地保留了因果性,時間在模型里是順序展開的,而不是拼裝進來的。


左側:chunk 逐步生成流程,右側:掩碼結構

具體來說,它使用一種叫做 block-causal attention 的機制:

  • ? 塊內是全連接 ,保留短時段的一致性;

  • ? 塊與塊之間是單向連接 ,只能“看前不看后”。

這種方式,保證了每一段的生成都帶著“記憶”,并且不會被未來的信息干擾。

Magi-1 的訓練方法

訓練時,模型不是一次性還原整個視頻,而是逐段對每個 chunk 進行去噪。每個 chunk 會被注入不同程度的噪聲(前面的噪聲少,后面的噪聲多),模型的任務是學習如何根據時間順序去還原這些 noisy chunk。

論文中這一機制叫作:時間上單調遞增的噪聲注入(temporally progressive noise levels)

生成時,Magi-1 會在 chunk 被“去噪到一定程度”時提前進入下一個 chunk 的生成。所以模型可以流式生成、邊播邊推,同時還能保持時間上的邏輯閉環。


模型結構圖/邏輯演示

通過這些,Magi-1 有了幾個非常實際的能力:

  • ? 無限時長生成 :可以不斷續寫,一直“接著生成”,沒有固定長度限制;

  • ? 每秒控制粒度 :可以對每個 chunk 加不同的 prompt,精確指定什么時候發生什么;

  • ? 推理成本固定 :每個 chunk 的計算開銷是定值,長視頻不爆顯存;

連續敘事結構的示意分鏡

全新的算法范式,帶來了業界從未解決過的工程挑戰。

在之前,業界沒有解決方案可以同時滿足:

  • 視頻的超長序列

  • 自回歸與 Chunk 結合帶來的復雜 attention

  • 千卡集群訓練

為了解決這個問題,Sand.ai 從底層通信元語到上層調度算法,都做了全棧創新,并把全套解決方案開源給技術社區。

能做視頻續寫

有意思的是,Magi-1 不止支持 T2V(文本生視頻)和 I2V(圖生視頻),它的結構天然也能做 V2V(視頻續寫),而且效果遠好于 I2V 模擬續寫。

論文第16頁的實驗對比非常直接:

  • ? 筆旋轉的例子里,I2V 模型完全預測不了旋轉的速度;

  • ? Magi-1 的 V2V 模式則能把動作延續得很自然,因為它確實“看到了前面”。

V2V vs I2V 對比圖(筆旋轉和遮擋恢復) 推理效率下了功夫

它的推理過程是“并行去噪 + pipeline 式推進”,最多可以同時生成 4 個 chunk,每段都帶有歷史記憶,但不會因為長度變長而爆顯存。得益于它的自回歸結構和 KV 緩存機制,哪怕是分鐘級視頻,系統推理的峰值資源也不會變。

在論文第2頁有一句話說得很清楚:

“Magi-1 的推理峰值資源使用量,與視頻長度無關。”

這一點對于部署來說意義非常大:它真的可以跑長內容、實時生成,不靠截斷、不靠分段預處理。

再補充點細節

Magi-1 的結構不是從 Diffusion Transformer 拿過來直接用,而是在 attention、FFN、條件編碼、位置編碼上都做了大量改進。

包括:

  • ? 3D 可學習 RoPE 位置編碼;

  • ? 平行 attention 結構(合并 self-attn 和 cross-attn);

  • ? SwiGLU 激活 + sandwich norm 穩定訓練;

  • ? QK-Norm + GQA 以節省內存并提升收斂穩定性;

這些都藏在結構實現里,沒有在首頁圖表里體現,但在訓練大模型時非常關鍵。


插圖:第5頁 圖3b/c,Attention 結構與 FFN 結構細節 回顧一下

Magi-1 做的是這樣一件事:

它讓視頻生成這件事,從“像畫圖一樣生成結果”, 變成了“像連續劇一樣,一集一集生成”。

這或許是一個新的范式。而這一切,現在已經開源了。

開源了,而且是全套交付

是真的,全放了。

模型權重,從 4.5B 到 24B 的全尺寸都開了。推理腳本和訓練代碼也都在,支持文本生成視頻、圖像生成視頻,以及視頻續寫。用的是標準 HuggingFace 接口,也有 CLI 和 Gradio 的完整推理鏈路。


106 個關注者里,有我一個

部署也比較輕,不是那種只能跑在高性能集群里的模型。最小版本一張 4090 就能跑,開箱即用,推理成本也不會隨著視頻長度線性增長。


最低 4090 能跑

伴隨代碼開源的同時,也有一份完整技術報告(61頁):從機制設計到訓練策略、推理流程、基礎設施都講清楚了,把一整個系統的內部文檔攤給你看,就像 DeepSeek 那種風格


論文總計 61 頁,非常翔實 還有個產品

除了開源,它還有個產品,已經能用了。

官網在這:


https://sand.ai/magi

你開源上傳一張圖,寫一句話,它就能生成視頻。每次生成的時長由你控制,也可以開啟“增強理解”“高質量”等選項。


雞哥的唱跳時間,你可以隨意設定

最妙的是,它支持從任意時間點續寫。你可以先生成一小段,然后從中間某一秒接著寫下去,或者換個 prompt 接續新鏡頭。不是“生一個開頭”,而是一個可以不斷拓展、不斷演化的生成工具。


GieGie 可以分別唱、跳、Rap 和 籃球

開源和產品一起推出來,這在視頻模型里并不常見。

最后

Magi-1 想做的事其實挺樸素的:讓視頻這件事,能被生成,符合規律。

它沒有走當下最主流的路線,也沒有追求最炸的效果,而是選了一條更難但更扎實的路徑:從時間出發,構建更真實的物理世界模擬器

這件事的意義,在于它跑通了一個原本只有想象的可能

最后,用曹越的話來結尾

語言模型,偏向于虛擬世界; 視頻模型,更偏向于現實世界。 目前的視頻模型,還在一個比較早期的階段,但長期所謂的“世界模型”,會在這個方向上。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
緊急暫停!女演員突然從高空墜落

緊急暫停!女演員突然從高空墜落

魯中晨報
2025-07-23 07:20:09
保羅將成為第七個!美媒列前六位球員第21個賽季數據:老詹25+7+8

保羅將成為第七個!美媒列前六位球員第21個賽季數據:老詹25+7+8

直播吧
2025-07-22 22:52:11
美國務院已確認!2名美官員觸碰中國法律,現已被限制離開中國

美國務院已確認!2名美官員觸碰中國法律,現已被限制離開中國

現代小青青慕慕
2025-07-23 00:02:36
河南研究生賣“軍火燒餅”走紅,1元1個專賣小學生,網友:膽真大

河南研究生賣“軍火燒餅”走紅,1元1個專賣小學生,網友:膽真大

明月聊史
2025-07-23 15:31:21
2025上半年燃油車銷量TOP20出爐:國產最高排第五

2025上半年燃油車銷量TOP20出爐:國產最高排第五

智車情報局
2025-07-23 14:18:35
船記總結:保羅當年去火箭換來的籌碼,如今變成了哈登科林斯

船記總結:保羅當年去火箭換來的籌碼,如今變成了哈登科林斯

雷速體育
2025-07-23 17:15:41
小叔在我家住了8年,如今他身居高位,母親找他幫忙,他卻拒絕了

小叔在我家住了8年,如今他身居高位,母親找他幫忙,他卻拒絕了

少女說籃球
2025-07-23 15:58:03
東風導彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

冰點歷史
2025-07-15 09:33:13
俄烏戰爭打這么久俄的經濟為何沒有崩盤你是根本不知道我接多少單

俄烏戰爭打這么久俄的經濟為何沒有崩盤你是根本不知道我接多少單

侃神評故事
2025-07-17 20:21:26
中國需準備應對俄羅斯解體,確保700萬土地安全

中國需準備應對俄羅斯解體,確保700萬土地安全

阿釗是個小小評論員
2025-07-09 17:34:00
奧科吉底薪加盟!火箭拉滿鋒線和防守 14人輪換是下季最強戰隊?

奧科吉底薪加盟!火箭拉滿鋒線和防守 14人輪換是下季最強戰隊?

直播吧
2025-07-23 09:18:09
臺灣黑幫大佬陳啟禮:我寧可被共產黨管著,也不讓臺灣被外人拿走

臺灣黑幫大佬陳啟禮:我寧可被共產黨管著,也不讓臺灣被外人拿走

愛史紀
2025-07-21 16:30:26
演員劉歡:長相被嫌,被朋友騙光積蓄,終于憑借《掃毒風暴》走紅

演員劉歡:長相被嫌,被朋友騙光積蓄,終于憑借《掃毒風暴》走紅

新語愛八卦
2025-07-23 15:02:41
烏軍證實:俄軍進入紅軍城

烏軍證實:俄軍進入紅軍城

觀察者網
2025-07-23 13:04:11
你們是不是對“下一盤大棋”有什么誤會?

你們是不是對“下一盤大棋”有什么誤會?

邏輯與常識
2025-07-18 06:58:00
暴發戶舅舅93年買下京城5套四合院后坐牢,出獄去那一看,當場跪下

暴發戶舅舅93年買下京城5套四合院后坐牢,出獄去那一看,當場跪下

紅豆講堂
2025-07-21 16:30:58
1950年才得知妹妹尚有女兒在世,毛主席急問毛岸英:她現在在哪兒

1950年才得知妹妹尚有女兒在世,毛主席急問毛岸英:她現在在哪兒

小莜讀史
2025-07-22 20:29:58
陰法唐同志逝世

陰法唐同志逝世

上觀新聞
2025-07-04 12:15:02
交警提醒:無證酒駕、隔夜酒駕,全部取締!喝酒不開車

交警提醒:無證酒駕、隔夜酒駕,全部取締!喝酒不開車

聯友說娛
2025-07-22 13:41:07
重慶雙胞胎兄弟分別被清華、北大錄取

重慶雙胞胎兄弟分別被清華、北大錄取

封面新聞
2025-07-23 14:55:04
2025-07-23 20:03:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
64文章數 6關注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

印度、孟加拉關切雅魯藏布江下游水電站工程 中方回應

頭條要聞

印度、孟加拉關切雅魯藏布江下游水電站工程 中方回應

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經要聞

律師解析娃哈哈遺產案:遺囑是最大變數

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

家居
藝術
游戲
手機
房產

家居要聞

晨曦生活 明媚而放松

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

LPL第三階段:TES零封FPX,要想改變口碑,還需要成績說話

手機要聞

主流安卓品牌中,誰兼容蘋果生態最好?

房產要聞

海南自由貿易港全島封關,2025年12月18日正式啟動!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 广州市| 东乡县| 西平县| 犍为县| 绍兴市| 蒙自县| 宁武县| 汉中市| 深泽县| 桓台县| 高唐县| 青神县| 二手房| 翼城县| 元江| 八宿县| 涿州市| 阳高县| 宁武县| 乌鲁木齐县| 湘潭县| 宜昌市| 上饶市| 山阳县| 禄丰县| 清新县| 荥阳市| 同江市| 微博| 扶风县| 清水河县| 乌海市| 乃东县| 宁强县| 洛扎县| 诸暨市| 凤凰县| 兴安盟| 白朗县| 基隆市| 芒康县|