99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

首個自回歸視頻生成模型MAGI-1發布:開源、無限長度續寫,更懂物理規律,免費測試中

0
分享至

文章轉載自「量子位」。
新國產AI視頻生成模型橫空出世,一夜間全網刷屏。

Magi-1,首個實現頂級畫質輸出的自回歸視頻生成模型模型權重、代碼100%開源

整整61頁的技術報告中還詳細介紹了創新的注意力改進和推理基礎設施設計,給人一種視頻版DeepSeek的感覺。


Magi-1將視頻生成卷到了新高度,大片級品質直接鎖住大家的眼球。

其主打能力,一是無限長度擴展,實現跨時間的無縫連貫敘事:


二是能將生成時長控制精確到每一“秒”:


另外,Magi-1對物理規律也有更深度的理解,Physics-IQ基準測試56.02%,大幅領先一眾頂流。

現在看這張圖,Sora的時代是真的過去了。


這匹“黑馬”來自中國團隊Sand.ai,中文名聽著有點萌叫三呆科技,實力卻不容小覷。

創始人曹越,清華特獎得主、光年之外聯合創始人。

目前大伙兒可在官網免費試玩Magi-1。GitHub更是一晚過后狂攬500+Star。


此次開源了從24B到4.5B參數的一系列模型,最低配置一塊4090就能跑。


網友們激動轉發測試,評價也是相當高,看一下這個feel:


這絕對是令人驚嘆的工作。將自回歸擴散應用于視頻領域不僅是研究上的一大步,更是為現實世界的創意領域開辟了新可能。Magi-1在生成質量和精度上樹立了新標桿。

開源特性+令人矚目的基準測試表現=游戲規則改變者。


Founder Park 正在搭建開發者社群,邀請積極嘗試、測試新模型、新技術的開發者、創業者們加入,請掃碼詳細填寫你的產品/項目信息,通過審核后工作人員會拉你入群~


進群之后,你有機會得到:

  • 高濃度的主流模型(如 DeepSeek 等)開發交流;

  • 資源對接,與 API、云廠商、模型廠商直接交流反饋的機會;

  • 好用、有趣的產品/案例,Founder Park 會主動做宣傳。

01無限長度擴展,控制精確到每“秒”

還有更多官方效果展示,先來欣賞一波~

比如漂在水面上的貓,水面自然晃動,波光粼粼:


抽著雪茄的海盜船長,頗有大片的感jio:


光影等細節滿滿:


網友們也都陸陸續續曬出了自己的實測效果:

畫質超清晰,VR頭顯上的細微反光以及狗的胡須和毛發細節都栩栩如生。


還有網友生成了正在跳舞的小動物,belike:


量子位自然不能錯過,第一時間上手實測了一波。

玩法上,打開Magi-1,主打圖生成視頻,且是以一個“項目”為單位:


上傳好圖片之后,Magi-1像一張畫布一樣,呈現節點式的交互界面,點擊圖片側邊加號按鈕就能創建一個“視頻塊”。

開始設置prompt,支持精確調整時長,一次最長10s,也可設置Variations一次性生成多個視頻:


稍等片刻,一只活蹦亂跳的吉卜力小狗就生成好了。

我們第一次嘗試就得到了下面醬嬸兒的效果,小狗的動作姿態整體比較符合物理規律,沒有離譜的扭曲以及突然出現的第五條腿(doge)。

視頻左邊還有自動改寫增強后的prompt。


接著,對這段視頻進行擴展,小狗搖頭晃腦活蹦亂跳在表達什么呢?


原來是在講述它今天在河里游泳玩耍的事情。


把這一個個鏡頭“組裝”起來,分分鐘就能打造出一部連貫的敘事短片。

另外Magi-1中還有“資產管理”板塊,可基于生成的視頻再創建一個新項目,進行二次加工創作。


02完整模型架構,推理基礎設施公開

Magi-1公布的技術論文足足有61頁之多。


Magi-1整體架構基于Diffusion Transformer,采用Flow-Matching作為訓練目標。

訓練分為多階段,第一階段固定分辨率(256×256,16 幀),第二階段引入可變分辨率和圖像-視頻聯合訓練,并在推理時使用滑動窗口方法來支持任意分辨率。

其最大的特點是不把視頻當成一個整體去生成,而是通過自回歸去噪方式預測固定長度的視頻片段(chunk),每個片段固定為24幀。

當前一個片段達到一定去噪水平后,便開始生成下一個片段。這種流水線設計最多可同時處理四個片段,提高視頻生成的效率。

同時,這種約束早期片段噪聲水平低于后期片段的設計,確保了視頻前后的因果性,避免片段的信息影響過去,導致時間一致性差(如物體突然消失或運動軌跡斷裂)。


配合這種分片段自回歸設計,Magi-1在Diffusion Transformer的基礎上融入了多項改進。


光是在注意力機制上就有多項創新。

Block-Causal Attention

  • 片段內全注意力:每個視頻片段內的所有幀間進行全注意力計算,捕捉片段內短時序依賴(如單片段內物體的快速運動)。

  • 片段間因果注意力:僅允許當前片段關注之前已生成的片段,禁止未來片段信息反向流入,確保因果性。

  • 3D RoPE 位置編碼:結合空間和時間位置信息,學習可訓練的基頻參數,提升長時序建模能力。

Parallel Attention Block

傳統DiT架構中自注意力(處理視覺特征)和交叉注意力(處理文本條件)串行執行,需兩次TP通信(Tensor Parallel);并行塊將兩者的查詢投影Q共享,僅需一次通信,減少GPU間同步開銷

QK-NormGQA

QK-Norm是源自視覺Transformer的技術,通過歸一化查詢(Q)和鍵(K)的范數,穩定注意力權重計算,避免梯度爆炸/消失。Magi-1將其擴展到時空注意力和交叉注意力模塊,提升訓練穩定性,尤其在240億參數規模下效果顯著。

接下來的GQA、FFN 中的三明治歸一化、SwiGLU大家就很熟悉了。

到了具體軟硬協同層面,論文還提出了可擴展分布式注意力機制MagiAttention。

Flex-Flash-Attention

基于FlashAttention-3,將不規則注意力掩碼分解為多個 AttnSlice,使各種常用注意力掩碼可表示為多個AttnSlice的組合,從而支持靈活的注意力掩碼類型。利用英偉達Hopper 架構的TMA 特征,引入Slice級并行和原子操作,在支持靈活掩碼的同時,保持與FlashAttention-3相當的計算性能。

計算負載均衡

將整個掩碼沿查詢維度均勻劃分為多個dispatch chunks,并分配到不同的上下文并行(CP)對應的bucket中,使每個bucket包含相同數量的dispatch chunks,避免因負載不均衡導致的計算資源閑置。

零冗余通信原語

針對現有環形點對點通信原語存在冗余通信的問題,引入group-cast和 group-reduce原語。根據注意力掩碼的需求,精準地發送和收集關鍵值(KV)及梯度(dKV)信息,避免不必要的通信,實現零冗余通信。通過使用all-to-all-v原語進行原型實現,并借助內核融合減少預處理和后處理開銷。


自適應多階段重疊

為實現真正的線性擴展,引入多階段計算-通信重疊策略,將每個rank的遠程 KV/dKV 通信劃分為多個階段。

在正向傳遞中,先啟動group-cast內核預取下一階段的遠程KV,然后異步執行Flex-Flash-Attention(FFA)內核進行部分注意力計算;

在反向傳遞中,除了預取 KV,還在啟動 FFA 內核前,通過group-reduce內核減少上一階段的dKV。通過引入可調節超參數num_stages,根據不同訓練設置、微批次以及正向和反向傳遞的計算-通信比率,自適應地控制重疊粒度。

所有這些改動作為一個完整的MagiAttention項目,代碼也在GitHub上開源。


推理基礎設施方面,主要針對兩種場景進行設計:實時流式視頻生成和在 RTX 4090 GPU 上的經濟高效部署,以滿足不同應用需求。

在實時流式視頻生成上采用異構服務架構,將T5(提取文本Embedding,為視頻生成提供語義信息)和Magi-1部署在高性能GPU 上,VAE部分部署在經濟高效的硬件上,實現Magi-1推理和VAE解碼并發執行,并通過分析性能數據來分配資源,提升整體吞吐量。

針對RTX4090部署場景,借鑒語言模型將KV緩存存儲在CPU內存中,根據需要動態加載回GPU。針對RTX4090的PCIe總線帶寬限制,提出Context Shuffle Overlap(CSO)技術,優化通信與計算的重疊,提升計算資源利用率,使4.5B參數模型在單塊RTX 4090 GPU上部署時,峰值內存占用控制在21.94GB;24B模型在8塊RTX4090 GPU上部署時,峰值內存占用控制在19.29GB,且最大MFU(浮點運算數利用率)達到 58% 。

最后,評估結果分為內部人工評估、自動評估(VBench-I2V基準)、物理理解能力評估三部分。

人類評估中Magi-1與海螺、騰訊混元、通義萬相Wan2.1相比,尤其是在指令跟隨和運動質量方面有優勢,與閉源模型可靈1.6在視覺質量上還有一些差距。


在VBench-I2V基準上:MAGI-1(2×解碼器)以總分89.28排名第一,尤其在動態程度(Dynamic Degree)上有優勢,平衡運動幅度與圖像質量。


03曹越執掌的團隊,已完成三輪融資

Sand.AI創始人曹越,博士畢業于清華大學軟件學院,2018年獲清華大學特等獎學金。


讀博期間在微軟MSRA實習,2021年以Swin Transformer共同一作身份獲ICCV最佳論文“馬爾獎”。

2022年,曹越與王慧文等共同創辦光年之外,后加入智源研究院領導多模態與視覺研究中心。

2023年曹越創辦Sand.ai,在很長一段時間保持隱身模式。

2024年7月,其投資方今日資本“風投女王”徐新的一條傳聞把Sand.ai炸出水面。

當時有人發帖稱“今日資本撤離一級市場”,徐新發朋友圈辟謠時透露,2024年5月今日資本領投了Sand.AI的早期融資。

到現在據了解,Sand.AI已完成三輪融資,主要參與方包括今日資本、經緯創投等。

創新工場創始人李開復剛剛也發帖推薦了Sand.AI與Magi-1,稱“很高興看到繼 DeepSeek 之后,又有一家AI公司開發出世界一流的開源模型”。


目前Sand.ai具體融資金額,團隊規模等尚未可知,不過從MAGI-1論文附帶的貢獻者名單看,核心技術團隊至少有36人。


其中很多成員與曹越在工作經歷上有交集。

如創始成員方羽新,有微軟MSRA、智源研究院實習經歷,也是光年之外創始成員之一。


兩人在智源研究院期間在大規模視覺表征預訓練模型EVA系列上多次合作。


核心貢獻者李凌志,也有MSRA實習經歷,曾擔任小紅書算法主管和阿里巴巴集團達摩院算法專家。


多位團隊成員在個人主頁等處介紹自己現在為一家隱形初創公司工作。

現在答案已經明了,他們在Sand AI,做AI視頻生成界的DeepSeek。

在線試玩:
https://sand.ai/

參考鏈接:
[1] https://github.com/SandAI-org/MAGI-1
[2]https://static.magi.world/static/files/MAGI_1.pdf
[3]https://x.com/kaifulee/status/1914528611429966315


轉載原創文章請添加微信:founderparker

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國對中國留學生下手,27萬留美學生一夜之間……

美國對中國留學生下手,27萬留美學生一夜之間……

販財局
2025-05-29 14:55:12
越扒越深!黃楊鈿甜18歲,她爸38歲,網友:有什么通關秘籍?

越扒越深!黃楊鈿甜18歲,她爸38歲,網友:有什么通關秘籍?

八斗小先生
2025-05-29 09:02:44
愈演愈烈?陳夢疑似發文內涵美娜,王楚欽戀情成乒圈最大未解之謎

愈演愈烈?陳夢疑似發文內涵美娜,王楚欽戀情成乒圈最大未解之謎

鳳幻洋
2025-05-29 14:38:49
我剛成年就被極品熟女吸引,她是朋友的媽媽,可我不在乎因為阿姨真的很棒.....

我剛成年就被極品熟女吸引,她是朋友的媽媽,可我不在乎因為阿姨真的很棒.....

戶外小阿隋
2025-05-19 11:11:47
你以為我在“洗白”安祿山,你錯了,這才是歷史上真實的安祿山

你以為我在“洗白”安祿山,你錯了,這才是歷史上真實的安祿山

縱古貫今
2025-05-09 21:37:12
“中國版B-21”被央視曝光!專打9000公里外目標,能橫跨太平洋!

“中國版B-21”被央視曝光!專打9000公里外目標,能橫跨太平洋!

太空記
2025-05-29 15:48:06
跟沒穿有啥區別,范冰冰真空穿深V,領口開到肚臍,裙開到大腿根

跟沒穿有啥區別,范冰冰真空穿深V,領口開到肚臍,裙開到大腿根

說真話的小陳
2025-05-28 10:18:49
聽我一句勸,銷量大跌40%,問界被拋棄?

聽我一句勸,銷量大跌40%,問界被拋棄?

三農老歷
2025-05-15 15:49:22
富家女在海南買240平的豪宅,10年后才想起,結果當場懵了

富家女在海南買240平的豪宅,10年后才想起,結果當場懵了

二十一號故事鋪
2024-04-19 13:50:34
歷史第三人!庫里37歲入選二陣,在他之前的兩名球員是誰

歷史第三人!庫里37歲入選二陣,在他之前的兩名球員是誰

大衛的籃球故事
2025-05-30 10:09:24
齙牙、沒作品、靠人設,這個中國女明星怎么成為世界巨星的?

齙牙、沒作品、靠人設,這個中國女明星怎么成為世界巨星的?

gogoboi
2025-05-29 22:44:31
4種茶葉已被列入“傷肝名單”,喝多了或傷肝!再愛喝也要管住嘴

4種茶葉已被列入“傷肝名單”,喝多了或傷肝!再愛喝也要管住嘴

平祥生活日志
2025-05-07 16:36:28
西安驚現雷人征婚海報!引發知名財經評論員發帖,這相親要求高嗎

西安驚現雷人征婚海報!引發知名財經評論員發帖,這相親要求高嗎

火山詩話
2025-05-29 09:12:29
12億打造未來科技城!華為湖南總部“金鑲玉”亮相

12億打造未來科技城!華為湖南總部“金鑲玉”亮相

GA環球建筑
2025-05-30 00:53:44
48歲左小青紅毯不知道她尷不尷尬,反正我挺尷尬的 ,何必呢!

48歲左小青紅毯不知道她尷不尷尬,反正我挺尷尬的 ,何必呢!

阿傖說事
2025-05-28 10:40:06
媒體人:多哈女單決賽并不公平,王曼昱已經9個月沒教練管了

媒體人:多哈女單決賽并不公平,王曼昱已經9個月沒教練管了

八斗小先生
2025-05-29 15:34:04
女兒每月給父親5千4生活費,父親哭訴從未拿到,查流水全家愣了

女兒每月給父親5千4生活費,父親哭訴從未拿到,查流水全家愣了

無名講堂
2025-05-26 17:44:51
中央定調,延遲退休實施!71至75年生人,提前退休養老金少多少?

中央定調,延遲退休實施!71至75年生人,提前退休養老金少多少?

王五說說看
2025-05-30 07:21:28
YouTube在電視收視率方面超越迪士尼和Netflix 成為客廳主流

YouTube在電視收視率方面超越迪士尼和Netflix 成為客廳主流

cnBeta.COM
2025-05-28 02:04:05
賈玲新片遭集體抵制,“故技重施”連累楊紫:這次準備撈幾個億?

賈玲新片遭集體抵制,“故技重施”連累楊紫:這次準備撈幾個億?

聯友說娛
2025-05-15 10:28:27
2025-05-30 13:23:00
FounderPark incentive-icons
FounderPark
關注AI創業,專注和創業者聊真問題
763文章數 133關注度
往期回顧 全部

科技要聞

榮耀新CEO放話:下半年重返前三,靠譜嗎?

頭條要聞

男子因"婚內強奸"被關285天:已經離婚 申請國賠33萬

頭條要聞

男子因"婚內強奸"被關285天:已經離婚 申請國賠33萬

體育要聞

當我終于回國時,可能已認不出我的家

娛樂要聞

央視主持人朱迅在景區救治高反游客

財經要聞

美國政府殺瘋了,全世界目瞪口呆

汽車要聞

可城能野更智能 猛士M817把硬派SUV玩出花

態度原創

藝術
親子
教育
時尚
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

【絲德黎育兒大講堂】賈倩芳:認識兒童食物過敏,守護孩子健康

教育要聞

全校超30%學生考研成功,湖南這所寶藏大學亮了!

和劉亦菲一起來場“時裝出逃”的旅行

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 沂水县| 巢湖市| 天长市| 三亚市| 新沂市| 泊头市| 镇远县| 屏东市| 鹿泉市| 定远县| 渝北区| 陕西省| 开封县| 梁河县| 奈曼旗| 繁峙县| 安多县| 巢湖市| 汪清县| 哈尔滨市| 岑溪市| 赫章县| 常山县| 康保县| 白河县| 黄浦区| 东兴市| 开封县| 金阳县| 沽源县| 达日县| 武安市| 东莞市| 五台县| 赞皇县| 内黄县| 神农架林区| 喀喇沁旗| 襄城县| 平江县| 若羌县|