提到AI視頻生成,大家會想到誰…,Sora,Runway Gen-3,Veo2.0,Ray2…
在近期MagicArena平臺的萬人評測中,字節團隊前不久推出的Seaweed-7B 以1047 ELO 的評分超越了上述知名的主流AI視頻模型,尤其是遠超Sora的903 ELO評分。
除了客觀的評分之外,我們可以通過下面幾個Demo來直觀感受一下Seaweed-7B的強悍。
Seaweed根據提示詞生成各種類型人物角色,尤其在人物動作,手勢,情緒方面表現出色。
Seaweed可以通過定義的軌跡來模擬精確的相機控制,不僅提供了增強的創意方向,還為用戶提供了探索模擬世界的互動方式。
Seaweed能夠產生一致的、多鏡頭、長篇故事,保持場景和鏡頭的連續性。用戶可以為總體敘事提供全局文本描述,并為每個鏡頭提供精細的文本描述。
很難想象這樣強悍的一款視頻生成模型的參數只有7B。
傳統意義上,模型企業傾向于訓練擁有海量參數的大模型,希望通過高昂的計算資源成本,換取在下游任務上的強大泛化能力。
而Seaweed-7B卻打破了這一思路的慣性思維:它以中等規模模型為基礎,注入了高效的設計與優化策略,并在視頻生成領域取得了可與大規模模型相媲美,甚至部分方面超越的效果。
字節Seed團隊近期發布了Seaweed-7B的技術論文,揭示用相對較少的訓練資源(約66.5萬小時H100 GPU,相當于1000張H100并行訓練27.7天)實現了與14B、13B甚至更大模型比肩的效果。
Seed團隊通過精妙的網絡結構、數據處理算法以及多階段訓練策略,使得該模型在文本到視頻(text-to-video)和圖像到視頻(image-to-video)等關鍵方向上呈現出了相當強勁的性能。
在訓練成本飆升、推理效率堪憂的當下,Seaweed-7B究竟是如何在保證生成質量的同時有效地降低算力投入?
它在方法上做了哪些創新,能為研究者或產業工程師帶來何種啟示?
是否存在尚待優化或突破的方面?
帶著這些疑問,我們結合潛在應用場景,一起來探討這一成果對未來視頻生成領域的啟示
研究背景:字節跳動的「種子計劃」
這項研究來自字節旗下的Seed團隊,該團隊專注于多模態生成技術的前沿研究。論文于2025年4月份發布在arXiv上。
在視頻生成領域, 近年來涌現了多個重量級模型,這些模型普遍采用了"更大即更好"的發展路徑,通常需要數千臺高端GPU進行訓練。例如,MovieGen使用了6000多臺H100,這種巨大的計算資源需求不僅限制了研究創新,也使得只有少數科技巨頭能夠參與這一領域的競爭。
與此同時,視頻生成的推理成本也遠高于語言、圖像或音頻生成,這對于Instagram和YouTube Shorts等社交媒體應用場景構成了巨大挑戰。在這種背景下,Seaweed-7B團隊提出了一個關鍵問題:是否可能通過精心設計,使中等規模的模型也能達到與大型模型相媲美的性能?
核心成果:小模型的“四兩撥千斤”
在對Seaweed-7B的核心成果進行剖析前,讓我們先概括下它的基本技術框架。
Seaweed-7B基于擴散模型(diffusion model)與Transformer結合的思路,采用了Diffusion Transformer(DiT)這一類模型架構。它繼承了近期視頻生成技術的主流經驗:通過3D變分自編碼器(VAE)壓縮視頻原始像素,再在緊湊的潛變量空間中進行生成式建模。
變分自編碼器(VAE)的優化設計
Seaweed-7B在VAE設計上做出了多項創新,這些創新對模型的整體性能至關重要。
他們采用了因果3D卷積架構,這種設計能夠統一圖像和視頻的編碼,使得以第一幀為條件的圖像到視頻生成任務變得自然而直接。同時,這種架構還消除了兩個推理片段之間邊界的閃爍問題,允許在不進行人工拼接的情況下編碼和解碼任意長度的視頻。
Seed團隊還深入研究了壓縮比與重建質量之間的關系。他們發現,VAE的重建質量主要取決于壓縮比,而不同下采樣率的VAE雖然最終會收斂到類似的結果,但收斂速度會因下采樣率而異,較小的下采樣率通常會導致更快的收斂。
一個特別值得注意的發現是,在VAE內部進行序列壓縮明顯優于在DiT中使用分塊(patchification)。64倍壓縮的VAE不僅收斂更快,還能達到更好的穩定點,即使在更高的空間壓縮率下,也沒有在高分辨率視頻生成中觀察到明顯的視覺偽影。
Seed團隊還提出了混合分辨率訓練策略,通過使用不同分辨率、時長和幀率的圖像和視頻進行訓練,提高了模型在高分辨率和長時間視頻重建方面的泛化能力。這種策略首先僅使用圖像進行訓練以加快收斂,然后再引入視頻。在訓練數據中包含高分辨率圖像和視頻,顯著改善了高分辨率重建質量。
混合流結構的擴散變換器
在擴散變換器(DiT)設計方面,Seaweed-7B采用了混合流(hybrid-stream)結構,這是對傳統雙流(dual-stream)結構的改進。視頻和文本標記都通過多個自注意力層和前饋網絡處理,允許每種模態發展自己的表示。
Seed團隊使用SwiGLU代替GeLU作為激活函數,并通過AdaSingle進行時間步調制,同時在更深層共享三分之二的前饋網絡參數,以提高參數效率并減少內存成本。
實驗表明,在相同的訓練計算預算下,混合流架構始終能夠實現比雙流架構更低的損失?;谶@些設計,研究團隊構建了隱藏大小為3584、總共32層的7B混合流模型。
在注意力機制方面,Seed團隊比較了全注意力、空間全注意力和稀疏窗口注意力三種類型。
他們發現,在足夠的計算預算下,普通的全注意力產生的損失更低,并且在訓練可擴展性方面表現更好。然而,對于高分辨率視頻訓練,全注意力會帶來巨大的計算負擔。在預訓練后將模型從全注意力微調為窗口注意力,可以減少注意力中的冗余,同時保持推理效率,如果設計得當,質量下降可以忽略不計。
為了增強不同寬高比和時長引入的位置信息,Seed團隊應用了3D旋轉位置編碼(RoPE),并構建了3D多模態RoPE(MM-ROPE),通過為文本標記添加兼容的1D位置編碼,促進文本和視頻之間位置信息的有效融合。
多階段訓練策略
Seaweed-7B采用了從低分辨率到高分辨率的多階段訓練策略。
訓練分為四個階段,每個階段以該階段使用的主要目標分辨率區域命名。例如,第1階段主要使用256×256和512×512的圖像,以及256×256的視頻。這里的分辨率(如256×256)指的是目標面積,而不是確切的尺寸;圖像和視頻在保持寬高比的同時調整大小以匹配所需面積。
在視頻訓練中,研究團隊使用了包括文本到視頻、圖像到視頻和視頻到視頻擴展的多任務訓練。
文本到視頻是模型收斂最具成本效益的任務。在預訓練期間引入少量圖像到視頻任務有利于文本到視頻和圖像到視頻的學習,但過度增加比例會產生不利影響,不會提高圖像到視頻的性能。
因此,他們將圖像到視頻的比例設置為20%。為了增強圖像到視頻的性能,在預訓練后,他們分支出一個專用的圖像到視頻模型,其中圖像到視頻任務比例增加到50-75%。
后訓練優化
在預訓練階段之后,Seed團隊應用了監督微調(SFT)和人類反饋強化學習(RLHF),以進一步提高輸出的美學質量、運動一致性和結構連貫性。后訓練過程分別針對文本到視頻和圖像到視頻任務獨立進行。
SFT階段的目的是以更符合人類偏好的方式增強視覺質量,包括美學和視覺風格等因素。研究團隊通過人工標注策劃了一個包含70萬個高美學和視覺質量視頻的數據集,確保分布平衡。其中,約5萬個被確定為最高質量的視頻在SFT訓練中被賦予更大的權重。
實驗表明,SFT階段后,生成視頻的美學和色彩質量顯著提高。
然而,長時間的SFT訓練可能導致快速過擬合,導致提示跟隨能力下降和運動質量降低。
為了解決這些問題,Seed團隊開發了一種視頻生成的DPO方法,在訓練過程中在正樣本上加入SFT損失。實驗表明,DPO在提高結構和運動質量方面非常有效。
性能表現
Seaweed-7B在多項評測中展現了令人印象深刻的性能。
在圖像到視頻任務中,Seaweed-7B在MagicArena(https://aigcarena.com/) 的Elo評分系統中排名第二,得分為1047,僅次于Kling 1.6 HD。
值得注意的是,它超越了幾個當代強大的模型,如Sora、Veo 2.0、Wan 2.1(14B)和HunyuanVideo(13B)。
這一結果尤為顯著,因為Seaweed-7B作為一個7B模型,訓練計算資源相當于在1,000臺H100 GPU上訓練27.7天,卻超越了使用更多GPU資源訓練的更大模型的性能。
在細粒度比較中,Seaweed-7B在多個評估指標上大幅領先于Sora、Wan-2.1和HunyuanVideo。
與Kling 1.6(HD)相比,Seaweed-7B在提示跟隨和運動質量方面具有競爭力,但在視覺質量方面落后,導致整體排名和Elo排名較低。這種視覺質量的不足是可以預期的,因為Seaweed-7B的輸出分辨率為480p或720p,而Kling的輸出為1080p,這在視覺保真度方面給了它明顯的優勢。
在文本到視頻任務中,Seaweed-7B在Elo比較中排名前2-3位。它緊隨排名第一的Veo 2,與Wan 2.1-14B表現相當,并超過Kling 1.6(HD)。
這些結果表明,使用665,000 H100 GPU小時訓練的Seaweed模型,與使用更多計算資源訓練的更大模型相比,實現了具有競爭力的性能。
方法評析:精巧設計下的取舍之道
Seaweed-7B團隊深刻理解到,在計算資源受限的環境中,數據質量和多樣性比數量更為重要。
他們構建了一套可擴展的大規模數據處理基礎設施,并開發了多種數據處理器來有效篩選高質量視頻數據。通過這套數據管道,他們收集了約1億個視頻片段,每個片段平均時長約8秒。
數據處理流程包含多個精心設計的步驟,每一步都對最終模型性能產生重要影響。
在VAE設計方面,他們采用了時間上因果的卷積架構,這種設計不僅統一了圖像和視頻的編碼,還消除了兩個推理片段之間邊界的閃爍問題。VAE的重建質量主要取決于壓縮比,而不同下采樣率的VAE雖然最終會收斂到類似的結果,但收斂速度會因下采樣率而異。
64倍壓縮的VAE不僅收斂更快,還能達到更好的穩定點,即使在更高的空間壓縮率下,也沒有在高分辨率視頻生成中觀察到明顯的視覺偽影。這一發現對于高效訓練和推理至關重要。
在DiT模型設計方面,Seaweed-7B采用了混合流結構,這是對傳統雙流結構的改進。在相同的訓練計算預算下,混合流架構始終能夠實現比雙流架構更低的損失。
研究團隊還比較了全注意力、空間全注意力和稀疏窗口注意力三種類型,發現在足夠的計算預算下,普通的全注意力產生的損失更低,并且在訓練可擴展性方面表現更好。
為了增強不同寬高比和時長引入的位置信息,研究團隊應用了3D旋轉位置編碼(RoPE),并構建了3D多模態RoPE(MM-ROPE),通過為文本標記添加兼容的1D位置編碼,促進文本和視頻之間位置信息的有效融合。
這種設計在雙流MMDiT結構中導致了更低的訓練損失。
Seaweed-7B的訓練策略同樣體現了研究團隊的創新思維。
他們采用了從低分辨率到高分辨率的多階段訓練策略,并在視頻訓練中使用了包括文本到視頻、圖像到視頻和視頻到視頻擴展的多任務訓練。
盡管Seaweed-7B在多項評測中表現出色,但它仍然存在一些局限性。
在視覺質量方面,特別是在超高分辨率下,Seaweed-7B與一些專注于高分辨率輸出的模型相比仍有差距。例如,在與Kling 1.6 HD的比較中,Seaweed-7B在視覺質量方面落后,這主要是因為Seaweed-7B的輸出分辨率為480p或720p,而Kling的輸出為1080p。
雖然監督微調(SFT)能有效提高美學和色彩質量,但長時間的SFT訓練可能導致快速過擬合,導致提示跟隨能力下降和運動質量降低。這表明在訓練過程中存在一種權衡,需要仔細平衡不同質量維度。
重述器(Rephraser)模型雖然能顯著增強視頻生成,特別是在視覺美學和風格方面,但它可能會影響提示跟隨,特別是對于超過12個單詞的較長輸入提示,在重述過程中保持確切的語義含義變得具有挑戰性。
Seaweed-7B的研究路徑充分印證了“巧妙結構設計+ 多任務訓練策略+ 后處理對齊”在資源受限下也能逼近大規模模型水準。
它既為視頻生成生態提供了一個“更輕量、還能接近高質量”的成功案例,也讓我們反思:是否只要無限增大模型與數據,才是視頻生成最優解?從方法上看,如何更進一步在計算效率與輸出品質間找到更佳折中,仍是后續的重要探討方向。
結論:小模型的“破局時刻”
Seaweed-7B模型的研究成果為視頻生成領域帶來了幾個重要的技術貢獻和啟示。
它挑戰了"更大即更好"的傳統范式,證明了中等規模模型在視頻生成領域的巨大潛力。通過精心的設計選擇和優化策略,一個僅有7B參數的模型能夠在性能上媲美甚至超越參數量是其兩倍的模型,這一發現對整個領域具有深遠的啟示意義。
Seaweed-7B降低了視頻生成技術的入門門檻,使更多的研究者和開發者能夠參與到這一領域的創新中來。通過證明中等規模模型在視頻生成領域的潛力,它鼓勵更多的研究關注模型效率而非簡單地增加模型規模,這可能會促進更多創新解決方案的涌現。
Seaweed-7B提出的資源效率與性能平衡的新范式,為視頻生成技術的商業化和大規模應用鋪平了道路。隨著視頻內容在數字媒體中的重要性不斷提升,高效、低成本的視頻生成技術將成為內容創作和分發平臺的重要競爭力。
Seaweed-7B模型的成本效益優勢和競爭性能使其在多個應用場景中具有巨大潛力。
在社交媒體內容創作領域,如Instagram和YouTube Shorts,Seaweed-7B的高效推理特性使其特別適合這些對資源敏感的應用場景。用戶可以通過簡單的文本描述或參考圖像,快速生成高質量的短視頻內容,大大降低內容創作的門檻。
在電影和娛樂產業,Seaweed-7B可以作為創意輔助工具,幫助導演、編劇和視覺效果藝術家快速將創意轉化為視覺形式。它可以用于概念驗證、故事板創建、視覺效果預覽等環節,加速創意迭代過程。雖然目前的視頻質量和長度可能還不足以直接用于最終制作,但作為創意探索和初步可視化的工具,它已經具備了實用價值。
在教育和培訓領域,Seaweed-7B可以用于生成教學視頻、演示材料和交互式學習內容。教師和培訓師可以通過簡單的文本描述或參考圖像,快速生成符合教學需求的視頻內容,提高教學效率和學習體驗。特別是在遠程教育和在線學習平臺中,這種能力可以大大豐富教學資源的多樣性和吸引力。
在廣告和營銷應用中,Seaweed-7B可以幫助品牌和營銷人員快速生成產品演示、概念驗證和營銷素材。它的圖像到視頻功能特別適合將產品靜態圖像轉化為動態展示,增強產品的吸引力和說服力。此外,它的成本效益優勢使得即使是小型企業和初創公司也能負擔得起高質量的視頻內容創作。
在創意和藝術領域,Seaweed-7B可以作為藝術家和創意工作者的創作工具,幫助他們探索新的視覺表達形式和創意可能性。它的文本到視頻和圖像到視頻功能可以將抽象的創意概念轉化為具體的視覺形式,激發創作靈感和拓展創作邊界。
至頂AI實驗室洞見
在這個“硬件資源為王”的時代,Seaweed-7B的研究提醒我們,精心的設計選擇和優化策略同樣重要,甚至可能比簡單地增加模型規模更為關鍵。這種思路不僅適用于視頻生成,也可能對其他AI領域產生啟發。
Seed團隊在數據處理方面的細致工作,展現了他們對數據質量和多樣性的重視,以及為此開發的一系列處理技術,體現了對基礎工作的尊重和理解。在AI研究中,數據往往是被低估的關鍵因素,Seaweed-7B的成功再次證明了高質量數據的重要性。
從更廣泛的社會影響角度看,Seaweed-7B這類中等規模但高效的模型,有望推動視頻生成技術的民主化。它降低了入門門檻,使更多的研究者、開發者和創作者能夠參與到這一領域中來,這可能會催生更多創新應用和解決方案。
未來,我們認為視頻生成技術將沿著兩條并行的路徑發展:一條是繼續追求更大、更強大的模型,以實現最高質量的視頻生成;另一條是優化中等或者小規模模型的效率和性能,以滿足更廣泛的應用需求。
Seaweed-7B在后一條路徑上邁出了重要一步,它的成功將鼓勵更多的研究關注模型效率而非簡單地增加模型規模。
本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.