整理 | Tina
這是全球首個由 AI 生成的 25 秒視頻,由字節(jié)跳動發(fā)布的 Seaweed-7B 模型生成。
字節(jié)跳動近日宣布在視頻生成領(lǐng)域取得重大突破——Seaweed-7B。這是一個參數(shù)量僅為 70 億的視頻生成基礎(chǔ)模型,該模型在核心任務(wù)上的表現(xiàn)超越了參數(shù)量為其兩倍的主流模型,而訓(xùn)練成本僅為其約三分之一。
字節(jié)跳動早在去年就開始預(yù)熱 Seaweed 項目,如今,字節(jié) Seed 團(tuán)隊終于放出了技術(shù)報告,詳細(xì)介紹了其技術(shù)架構(gòu)和應(yīng)用案例,并強(qiáng)調(diào)了其在成本效益方面的突破。
這也是 Seed 團(tuán)隊成員的一次曝光。
Seaweed-7B 項目由多個團(tuán)隊共同研發(fā)。核心研發(fā)團(tuán)隊包括由蔣路、馮佳時等領(lǐng)導(dǎo)的研究團(tuán)隊,下設(shè)模型、數(shù)據(jù)方向和基礎(chǔ)設(shè)施團(tuán)隊。此外,項目得到了朱文佳和吳永輝的支持。今年 2 月下旬,原 Google DeepMind 副總裁吳永輝正式加入字節(jié)跳動,出任 Seed 基礎(chǔ)研究負(fù)責(zé)人。蔣路則早在去年就已加盟字節(jié),作為前谷歌高級科學(xué)家,他曾主導(dǎo)谷歌的視頻生成相關(guān)工作,并在多個核心產(chǎn)品中發(fā)揮了關(guān)鍵作用,包括 YouTube、云服務(wù)、AutoML、廣告、Waymo 和翻譯等。同時,蔣路也是卡內(nèi)基梅隆大學(xué)(CMU)的兼職教授。
而他們放出來的宣傳視頻,這兩天也讓社區(qū)逐漸沸騰起來,引發(fā)了廣泛而熱烈的討論。
從 Seaweed-7B 看視頻生成的下一階段
和目前主流的 AI 視頻模型類似,Seaweed-7B 支持圖像轉(zhuǎn)視頻、基于參考圖像生成視頻、半擬真的人物形象、多鏡頭切換以及高清分辨率輸出等常規(guī)功能。
真正令人驚艷的是,它具備當(dāng)前其他 AI 視頻模型尚未實現(xiàn)的五項關(guān)鍵能力:
首先,它可以同步生成音頻和視頻。目前大多數(shù)模型都是先生成視頻,再單獨添加聲音。雖然已有一些“音頻驅(qū)動視頻”的研究,但仍處于實驗階段。Seaweed-7B 的音畫一體生成,在效率和內(nèi)容一致性方面都邁出了一大步。
其次,它支持長鏡頭生成。OpenAI 的 Sora 雖然曾展示過分鐘級視頻,但公開可用版本的時長普遍仍在 20 秒以內(nèi)。此次字節(jié)跳動展示的 25 秒視頻不僅拉長了時長,更是在單條提示詞下一次性生成,質(zhì)量也遠(yuǎn)超以往拼接或續(xù)寫的方式。
第三,Seaweed-7B 擁有實時生成能力。據(jù)介紹,該模型能以 1280x720 分辨率、24 幀每秒的速度實時生成視頻,這在當(dāng)前 AI 視頻領(lǐng)域幾乎是革命性的突破,將極大提升互動效率,也為實時創(chuàng)作和虛擬角色應(yīng)用場景提供了新的可能性。
第四,它引入了名為CameraCtrl-II的功能,支持在三維世界中進(jìn)行鏡頭調(diào)度。研究團(tuán)隊表示,該方法可通過設(shè)定鏡頭角度,生成高度一致且動態(tài)豐富的視頻,甚至可作為三維視圖合成器使用。
最后,模型在物理模擬與真實感表現(xiàn)方面也實現(xiàn)了顯著提升。傳統(tǒng) AI 視頻模型在處理旋轉(zhuǎn)、舞蹈、滑冰等復(fù)雜動態(tài)時常顯生硬,而 Seaweed-7B 的表現(xiàn)更為自然流暢,雖然仍有提升空間,但已明顯優(yōu)于過去幾個月業(yè)內(nèi)常見的模型效果。
這些視頻效果讓很多人覺得驚艷,不少網(wǎng)友感嘆其在實時攝像機(jī)控制、長時高清視頻生成和多鏡頭流暢切換方面的突破,直呼“太瘋狂了”、“再次驚艷中國”,尤其“實時視頻生成”的概念讓人聯(lián)想到未來 AI 在游戲等領(lǐng)域的可能性。
資源受限環(huán)境中,架構(gòu)設(shè)計尤其重要
雖然視頻生成的許多技術(shù)都受到圖像生成技術(shù)的啟發(fā),但視頻生成面臨著獨特的挑戰(zhàn)。與靜態(tài)圖像不同,視頻需要對運(yùn)動動態(tài)進(jìn)行建模,并保持長序列的時間一致性。這些要求極大地增加了訓(xùn)練和推理的計算復(fù)雜度,使得視頻生成模型成為開發(fā)和部署中最耗費資源的基礎(chǔ)模型之一。
2024 年 Sora 的發(fā)布被視為視頻生成領(lǐng)域的重要里程碑,但訓(xùn)練這類模型往往需要極其龐大的算力,通常動輒上千張 GPU。
Seaweed-7B 的訓(xùn)練成本則小很多,僅 66.5 萬 H100 GPU 小時,相當(dāng)于在 1,000 張 H100 GPU 上連續(xù)運(yùn)行約 27.7 天。
雖然該模型僅 70 億參數(shù),但從圖像到視頻的效果能超越同類 140 億的模型。
在圖像轉(zhuǎn)視頻的任務(wù)中,Seaweed-7B 在各項指標(biāo)上均大幅優(yōu)于 Sora。
在文本轉(zhuǎn)視頻的任務(wù)中,Seaweed-7B 在 Elo 評分中位列前 2-3 名,緊隨排名第一的模型 Veo 2 之后,性能與 Wan 2.1-14B 相當(dāng)。
而該模型能夠以顯著降低的計算成本實現(xiàn)極具競爭力的性能,也跟背后的架構(gòu)設(shè)計決策密切相關(guān)。
根據(jù)公開信息,該模型采用 DiT(擴(kuò)散變換器)架構(gòu),并通過對抗性后訓(xùn)練(APT)技術(shù)優(yōu)化生成速度和質(zhì)量。它只需單次神經(jīng)函數(shù)評估即可生成 2 秒的 720p 視頻,推理速度比同類模型提升 62 倍。同時也提出了變分自編碼器(VAE)設(shè)計,VAE定義了生成真實感和保真度的上限,這可能是該模型生成的視頻具有高真實感和生動運(yùn)動的主要因素。
在數(shù)據(jù)上,該團(tuán)隊開發(fā)了一套高吞吐量且靈活的視頻管理流程,包括管理視頻編碼和解碼、執(zhí)行時間分割、空間裁剪、質(zhì)量過濾等。
憑借這一基礎(chǔ)架構(gòu),讓 Seed 團(tuán)隊每天能夠處理超過 50 萬小時的視頻數(shù)據(jù),足以用于訓(xùn)練,因此可以將精力集中在有效地挖掘高質(zhì)量視頻片段上。為了優(yōu)化視頻片段處理時的吞吐量,他們使用了兩個現(xiàn)代框架:BMF 以及 Ray 。
在 Infra 層面,字節(jié)跳動圍繞“高效訓(xùn)練”進(jìn)行了系統(tǒng)性的基礎(chǔ)設(shè)施優(yōu)化,顯著提升了模型的算力利用率與資源效率。具體而言,團(tuán)隊采用三維并行策略(數(shù)據(jù)并行、上下文并行、模型切分)來應(yīng)對長上下文視頻訓(xùn)練的挑戰(zhàn),并引入“運(yùn)行時負(fù)載均衡”機(jī)制,動態(tài)調(diào)配圖像與視頻樣本在不同 GPU 間的分布,緩解聯(lián)合訓(xùn)練時的負(fù)載不均問題。
此外,Seaweed-7B 還創(chuàng)新性地設(shè)計了多級激活檢查點(MLAC)機(jī)制,支持將中間激活存儲在 GPU、CPU 或磁盤等多層級介質(zhì)中,不僅大幅降低了顯存占用,還減少了重計算帶來的性能損耗。為進(jìn)一步提升訓(xùn)練吞吐,團(tuán)隊還通過 kernel 融合手段,將多個內(nèi)存訪問密集的操作整合到單個 CUDA kernel,顯著提升了運(yùn)算強(qiáng)度與 GPU 利用率。
字節(jié)在論文中表示,得益于這些系統(tǒng)級優(yōu)化,Seaweed-7B 在大規(guī)模分布式訓(xùn)練中實現(xiàn)了 38% 的 FLOPs 利用率,成為當(dāng)前 AI 視頻生成領(lǐng)域中兼顧性能與效率的代表性模型之一。
不過,有意思的是,盡管字節(jié)跳動認(rèn)為其資源消耗“適度”,不少網(wǎng)友卻對此持有不同看法,直呼“字節(jié)跳動在暗示我太窮”。
他們指出,動用上千張頂級 GPU 進(jìn)行近一個月的訓(xùn)練,無論如何都絕非小數(shù)目,強(qiáng)調(diào)這依然是需要巨大算力的投入,所謂“適度的計算資源”的說法并不恰當(dāng)。
“字節(jié)跳動在暗示我‘GPU 窮人’。一個訓(xùn)練了 66.5 萬張 H100 小時的模型,卻被稱作‘成本高效’、‘計算資源適度’。”
https://arxiv.org/html/2504.08685v1
https://www.linkedin.com/posts/eddieyoon_this-is-the-worlds-first-25-second-ai-generated-activity-7317677545821192192--o0W/
聲明:本文為 AI 前線整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.