始智AI wisemodel.cn開源社區
始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel社區上線,價格實惠,靈活方便,支持在線微調訓練模型,及和,并。
視頻作為包含大量時空信息和語義的媒介,對于 AI 理解、模擬現實世界至關重要。視頻生成作為生成式 AI 的一個重要方向,其性能目前主要
通過增大基礎模型的參數量和預訓練數據實現提升,更大的模型是更好表現的基礎,但同時也意味著更苛刻的計算資源需求
受到Test-Time Scaling 在 LLM 中的應用啟發,來自清華大學、騰訊的研究團隊首次對視頻生成的 Test-Time Scaling 進行探索,表明了視頻生成也能夠進行 Test-Time Scaling 以提升性能,并提出高效的 Tree-of-Frames 方法拓展這一 Scaling 范式。Video-T1 已上線始智AI-wisemodel開源社區,歡迎體驗。
模型地址
https://wisemodel.cn/codes/fangfu19/Video-T1
01.
視頻生成的Test-Time Scaling范式
繼 DeepSeek-R1 爆紅后,在視覺 / 多模態等不同領域都涌現了大量 Test-Time Scaling (TTS) 研究,Video-T1 則是首次將 Test-Time Scaling 引入視頻生成領域,突破了傳統方式 Scaling up 視頻模型需要大量資源重新訓練或顯著擴大模型規模的局限性。
研究團隊通過增加推理階段計算來顯著提升視頻生成質量,在 VBench 上實現了最高 5.86% 的總分提升,同時發現模型能力隨著推理階段選取的樣本數目增加而增長,體現出持續 Scale Up 的特性。
視頻生成Test-Time Scaling的實驗結果
研究團隊創新性地將視頻生成中的 Test-Time Scaling 問題建模為從高斯噪聲空間到目標視頻分布的軌跡搜索問題,為優化視頻生成引入了新的理論框架。同時構造了隨機線性搜索作為 Test-Time Scaling 的基礎實現方式,即隨機地取樣多個視頻生成樣本,利用 VLM 進行評分選出最優的視頻樣本作為輸出。
隨機線性搜索的算法
02.
Test-of-Frames方法提升推理效率
然而,隨機線性搜索的復雜度較高,需要較多的推理時計算,研究團隊發現,許多視頻在生成的過程中就會出現內容與提示詞不對應或者不符合現實規律等諸多問題,為了進一步提高搜索速度和視頻質量,研究團隊提出了「幀樹」(Tree-of-Frames, ToF),通過自適應擴展和修剪視頻分支,在計算成本與生成質量間實現動態平衡。
類似于在推理模型中使用 score model,研究團隊提出使用測試時驗證器(test-time verifiers)評估中間結果質量,并結合啟發式算法高效導航搜索空間,在視頻生成的適當位置進行評估,選取符合要求的生成軌跡,顯著提升生成效率和質量。
研究團隊提出的 Tree-of-Frames 算法
相比于直接進行隨機線性搜索,Tree-of-Frames 方法能夠在取得相同效果的情況下顯著提高搜索效率,降低視頻模型的推理計算需求。
研究團隊通過比較不同 Test-Time Scaling 方法和不同樣本數量對應的 Number of Function Evaluations (NFE) 及對應的表現,發現使用 Tree-of-Frames 方法能夠在相同 NFE 的情況下更為顯著地提高視頻表現。
不同模型下 Tree-of-Frames 與隨機線性搜索效果對比
研究團隊選取了三種視頻生成模型實現 Tree-of-Frames 方法,并計算其視頻模型的推理計算需求,在 VBench 總分相同的情況下進行比較,發現 Tree-of-Frames 顯著降低了視頻模型推理計算量。
Tree-of-Frames 方法相比于隨機線性搜索顯著提高了推理效率
此外,研究團隊注意到首幀對于視頻整體是否對齊影響較大,視頻的前中后部分存在一定程度不同的提示詞對齊需求,因此利用單幀的圖片生成思維鏈 (Image Generation Chain-of-Thought) 和層次化提示詞 (Hierarchical Prompting) 等方法,對幀的生成和提示詞對齊進行增強,構建了 Tree-of-Frames 總體流程。
研究團隊提出的 Tree-of-Frames 方法流程圖
在上圖所示的流程中,第一階段執行 Text-to-Image (First Frame) 生成,進行圖像級別的對齊,讓首幀能夠包含正確且足夠的關于物體、場景的語義信息;第二階段在測試時 Verifier 中應用層次化提示詞 (Hierarchical Prompting),關注運動穩定性與物理合理性等方面,從而提供反饋,指導啟發式搜索過程;最后一階段評估視頻的整體質量,并選擇與文本提示詞最高對齊度的視頻。
03.
不同模型的Test-Time Scaling實驗
研究團隊進行了大量 Test-Time Scaling 實驗,使用不同的視頻生成模型、VLM 模型進行測試,得到這些模型相比于基線在 VBench 上各方面指標的提升。
不同維度上 Test-Time Scaling 方法相比于基線的提升
實驗結果表明,無論是基于 Diffusion 的模型還是 Autoregressive 范式的模型,都能夠通過 Test-Time Scaling 方法實現生成視頻性能的全面提升,而無需重新訓練一個視頻生成模型。
研究團隊還注意到,使用不同的 VLM作為 Verifier 對視頻生成質量在多種維度的提升效果有所不同。
因此,為了更充分地發揮 Test-Time Scaling 的潛力并為后續增強 VLM 能力的探索提供思路,研究團隊將不同的 Verifier 進行綜合,用于 Test-Time Scaling 過程,發現在相同的 NFE (Number of Function Evaluations) 下Multiple Verifier 相比于單個 Verifier 效果更好。不同 VLM 和視頻生成模型對應的結果如下:
Multiple Verifier 與單個 Verifier Scaling Up 效果對比
04.
可視化結果
研究團隊提供了 Tree-of-Frames 層次化提示詞和過程中驗證的可視化結果:
層次化提示詞和分層驗證過程的可視化結果
研究團隊還提供了視頻生成基礎模型和 TTS 結果的對比,更多的可視化請參閱原論文和項目主頁。
部分可視化結果,從上到下為未 Test-Time Scaling 和進行 Test-Time Scaling 的視頻對比
編輯:成蘊年
----- END -----
wisemodel相關:
系統升級:
大賽報名:
系列模型:
關于wisemodel更多
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.