大數據文摘出品
近日,字節跳動發布的 Seedance 1.0,一個強大的AI 視頻生成模型。
在權威評測平臺 Artificial Analysis 上,它同時拿下文本轉視頻、圖像轉視頻兩個第一,力壓 Google 的 Veo 3、快手的可靈 2.0 和 OpenAI 的 Sora。
Artificial Analysis 文生視頻榜單
Artificial Analysis 圖生視頻
榜單
(注:為實現評估上的統一,Artificial Analysis 將 Veo 3 Preview 生成視頻去掉聲音后參與上述榜單評測。)
Seedance 最大的特點,是能把一句簡單的文字,變成一段完整、連貫、多鏡頭的視頻。比如你輸入“女孩彈鋼琴,多鏡頭切換,電影質感(I2V)”,生成視頻就能呈現多個視角切換、人物動作流暢、風格統一,甚至連光線方向和背景細節都基本對得上。
視頻來自字節跳動官方微信
這不只是“能畫”,而是“能拍”。
目前生成 5 秒高清視頻僅需 41 秒,生成速度在公開同類模型中屬于較快水平;雖然還不支持音頻,但在畫面質量、動作自然度和鏡頭控制上,Seedance 已經讓不少業內人驚訝。
視頻模型難,不是難在清晰度
AI 做視頻的難點,其實不是畫得清楚,而是“動得自然、連得上”。一個角色從 A 點走到 B 點,臉型不能變、步態要順、鏡頭別晃,這遠比做出一張好圖復雜得多。
視頻來自字節跳動官方微信
Seedance 為了解決這個問題,走了一條“笨功夫”路線:大規模訓練 + 逐層過濾。它背后的數據集包含了從公開和授權渠道收集的大量視頻,經過多輪清洗,剔除了水印、字幕、暴力等內容,然后再由自動系統和人工加上關于人物動作、畫面風格、鏡頭語言等上萬個標簽。
這種“精修標簽”的方式,不同于直接塞入大量數據堆算力。它讓模型真正學會理解“鏡頭推近”“緩慢轉頭”“城市黃昏光線”這類描述,而不是僅憑關鍵詞去“拼湊”畫面。
在后續訓練中,字節還用到了“人類反饋”:讓人類挑出更符合提示、更自然的視頻,讓模型持續優化輸出質量。也就是說,它不是一次訓練完畢,而是在“人挑視頻—模型學習—人再挑”的反饋閉環中不斷打磨。
從內部測試走向產品化
和 Veo、Sora 這類狀態的模型不同,Seedance 已經實打實接入了字節跳動自己的產品:AI 創作平臺「即夢」,以及智能助手「豆包」。前者面向專業創作者,后者則讓普通人也能用一句話生成視頻。
產品團隊設計了一個很典型的使用場景:用戶對著手機說,“幫我做一個講健康飲食的短視頻”,Seedance 就能自動生成場景、人物、鏡頭語言,再配上豆包的文本邏輯,30 秒后,一個帶有結構和風格的視頻就完成了。
這個過程中,官方定位為 ‘零提示門檻’,無需用戶編寫復雜 Prompt。但目前也有短板,比如不支持音頻,不支持人物連續說話或演講等復雜語義。對此,團隊正在開發下一個版本。
注:封面圖AI生成
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.