用AI生成視頻,很多人可能還停留在Sora當年文生視頻帶來的震撼。
但到了今天,能夠生成視頻的已經不只是一行文字。2025年,生成式AI的多模態能力正以難以想象的速度進化,挑戰很多人認知的是,現在AI已經進化到給出一張圖片,大模型就能夠根據圖片來生成一則完整的視頻。
而更加令人意外的是,這條最前沿圖生視頻賽道榜首居然是由一個來自中國公司的團隊開發的。
5月17日,全球最為權威的視頻生成評測榜單 VBench Leaderboard 更新了最新一期圖生視頻榜單。一款名為Steamer-I2V的視頻生成模型以總分89.38%的成績,登上 VBench-I2V圖生視頻榜首。
Steamer-I2V 是一種基礎圖像到視頻 (I2V) 生成模型,旨在將靜態圖像轉換為時間上連貫且具有視覺吸引力的視頻序列,并具有增強的可控性和保真度。
換句話說,Steamer-I2V 現在是圖生視頻最好的大模型產品。
最開始甚至有人懷疑,這是游戲平臺Steam跨界AI了?但很快發現不是。按照 VBench Leaderboard官網公布的介紹:
Steamer團隊,來自百度公司。
當前全球科技巨頭都在競逐多模態生成賽道,這場AI競賽的烈度還在不斷上升之中。
誰能想到,就像當年DeepSeek-V2最初發布時無人關注一樣。在悄無聲息間,圖生視頻大模型的榜一王座,已經被百度公司拿下了。
01
未來賽道
2025年AI行業公認的熱門賽道,除了AI Agent,恐怕就是視頻生成模型了。
后者作為多模態中技術難度最高、需求最為復雜的領域,一直被認為是本輪生成式AI競速的最前沿。
而圖生視頻之所以被視為多模態人工智能領域中最具前景的賽道之一,其核心在于它既是技術創新的前沿陣地,也是連接虛擬與現實世界的樞紐。
隨著生成式AI從文本、圖像向視頻跨越,這一技術不僅突破了靜態表達的局限,更通過動態內容生成重構了人類對數字世界的交互方式。
國內也已經有人迫不及待測試了Steamer-I2V的表現,其呈現效果已經堪比電影級制作。
「開大船的ai劇組」近日上傳了由Steamer-I2V制作生成的半分鐘視頻。這則視頻由一張致敬《流浪地球》的圖片生成。
如果要用語言文本來表達這則圖片,文本語義復雜不說,可能結果也會見仁見智。但如果是文本+圖片聯合對模型提出prompt,效果則大不相同。圖片本身所蘊含的豐富信息,使得AI能夠更加精準地捕捉用戶需求。
·從視頻本身可以看出,Steamer-I2V已經能夠以導演拍攝的角度,在原有圖片的基礎上進行理解,并且能夠對視頻基本劇情、畫面形成一個判斷,在保障模型對畫面細節、主體運動軌跡、風格屬性和鏡頭語言的遵循的基礎上,輸出一個相對結構完整的視頻。
·從畫面清晰度來看,基于前沿的生成式方法與Transformer擴散架構,模型可生成分辨率高達1080P的高清視頻,呈現流暢的過渡效果與逼真的物理運動規律。
·而這背后的底層其實不僅僅是分辨率,而是「技術美學」的偏好。
按照其技術參數報告,Steamer-I2V 基于條件控制的微調(Conditional Fine-Tuning, CFT)策略,可以幫助引導模型對于圖片美學元素進行分析和拆解并進而再生成同一元素的視頻,以保證實現用戶意圖的一致性,而非僅僅停留在簡單的、表面的模仿。
·而且相比最早OpenAI的Sora,Steamer-I2V的優勢在于更懂中國用戶。眾所周知中文博大精深,要理解語義的多樣性,必須基于龐大的語言訓練數據基礎。
據了解,Steamer-I2V 背后基于的是億級規模的中文多模態訓練數據庫,它通過「篩選-凈化-配比」這樣的三級數據優化體系,這意味著其具備了專業級中文概念解析能力。
回過頭再來看產業側的趨勢,文生視頻目前已經處于爆發階段。
根據 GIR (Global Info Research)調研,2023 年全球文生視頻大模型收入大約為720 萬美元,預計 2030 年達到 22.19 億美元,2024 至 2030 期間,年復合增長率 CAGR 有望達到 56.6%。
而作為更為前沿的領域,圖生視頻技術雖然目前缺乏直接的市場規模數據,但其應用場景廣泛,廣告、影視、游戲等領域對高質量圖像和視頻的需求正在持續增長。
企業可以通過圖生視頻工具快速生成個性化的廣告視頻,影視制作中可以利用圖生視頻技術快速生成故事板、分鏡頭腳本等,這顯然比簡單的單一文字模態更加具有吸引力。
也就是說,AI應用的新賽道競速,中國企業也已經領先半子。
02
百度進擊
百度AI今年可謂是動作頻頻。
年初推出的「百看」智能搜索,就正在意圖超越傳統模式,通過大模型整合全網信息生成結構化答案,將搜索從「鏈接陳列」升級為「決策助手」。
這項變革讓搜索結果告別碎片化,AI能結合用戶興趣與未明說的需求,日均數十億次搜索沉淀的數據洞察成為精準服務的基石。
其中多模態輸入突破文字框限制,語音、圖像皆可觸發自然對話式交互,而「任務助力」功能整合服務與工具,使搜索從信息入口進化為連接AI服務的超級站點。
其實從這個時期就可以看出,多模態正在成為百度AI的核心產品戰略之一。
而現在,Steamer-I2V在VBench榜單的意外悄然登頂,這不僅意味著在多模態進化和提振內容生產力方向上,百度再落下關鍵一子,而且再一次證明一件事,外界可能還是大大低估了百度的技術實力。
而技術實力和應用創新密不可分。
圖生視頻技術能與現有AI產品矩陣形成深度協同。未來用戶輸入一張商品圖片,AI不僅能生成營銷文案和PPT,還能自動創建展示視頻,實現「圖文影音一體化交付」,大幅提升企業內容生產效率。
這種多模態能力的融合,將鞏固百度在AI辦公賽道的核心競爭力,尤其在電商、廣告等視頻依賴型行業中形成差異化優勢。
而當圖生視頻與搜索、文庫、網盤等超級應用的數據流、工作流深度耦合時,百度構建的將不僅是單一技術優勢,而是一個自進化、高壁壘的AI生態體系。
這場生成式AI競賽,真是越來越值得期待了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.