網易首頁 > 網易號 > 正文申請入駐

視頻大模型登頂榜首，居然是這家中國AI公司

2025-05-18 22:59:39　來源: 深水研究

廣東舉報

分享至

用AI生成視頻，很多人可能還停留在Sora當年文生視頻帶來的震撼。

但到了今天，能夠生成視頻的已經不只是一行文字。2025年，生成式AI的多模態能力正以難以想象的速度進化，挑戰很多人認知的是，現在AI已經進化到給出一張圖片，大模型就能夠根據圖片來生成一則完整的視頻。

而更加令人意外的是，這條最前沿圖生視頻賽道榜首居然是由一個來自中國公司的團隊開發的。

5月17日，全球最為權威的視頻生成評測榜單 VBench Leaderboard 更新了最新一期圖生視頻榜單。一款名為Steamer-I2V的視頻生成模型以總分89.38%的成績，登上 VBench-I2V圖生視頻榜首。

Steamer-I2V 是一種基礎圖像到視頻（I2V）生成模型，旨在將靜態圖像轉換為時間上連貫且具有視覺吸引力的視頻序列，并具有增強的可控性和保真度。

換句話說，Steamer-I2V 現在是圖生視頻最好的大模型產品。

最開始甚至有人懷疑，這是游戲平臺Steam跨界AI了？但很快發現不是。按照 VBench Leaderboard官網公布的介紹：

Steamer團隊，來自百度公司。

當前全球科技巨頭都在競逐多模態生成賽道，這場AI競賽的烈度還在不斷上升之中。

誰能想到，就像當年DeepSeek-V2最初發布時無人關注一樣。在悄無聲息間，圖生視頻大模型的榜一王座，已經被百度公司拿下了。

未來賽道

2025年AI行業公認的熱門賽道，除了AI Agent，恐怕就是視頻生成模型了。

后者作為多模態中技術難度最高、需求最為復雜的領域，一直被認為是本輪生成式AI競速的最前沿。

而圖生視頻之所以被視為多模態人工智能領域中最具前景的賽道之一，其核心在于它既是技術創新的前沿陣地，也是連接虛擬與現實世界的樞紐。

隨著生成式AI從文本、圖像向視頻跨越，這一技術不僅突破了靜態表達的局限，更通過動態內容生成重構了人類對數字世界的交互方式。

國內也已經有人迫不及待測試了Steamer-I2V的表現，其呈現效果已經堪比電影級制作。

「開大船的ai劇組」近日上傳了由Steamer-I2V制作生成的半分鐘視頻。這則視頻由一張致敬《流浪地球》的圖片生成。

如果要用語言文本來表達這則圖片，文本語義復雜不說，可能結果也會見仁見智。但如果是文本+圖片聯合對模型提出prompt，效果則大不相同。圖片本身所蘊含的豐富信息，使得AI能夠更加精準地捕捉用戶需求。

·從視頻本身可以看出，Steamer-I2V已經能夠以導演拍攝的角度，在原有圖片的基礎上進行理解，并且能夠對視頻基本劇情、畫面形成一個判斷，在保障模型對畫面細節、主體運動軌跡、風格屬性和鏡頭語言的遵循的基礎上，輸出一個相對結構完整的視頻。

·從畫面清晰度來看，基于前沿的生成式方法與Transformer擴散架構，模型可生成分辨率高達1080P的高清視頻，呈現流暢的過渡效果與逼真的物理運動規律。

·而這背后的底層其實不僅僅是分辨率，而是「技術美學」的偏好。

按照其技術參數報告，Steamer-I2V 基于條件控制的微調（Conditional Fine-Tuning, CFT）策略，可以幫助引導模型對于圖片美學元素進行分析和拆解并進而再生成同一元素的視頻，以保證實現用戶意圖的一致性，而非僅僅停留在簡單的、表面的模仿。

·而且相比最早OpenAI的Sora,Steamer-I2V的優勢在于更懂中國用戶。眾所周知中文博大精深，要理解語義的多樣性，必須基于龐大的語言訓練數據基礎。

據了解，Steamer-I2V 背后基于的是億級規模的中文多模態訓練數據庫，它通過「篩選-凈化-配比」這樣的三級數據優化體系，這意味著其具備了專業級中文概念解析能力。

回過頭再來看產業側的趨勢，文生視頻目前已經處于爆發階段。

根據 GIR (Global Info Research)調研，2023 年全球文生視頻大模型收入大約為720 萬美元，預計 2030 年達到 22.19 億美元，2024 至 2030 期間，年復合增長率 CAGR 有望達到 56.6%。

而作為更為前沿的領域，圖生視頻技術雖然目前缺乏直接的市場規模數據，但其應用場景廣泛，廣告、影視、游戲等領域對高質量圖像和視頻的需求正在持續增長。

企業可以通過圖生視頻工具快速生成個性化的廣告視頻，影視制作中可以利用圖生視頻技術快速生成故事板、分鏡頭腳本等，這顯然比簡單的單一文字模態更加具有吸引力。

也就是說，AI應用的新賽道競速，中國企業也已經領先半子。

百度進擊

百度AI今年可謂是動作頻頻。

年初推出的「百看」智能搜索，就正在意圖超越傳統模式，通過大模型整合全網信息生成結構化答案，將搜索從「鏈接陳列」升級為「決策助手」。

這項變革讓搜索結果告別碎片化，AI能結合用戶興趣與未明說的需求，日均數十億次搜索沉淀的數據洞察成為精準服務的基石。

其中多模態輸入突破文字框限制，語音、圖像皆可觸發自然對話式交互，而「任務助力」功能整合服務與工具，使搜索從信息入口進化為連接AI服務的超級站點。

其實從這個時期就可以看出，多模態正在成為百度AI的核心產品戰略之一。

而現在，Steamer-I2V在VBench榜單的意外悄然登頂，這不僅意味著在多模態進化和提振內容生產力方向上，百度再落下關鍵一子，而且再一次證明一件事，外界可能還是大大低估了百度的技術實力。

而技術實力和應用創新密不可分。

圖生視頻技術能與現有AI產品矩陣形成深度協同。未來用戶輸入一張商品圖片，AI不僅能生成營銷文案和PPT，還能自動創建展示視頻，實現「圖文影音一體化交付」，大幅提升企業內容生產效率。

這種多模態能力的融合，將鞏固百度在AI辦公賽道的核心競爭力，尤其在電商、廣告等視頻依賴型行業中形成差異化優勢。

而當圖生視頻與搜索、文庫、網盤等超級應用的數據流、工作流深度耦合時，百度構建的將不僅是單一技術優勢，而是一個自進化、高壁壘的AI生態體系。

這場生成式AI競賽，真是越來越值得期待了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

每一幕皆可控！字節發布多主體視頻生成神器，人人皆主角

量子位 2025-06-13 17:12:08
2 跟貼 2
分割/識別/解說一個模型搞定！3B參數刷新視覺理解SOTA

量子位 2025-06-14 19:59:23
0 跟貼 0

破解三大數據庫AI難題！北大&亞馬遜推出全球首個圖中心RDB基模

量子位 2025-06-15 12:34:33
2 跟貼 2

CVPR 2025 多模態大一統：斯坦福 x 復旦符號主義建模生成式任務

機器之心Pro 2025-06-13 10:11:44
0 跟貼 0
前智源團隊創業，聯想、智譜AI投了一家人形機器人大模型公司｜硬氪首發

36氪 2025-06-14 09:31:10
1 跟貼 1

AI智能體上線，營銷人下線？ | AI無悖論

虎嗅APP 2025-06-15 01:00:27
1 跟貼 1

中國團隊提出SRDA，一種專為AI大模型訓推設計的下一代計算架構

量子位 2025-06-09 17:50:16
0 跟貼 0
字節選擇背水一戰

虎嗅APP 2025-06-14 16:28:06
9 跟貼 9

靜態爆破開山，效率是傳統方式的幾倍，這才是大國重器！

牟香搞笑 2025-06-15 09:47:16
1 跟貼 1
復旦大學/上海創智學院邱錫鵬:Context Scaling,通往AGI的下一幕

機器之心Pro 2025-06-16 10:13:28
0 跟貼 0
豆包使用成本“卷”至1/3 火山引擎瞄準智能體“爆發” 催生智算一體機新需求

財聯社 2025-06-14 11:16:00
1 跟貼 1
謝賽寧蘇昊CVPR25獲獎！華人博士王建元一作拿下最佳論文

量子位 2025-06-14 17:22:24
7 跟貼 7
騰訊開源最強3D生成模型，消費級顯卡就能跑

量子位 2025-06-14 19:13:18
13 跟貼 13
大量伊朗人開車連夜逃離伊朗密密麻麻的車輛排隊出城

她說TS 2025-06-16 06:39:18
7954 跟貼 7954
以色列公布伊朗核基地被摧毀的衛星圖像和路線

火煉樹 2025-06-13 21:51:18
4874 跟貼 4874
大模型能否讀懂病歷？哈佛醫學院發布BRIDGE大規模多語言評測基準

ScienceAI 2025-06-15 19:38:05
1 跟貼 1
英國曝出機密數據，俄羅斯傷亡已超百萬？美國要求烏克蘭割讓領土

慧科普 2025-06-15 01:46:18
3 跟貼 3
打造你的數字分身：精準醫療背后的秘密武器

DeepTech深科技 2024-12-30 18:50:39
0 跟貼 0
NBA最垃圾的靜態天賦是什么水平？麥康奈爾或許能給你答案

浩瀚的星河 2025-06-14 05:20:29
1 跟貼 1
品牌靠譜+改款升級，靜態體驗新別克E5

AL 頻道 2025-06-14 17:30:18
5 跟貼 5
蔣介石敗退臺灣后，麾下還有多少軍力？真實數據讓人難以接受

圓元淺談 2025-06-13 13:13:34
0 跟貼 0
豆包新款大模型發布，機構稱建議關注信創等計算機板塊

每日經濟新聞 2025-06-16 09:48:46
0 跟貼 0
蘇超排面“殺瘋了”！贊助商暴增、飛機拉煙秀翻天、海軍13艦助陣

第一財經資訊 2025-06-15 20:28:31
1 跟貼 1
浙江高考前10000名，能去哪些大學？這份統計值得參考！

錢江晚報 2025-06-16 07:48:05
58 跟貼 58
全球程序員炸鍋！老黃倫敦放豪言：編程語言的未來是「Human」

新智元 2025-06-15 09:12:25
154 跟貼 154
全球首次，Transformer「混血」速度狂飆65倍！英偉達已下注

新智元 2025-06-14 13:25:54
1 跟貼 1
湖北一市宣布：所有江蘇人免票！

揚子晚報 2025-06-15 20:10:32
632 跟貼 632
12年博士研究，AI兩天爆肝完成！科研效率狂飆3000倍，驚動學術圈

新智元 2025-06-15 16:41:44
19 跟貼 19
我國殲35參數曝光，美國卻說數據造假，殲35不可能比F35厲害

飛龍軍科 2025-06-16 11:52:42
1 跟貼 1
如何看待黃仁勛改口說，英偉達AI技術比華為領先一代？

鈦媒體APP 2025-06-16 11:16:07
6 跟貼 6
大型遙控模型卡車

制造科技 2025-06-15 14:26:26
0 跟貼 0
動物專家將野鹿模型，放到了農田里面，來吸引附近猛獸的襲擊

雙喜聊劇 2025-06-15 16:28:31
0 跟貼 0
王楚欽結束比賽開車回家居然還有這么高清的版本

黑翼天使 2025-06-15 06:35:07
1 跟貼 1
模型飛機試飛，鏡頭一轉發現事不簡單，美女膽子太大了

說說搞笑說 2025-06-14 17:45:19
3 跟貼 3
伊朗軍方：我們已掌握以方要害地點的完整數據庫，警告以居民離開

Bobo字幕組 2025-06-16 08:56:36
0 跟貼 0
湖北三峽航空學院正式揭牌成立

環球網資訊 2025-06-15 18:06:11
319 跟貼 319
李夢因傷無緣亞洲杯大名單，本人發長文致謝：感謝祖國和國家隊，這不是終點

魯中晨報 2025-06-16 09:06:12
46 跟貼 46
張朝陽不要的絕版LABUBU 被胡潤換了臺車

紅星新聞 2025-06-15 15:37:30
915 跟貼 915
詹姆斯·韋伯望遠鏡公布了最清晰的比鄰星B圖像！

素玉姑娘 2025-06-15 04:38:55
0 跟貼 0
杭州歡牛蛋糕屋深夜發文：對不起

都市快報橙柿互動 2025-06-16 07:36:00
38 跟貼 38

深水研究

專注數字化與全球化。

49文章數 5關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

房產

健康

手機

教育

手機 / 數碼

房產 / 家居

視頻大模型登頂榜首，居然是這家中國AI公司

22年后，馬斯克“殺死”了最初的特斯拉

媒體：在伊朗與以色列的沖突中 伊拉克的態度耐人尋味

媒體：在伊朗與以色列的沖突中 伊拉克的態度耐人尋味

被偷走的世界杯資格 他們用20年搶回來了

郭富城官宣方媛懷三胎 拒絕透露性別

大廠搶灘的「穩定幣」，能火多久？

前臉與N7相似 新一代日產軒逸假想圖曝光

態度原創

HKC 惠科推出全球首款 800Hz 刷新率電競顯示器，24.5 英寸 FHD

又一城購房補貼！買房就發錢，正在海南樓市瘋狂擴散！

呼吸科專家破解呼吸道九大謠言！

iPhone 17 Pro發布三個月倒計時！12項配置升級：首次堆散熱、12GB內存

2024智慧家長家教好故事展播（三十六）

22年后，馬斯克“殺死”了最初的特斯拉

媒體：在伊朗與以色列的沖突中伊拉克的態度耐人尋味

媒體：在伊朗與以色列的沖突中伊拉克的態度耐人尋味

被偷走的世界杯資格他們用20年搶回來了

郭富城官宣方媛懷三胎拒絕透露性別

大廠搶灘的「穩定幣」，能火多久？

前臉與N7相似新一代日產軒逸假想圖曝光

HKC 惠科推出全球首款 800Hz 刷新率電競顯示器，24.5 英寸 FHD

又一城購房補貼！買房就發錢，正在海南樓市瘋狂擴散！

iPhone 17 Pro發布三個月倒計時！12項配置升級：首次堆散熱、12GB內存