99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

單卡也能跑萬幀!智源發布Video-XL-2,速度、效果、長度全拉滿

0
分享至


新智元報道

編輯:定慧 Aeneas

【新智元導讀】智源研究院發布開源模型Video-XL-2,顯著提升長視頻理解能力。該模型在效果、處理長度與速度上全面優化,支持單卡處理萬幀視頻,編碼2048幀僅需12秒。


長視頻理解是多模態大模型關鍵能力之一。

盡管OpenAI GPT-4o、Google Gemini等私有模型已在該領域取得顯著進展,當前的開源模型在效果、計算開銷和運行效率等方面仍存在明顯短板。

近日,智源研究院聯合上海交通大學等機構,正式發布新一代超長視頻理解模型:Video-XL-2。相較于上一版本的Video-XL,該模型在多個維度全面優化了多模態大模型對長視頻內容的理解能力:

  • 效果更佳Video-XL-2在長視頻理解任務中表現出色,在MLVU、Video-MME、LVBench等主流評測基準上達到了同參數規模開源模型的領先水平。

  • 長度更長新模型顯著擴展了可處理視頻的時長,支持在單張顯卡上高效處理長達萬幀的視頻輸入。

  • 速度更快Video-XL-2大幅提升了處理效率,編碼2048幀視頻僅需12秒,顯著加速長視頻理解流程。

目前,Video-XL-2的模型權重已全面向社區開放。未來,該模型有望在影視內容分析、異常行為監測等多個實際場景中展現重要應用價值。

項目主頁:https://unabletousegit.github.io/video-xl2.github.io/

模型HF鏈接:https://huggingface.co/BAAI/Video-XL-2

倉庫鏈接:https://github.com/VectorSpaceLab/Video-XL

技術簡介


圖1:Video-XL-2的模型架構示意圖

在模型架構設計上,Video-XL-2主要由三個核心組件構成:視覺編碼器(Visual Encoder)、動態Token合成模塊(Dynamic Token Synthesis, DTS)以及大語言模型(LLM)

具體而言,Video-XL-2采用SigLIP-SO400M作為視覺編碼器,對輸入視頻進行逐幀處理,將每一幀編碼為高維視覺特征。

隨后,DTS模塊對這些視覺特征進行融合壓縮,并建模其時序關系,以提取更具語義的動態信息。

處理后的視覺表征通過平均池化與多層感知機(MLP)進一步映射到文本嵌入空間,實現模態對齊。最終,對齊后的視覺信息輸入至Qwen2.5-Instruct,以實現對視覺內容的理解與推理,并完成相應的下游任務。


圖2:Video-XL-2的訓練階段示意圖

在訓練策略上,Video-XL-2采用了四階段漸進式訓練的設計,逐步構建其強大的長視頻理解能力。

前兩個階段主要利用圖像/視頻-文本對,完成DTS模塊的初始化與跨模態對齊

第三階段則引入更大規模,更高質量的圖像與視頻描述數據,初步奠定模型對視覺內容的理解能力;

第四階段,在大規模、高質量且多樣化的圖像與視頻指令數據上進行微調,使Video-XL-2的視覺理解能力得到進一步提升與強化,從而能夠更準確地理解和響應復雜的視覺指令。


圖3. Chunk-based Prefilling


圖4. Bi-granularity KV Decoding

此外,Video-XL-2還系統性設計了效率優化策略。

首先,Video-XL-2引入了分段式的預裝填策略(Chunk-based Prefilling,如圖3所示):將超長視頻劃分為若干連續的片段(chunk),在每個chunk內部使用稠密注意力機制進行編碼,而不同chunk之間則通過時間戳傳遞上下文信息。

該設計顯著降低了預裝填階段的計算成本與顯存開銷。其次,Video-XL-2還設計了基于雙粒度KV的解碼機制(Bi-granularity KV Decoding,如圖4所示):在推理過程中,模型會根據任務需求,選擇性地對關鍵片段加載完整的KVs(dense KVs),而對其他次要片段僅加載降采樣后的稀疏的KVs(sparse KVs)。

這一機制有效縮短了推理窗口長度,從而大幅提升解碼效率。得益于上述策略的協同優化,Video-XL-2實現了在單張顯卡上對萬幀級視頻的高效推理,顯著增強了其在實際應用場景中的實用性。

實驗效果


圖5:Video-XL-2的主要對比結果


表1:Video-XL-2的全面對比結果

在模型具體表現方面,Video-XL-2在MLVU、VideoMME和LVBench等主流長視頻評測基準上全面超越現有所有輕量級開源模型,達成當前最先進性能(SOTA),相較第一代Video-XL實現了顯著提升。

尤其值得關注的是,在MLVU和LVBench上,Video-XL-2的性能已接近甚至超越了如Qwen2.5-VL-72B和LLaVA-Video-72B等參數規模高達720億的大模型。

此外,在時序定位(Temporal Grounding)任務中,Video-XL-2也表現出色,在Charades-STA數據集上取得了領先的結果,進一步驗證了其在多模態視頻理解場景中的廣泛適用性與實際價值。


圖6:Video-XL-2輸入長度的對比展示

除了效果上的提升,Video-XL-2在視頻長度方面也展現出顯著優勢。

如圖6所示,在單張24GB消費級顯卡(如RTX 3090 / 4090)上,Video-XL-2可處理長達千幀的視頻;而在單張80GB高性能顯卡(如A100 / H100)上,模型更支持萬幀級視頻輸入,遠超現有主流開源模型。

相較于VideoChat-Flash和初代Video-XL,Video-XL-2顯著拓展了視頻理解的長度并有效降低了資源需求,為處理復雜的視頻任務提供了有力的支撐。


圖7:Video-XL-2 Prefilling速度的對比展示


圖8:Video-XL-2 Prefilling速度和輸入幀數的關系圖

最后,Video-XL-2在速度上也展現出卓越性能。如上圖8所示,Video-XL-2僅需12秒即可完成2048幀視頻的預填充。

更重要的是,其預填充時間與輸入幀數之間呈現出近似線性增長,體現了其出色的可擴展性。

相比之下,Video-XL與VideoChat-Flash在輸入長視頻條件下的工作效率明顯落后于Video-XL-2。

應用潛力

以下是一些具體的例子,將展示Video-XL-2在實際應用中的巨大潛力:

Example 1:電影情節問答


Question:A bald man wearing a green coat is speaking on the phone. What color is the phone?

Answer:The phone’s color is red

Example 2:監控異常檢測


Question:Is there any unexpected event happening in this surveillance footage?

Answer:There is physical altercation between the customers and the store employees

Example 3: 影視作品內容總結

Example4:游戲直播內容總結

得益于出色的視頻理解能力與對超長視頻的高效處理性能,Video-XL-2在多種實際應用場景中展現出很高的應用潛力。

例如,它可廣泛應用于影視內容分析、劇情理解、監控視頻中的異常行為檢測與安全預警等任務,為現實世界中的復雜視頻理解需求提供高效、精準的技術支撐。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
央視《長安的荔枝》首播!8位實力派坐鎮,我斷言:這劇一播就炸

央視《長安的荔枝》首播!8位實力派坐鎮,我斷言:這劇一播就炸

大笑江湖史
2025-06-04 20:27:13
老肩巨滑的采訪,難怪人氣爆棚!

老肩巨滑的采訪,難怪人氣爆棚!

貴圈真亂
2025-06-04 08:57:43
《藏海傳》大結局上線1美,新冬夏女王美艷又霸氣,不輸張婧儀

《藏海傳》大結局上線1美,新冬夏女王美艷又霸氣,不輸張婧儀

楊哥歷史
2025-06-04 10:06:42
罕見!25年來第一次,中國跌至世界第三,釋放不尋常信號

罕見!25年來第一次,中國跌至世界第三,釋放不尋常信號

張嘴說財經
2025-06-03 14:02:16
廣發銀行到了最危險的時刻

廣發銀行到了最危險的時刻

妙投APP
2025-06-04 19:14:12
蔚來創始人李斌:螢火蟲5月銷量3680臺,超過Smart和純電Mini 4月銷量總和!用戶主要選擇的都是高配版本

蔚來創始人李斌:螢火蟲5月銷量3680臺,超過Smart和純電Mini 4月銷量總和!用戶主要選擇的都是高配版本

和訊網
2025-06-04 17:21:45
新郎拿20萬接親!伴娘要求加20萬,丈母娘怒吼,拿100元趕緊打發

新郎拿20萬接親!伴娘要求加20萬,丈母娘怒吼,拿100元趕緊打發

寒士之言本尊
2025-06-04 15:02:12
李月汝申請交易后續:三大潛在下家曝光 風暴教練組被WNBA調查

李月汝申請交易后續:三大潛在下家曝光 風暴教練組被WNBA調查

羅說NBA
2025-06-05 05:51:05
沖上熱搜!34歲演員陳學冬曬病床照,車禍后時隔2年仍在做手術,此前曾引發退圈猜測

沖上熱搜!34歲演員陳學冬曬病床照,車禍后時隔2年仍在做手術,此前曾引發退圈猜測

魯中晨報
2025-06-04 16:26:15
喪鐘已敲響,新能源汽車金融泡沫已到崩的前夜?

喪鐘已敲響,新能源汽車金融泡沫已到崩的前夜?

米筐投資
2025-05-30 07:18:09
哈登有意續約快船!三人或將離隊,補強計劃曝光,鮑威爾或被交易

哈登有意續約快船!三人或將離隊,補強計劃曝光,鮑威爾或被交易

你的籃球頻道
2025-06-05 07:33:18
18歲王鈺棟婉拒留洋:現在去歐洲難成主力 踢透中超+10年后也不遲

18歲王鈺棟婉拒留洋:現在去歐洲難成主力 踢透中超+10年后也不遲

我愛英超
2025-06-04 23:22:54
剛剛批復!上海-江蘇-浙江,未來“超級地鐵”直達!這條市域鐵路省界段初步設計獲批

剛剛批復!上海-江蘇-浙江,未來“超級地鐵”直達!這條市域鐵路省界段初步設計獲批

上觀新聞
2025-06-04 23:04:51
歐國聯26億對決!亞馬爾打響金球大戰,勝者進決賽與C羅爭冠

歐國聯26億對決!亞馬爾打響金球大戰,勝者進決賽與C羅爭冠

葉青足球世界
2025-06-05 07:09:10
我國將迎來前所未有的人口死亡高峰!復旦專家:三個因素導致

我國將迎來前所未有的人口死亡高峰!復旦專家:三個因素導致

第一心理
2025-06-04 17:10:12
縣公安局長兒子調戲新上任女縣委書記,半月后,全縣大半領導被雙開

縣公安局長兒子調戲新上任女縣委書記,半月后,全縣大半領導被雙開

紅豆講堂
2025-04-15 11:31:18
白象客服確認多半袋面“多半”是商標!稱克重以包裝顯示為準

白象客服確認多半袋面“多半”是商標!稱克重以包裝顯示為準

南方都市報
2025-06-04 14:13:09
要去指導江蘇?網友們不答應,國足評論區淪陷全是調侃

要去指導江蘇?網友們不答應,國足評論區淪陷全是調侃

辣條小劇場
2025-06-04 18:22:19
ESPN:皇馬曾認為馬斯坦托諾的轉會費過高,但阿隆索堅持交易

ESPN:皇馬曾認為馬斯坦托諾的轉會費過高,但阿隆索堅持交易

懂球帝
2025-06-04 20:53:19
被蛇咬身亡女子家屬曝更多細節,最可氣的是朋友咨詢寶哥的這段話

被蛇咬身亡女子家屬曝更多細節,最可氣的是朋友咨詢寶哥的這段話

二月侃事
2025-06-04 22:26:55
2025-06-05 09:27:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12817文章數 66059關注度
往期回顧 全部

科技要聞

人形機器人千億投入 年產量不如勞力士一周

頭條要聞

家長請事假陪孩子高考被開除 起訴公司官司打到高院

頭條要聞

家長請事假陪孩子高考被開除 起訴公司官司打到高院

體育要聞

從次輪末到樂透邊緣 楊瀚森的試訓有什么玄機?

娛樂要聞

彭于晏方出面澄清與蔡依林復合戀情!

財經要聞

美聯儲褐皮書:不確定性和關稅壓力加劇

汽車要聞

車機升級 新款AION Y Plus上市售9.98萬起

態度原創

游戲
藝術
房產
家居
公開課

不割韭菜后,逆水寒反哺了超100萬端游玩家

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

再奪荔灣銷冠!誰是主城改善標準制定者,終于有了答案!

家居要聞

空間維度 通透復式結構

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 永德县| 大连市| 石台县| 广昌县| 额敏县| 特克斯县| 积石山| 贵州省| 澜沧| 易门县| 星座| 姜堰市| 南岸区| 香港| 丰顺县| 青浦区| 芦溪县| 克山县| 金昌市| 保亭| 五原县| 榆树市| 徐汇区| 富锦市| 宁波市| 霍邱县| 兴化市| 区。| 安陆市| 利川市| 枣庄市| 合肥市| 萝北县| 延川县| 陇南市| 都江堰市| 崇州市| 莱州市| 句容市| 绥江县| 朝阳市|