99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

上海AI Lab&復旦、港中文推出更長視頻理解最佳工具VideoRoPE++

0
分享至



本文第一作者魏熙林,復旦大學計算機科學技術學院人工智能方向博士生,研究方向是多模態大模型、高效長上下文;目前在上海人工智能實驗室實習,指導 mentor 是臧宇航、王佳琦。

一、背景介紹

雖然旋轉位置編碼(RoPE)及其變體因其長上下文處理能力而被廣泛采用,但將一維 RoPE 擴展到具有復雜時空結構的視頻領域仍然是一個懸而未決的挑戰。

VideoRoPE++ 這項工作首先進行了全面分析,確定了將 RoPE 有效應用于視頻所需的五個關鍵特性,而先前的工作并未充分考慮這些特性。

作為分析的一部分,這項工作構建了一個全新的評測基準 ——V-RULER,其中的子任務 “帶干擾項的大海撈針(Needle Retrieval under Distractor, NRD)” 表明:當前 RoPE 變體在缺乏合理時間維度建模策略時,容易被周期性干擾項誤導,表現不穩定。

基于分析,作者提出了 VideoRoPE++,它具有三維結構,旨在保留時空關系。VideoRoPE 的特點包括低頻時間分配以減輕周期性碰撞、對角布局以保持空間對稱性,以及可調整的時間間隔以解耦時間和空間索引。

此外,為提升模型在訓練范圍之外的外推能力,作者團推還提出了外推方案 ——YaRN-V。該方法僅在低頻時間軸上進行插值,同時保持空間維度的穩定性與周期性,從而實現在長視頻場景下的結構一致性與外推魯棒性。在長視頻檢索、視頻理解和視頻幻覺等各種下游任務中,VideoRoPE++ 始終優于先前的 RoPE 變體。



  • Paper: https://github.com/Wiselnn570/VideoRoPE/blob/main/VideoRoPE_plus.pdf
  • Project Page:
  • https://wiselnn570.github.io/VideoRoPE/
  • Code:
  • https://github.com/Wiselnn570/VideoRoPE/



二、分析



左圖:為了展示頻率分配的重要性,基于 VIAH(a),作者提出了一個更具挑戰性的 benchmark: V-RULER,子任務 Needle Retrieval under Distractors 如(b)所示,其中插入了相似圖像作為干擾項。右圖:與 M-RoPE 相比,VideoRoPE++ 在檢索中更具魯棒性,并且不容易受到干擾項的影響。



上圖:M-RoPE 的時間維度局限于局部信息,導致對角線布局。下圖:VideoRoPE++ 有效利用時間維度進行檢索。M-RoPE 在定位目標圖像上有效,但在多選問題中表現不佳,因為它主要通過垂直位置編碼來定位圖像,而非時間特征,導致時間維度未能捕捉長距離依賴關系,關注局部信息。相比之下,空間維度則捕捉長距離語義信息,導致 M-RoPE 在頻率分配設計上表現較差。

三、VideoRoPE ++ 設計

作者團隊提出了 VideoRoPE++,一種視頻位置嵌入策略,優先考慮時間建模,通過低頻時間分配(LTA)減少振蕩并確保魯棒性。它采用對角線布局(DL)以保持空間對稱性,并引入可調時間間隔(ATS)來控制時間間隔,以及提出 YaRN-V 對訓練范圍以外的位置信息進行外推。VideoRoPE++ 有效地建模了時空信息,從而實現了魯棒的視頻位置表示。

1. 低頻時間分配 (LTA):



考慮一個基于 RoPE 的 LLM,頭部維度為 128,對應 64 個旋轉角度 θn,分布在不同維度上。每個圖示中,用平行的藍色平面表示 cos (θnt) 在 3 維上的表現。

(a)對于 M-RoPE,時間依賴性由前 16 個高頻旋轉角度建模,導致振蕩和位置信息失真。低維度間隔較短,振蕩周期性使得遠距離位置可能具有相似信息,類似哈希碰撞(如紅色平面所示),容易引發干擾,誤導模型。

(b)相比之下,VideoRoPE++ 通過最后 16 個旋轉角度建模時間依賴性,具有更寬的單調間隔。時間建模不再受振蕩影響,顯著抑制了干擾項的誤導效應。

2. 對角線布局 (DL) :



原始 1D RoPE(Su et al., 2024)未包含空間建模。M-RoPE(Wang et al., 2024b)雖然采用 3D 結構,但引入了不同幀間視覺標記索引的差異。相比之下,VideoRoPE++ 實現了平衡,保留了原始 RoPE 一致的索引增長模式,并引入了空間建模。優點包括:1)保留視覺標記的相對位置,避免文本標記過于接近角落;2)保持原始 RoPE 編碼形式,相鄰幀的空間位置信息增量與文本標記增量一致。

3. 可調時間間隔 (ATS) :

為了縮放時間索引,作者團隊引入縮放因子 δ 來對齊視覺和文本標記之間的時間信息。假設 τ 為標記索引,起始文本(0 ≤ τ < Ts)的時間、水平和垂直索引為原始標記索引 τ。對于視頻輸入(Ts ≤ τ < Ts + Tv),τ ? Ts 表示當前幀相對于視頻開始的索引,通過 δ 縮放控制時間間距。對于結束文本(Ts + Tv ≤ τ < Ts + Tv + Te),時間、水平和垂直索引保持不變,形成線性進展。根據可調節的時間間距設計,視頻位置編碼(VideoRoPE++)中 τ-th 文本標記或(τ, w, h)-th 視覺標記的位置信息(t, x, y)如式(7)所示。



其中,w 和 h 分別表示視覺塊在幀中的水平和垂直索引。

4. 基于 YaRN-V 的外推能力



在視頻理解任務中,時空維度的差異性對位置編碼提出了特殊挑戰:空間信息(如紋理與邊緣)通常具有局部性和周期性,而時間信息則跨越更長且不確定的范圍,依賴更廣的上下文建模。為解決這一不對稱性,作者提出了 YaRN-V,一種僅沿時間維度進行頻率插值的外推方法,同時保持空間維度不變。該選擇性設計在保留空間結構的同時,有效提升了長視頻建模中的時間泛化能力。YaRN-V 的設計依據于空間與時間維度在頻域特性上的本質差異:空間維度處于高頻段,訓練中已完成一個完整周期,因此模型能自然泛化至未見過的空間位置;而時間維度處于低頻段,訓練范圍內無法覆蓋完整周期,因此僅對時間軸插值便可實現有效的長時外推。

四、實驗結果

長視頻檢索任務:

作者團隊展示了 VideoRoPE++ 與其他 RoPE 變體在 V-RULER 上的性能。Vanilla RoPE 和 TAD-RoPE 在視覺訓練上下文外具備一定外推能力,但超出極限后失效。相比之下,VideoRoPE 和 M-RoPE 在測試上下文內表現優越,且 VideoRoPE 始終優于 M-RoPE,展現出更強魯棒性。



長視頻理解任務:

如表所示,作者團隊在三個長視頻理解基準上比較了 VideoRoPE++ 與現有 RoPE 變體(Vanilla RoPE、TAD-RoPE 和 M-RoPE)。VideoRoPE++ 在這些基準上優于所有基線方法,展示了其魯棒性和適應性。在 LongVideoBench、MLVU 和 Video-MME 上,VideoRoPE++ (Qwen2 基座) 在 64k 上下文長度下分別比 M-RoPE 提高了 2.91、4.46 和 1.66 分,突顯了其在捕捉長距離依賴關系和處理具有挑戰性的視頻任務中的卓越能力。



外推任務:



在本次實驗中,作者針對超出訓練范圍的長序列輸入,系統評測了多種位置外推方案。在 V-RULER 基準中的 Lengthy Multimodal Stack 任務上,作者提出的方法 YaRN-V 以 81.33 的得分顯著領先,較最強基線 YaRN 提升 13.0 分,穩健應對混合模態干擾下的超長位置索引。相比之下,傳統位置編碼方案已完全失效,而 NTK-Aware(67.66)和 MRoPE++(62.30)等方法雖有一定泛化能力,但整體表現仍有限。

實驗結果表明,YaRN-V 能更好支撐視頻大模型在長輸入場景下的時間對齊,避免位置溢出帶來的性能衰退,是多模態長序列理解的理想方案。

五、總結

本文確定了有效位置編碼的四個關鍵標準:2D/3D 結構、頻率分配、空間對稱性和時間索引縮放。通過 V-NIAH-D 任務,作者展示了先前 RoPE 變體因缺乏適當的時間分配而易受干擾。因此,提出了 VideoRoPE++,采用 3D 結構保持時空一致性,低頻時間分配減少振蕩,對角布局實現空間對稱性,并引入可調節時間間距和外推方案 YaRN-V。VideoRoPE++ 在長視頻檢索、視頻理解和視頻幻覺任務中優于其他 RoPE 變體。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普暫停對烏軍事援助,部分解除對俄制裁,俄羅斯對此表示贊賞

特朗普暫停對烏軍事援助,部分解除對俄制裁,俄羅斯對此表示贊賞

山河路口
2025-07-03 12:50:37
寧可變成廢鐵,也不讓印度人碰?英國F35在印淋雨4天,飛行員死守

寧可變成廢鐵,也不讓印度人碰?英國F35在印淋雨4天,飛行員死守

一個有靈魂的作者
2025-07-02 15:49:10
關曉彤的彩椒碗被種草!曬教程像嬰幼兒輔食,關媽為愛女煞費苦心

關曉彤的彩椒碗被種草!曬教程像嬰幼兒輔食,關媽為愛女煞費苦心

墨印齋
2025-07-04 17:11:35
德媒:中國在北約家門口展示海軍實力

德媒:中國在北約家門口展示海軍實力

青木在德國
2025-07-02 21:41:51
為什么 DeepSeek 不再“聰明”?從語料貧瘠到思維貧乏!

為什么 DeepSeek 不再“聰明”?從語料貧瘠到思維貧乏!

邏輯與常識
2025-07-02 08:35:26
高考后兒子“網暴”父親,看得人心涼:不僅是白眼狼,更是無賴

高考后兒子“網暴”父親,看得人心涼:不僅是白眼狼,更是無賴

熙熙說教
2025-07-01 20:18:53
一夜一百萬?賴昌星親自揭露與董文華的關系,董為何會選擇退圈?

一夜一百萬?賴昌星親自揭露與董文華的關系,董為何會選擇退圈?

燕小姐說歷史
2024-12-31 08:53:48
突發!34歲劉芮麟官宣結婚生子,自曝去年領證結婚,知情人曝細節

突發!34歲劉芮麟官宣結婚生子,自曝去年領證結婚,知情人曝細節

小咪侃娛圈
2025-07-04 10:53:09
“月供4萬”業主崩潰:這房我該不該扔?

“月供4萬”業主崩潰:這房我該不該扔?

北京房姐
2025-07-03 08:24:26
重返意大利?世體:國米可能出售索默,并買26歲多納魯馬替代

重返意大利?世體:國米可能出售索默,并買26歲多納魯馬替代

直播吧
2025-07-04 19:33:44
阿塞拜疆宣布關閉所有俄語學校!英德簽署防御條約

阿塞拜疆宣布關閉所有俄語學校!英德簽署防御條約

項鵬飛
2025-07-03 22:04:41
并購重組潛力股名單梳理大全

并購重組潛力股名單梳理大全

資本Capital
2025-07-04 12:01:30
從“500萬內最好”到“24%暴跌”,增程失寵了?

從“500萬內最好”到“24%暴跌”,增程失寵了?

51qc我要汽車網
2025-07-03 10:47:02
誰也沒想到,打敗彩禮的居然是社保

誰也沒想到,打敗彩禮的居然是社保

細說職場
2025-07-04 06:27:03
貝萊德在中國石油股份的持股比例于06月30日從6.90%升至7.10%

貝萊德在中國石油股份的持股比例于06月30日從6.90%升至7.10%

每日經濟新聞
2025-07-04 17:07:06
小別勝新婚是什么體驗?網友:成年人的世界好污啊

小別勝新婚是什么體驗?網友:成年人的世界好污啊

解讀熱點事件
2025-06-05 00:10:03
特朗普公布對等關稅最終版本!8月1日全球開戰

特朗普公布對等關稅最終版本!8月1日全球開戰

貧民窟的大富翁
2025-07-04 16:30:58
岡村寧次手握105萬大軍,當他聽到日本投降后,第一反應是什么?

岡村寧次手握105萬大軍,當他聽到日本投降后,第一反應是什么?

蛋糕不高
2025-06-29 05:28:21
世俱杯八強今晚打響!周五002世俱杯:弗魯米嫩塞vs利雅得新月

世俱杯八強今晚打響!周五002世俱杯:弗魯米嫩塞vs利雅得新月

PP體育
2025-07-04 18:30:01
恭喜!李月汝轟12+11閃耀:7戰5勝征服主帥,帶飛4大新秀

恭喜!李月汝轟12+11閃耀:7戰5勝征服主帥,帶飛4大新秀

李喜林籃球絕殺
2025-07-04 11:33:36
2025-07-04 20:27:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10787文章數 142353關注度
往期回顧 全部

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰報

頭條要聞

甘肅天水回應幼兒園違規使用添加劑:我們現在也很焦急

頭條要聞

甘肅天水回應幼兒園違規使用添加劑:我們現在也很焦急

體育要聞

體壇最爽打工人:37歲被裁,工資領到72歲

娛樂要聞

李宇春身上的標簽哪個才是真的?

財經要聞

茅臺從3300跌到1700 泡沫破了酒才真香

汽車要聞

純電續航180km/或30萬級 方程豹鈦7四季度上市

態度原創

教育
親子
旅游
公開課
軍事航空

教育要聞

如果你能堅持一周,孩子越來越優秀!

親子要聞

醫學科普,育兒,蘋果水

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄美元首通話約1小時 討論中東局勢、俄烏談判等

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 京山县| 大竹县| 上饶县| 姚安县| 革吉县| 虹口区| 仪陇县| 沾化县| 潼南县| 马尔康县| 日照市| 晴隆县| 玉林市| 禄丰县| 桃源县| 福泉市| 高安市| 临泽县| 土默特右旗| 吉安县| 克东县| 昌图县| 高清| 商南县| 乌什县| 蓬安县| 睢宁县| 五台县| 泽普县| 洛阳市| 包头市| 武山县| 蒲江县| 根河市| 建始县| 剑河县| 霸州市| 昭通市| 太原市| 宜宾县| 平乡县|