網易首頁 > 網易號 > 正文申請入駐

上海AI Lab&復旦、港中文推出更長視頻理解最佳工具VideoRoPE++

2025-07-03 13:16:29　來源: 機器之心Pro

北京舉報

分享至

本文第一作者魏熙林，復旦大學計算機科學技術學院人工智能方向博士生，研究方向是多模態大模型、高效長上下文；目前在上海人工智能實驗室實習，指導 mentor 是臧宇航、王佳琦。

一、背景介紹

雖然旋轉位置編碼（RoPE）及其變體因其長上下文處理能力而被廣泛采用，但將一維 RoPE 擴展到具有復雜時空結構的視頻領域仍然是一個懸而未決的挑戰。

VideoRoPE++ 這項工作首先進行了全面分析，確定了將 RoPE 有效應用于視頻所需的五個關鍵特性，而先前的工作并未充分考慮這些特性。

作為分析的一部分，這項工作構建了一個全新的評測基準 ——V-RULER，其中的子任務 “帶干擾項的大海撈針（Needle Retrieval under Distractor, NRD）” 表明：當前 RoPE 變體在缺乏合理時間維度建模策略時，容易被周期性干擾項誤導，表現不穩定。

基于分析，作者提出了 VideoRoPE++，它具有三維結構，旨在保留時空關系。VideoRoPE 的特點包括低頻時間分配以減輕周期性碰撞、對角布局以保持空間對稱性，以及可調整的時間間隔以解耦時間和空間索引。

此外，為提升模型在訓練范圍之外的外推能力，作者團推還提出了外推方案 ——YaRN-V。該方法僅在低頻時間軸上進行插值，同時保持空間維度的穩定性與周期性，從而實現在長視頻場景下的結構一致性與外推魯棒性。在長視頻檢索、視頻理解和視頻幻覺等各種下游任務中，VideoRoPE++ 始終優于先前的 RoPE 變體。

Paper: https://github.com/Wiselnn570/VideoRoPE/blob/main/VideoRoPE_plus.pdf
Project Page:
https://wiselnn570.github.io/VideoRoPE/
Code：
https://github.com/Wiselnn570/VideoRoPE/

二、分析

左圖：為了展示頻率分配的重要性，基于 VIAH（a），作者提出了一個更具挑戰性的 benchmark: V-RULER，子任務 Needle Retrieval under Distractors 如（b）所示，其中插入了相似圖像作為干擾項。右圖：與 M-RoPE 相比，VideoRoPE++ 在檢索中更具魯棒性，并且不容易受到干擾項的影響。

上圖：M-RoPE 的時間維度局限于局部信息，導致對角線布局。下圖：VideoRoPE++ 有效利用時間維度進行檢索。M-RoPE 在定位目標圖像上有效，但在多選問題中表現不佳，因為它主要通過垂直位置編碼來定位圖像，而非時間特征，導致時間維度未能捕捉長距離依賴關系，關注局部信息。相比之下，空間維度則捕捉長距離語義信息，導致 M-RoPE 在頻率分配設計上表現較差。

三、VideoRoPE ++ 設計

作者團隊提出了 VideoRoPE++，一種視頻位置嵌入策略，優先考慮時間建模，通過低頻時間分配（LTA）減少振蕩并確保魯棒性。它采用對角線布局（DL）以保持空間對稱性，并引入可調時間間隔（ATS）來控制時間間隔，以及提出 YaRN-V 對訓練范圍以外的位置信息進行外推。VideoRoPE++ 有效地建模了時空信息，從而實現了魯棒的視頻位置表示。

1. 低頻時間分配 (LTA):

考慮一個基于 RoPE 的 LLM，頭部維度為 128，對應 64 個旋轉角度 θn，分布在不同維度上。每個圖示中，用平行的藍色平面表示 cos (θnt) 在 3 維上的表現。

（a）對于 M-RoPE，時間依賴性由前 16 個高頻旋轉角度建模，導致振蕩和位置信息失真。低維度間隔較短，振蕩周期性使得遠距離位置可能具有相似信息，類似哈希碰撞（如紅色平面所示），容易引發干擾，誤導模型。

（b）相比之下，VideoRoPE++ 通過最后 16 個旋轉角度建模時間依賴性，具有更寬的單調間隔。時間建模不再受振蕩影響，顯著抑制了干擾項的誤導效應。

2. 對角線布局 (DL) :

原始 1D RoPE（Su et al., 2024）未包含空間建模。M-RoPE（Wang et al., 2024b）雖然采用 3D 結構，但引入了不同幀間視覺標記索引的差異。相比之下，VideoRoPE++ 實現了平衡，保留了原始 RoPE 一致的索引增長模式，并引入了空間建模。優點包括：1）保留視覺標記的相對位置，避免文本標記過于接近角落；2）保持原始 RoPE 編碼形式，相鄰幀的空間位置信息增量與文本標記增量一致。

3. 可調時間間隔 (ATS) :

為了縮放時間索引，作者團隊引入縮放因子 δ 來對齊視覺和文本標記之間的時間信息。假設 τ 為標記索引，起始文本（0 ≤ τ < Ts）的時間、水平和垂直索引為原始標記索引 τ。對于視頻輸入（Ts ≤ τ < Ts + Tv），τ ? Ts 表示當前幀相對于視頻開始的索引，通過 δ 縮放控制時間間距。對于結束文本（Ts + Tv ≤ τ < Ts + Tv + Te），時間、水平和垂直索引保持不變，形成線性進展。根據可調節的時間間距設計，視頻位置編碼（VideoRoPE++）中 τ-th 文本標記或（τ, w, h）-th 視覺標記的位置信息（t, x, y）如式（7）所示。

其中，w 和 h 分別表示視覺塊在幀中的水平和垂直索引。

4. 基于 YaRN-V 的外推能力

在視頻理解任務中，時空維度的差異性對位置編碼提出了特殊挑戰：空間信息（如紋理與邊緣）通常具有局部性和周期性，而時間信息則跨越更長且不確定的范圍，依賴更廣的上下文建模。為解決這一不對稱性，作者提出了 YaRN-V，一種僅沿時間維度進行頻率插值的外推方法，同時保持空間維度不變。該選擇性設計在保留空間結構的同時，有效提升了長視頻建模中的時間泛化能力。YaRN-V 的設計依據于空間與時間維度在頻域特性上的本質差異：空間維度處于高頻段，訓練中已完成一個完整周期，因此模型能自然泛化至未見過的空間位置；而時間維度處于低頻段，訓練范圍內無法覆蓋完整周期，因此僅對時間軸插值便可實現有效的長時外推。

四、實驗結果

長視頻檢索任務：

作者團隊展示了 VideoRoPE++ 與其他 RoPE 變體在 V-RULER 上的性能。Vanilla RoPE 和 TAD-RoPE 在視覺訓練上下文外具備一定外推能力，但超出極限后失效。相比之下，VideoRoPE 和 M-RoPE 在測試上下文內表現優越，且 VideoRoPE 始終優于 M-RoPE，展現出更強魯棒性。

長視頻理解任務：

如表所示，作者團隊在三個長視頻理解基準上比較了 VideoRoPE++ 與現有 RoPE 變體（Vanilla RoPE、TAD-RoPE 和 M-RoPE）。VideoRoPE++ 在這些基準上優于所有基線方法，展示了其魯棒性和適應性。在 LongVideoBench、MLVU 和 Video-MME 上，VideoRoPE++ (Qwen2 基座) 在 64k 上下文長度下分別比 M-RoPE 提高了 2.91、4.46 和 1.66 分，突顯了其在捕捉長距離依賴關系和處理具有挑戰性的視頻任務中的卓越能力。

外推任務：

在本次實驗中，作者針對超出訓練范圍的長序列輸入，系統評測了多種位置外推方案。在 V-RULER 基準中的 Lengthy Multimodal Stack 任務上，作者提出的方法 YaRN-V 以 81.33 的得分顯著領先，較最強基線 YaRN 提升 13.0 分，穩健應對混合模態干擾下的超長位置索引。相比之下，傳統位置編碼方案已完全失效，而 NTK-Aware（67.66）和 MRoPE++（62.30）等方法雖有一定泛化能力，但整體表現仍有限。

實驗結果表明，YaRN-V 能更好支撐視頻大模型在長輸入場景下的時間對齊，避免位置溢出帶來的性能衰退，是多模態長序列理解的理想方案。

五、總結

本文確定了有效位置編碼的四個關鍵標準：2D/3D 結構、頻率分配、空間對稱性和時間索引縮放。通過 V-NIAH-D 任務，作者展示了先前 RoPE 變體因缺乏適當的時間分配而易受干擾。因此，提出了 VideoRoPE++，采用 3D 結構保持時空一致性，低頻時間分配減少振蕩，對角布局實現空間對稱性，并引入可調節時間間距和外推方案 YaRN-V。VideoRoPE++ 在長視頻檢索、視頻理解和視頻幻覺任務中優于其他 RoPE 變體。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.