網易首頁 > 網易號 > 正文申請入駐

RWKV-7 引入廣義 Delta Rule，表達力超越 Transformer

2025-03-23 18:03:31　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn開源社區

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在，歡迎加入共同成長。wisemodel社區上線，最新上線4090資源不限量，價格實惠，靈活方便，支持在線微調訓練模型，及和，并。

RWKV-7 通過一系列創新（例如廣義 Delta Rule），在計算效率、任務表現和模型表達力全面超越 Transformer 和過去的 RWKV-6 架構。

在訓練數據遠低于 Qwen2.5、Llama3.2 等開源模型的前提下，RWKV-7-World 模型的語言建模能力在所有開源 3B 規模模型中達到 SoTA 水平。

通過引入廣義 Delta Rule，RWKV-7 使用2 層即可實現復雜度的狀態跟蹤問題，使用 4 層即可識別所有正則語言，表達力顯著超越了 Transformers 的限制。最新版RWKV-7 模型已上線始智AI-wisemodel開源社區，歡迎大家前去體驗。

模型地址

RWKV-7 G1：

https://wisemodel.cn/models/rwkv4fun/RWKV-7-G1

RWKV-7 World：

https://wisemodel.cn/models/rwkv4fun/rwkv-7-world

01.

RWKV-7 架構概述

RWKV-7 的核心機制是引入并優化廣義 Delta Rule 作為 RWKV-7 隱藏狀態的演化機制（State Evolution）:

RWKV-7 的廣義 Delta Rule 包含多個優化：

向量化門控（Vector-Valued State Gating）：增加向量級的 State Gating 門控機制，使模型在序列建模時更具表現力。
向量化學習率（Vector-Valued In-Context Learning Rate）：使從標量擴展為向量，使模型能夠按通道選擇性地替換狀態數據，提高靈活性。
分離 Delta Rule 的刪除和添加機制：RWKV-7 允許不同的通道獨立刪除和添加狀態信息，增強模型對狀態信息的操控能力。

RWKV-7 架構圖概覽：

時間混合模塊（演化機制）

RWKV-7 架構中的時間混合（Time Mix）反映了 RWKV-7 的多頭矩陣值狀態（Weighted Key Value）的動態演化過程。

遞歸形式的計算公式：

其中是“上下文權重衰減”，是“上下文學習率”（in-context learning rate，ICLR）。

原始的 delta rule 公式在每個時間步移除舊值，移除的程度由標量 a a 控制。RWKV-7 將 a a 定義為向量，允許每個狀態通道有不同的移除量，增強對狀態信息的操控能力。

下圖是 RWKV-7 的 state 動態更新機制圖示。注意圖中 4×4 的 state 僅為演示，實際每個小模型的 state 矩陣是 64×64。

通過動態計算更新 state，RWKV-7 可以從上下文動態學習 key 和 value 之間的關系，使用更新后的 state 處理新的輸入，得到最準確的輸出。

對比 RWKV-6 的架構改進

下圖為 RWKV-6 的架構圖概覽，橙色標記是 RWKV-7 相對 RWKV-6 的主要改動部分：

通道混合層（channel mixing）優化

移除 RWKV-6 的 Receptance Gating （門控矩陣），改為普通雙層 ReLU^2 MLP，減少了計算復雜度：

時間混合層（time mixing）優化

RWKV-6 引入動態數據依賴的 Token-Shift，RWKV-7 為提高訓練和推理速度，移除了 Token-Shift 的動態數據依賴，回歸 RWKV-4 和 RWKV-5 風格的簡單Token-Shift。具體設計思路請參考論文附錄 F Additional Architecture Discussion

低秩投影（Low-Rank Projection）優化

新增參數（in-context learning rate）及對應的低秩 MLP，新增的殘差控制低秩 MLP，將參數變為低秩 MLP。

02.

評估實驗

我們進行了多個實驗以評估 RWKV-7 的各項性能，所有的測試均使用 fp32 精度。同時，除了 MMLU 使用 5-shot 外，其他測試均使用 0-shot。

英語及多語言能力測試

RWKV-7 模型基于 LM Evaluation Harness（lm-eval v0.4.3）進行了一系列常見的英語和多語言基準評估，且與前沿開源模型進行了對比。

結果顯示，RWKV-7 僅使用前沿模型 (如 Qwen2.5) 的三分之一訓練數據，即能在英語能力看齊前沿模型，且多語言能力顯著更強。

Uncheatable Eval（無法作弊的壓縮率測試）

為了避免數據泄露造成的評估指標失效，我們進行了 Uncheatable Eval —— 使用最新的論文和新聞文章等實時數據，評估開源大語言模型的真實建模能力和泛化能力。

我們使用 2025 年 1 月之后最新數據對所有模型進行測試，結果顯示 RWKV-7 在同等參數大小的前沿模型中依然具有強競爭力。

我們正在訓練數據更多的 RWKV7-G1 系列模型，目標是在這個榜單同樣超越所有其他前沿模型。

Associative Recall（聯想記憶力）

Associative Recall 用于評估模型在給定上下文中回憶起先前遇到的信息的能力。

以下表格是不同權重矩陣大小的 RWKV-7 在不同輸入長度和鍵值對大小的回憶能力，表中數字為具體的百分比，打勾 ? 項意味著回憶率大于 99%。

狀態維度僅為 8192 時，RWKV-7 就能回憶起【序列長度2048 + 256個鍵值對】的 72.93% 信息，可見其狀態效率極高。

長文本測試

我們以常用的長文本數據集 PG19 作為指標，測試 RWKV 模型在長文本的語言建模能力，loss 越低越好。

在 0.1B Pile 模型的對比測試顯示，RWKV-7-Pile 的長文本建模能力顯著強于前幾代模型（RWKV-4/6）以及 Mamba 1/2 模型。

這里的所有 Pile 模型基于相同的數據集和分詞器，因此是在模型架構層面的公平對比。

進一步的實驗表明，在長上下文數據進行微調，可進一步增強 RWKV-7 的長上下文能力。

使用 128k 上下文數據微調后的 RWKV-7-2.9B-128k-tuned 模型，在 10k 以上的上下文長度表現比 RWKV-7 base model 顯著提升：

狀態追蹤能力

Group Multiplication 是廣受認可的狀態追蹤能力評估方法，主流測試方法是找出模型在進行群乘法任務（group multiplication task）時超過 95% 準確率所需的最小層數。

以下是 RWKV-7 相較于其他架構的狀態追蹤能力對比。RWKV-7 最多只需兩層就可以追蹤很長的狀態序列，盡管比經典 RNNs 稍弱，但相較于 Trasnsformer、Mamba 和 S4 均顯著更強（它們都需要使用越來越多層的模型才能完成這個任務）：

經典 RNN 的狀態追蹤能力強，但難以并行訓練，且存在梯度消失和長文本建模能力缺陷。

VisualRWKV

RWKV-7 也強化了多模態能力，在使用相同視覺編碼器的條件下，0.1B 的 VisualRWKV-7 在 VQA GQA 任務的視覺理解能力就超過了 1.6B 的 VisualRWKV-6 模型。

03.

更多架構和訓練細節

我們使用 D 表示模型維度數，L 表示層數，下表是 RWKV-7 各個模型的參數信息：

Model Name L D State Size(WKV+ Shift) Parameters RWKV7-World3-0.1B 12 768 589824+ 18432 191034624 RWKV7-World3-0.4B 24 1024 1572864+ 49152 450767872 RWKV7-World3-1.5B 24 2048 3145728+ 98304 1527404544 RWKV7-World3-2.9B 32 2560 5242880+ 163840 2947735040

RWKV-7 模型參數計算公式：

RWKV-7 的詳細架構圖：

更多架構和訓練細節，詳見論文附錄 E Additional Architectural and Training Details

04.

訓練數據集組成

RWKV World v3 數據集在 RWKV World v2 數據集的基礎上進行了擴展，總數據量增大到約 3.1T Tokens，所有數據都被賦予了相等的權重。

對于 World v2 的部分子數據集中占比過高的語言，我們進行了一些采樣。v2.1 和 v3 版本中所有新添加的數據都被賦予相等的權重。

RWKV World v3 數據細節，詳見論文附錄 B Training Dataset Details

05.

消融實驗

為了驗證 RWKV-7 架構改進的有效性，我們在 MiniPile 數據集上進行了消融實驗。

以下的實驗結果展示了 RWKV-7 各項改進的有效性：

消融實驗，詳見論文附錄 K Ablation Experiments

06.

四層 RWKV-7 識別任意正則語言

正則語言指的是那些可以被 DFA（確定性有限自動機）識別的語言，要證明 RWKV-7 可以識別任意正則語言，只需要證明其可以模擬任意 DFA 即可。

我們通過推導使用 RWKV-7 的第一層壓縮 DFA 轉移矩陣，和使用最后一層的 wkv 頭來實現轉移矩陣，能夠達成的效果，證明了四層 RWKV-7 即可識別任意正則語言，表達力顯著強于 Transformer。詳見論文附錄 D.2 Main Result: RWKV-7 Can Recognize Any Regular Language ， D.3 Detailed Proof of Theorem 3

07.

狀態可視化

RWKV-7 的 WKV 狀態矩陣的 RMS（均方根）值顯著低于 RWKV-5 和 RWKV-6。RWKV-7 的 WKV 矩陣元素始終保持在O (1) 量級（即無異常值，且不隨上下文長度增長），而 RWKV-5 和 RWKV-6 則可能產生千數量級的極端值。

這表明 RWKV-7 在訓練和推理過程中具有更優的數值穩定性：

狀態可視化檢查，詳見論文附錄 J State Inspections

08.

未來工作

未來 RWKV-7 的工作包括，收集更多的數據以訓練更大的模型，探索訓練思維鏈推理（Chain-of-Thought Reasoning）模型，測試 DeepSeek 報告中提及的技術（例如 Mixture-of-Experts, Multi-Token Prediction 以及 FP8 Training），以及 RWKV 后續版本的研發。RWKV-7 論文地址：https://arxiv.org/abs/2503.14456

----- END -----

wisemodel相關：

系統升級：

大賽報名：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發，熟悉K8S、模型訓練和推理等技術，以及熟悉開發者生態運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.