始智AI wisemodel.cn開源社區
始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel社區上線,最新上線4090資源不限量,價格實惠,靈活方便,支持在線微調訓練模型,及和,并。
RWKV-7 通過一系列創新(例如廣義 Delta Rule),在計算效率、任務表現和模型表達力全面超越 Transformer 和過去的 RWKV-6 架構。
在訓練數據遠低于 Qwen2.5、Llama3.2 等開源模型的前提下,RWKV-7-World 模型的語言建模能力在所有開源 3B 規模模型中達到 SoTA 水平。
通過引入廣義 Delta Rule,RWKV-7 使用2 層即可實現復雜度的狀態跟蹤問題,使用 4 層即可識別所有正則語言,表達力顯著超越了 Transformers 的 限制。最新版RWKV-7 模型已上線始智AI-wisemodel開源社區,歡迎大家前去體驗。
模型地址
RWKV-7 G1:
https://wisemodel.cn/models/rwkv4fun/RWKV-7-G1
RWKV-7 World:
https://wisemodel.cn/models/rwkv4fun/rwkv-7-world
01.
RWKV-7 架構概述
RWKV-7 的核心機制是引入并優化廣義 Delta Rule 作為 RWKV-7 隱藏狀態的演化機制(State Evolution):
RWKV-7 的廣義 Delta Rule 包含多個優化:
向量化門控(Vector-Valued State Gating):增加向量級的 State Gating 門控機制,使模型在序列建模時更具表現力。
向量化學習率(Vector-Valued In-Context Learning Rate):使 從標量擴展為向量,使模型能夠按通道選擇性地替換狀態數據,提高靈活性。
分離 Delta Rule 的刪除和添加機制:RWKV-7 允許不同的通道獨立刪除和添加狀態信息,增強模型對狀態信息的操控能力。
RWKV-7 架構圖概覽:
時間混合模塊( 演化機制)
RWKV-7 架構中的時間混合(Time Mix)反映了 RWKV-7 的多頭矩陣值狀態 (Weighted Key Value) 的動態演化過程。
遞歸形式的 計算公式:
其中 是“上下文權重衰減”, 是“上下文學習率”(in-context learning rate,ICLR)。
原始的 delta rule 公式在每個時間步移除舊值,移除的程度由標量 a a 控制。RWKV-7 將 a a 定義為向量,允許每個狀態通道有不同的移除量,增強對狀態信息的操控能力。
下圖是 RWKV-7 的 state 動態更新機制圖示。注意圖中 4×4 的 state 僅為演示,實際每個小模型的 state 矩陣是 64×64。
通過動態計算更新 state,RWKV-7 可以從上下文動態學習 key 和 value 之間的關系,使用更新后的 state 處理新的輸入,得到最準確的輸出。
對比 RWKV-6 的架構改進
下圖為 RWKV-6 的架構圖概覽,橙色標記是 RWKV-7 相對 RWKV-6 的主要改動部分:
通道混合層(channel mixing)優化
移除 RWKV-6 的 Receptance Gating ( 門控矩陣 ),改為普通雙層 ReLU^2 MLP,減少了計算復雜度:
時間混合層(time mixing)優化
RWKV-6 引入動態數據依賴的 Token-Shift,RWKV-7 為提高訓練和推理速度,移除了 Token-Shift 的動態數據依賴,回歸 RWKV-4 和 RWKV-5 風格的簡單Token-Shift。具體設計思路請參考論文附錄 F Additional Architecture Discussion
低秩投影(Low-Rank Projection)優化
新增 參數(in-context learning rate)及對應的低秩 MLP,新增 的殘差控制低秩 MLP,將 參數變為低秩 MLP。
02.
評估實驗
我們進行了多個實驗以評估 RWKV-7 的各項性能,所有的測試均使用 fp32 精度。同時,除了 MMLU 使用 5-shot 外,其他測試均使用 0-shot。
英語及多語言能力測試
RWKV-7 模型基于 LM Evaluation Harness(lm-eval v0.4.3) 進行了一系列常見的英語和多語言基準評估,且與前沿開源模型進行了對比。
結果顯示,RWKV-7 僅使用前沿模型 (如 Qwen2.5) 的三分之一訓練數據,即能在英語能力看齊前沿模型,且多語言能力顯著更強。
Uncheatable Eval(無法作弊的壓縮率測試)
為了避免數據泄露造成的評估指標失效,我們進行了 Uncheatable Eval —— 使用最新的論文和新聞文章等實時數據,評估開源大語言模型的真實建模能力和泛化能力。
我們使用 2025 年 1 月之后最新數據對所有模型進行測試,結果顯示 RWKV-7 在同等參數大小的前沿模型中依然具有強競爭力。
我們正在訓練數據更多的 RWKV7-G1 系列模型,目標是在這個榜單同樣超越所有其他前沿模型。
Associative Recall(聯想記憶力)
Associative Recall 用于評估模型在給定上下文中回憶起先前遇到的信息的能力。
以下表格是不同權重矩陣大小的 RWKV-7 在不同輸入長度和鍵值對大小的回憶能力,表中數字為具體的百分比,打勾 ? 項意味著回憶率大于 99%。
狀態維度僅為 8192 時,RWKV-7 就能回憶起【序列長度2048 + 256個鍵值對】的 72.93% 信息,可見其狀態效率極高。
長文本測試
我們以常用的長文本數據集 PG19 作為指標,測試 RWKV 模型在長文本的語言建模能力,loss 越低越好。
在 0.1B Pile 模型的對比測試顯示,RWKV-7-Pile 的長文本建模能力顯著強于前幾代模型(RWKV-4/6)以及 Mamba 1/2 模型。
這里的所有 Pile 模型基于相同的數據集和分詞器,因此是在模型架構層面的公平對比。
進一步的實驗表明,在長上下文數據進行微調,可進一步增強 RWKV-7 的長上下文能力。
使用 128k 上下文數據微調后的 RWKV-7-2.9B-128k-tuned 模型,在 10k 以上的上下文長度表現比 RWKV-7 base model 顯著提升:
狀態追蹤能力
Group Multiplication 是廣受認可的狀態追蹤能力評估方法,主流測試方法是找出模型在進行群乘法任務(group multiplication task)時超過 95% 準確率所需的最小層數。
以下是 RWKV-7 相較于其他架構的狀態追蹤能力對比。RWKV-7 最多只需兩層就可以追蹤很長的狀態序列,盡管比經典 RNNs 稍弱,但相較于 Trasnsformer、Mamba 和 S4 均顯著更強(它們都需要使用越來越多層的模型才能完成這個任務):
經典 RNN 的狀態追蹤能力強,但難以并行訓練,且存在梯度消失和長文本建模能力缺陷。
VisualRWKV
RWKV-7 也強化了多模態能力,在使用相同視覺編碼器的條件下,0.1B 的 VisualRWKV-7 在 VQA GQA 任務的視覺理解能力就超過了 1.6B 的 VisualRWKV-6 模型。
03.
更多架構和訓練細節
我們使用 D 表示模型維度數,L 表示層數,下表是 RWKV-7 各個模型的參數信息:
Model Name L D State Size(WKV+ Shift) Parameters RWKV7-World3-0.1B 12 768 589824+ 18432 191034624 RWKV7-World3-0.4B 24 1024 1572864+ 49152 450767872 RWKV7-World3-1.5B 24 2048 3145728+ 98304 1527404544 RWKV7-World3-2.9B 32 2560 5242880+ 163840 2947735040
RWKV-7 模型參數計算公式:
RWKV-7 的詳細架構圖:
更多架構和訓練細節,詳見論文附錄 E Additional Architectural and Training Details
04.
訓練數據集組成
RWKV World v3 數據集在 RWKV World v2 數據集的基礎上進行了擴展,總數據量增大到約 3.1T Tokens,所有數據都被賦予了相等的權重。
對于 World v2 的部分子數據集中占比過高的語言,我們進行了一些采樣。v2.1 和 v3 版本中所有新添加的數據都被賦予相等的權重。
RWKV World v3 數據細節,詳見論文附錄 B Training Dataset Details
05.
消融實驗
為了驗證 RWKV-7 架構改進的有效性,我們在 MiniPile 數據集上進行了消融實驗。
以下的實驗結果展示了 RWKV-7 各項改進的有效性:
消融實驗,詳見論文附錄 K Ablation Experiments
06.
四層 RWKV-7 識別任意正則語言
正則語言指的是那些可以被 DFA(確定性有限自動機)識別的語言,要證明 RWKV-7 可以識別任意正則語言,只需要證明其可以模擬任意 DFA 即可。
我們通過推導使用 RWKV-7 的第一層壓縮 DFA 轉移矩陣,和使用最后一層的 wkv 頭來實現轉移矩陣,能夠達成的效果,證明了四層 RWKV-7 即可識別任意正則語言,表達力顯著強于 Transformer。詳見論文附錄 D.2 Main Result: RWKV-7 Can Recognize Any Regular Language , D.3 Detailed Proof of Theorem 3
07.
狀態可視化
RWKV-7 的 WKV 狀態矩陣的 RMS(均方根)值顯著低于 RWKV-5 和 RWKV-6。RWKV-7 的 WKV 矩陣元素始終保持在O (1) 量級(即無異常值,且不隨上下文長度增長),而 RWKV-5 和 RWKV-6 則可能產生千數量級的極端值。
這表明 RWKV-7 在訓練和推理過程中具有更優的數值穩定性:
狀態可視化檢查,詳見論文附錄 J State Inspections
08.
未來工作
未來 RWKV-7 的工作包括,收集更多的數據以訓練更大的模型,探索訓練思維鏈推理(Chain-of-Thought Reasoning)模型,測試 DeepSeek 報告中提及的技術(例如 Mixture-of-Experts, Multi-Token Prediction 以及 FP8 Training),以及 RWKV 后續版本的研發。RWKV-7 論文地址:https://arxiv.org/abs/2503.14456
----- END -----
wisemodel相關:
系統升級:
大賽報名:
系列模型:
關于wisemodel更多
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.