99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

RWKV-7 引入廣義 Delta Rule,表達力超越 Transformer

0
分享至

始智AI wisemodel.cn開源社區

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel社區上線,最新上線4090資源不限量,價格實惠,靈活方便,支持在線微調訓練模型,及和,并。

RWKV-7 通過一系列創新(例如廣義 Delta Rule),在計算效率、任務表現和模型表達力全面超越 Transformer 和過去的 RWKV-6 架構。

在訓練數據遠低于 Qwen2.5、Llama3.2 等開源模型的前提下,RWKV-7-World 模型的語言建模能力在所有開源 3B 規模模型中達到 SoTA 水平。

通過引入廣義 Delta Rule,RWKV-7 使用2 層即可實現復雜度的狀態跟蹤問題使用 4 層即可識別所有正則語言,表達力顯著超越了 Transformers 的 限制。最新版RWKV-7 模型已上線始智AI-wisemodel開源社區,歡迎大家前去體驗。


模型地址

RWKV-7 G1:

https://wisemodel.cn/models/rwkv4fun/RWKV-7-G1

RWKV-7 World:

https://wisemodel.cn/models/rwkv4fun/rwkv-7-world

01.

RWKV-7 架構概述

RWKV-7 的核心機制是引入并優化廣義 Delta Rule 作為 RWKV-7 隱藏狀態的演化機制(State Evolution):


RWKV-7 的廣義 Delta Rule 包含多個優化:

  • 向量化門控(Vector-Valued State Gating):增加向量級的 State Gating 門控機制,使模型在序列建模時更具表現力。

  • 向量化學習率(Vector-Valued In-Context Learning Rate):使 從標量擴展為向量,使模型能夠按通道選擇性地替換狀態數據,提高靈活性。

  • 分離 Delta Rule 的刪除和添加機制:RWKV-7 允許不同的通道獨立刪除和添加狀態信息,增強模型對狀態信息的操控能力。

RWKV-7 架構圖概覽:


時間混合模塊( 演化機制)

RWKV-7 架構中的時間混合(Time Mix)反映了 RWKV-7 的多頭矩陣值狀態 (Weighted Key Value) 的動態演化過程。

遞歸形式的 計算公式:


其中 是“上下文權重衰減”, 是“上下文學習率”(in-context learning rate,ICLR)。

原始的 delta rule 公式在每個時間步移除舊值,移除的程度由標量 a a 控制。RWKV-7 將 a a 定義為向量,允許每個狀態通道有不同的移除量,增強對狀態信息的操控能力。

下圖是 RWKV-7 的 state 動態更新機制圖示。注意圖中 4×4 的 state 僅為演示,實際每個小模型的 state 矩陣是 64×64。


通過動態計算更新 state,RWKV-7 可以從上下文動態學習 key 和 value 之間的關系,使用更新后的 state 處理新的輸入,得到最準確的輸出。

對比 RWKV-6 的架構改進

下圖為 RWKV-6 的架構圖概覽,橙色標記是 RWKV-7 相對 RWKV-6 的主要改動部分:


通道混合層(channel mixing)優化

移除 RWKV-6 的 Receptance Gating ( 門控矩陣 ),改為普通雙層 ReLU^2 MLP,減少了計算復雜度:


時間混合層(time mixing)優化

RWKV-6 引入動態數據依賴的 Token-Shift,RWKV-7 為提高訓練和推理速度,移除了 Token-Shift 的動態數據依賴,回歸 RWKV-4 和 RWKV-5 風格的簡單Token-Shift。具體設計思路請參考論文附錄 F Additional Architecture Discussion

低秩投影(Low-Rank Projection)優化

新增 參數(in-context learning rate)及對應的低秩 MLP,新增 的殘差控制低秩 MLP,將 參數變為低秩 MLP。

02.

評估實驗

我們進行了多個實驗以評估 RWKV-7 的各項性能,所有的測試均使用 fp32 精度。同時,除了 MMLU 使用 5-shot 外,其他測試均使用 0-shot。

英語及多語言能力測試

RWKV-7 模型基于 LM Evaluation Harness(lm-eval v0.4.3) 進行了一系列常見的英語和多語言基準評估,且與前沿開源模型進行了對比。

結果顯示,RWKV-7 僅使用前沿模型 (如 Qwen2.5) 的三分之一訓練數據,即能在英語能力看齊前沿模型,且多語言能力顯著更強。



Uncheatable Eval(無法作弊的壓縮率測試)

為了避免數據泄露造成的評估指標失效,我們進行了 Uncheatable Eval —— 使用最新的論文和新聞文章等實時數據,評估開源大語言模型的真實建模能力和泛化能力。

我們使用 2025 年 1 月之后最新數據對所有模型進行測試,結果顯示 RWKV-7 在同等參數大小的前沿模型中依然具有強競爭力。


我們正在訓練數據更多的 RWKV7-G1 系列模型,目標是在這個榜單同樣超越所有其他前沿模型。

Associative Recall(聯想記憶力)

Associative Recall 用于評估模型在給定上下文中回憶起先前遇到的信息的能力。

以下表格是不同權重矩陣大小的 RWKV-7 在不同輸入長度和鍵值對大小的回憶能力,表中數字為具體的百分比,打勾 ? 項意味著回憶率大于 99%。

狀態維度僅為 8192 時,RWKV-7 就能回憶起【序列長度2048 + 256個鍵值對】的 72.93% 信息,可見其狀態效率極高。


長文本測試

我們以常用的長文本數據集 PG19 作為指標,測試 RWKV 模型在長文本的語言建模能力,loss 越低越好。

在 0.1B Pile 模型的對比測試顯示,RWKV-7-Pile 的長文本建模能力顯著強于前幾代模型(RWKV-4/6)以及 Mamba 1/2 模型。


這里的所有 Pile 模型基于相同的數據集和分詞器,因此是在模型架構層面的公平對比。

進一步的實驗表明,在長上下文數據進行微調,可進一步增強 RWKV-7 的長上下文能力。

使用 128k 上下文數據微調后的 RWKV-7-2.9B-128k-tuned 模型,在 10k 以上的上下文長度表現比 RWKV-7 base model 顯著提升:


狀態追蹤能力

Group Multiplication 是廣受認可的狀態追蹤能力評估方法,主流測試方法是找出模型在進行群乘法任務(group multiplication task)時超過 95% 準確率所需的最小層數。

以下是 RWKV-7 相較于其他架構的狀態追蹤能力對比。RWKV-7 最多只需兩層就可以追蹤很長的狀態序列,盡管比經典 RNNs 稍弱,但相較于 Trasnsformer、Mamba 和 S4 均顯著更強(它們都需要使用越來越多層的模型才能完成這個任務):


經典 RNN 的狀態追蹤能力強,但難以并行訓練,且存在梯度消失和長文本建模能力缺陷。

VisualRWKV

RWKV-7 也強化了多模態能力,在使用相同視覺編碼器的條件下,0.1B 的 VisualRWKV-7 在 VQA GQA 任務的視覺理解能力就超過了 1.6B 的 VisualRWKV-6 模型。


03.

更多架構和訓練細節

我們使用 D 表示模型維度數,L 表示層數,下表是 RWKV-7 各個模型的參數信息:

Model Name L D State Size(WKV+ Shift) Parameters RWKV7-World3-0.1B 12 768 589824+ 18432 191034624 RWKV7-World3-0.4B 24 1024 1572864+ 49152 450767872 RWKV7-World3-1.5B 24 2048 3145728+ 98304 1527404544 RWKV7-World3-2.9B 32 2560 5242880+ 163840 2947735040

RWKV-7 模型參數計算公式:

RWKV-7 的詳細架構圖:


更多架構和訓練細節,詳見論文附錄 E Additional Architectural and Training Details

04.

訓練數據集組成

RWKV World v3 數據集在 RWKV World v2 數據集的基礎上進行了擴展,總數據量增大到約 3.1T Tokens,所有數據都被賦予了相等的權重。

對于 World v2 的部分子數據集中占比過高的語言,我們進行了一些采樣。v2.1 和 v3 版本中所有新添加的數據都被賦予相等的權重。


RWKV World v3 數據細節,詳見論文附錄 B Training Dataset Details

05.

消融實驗

為了驗證 RWKV-7 架構改進的有效性,我們在 MiniPile 數據集上進行了消融實驗。

以下的實驗結果展示了 RWKV-7 各項改進的有效性:


消融實驗,詳見論文附錄 K Ablation Experiments

06.

四層 RWKV-7 識別任意正則語言

正則語言指的是那些可以被 DFA(確定性有限自動機)識別的語言,要證明 RWKV-7 可以識別任意正則語言,只需要證明其可以模擬任意 DFA 即可。

我們通過推導使用 RWKV-7 的第一層壓縮 DFA 轉移矩陣,和使用最后一層的 wkv 頭來實現轉移矩陣,能夠達成的效果,證明了四層 RWKV-7 即可識別任意正則語言,表達力顯著強于 Transformer。詳見論文附錄 D.2 Main Result: RWKV-7 Can Recognize Any Regular Language , D.3 Detailed Proof of Theorem 3

07.

狀態可視化

RWKV-7 的 WKV 狀態矩陣的 RMS(均方根)值顯著低于 RWKV-5 和 RWKV-6。RWKV-7 的 WKV 矩陣元素始終保持在O (1) 量級(即無異常值,且不隨上下文長度增長),而 RWKV-5 和 RWKV-6 則可能產生千數量級的極端值。

這表明 RWKV-7 在訓練和推理過程中具有更優的數值穩定性:


狀態可視化檢查,詳見論文附錄 J State Inspections

08.

未來工作

未來 RWKV-7 的工作包括,收集更多的數據以訓練更大的模型,探索訓練思維鏈推理(Chain-of-Thought Reasoning)模型,測試 DeepSeek 報告中提及的技術(例如 Mixture-of-Experts, Multi-Token Prediction 以及 FP8 Training),以及 RWKV 后續版本的研發。RWKV-7 論文地址:https://arxiv.org/abs/2503.14456

----- END -----

wisemodel相關:

系統升級:

大賽報名:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
許世友指著路過的陳賡大吼:戴眼鏡的,你在這瞎指什么呢?

許世友指著路過的陳賡大吼:戴眼鏡的,你在這瞎指什么呢?

興趣知識
2025-07-18 00:15:11
兩個人發生關系,大多是從以下3件事開始的,別不信

兩個人發生關系,大多是從以下3件事開始的,別不信

蓮子說情感
2025-07-05 11:48:30
“多處咬痕、身體被老虎鉗夾爛”,被凌辱致死的女人為何一言不發

“多處咬痕、身體被老虎鉗夾爛”,被凌辱致死的女人為何一言不發

大案九處
2025-07-17 14:30:40
制度要是落后,即使科技再發達,恐怕也難以實現真正的文明進步!

制度要是落后,即使科技再發達,恐怕也難以實現真正的文明進步!

翻開歷史和現實
2025-07-11 16:44:01
TVB終于要播一部自制劇啦??但是

TVB終于要播一部自制劇啦??但是

悅君兮君不知
2025-07-17 16:56:12
49歲的經理遭裁員,領到89萬補償后果斷離開,老板次日就后悔了

49歲的經理遭裁員,領到89萬補償后果斷離開,老板次日就后悔了

五元講堂
2025-07-14 12:18:27
“大而美”法案確實是挽救美國的猛藥,但也可能一腳油門把美國送進“動物園”

“大而美”法案確實是挽救美國的猛藥,但也可能一腳油門把美國送進“動物園”

觀雨大神經
2025-07-16 20:19:42
官宣,久爾杰維奇離任,國足選帥開始,2個外教+1個名宿成熱門

官宣,久爾杰維奇離任,國足選帥開始,2個外教+1個名宿成熱門

東球弟
2025-07-17 08:09:44
舉報妻子出軌教練后續!正臉曝光,抓奸場面炸裂,更多偷情照流出

舉報妻子出軌教練后續!正臉曝光,抓奸場面炸裂,更多偷情照流出

書雁飛史oh
2025-07-16 17:16:37
娃哈哈遺產大戰劇烈升級,杭州成立專班介入處理,上城區國資46%股權成控制娃哈哈關鍵所在,宗馥莉、“影子夫人”杜建英均有接受意向接盤,但杜建英三捷系資金出狀況

娃哈哈遺產大戰劇烈升級,杭州成立專班介入處理,上城區國資46%股權成控制娃哈哈關鍵所在,宗馥莉、“影子夫人”杜建英均有接受意向接盤,但杜建英三捷系資金出狀況

金融界
2025-07-17 19:32:48
“俄烏戰爭”只剩垃圾時間,各國都在做最后的準備

“俄烏戰爭”只剩垃圾時間,各國都在做最后的準備

尋途
2025-07-10 20:34:30
7月17穿西裝的王楚欽,這個笑容太迷人!

7月17穿西裝的王楚欽,這個笑容太迷人!

可樂談情感
2025-07-18 01:07:54
以軍發言人稱未對敘利亞邊界混亂局面做好準備

以軍發言人稱未對敘利亞邊界混亂局面做好準備

財聯社
2025-07-18 01:22:29
英皇欠下166億,撐不住了?這次英皇藝人里能救場的,僅有陳偉霆

英皇欠下166億,撐不住了?這次英皇藝人里能救場的,僅有陳偉霆

一娛三分地
2025-07-10 16:36:01
長壽不長壽就看六十九,69歲能輕松做到5件事,基本可以活到90歲

長壽不長壽就看六十九,69歲能輕松做到5件事,基本可以活到90歲

醫學原創故事會
2025-07-18 00:47:05
不加了!記者:曼聯認為對姆貝莫已是“最終”報價 球員也想加盟

不加了!記者:曼聯認為對姆貝莫已是“最終”報價 球員也想加盟

直播吧
2025-07-17 22:11:27
9月新機狂潮來了!國產旗艦全面開卷,iPhone17能頂住嗎?

9月新機狂潮來了!國產旗艦全面開卷,iPhone17能頂住嗎?

小8說科技
2025-07-18 00:49:46
17個交易日后!西部實力一目了然:5隊S級、2隊A級!

17個交易日后!西部實力一目了然:5隊S級、2隊A級!

運籌帷幄的籃球
2025-07-17 17:07:36
江蘇省市監局:對恩承玻璃加工廠立案調查 涉案人員已被采取刑事強制措施

江蘇省市監局:對恩承玻璃加工廠立案調查 涉案人員已被采取刑事強制措施

新京報
2025-07-17 23:04:59
戴笠身邊一女特務,結任務返回小腹隆起,戴笠聽聞她一句話后愣住

戴笠身邊一女特務,結任務返回小腹隆起,戴笠聽聞她一句話后愣住

紀實文錄
2025-07-15 10:04:29
2025-07-18 02:39:00
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
309文章數 12關注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

遺產大戰細節:宗慶后逝世半年3人起訴 矛盾早已發生

頭條要聞

遺產大戰細節:宗慶后逝世半年3人起訴 矛盾早已發生

體育要聞

楊力維和楊舒予,是姐妹,也是戰友

娛樂要聞

又相信愛情了,董璇二婚現場照曝光!

財經要聞

杭州成立專班介入宗慶后遺產糾紛

汽車要聞

有望年內上市 奧迪A6L e-tron申報信息曝光

態度原創

健康
家居
房產
教育
軍事航空

呼吸科專家破解呼吸道九大謠言!

家居要聞

空間分明 時尚風格并存

房產要聞

突發!海航陳峰被判12年,罰2.2億!

教育要聞

第二波!揚大、南林、常大...多所高校專業組投檔分數線公布!

軍事要聞

美考慮援烏射程1000公里的導彈 特朗普:莫斯科不能打

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 法库县| 岑溪市| 新竹县| 方正县| 陈巴尔虎旗| 金华市| 于都县| 丹棱县| 长治市| 曲阜市| 榆中县| 广平县| 宁阳县| 祁门县| 邵东县| 怀远县| 淮阳县| 开平市| 福贡县| 修文县| 米易县| 榕江县| 白银市| 库尔勒市| 临猗县| 五原县| 香河县| 望都县| 屯留县| 清镇市| 弋阳县| 杭州市| 辉南县| 门源| 荃湾区| 华阴市| 广南县| 安仁县| 大冶市| 抚远县| 平定县|