99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

談LLM架構研究的Baseline問題,以DeltaNet和RWKV-7為例(三幕劇)

0
分享至

本文已獲授權轉載。 原文鏈接: https://zhuanlan.zhihu.com/p/1915054612559426430 作者 PENG Bo 是 RWKV 創始人。

第一幕:從X到微信群

前不久,我在 X 刷到 DeltaNet 作者 Songlin 的這條消息:


其中的 RWKV-7 數據頗為詭異,因為 RWKV-7 論文的結果是:


這代碼在

https://github.com/Triang-jyed-driung/zoology-rwkv
。如果同樣計算平均 MQAR acc,RWKV-7 在 state dim 8k 是 0.94+,在 state dim 16k 就已是 0.99+。這與圖中的數據點是天與地的差距。

原圖無疑有錯,于是我在下面回復,建議用 RWKV-LM 的官方實現(因為zoology用的FLA庫的RWKV-7有許多細節仍未對齊):


然后我打開微信,發現 Songlin 在 FLA 微信群(500人群)炸了,我發個截圖確認,更炸:


Su 抓緊時機補刀,Songlin 總結,牛逼!


隨后 Songlin 直接在全群置頂這句【惡心人是嗎】,置頂了幾天,牛逼plus!(這個我沒截圖,在群的人都可以看到)

請問,測其它人的方法,先按其它人給出的細節做(而且其它人愿意詳細說明),是不是基本的研究倫理?

對于 Songlin 和 Su,不是。

而且 DeltaNet 也有對應 token-shift 的 shortconv,這種 trick 是我最早在新型 RNN 加的(而且我最早就說了這是做后來被稱為 induction head 的事情),之后全部人都加。

那么,如果 Su 測 DeltaNet,是否會加 shortconv?

而這個群,就在幾天之前,還在討論 RWKV-8 的 DeepEmbed。所以,只在問我的時候才友善?牛逼。


完全沒必要在群里回復。我開始看 HazyResearch/zoology 項目,看它有哪些問題。

第二幕:看代碼,做實驗

毫無懸念,zoology 充滿問題。第一個錯誤最離譜,它直接算錯了 RWKV-7 的 state size。

在 d_model=128 時,它算成了4倍。在 d_model=256 時,它算成了16倍。

正確的 state size 公式是 num_heads * head_k_dim * head_v_dim。這公式對于 RWKV-7 和 DeltaNet 都一樣。

但 zoology 的 DeltaNet 代碼用了正確公式,RWKV-7 用了錯誤公式 num_heads * k_dim * v_dim。

我非常,非常難以理解,他們為何能寫錯這個最基本的公式。

我提出后,過了幾天,zoology 終于修了這個錯誤:


修正后,RWKV-7 的兩個黃點往左移動n倍,離譜程度降低了些:


這個 zoology 的問題存在了幾個月,我看到已有論文用了它的錯誤計算,例如 ATLAS (2505.23735) 。下圖的黑箭頭僅為示意,因為不知道 ATLAS 具體測的什么維度。


第二大問題是,zoology 給測的所有架構都加了 shortconv length=4,因為這對于超淺模型跑 MQAR 的 grokking 特別有用。如果不加,效果沒眼看。

下面是 zoology README:


但是,唯獨沒給 RWKV-7 加。它的 RWKV-7 還是用 token-shift,類似于 shortconv length=2。

跑正常語言模型用 length=2 合適。但超淺模型跑 MQAR,需要更長 length 才收斂快。

所以,標準 RWKV-7 在此會吃虧,需要用同樣的 shortconv length=4 才對齊其它架構。

【其實還有細節,RWKV 在 FFN 也加了 token-shift(從最早 RWKV-1 就是這樣做),正是為了造出更長的 conv length。而 zoology 的測試當然沒用 RWKV 的特殊 FFN】

我也不去對齊了,我直接做一件最有說服力的事情。

我們看各個架構的核心算子(只看單個頭,簡化公式)。

這是 DeltaNet 算子,其中 βt 是標量:


這是 GatedDeltaNet 算子,其中 αt βt 都是標量:

這是 RWKV-7 算子,其中 w a b v k 都是矢量:

顯見 RWKV-7 算子的表達力嚴格更強,這個算子可以包含許多其它架構。

順帶一提,這個形式是我在 2024 年 9 月公開公布的:


當時 Songlin 在 discord 私聊問我,RWKV-7 的 w 梯度怎么算,我發了鏈接:


而在此前 2024 年 6 月,我也在私聊發了我算其它梯度的方法:


包括我用 Mathematica 的驗算:


那么,是怎樣的事物,將一種正常人,變成了另一種正常人(或許更普遍)?我們可以思考。

言歸正傳,觀察這三個公式:


可見,如果我們允許 β 是矢量,然后在 RWKV-7 設置 w = 1, a = -βk, b = k, v = βv, k = k 就能得到一個 BetterDeltaNet。

我在

https://github.com/BlinkDL/zoology
提供了修改后的代碼。

實測 zoology 最難的 MQAR 任務,8192 state size,256 kv pairs,黑色是 BetterDeltaNet,彩色是 DeltaNet。


14.31 ± 0.07% vs 13.09 ± 0.67%,使用 RWKV-7 kernel 的 BetterDeltaNet,贏。

在此顯示,不加任何 trick,只將 DeltaNet kernel 替換為 RWKV-7 kernel,幾行代碼,就可以提升效果。

由于 RWKV-7 還有巨多 trick,聽說有人會懷疑,RWKV-7 是靠 trick 才 work 嗎?

當然不是,如前所述 RWKV-7 是在數學上更通用的形式,嚴格包括許多其它架構,表達力嚴格更強

同時,加更多 RWKV-7 的 trick 會更好。后續我會再寫一篇,列出 RWKV-7 的 trick 列表。

歡迎測試

https://github.com/BlinkDL/zoology
的 DeltaNet(已改為 BetterDeltaNet)對比
https://github.com/HazyResearch/zoology
的 DeltaNet。測試只需一張 16G 顯存的顯卡。
總結:

做好 baseline 是細致的工作,也涉及學術倫理。

然而,太多 AI 論文,會有意無意壓其它人的 baseline。

恐怕,這往往是“有意的無意”(我稱為 deliberate carelessness),其它人問起來,就說是自己不小心,真是進退自如。

其實,不僅是 RWKV-4/5/6/7 長年被各種論文黑,許多新架構論文也會故意用很弱的 transformer baseline. This is only discrediting the whole research area.

其實,為什么 RWKV-7 加這么多 trick?

因為我真煉模型。我必須真和滿血 transformer 比(而且是用強數據的 transformer,所幸開源數據也在進步)。我洗 HuggingFace 數據集就洗了幾百個。

現在 RWKV7-G1 的 2.9B/1.5B 是全世界所有純血 RNN 架構模型中 token 煉得最多的,10+ T tokens。它的 data scaling 經過了驗證,是有競爭力的基底模型,這可以用它對于全新數據的壓縮能力去證明:

https://huggingface.co/spaces/Jellyfish042/UncheatableEval

這里是測2025年4月的數據(所有模型都沒見過),測字節壓縮率(和tokenizer無關):


歡迎大家試訓 RWKV-7,方法見

https://github.com/BlinkDL/RWKV-LM
,默認配置在 8G 顯存的單卡(需支持bf16)就行。遇到任何問題,都歡迎問。也可以看官網
https://rwkv.cn/
其中已有 93 篇使用 RWKV 的論文。


第三幕:歡迎對線

請大家想象:

一個【從前問過你問題的人】,在【你在幾天前剛分享過新技巧(DeepEmbed)后】,基于【紕漏百出的謬論】,使用【粗鄙的罵街和威脅你】,并在【500人大群置頂惡言(置頂了幾天)】,這是一種什么形態?

歡迎討論。

其實,這真的特別正常。因為我們人類社會的結構,就是鼓勵和培養這種形態。這不分國籍和種族,都一樣。

他們難以想象,在這世界上,竟然,有人真沒興趣玩他們的這個臭水溝游戲。

我認為,這不是我有多高尚,而是,很抱歉,這個臭水溝游戲的氣味,真有點沖。

不過,觀察這個臭水溝游戲,差可消遣,例如,這個 FLA 群,熱衷于排各種 X神 X少 X佬(這真的特別正常),最近還開始排 東X西X南X北X(這同樣特別正常,但是,我真的,我笑死)。

我做 AI 有些目標,列幾個目標:

一、我看不下去,怎么某些人可以這樣蠢(壞的本質是蠢,一切恐懼來自于火力不足)。希望以后 AI 幫人長點腦子。教育恐沒用,需要生物,吃藥也好,基因改造也好,來點效果。

二、我得盡快做完事情,然后就不用陪這群人玩,他們自己繼續玩,謝謝。

南方有鳥,其名為鹓鶵,子知之乎?夫鹓鶵發于南海,而飛于北海,非梧桐不止,非練實不食,非醴泉不飲。于是鴟得腐鼠,鹓鶵過之,仰而視之,曰:'嚇!'

原本在調 RWKV-8,來這么一出,花了幾天時間,希望正本清源。

談點正事。

最近很多論文卷 TTT,用超大 state size,這是走回 transformer 老路,丑陋。

TTT 適合由 AI 做 NAS 去卷。各種迭代公式,AI 寫 kernel,可以試到吐。

真正重要的問題是:如果 RNN 不解決長文本,就永遠清不了 attention。

所以 RWKV-8 的目標是,在保持 state size 不變的前提下,提升長文本性能。

這看似不可能,但我有方法。

目前調到 3x RWKV-7 性能,希望調到 10x 以上,把下圖做成全綠:


與此同時,有趣的是,在 FLA 群,現在還時而有人想我說說 RWKV-8。

現在人的記憶力只有七秒,看來,長文本以后會變成偽需求。

不妨做個調查,如果你是我,你會怎樣做?

下面開始直播,本文發出后,幾分鐘內:



解決不了問題,就解決提出問題的人?

讓我們觀察,你還準備玩什么招數?

DeltaNetRWKV均為中國團隊創建的 LLM 架構:

DeltaNet 是結合線性 Transformer 和非線性 Transformer 架構的模型,通過特定方法將非線性 Transformer 轉換為線性 DeltaNet 形式,從而在保持性能的同時提高計算效率,經實驗驗證,在特定數據集上能取得與原始非線性模型相當的性能。 https://sustcsonglin.github.io/blog/2024/deltanet-1/
RWKV(是一種具有 GPT 級大型語言模型(LLM)性能的 RNN,也可以像 GPT Transformer 一樣直接訓練(可并行化)。 RWKV 結合了 RNN 和 Transformer 的最佳特性:出色的性能、恒定的顯存占用、恒定的推理生成速度、"無限" ctxlen 和免費的句嵌入,而且 100% 不含自注意力機制。 https://rwkv.cn/docs/RWKV-Wiki/Introduction

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
外資藥企大批退出中國,真的是咱們贏了嗎?大謬!

外資藥企大批退出中國,真的是咱們贏了嗎?大謬!

未央看點
2025-06-24 01:32:07
太實誠了!38歲劉亦菲不化妝無美顏純素顏出鏡,氣血充足,真美啊

太實誠了!38歲劉亦菲不化妝無美顏純素顏出鏡,氣血充足,真美啊

清游說娛
2025-06-24 17:47:37
北京天氣“反轉”了!未來這幾天有雨——

北京天氣“反轉”了!未來這幾天有雨——

BRTV新聞
2025-06-25 14:33:53
以伊十二日戰爭結束, 伊朗成最大贏家?。?!

山河路口
2025-06-25 12:47:16

社保繳納出事了!稅局終于對社保出手了,這7種行為查到必罰!

社保繳納出事了!稅局終于對社保出手了,這7種行為查到必罰!

稅海拾真
2025-06-25 09:42:30
東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學習

東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學習

星光看娛樂
2025-06-25 13:20:52
女喂養員海洋館失蹤,不久鯊魚因病手術,獸醫開刀后發現異常

女喂養員海洋館失蹤,不久鯊魚因病手術,獸醫開刀后發現異常

懸案解密檔案
2025-06-21 09:33:54
首發10+15,李月汝征服美媒!全英語流利采訪,打臉歧視她的教練

首發10+15,李月汝征服美媒!全英語流利采訪,打臉歧視她的教練

嘴炮體壇
2025-06-25 10:54:31
2-0!2-1!溫網第2天,中國金花2人同時晉級,36歲老將接近創歷史

2-0!2-1!溫網第2天,中國金花2人同時晉級,36歲老將接近創歷史

侃球熊弟
2025-06-24 22:38:56
世界首富馬斯克語出驚人!他直言:“外界一直低估中國!”

世界首富馬斯克語出驚人!他直言:“外界一直低估中國!”

荊楚寰宇文樞
2025-06-24 23:52:04
李夢宣布不再參加比賽,女籃主帥宮魯鳴回應歡迎其回歸!

李夢宣布不再參加比賽,女籃主帥宮魯鳴回應歡迎其回歸!

杜蘭特
2025-06-25 10:36:04
總理府已被圍,佩通坦拒絕辭職,軍方態度堅決,陸軍司令作出決定

總理府已被圍,佩通坦拒絕辭職,軍方態度堅決,陸軍司令作出決定

博覽歷史
2025-06-23 17:12:51
國務院辦公廳關于進一步規范和提升12345熱線服務的意見

國務院辦公廳關于進一步規范和提升12345熱線服務的意見

新京報
2025-06-25 17:18:45
比亞迪經銷商會議重大決定:精簡SKU、庫存熔斷、返利666元/輛

比亞迪經銷商會議重大決定:精簡SKU、庫存熔斷、返利666元/輛

車市紅點
2025-06-24 15:41:51
65歲老頭包養26歲女孩以干爹干女兒互稱,最后一次上床被女孩掐死

65歲老頭包養26歲女孩以干爹干女兒互稱,最后一次上床被女孩掐死

胖胖侃咖
2025-06-23 08:00:07
俄空軍司令科貝拉乘直升機視察前線被烏軍擊落,當場喪生

俄空軍司令科貝拉乘直升機視察前線被烏軍擊落,當場喪生

環球熱點快評
2025-06-24 09:03:00
斯諾克冷門不斷!2大世界冠軍翻車,囧哥轟5-0,中國13人進正賽!

斯諾克冷門不斷!2大世界冠軍翻車,囧哥轟5-0,中國13人進正賽!

劉姚堯的文字城堡
2025-06-25 08:50:58
國家出手!大批醫院將退出醫保

國家出手!大批醫院將退出醫保

賽柏藍
2025-06-25 20:29:49
全國城管機構大撤銷!百萬城管咋辦?六個方案能解決重就業問題?

全國城管機構大撤銷!百萬城管咋辦?六個方案能解決重就業問題?

說宇宙
2025-06-22 11:20:03
失傳已久的手診口訣找到了,趕緊收藏

失傳已久的手診口訣找到了,趕緊收藏

鄉村白大褂之家
2025-06-24 20:52:56
2025-06-25 21:23:00
開源中國 incentive-icons
開源中國
每天為開發者推送最新技術資訊
7149文章數 34424關注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內飾

態度原創

親子
健康
房產
數碼
公開課

親子要聞

終于見面啦?。。?!原創dy:@辣炒年糕

呼吸科專家破解呼吸道九大謠言!

房產要聞

三亞頂豪!內部資料曝光!

數碼要聞

打開京東搜“小米新品0626” 有機會搶先體驗小米AI眼鏡

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 阿图什市| 读书| 新巴尔虎右旗| 武冈市| 银川市| 深水埗区| 同江市| 偃师市| 青海省| 岚皋县| 辽宁省| 始兴县| 灵寿县| 瑞金市| 姜堰市| 万年县| 莆田市| 玉门市| 喀喇沁旗| 沙雅县| 射阳县| 古丈县| 汉沽区| 丰宁| 霸州市| 尉氏县| 当涂县| 吉首市| 铜山县| 祁东县| 黑水县| 白河县| 甘肃省| 霍林郭勒市| 建宁县| 余干县| 库车县| 类乌齐县| 齐河县| 南丰县| 山西省|