5月27日,大模型架構和AI應用的研發公司元始智能預告其下一代模型架構RWKV-8“Heron”即將發布,并率先公開該架構中的核心創新技術之一——DeepEmbed。
據介紹,這項稀疏結構設計技術實現了與MoE(專家混合)相當的推理性能,卻無需額外占用顯存甚至內存,為端側設備上的大模型部署提供全新路徑。
據悉,DeepEmbed 在模型的每一層 FFN 中為詞表中的每個 token 訓練一個可學習的高維向量,這可以寫成 Embed 層。這些向量在訓練階段可被學習,而在推理階段可存儲于 RAM/SSD 中,對于每個 token 只需預讀極少量參數,從而顯著減少顯存占用。
推理時,模型根據 token index 可提前預讀本層的 embedding 向量,用于對 FFN 輸出進行逐通道的乘性調制(channelwise scaling)。
這些基于 token 的 embedding 向量構成了一個規模龐大但稀疏的知識庫,能夠顯著提升模型存儲和調用世界知識的能力。盡管這些向量看似增加了模型參數量,但不需要占用顯存,且在訓練過程中可通過 TP(Tensor Parallelism)避免 DP(Data Parallelism)中梯度同步的帶寬開銷,并可進一步 offload 至 RAM 或 SSD。
在端側推理場景下,這些向量同樣可存儲于內存中,或通過 mmap 等機制直接從硬盤按需加載。由于每個 token 僅引入幾十 KB 的額外訪存開銷,該機制非常適合在邊緣設備上部署。
RWKV-8“Heron”是RWKV系列的重要迭代。元始智能成立于2023年6月,并于今年1月宣布獲得數千萬人民幣天使輪融資。
DeepEmbed 技術在X上公布后,引發包括ViT作者Lucas Beyer在內的各方關注。
RWKV團隊表示,RWKV-8后續還將公布更多創新模塊。(袁寧)