99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

M+框架來了,增加LLM隱空間記憶,不再受上下文窗口限制

0
分享至



本文的第一作者Yu Wang來自加州大學圣地亞哥分校,主要研究方向為Memory for LLMs and Memory for LLM Agents. 該論文于2024年在MIT-IBM Waston Lab實習過程中完成,通訊作者Zexue He也畢業于加州大學圣地亞哥分校。

M+是在 MemoryLLM 之上提出的長期隱空間記憶擴展框架:通過把「過期」隱藏向量寫入CPU - 側長期記憶池,再用協同檢索器拉回最相關記憶,它將 8 B 級模型的有效記憶跨度從原本不到 20 k tokens 提升到 160 k tokens 以上,同時顯存占用保持不變。



  • 論文標題:M+: Extending MemoryLLM with Scalable Long-Term Memory
  • 論文鏈接:https://arxiv.org/abs/2502.00592
  • 代碼倉庫:https://github.com/wangyu-ustc/MemoryLLM
  • 開源模型:https://huggingface.co/YuWangX/mplus-8b

背景:上下文 ≠ 記憶 & 現有記憶模型的缺陷

上下文窗口并不能直接等價于記憶。GPT-4.1 之類的模型即便支持 100 萬 token,也會隨窗口線性升高顯存與延遲,難以落地本地部署。

業界主流做法是 “Token-Level Memory”:把歷史內容或三元組存在數據庫 / 向量庫,檢索后再拼接回 prompt;MemGPT等系統即屬此類。該類做法不需要重復訓練,直接結合 GPT-4 這樣的大模型便可以獲得很不錯的性能,但是,它也會有一些隨之而來的問題:(1)冗余:原始文本并非最緊湊表達,重復率高。(2)沖突難解:遇到相互矛盾或不斷更新的信息時,文本級沖突消解復雜。(3)多模態能力弱:由于數據庫格式為文本,處理音頻或者圖片,視頻數據將相對困難。

因此,我們希望探索隱空間 (Latent-Space) 的 Memory -- 既壓縮又可端到端訓練,更接近人類在神經激活中存儲信息的方式。

M + 的關鍵改進:Long-Term Memory

在 MemoryLLM 中,我們為 8B 的 Llama3 模型引入了約 1.67B 的 Memory。Llama3-8B 的 Transformer 共包含 32 層。當第一層接收到詞輸入后,會通過 Embedding 層將詞轉化為一系列 4096 維的向量。基于這一特點,我們設計了 MemoryLLM,在每一層都加入 N 個 Memory Tokens(實驗中 N=12800)。在生成過程中,這些 Memory Tokens 會作為每一層的 Prefix,通過 Cross-Attention 將信息注入后續層,使模型能 “看到” 保存在 Memory Pool 中的歷史信息。



在更新階段,我們會將每層 Memory Token 中最后 K 個(實驗中 K=256)與需要寫入的信息一同送入 Transformer,再次經過 Cross-Attention,將信息壓入新的 Memory Tokens 中(如下圖所示)。與此同時,我們在原有 Memory 中隨機丟棄 K 個舊 Token,并將新生成的 K 個 Token 放到 Memory 尾部,完成更新。



基于這樣的設計,借助每層 12800 個 Memory Vectors,我們在 50k tokens 內都能保持良好的信息留存(最早 MemoryLLM-7B 版本只做到 20k,后續在 GitHub 提供的新版模型 https://github.com/wangyu-ustc/MemoryLLM 可達 50k)。然而,這樣的記憶容量仍無法滿足我們對更長序列的期待。要進一步擴展 Memory,單靠原有的 1.67B 容量已遠遠不夠,因此我們提出了Long-Term Memory。

如何高效實現 Long-Term Memory?考慮到 MemoryLLM 中每一個 Memory Token 本質上都來自 Hidden States,我們將那些在更新過程中被 “丟棄” 的 Memory Token 并非直接舍棄,而是將其保存在長期記憶池中(如下圖)。



僅僅保存是不夠的,我們還需要具備強大的提取能力。最初我們嘗試用 Attention 來從長期記憶中檢索 Hidden States,但實驗表明 Attention 在提取 Hidden States 時效果有限(在論文的消融實驗中做了詳盡對比)。因此我們提出協同提取器(Co-trained Retriever),并與全模型進行聯合訓練(如下圖)。



通過這一結構,我們將模型的有效記憶跨度從 50k 一舉提升到 160k,且由于 Memory 主要駐留在 CPU,不會顯著增加 GPU 負擔。

M + 的實驗結果

顯著性能提升及更少的 GPU 使用:在 Longbook-QA 和 Longbook-Event-QA 兩個數據集上,我們都在更少 GPU 的使用下(單卡 18GB 左右)獲得了更強大的性能。





更強的信息留存能力:在 SQuAD 數據集上表現出遠超 MemoryLLM-7B 以及相關 ablation baseline 的信息留存能力,可以達到 160k 依舊不完全遺忘過去的信息。





結語

M+ 展示了我們在探索隱空間長期記憶領域的重要進展,也為下一代具備持續記憶能力的語言模型提供了堅實的技術支撐。未來,我們將繼續研究更高效的存儲機制、更智能的檢索策略,以及與多模態輸入更自然融合的隱空間記憶架構。在此方向上,M+ 不僅是對 MemoryLLM 的一次擴展,也是我們對 “讓模型擁有接近人類記憶能力” 這一愿景的又一次有力實踐。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
杜建英大學照片曝光,難怪能上位!53歲被娃哈哈高層逼退!

杜建英大學照片曝光,難怪能上位!53歲被娃哈哈高層逼退!

特特農村生活
2025-07-15 20:57:42
姜文大鵬電影搶跑,陳佩斯《戲臺》被迫延檔,本人發聲向觀眾道歉

姜文大鵬電影搶跑,陳佩斯《戲臺》被迫延檔,本人發聲向觀眾道歉

小海娛計
2025-07-15 17:24:21
2025國補后,推薦3款“骨折價”手機,512GB最適合“撿漏”

2025國補后,推薦3款“骨折價”手機,512GB最適合“撿漏”

科技花開
2025-07-14 23:00:03
11年憋大招!杰克遜親口否認退休:《指環王》之父攜3大新作歸來

11年憋大招!杰克遜親口否認退休:《指環王》之父攜3大新作歸來

阿廢冷眼觀察所
2025-07-15 14:27:59
醫生發現:男性若戒掉吸煙,用不了半年時間,身體或會有3個改變

醫生發現:男性若戒掉吸煙,用不了半年時間,身體或會有3個改變

白宸侃片
2025-07-15 14:22:07
中國女籃22分韓國!賽后數據一清二楚,不是張子宇,最大功臣是她

中國女籃22分韓國!賽后數據一清二楚,不是張子宇,最大功臣是她

侃球熊弟
2025-07-15 20:53:57
中國電磁炮專家,竟然是美國間諜,出賣大量情報,讓國家損失慘重

中國電磁炮專家,竟然是美國間諜,出賣大量情報,讓國家損失慘重

老范談史
2025-07-07 20:18:42
美國的簽證秒過是一種什么體驗?網友:都是經驗之談,很實用啊

美國的簽證秒過是一種什么體驗?網友:都是經驗之談,很實用啊

娛樂圈人物大賞
2025-06-02 00:05:21
全球首支擊落隱身戰機部隊,全部換裝中國導彈,北約毫無辦法?

全球首支擊落隱身戰機部隊,全部換裝中國導彈,北約毫無辦法?

布谷BuGuu
2025-07-14 16:08:43
演員石涼表示:我這輩子最正確的選擇,是跟叢珊離婚后娶圈外妻

演員石涼表示:我這輩子最正確的選擇,是跟叢珊離婚后娶圈外妻

置身事內
2025-07-09 07:25:06
開國上將在毛主席面前打架,幾天后陳賡找到他:明天起你就是干事

開國上將在毛主席面前打架,幾天后陳賡找到他:明天起你就是干事

紀實文錄
2025-07-15 10:07:42
100%關稅,特朗普威脅俄羅斯!美國正在調查多晶硅進口!歐盟、巴西準備反制!納指再創新高“警惕回調風險”

100%關稅,特朗普威脅俄羅斯!美國正在調查多晶硅進口!歐盟、巴西準備反制!納指再創新高“警惕回調風險”

新浪財經
2025-07-15 07:43:33
杜建英消失、宗繼昌被踢走,娃哈哈員工爆猛料,都是宗馥莉的復仇

杜建英消失、宗繼昌被踢走,娃哈哈員工爆猛料,都是宗馥莉的復仇

南南說娛
2025-07-15 10:50:18
全國大江大河那么多,漢江水都快被掏空了,為何調水還如此頻繁?

全國大江大河那么多,漢江水都快被掏空了,為何調水還如此頻繁?

行走的知識庫
2025-07-13 17:14:31
湖南電視臺記者被打后續:攝像機被砸,打人者態度囂張,背景被扒

湖南電視臺記者被打后續:攝像機被砸,打人者態度囂張,背景被扒

娛樂的硬糖吖
2025-07-15 17:48:03
國內僅存1棵,專家斷言已不可能繁殖,一鄉村教師成功種出幼苗

國內僅存1棵,專家斷言已不可能繁殖,一鄉村教師成功種出幼苗

珺瑤婉史
2025-06-16 19:35:07
53歲汪峰再次喜當爹!5個孩子4個媽,前妻葛薈婕:又在繁殖了

53歲汪峰再次喜當爹!5個孩子4個媽,前妻葛薈婕:又在繁殖了

趙釔是個熱血青年
2025-06-01 05:12:17
《掃毒風暴》看懂盧少驊將冰沖下水道,就知為何他能成為天才毒梟

《掃毒風暴》看懂盧少驊將冰沖下水道,就知為何他能成為天才毒梟

脆梨影視綜
2025-07-15 17:16:13
10后南陽女孩神顏爆火網絡!像張柏芝、梁洛施,于正搶著來簽約

10后南陽女孩神顏爆火網絡!像張柏芝、梁洛施,于正搶著來簽約

娛樂官已上任
2025-07-14 14:48:06
為什么中國戰機突然領先美國?

為什么中國戰機突然領先美國?

白駒談人機
2025-07-15 00:04:15
2025-07-16 02:47:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10868文章數 142378關注度
往期回顧 全部

科技要聞

英偉達H20解禁,黃仁勛嚇壞平替?

頭條要聞

特朗普被指曾私下鼓動澤連斯基打擊莫斯科 白宮回應

頭條要聞

特朗普被指曾私下鼓動澤連斯基打擊莫斯科 白宮回應

體育要聞

在中國效力10年,45歲的傳奇外援退役了

娛樂要聞

董璇自曝再婚了!二婚老公被扒是張維伊?

財經要聞

國貨美妝能否脫下“平替”外衣

汽車要聞

六座布局/深淺配色 仰望U8L內飾亮相

態度原創

游戲
旅游
親子
公開課
軍事航空

LPL001號選手重新連接,加入豪門戰隊沖擊S賽,觀眾評價太扎心!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

一句“奶夠孩子吃嗎?”引發的家庭矛盾,評論區網友炸鍋!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普所謂"重大聲明"揭曉:對俄加關稅 對烏"送"導彈

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 特克斯县| 涿鹿县| 东乡族自治县| 崇文区| 漠河县| 满城县| 从化市| 融水| 双城市| 乡城县| 昌邑市| 南丹县| 保德县| 弋阳县| 阳新县| 年辖:市辖区| 苏尼特右旗| 沧源| 花莲市| 布尔津县| 波密县| 若尔盖县| 曲靖市| 桂阳县| 韶山市| 遂川县| 桐庐县| 尚义县| 宜宾市| 神农架林区| 安丘市| 天峻县| 黄平县| 泰安市| 调兵山市| 汽车| 盐边县| 漳州市| 黄骅市| 道孚县| 平阴县|