網易首頁 > 網易號 > 正文申請入駐

重塑記憶架構：LLM正在安裝「操作系統」

2025-07-16 14:00:56　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：冷貓

超長上下文窗口的大模型也會經?！甘洝梗赣洃洝挂彩切枰芾淼?。

眾所周知，現代大型語言模型（LLM）的上下文窗口普遍有限 —— 大多數模型只能處理數千到數萬 token，比如早期的 GPT-3 僅有～2,048 token。雖然近期有些模型已經拓展到了百萬級甚至千萬級 token 窗口（如 Meta 的 Llama 4 Scout 宣稱可達 1,000 萬 token）。

圖中顯示了 LLM 上下文窗口大小的演變。

注意：token 數量為近似最大值?！窯PT-4.1」指的是 2025 年 4 月更新的 GPT-4，「Scout」是專為長上下文設計的 17B 參數 Llama 4 變體。

LLM 存在一個內在的「記憶缺陷」，即擁有的上下文窗口是有限的，這嚴重限制了它們在多輪次、多會話的長期交互中維持一致性的能力。

也因此，現代 LLM 普遍難以維持長期記憶。這對很多應用來說實在相當不妙，畢竟記憶是實現反思和規劃的關鍵，也是智能體系統不可或缺的重要組成部分。

基于 LLM 的自主智能體系統概況圖，圖源 Lil'Log https://lilianweng.github.io/posts/2023-06-23-agent/

近段時間，關于大模型記憶的相關研究多了起來，前些天開源的 MemOS 就吸引了不少眼球。

與傳統 RAG 或純參數存儲不同，MemOS 把「記憶」看作一種和算力同等重要的系統資源。對于大模型的長期記憶進行持續更新管理，將明文、激活狀態和參數記憶統一在同一個框架里進行調度、融合、歸檔和權限管理，讓大模型擁有了擁有了持續進化和自我更新的能力。

大模型記憶與長上下文處理能力

密不可分

之前探討的大模型，能處理大量的 token，甚至達到千萬 token 級別，這些均屬于 LLM 的長上下文處理能力。實際的 LLM 使用經驗告訴我們，具有強大長上下文處理能力的 LLM 都具有更強的記憶能力。

長上下文（Long Context）

指模型在當前推理過程中能「看到」的歷史文本長度。
本質上是一次性輸入到模型中的序列長度。
用于解決如文檔問答、多輪對話、代碼分析等需要上下文保持的任務。

「長上下文處理能力」包括：

長度泛化能力：模型在訓練中未見過的更長的序列上進行外推的能力。如果超出訓練長度，某些模型會災難性地失敗。

高效注意力能力：減少長序列計算 / 內存消耗的機制（亞平方算法）。這可能包括近似注意力、稀疏模式或完全替代的架構。

信息保留能力：指模型實際利用遠距信息的能力。如果模型在一定位置之后實際上忽略了上下文內容，那么即使擁有龐大的上下文窗口也是無效的。如果訓練不當，模型可能出現注意力權重衰減或在超過一定長度后丟失上下文等現象。

提示詞與利用能力：研究如何設計提示詞（prompt）以最大限度發揮長上下文的優勢。

記憶（Memory）

指模型跨多輪對話 / 使用所保留的信息。
是一種持久化機制，記錄關于用戶、對話、偏好等信息。

SwirlAI 創始人兼 CEO Aurimas Griciūnas 認為，可以將 LLM 的記憶分為以下類型：

1.事件記憶- 這種類型的記憶包含代理過去的交互和執行的操作。每當完成某個操作，控制系統會將該操作信息寫入持久化存儲中，便于未來調用或回溯。

2.語義記憶- 語義記憶包括可訪問的外部知識信息，以及其對自身狀態和能力的理解。這種記憶既可以是僅代理內部可見的背景知識，也可以是用于限制信息范圍、提升回答準確性的錨定上下文（grounding context），從海量互聯網數據中篩選出與當前任務相關的信息。

3.程序性記憶- 程序性記憶指的是與系統運行機制相關的結構性信息，例如系統提示詞（system prompt）的格式、可調用的工具、預設的行為邊界（guardrails）等。

4. 在特定任務場景下，代理系統會根據需求從長期記憶中調取相關信息，并暫存于本地緩存，以便快速訪問和任務執行。

5. 從長期記憶中調取的信息與當前局部緩存的信息共同構成了代理的工作記憶（也稱短期記憶）。這些信息會被整合成最終輸入給大語言模型（LLM）的提示詞，用于指導其生成后續行為指令或任務響應。

如圖所示，通常將 1 - 3 標記為長期記憶，將 5 標記為短期記憶。

長上下文能力和記憶能力可協同工作：

記憶系統中的信息（如用戶偏好）可被注入到上下文中，作為提示的一部分；
長上下文窗口能幫助模型在當前對話中維持短期「記憶」，減少依賴記憶系統。

實現 LLM 記憶的幾種方法

長上下文的方法

正如前文討論的，當對話內容超出了上下文長度時，LLM 可能會出現忘記用戶的喜好、重復提問，甚至與之前確認的事實相沖突的現象。最直接的提高 LLM 記憶能力的方法就是提高 LLM 的長上下文處理能力。目前，提高 LLM 長上下文處理能力的方法有：

1、RAG（檢索增強生成，Retrieval-augmented Generation）作為構建知識庫并檢索引導 LLM 生成的方法具有非常強的泛用性。通過將結構化或非結構化數據轉化為可檢索的語義表示，RAG 實現了「先檢索、再生成」的流程，使得 LLM 能夠結合外部知識應對事實性問題，減少幻覺。

RAG 架構支持對文檔動態更新，便于構建實時可擴展可編輯的知識體系，這為后續的 LLM 記憶的構建和記憶系統的設計提供了基礎。

圖中對比 RAG 流程與純長上下文方法的差異，RAG 效率高，但可能遺漏間接上下文；長上下文使用雖然全面，但需要模型處理非常大的輸入。

2、分層摘要：在對一本書進行總結時，可以通過遞歸的方式將每一章分別進行摘要，得到中間摘要，然后再對這些中間摘要進行進一步總結，依此類推。這種方法可以應對遠超模型上下文長度的輸入，但其操作流程較為繁瑣，且容易在多輪摘要過程中引入和累積錯誤。

3、滑動窗口推理：對于需要對長文本進行閱讀理解等任務，可以將模型應用于文本的滑動窗口上（例如，第 1–5 段，然后是第 2–6 段，依此類推），再通過某種方法或次級模型對各窗口的輸出結果進行整合。

研究人員探索了多種算法途徑來擴展上下文窗口。廣義而言，這些方法可以分為：(a) 用于長度外推的位置編碼方法，(b) 高效或稀疏注意力架構，（c) 替代序列模型（取代自注意力），以及 (d) 混合或記憶增強方法。

了解更多有關 LLM 長上下文窗口的細節信息，可以參閱來自 Dr. Adnan Masood 的文章：

文章鏈接：https://medium.com/%40adnanmasood/long-context-windows-in-large-language-models-applications-in-comprehension-and-code-03bf4027066f

記憶的方法

盡管上下文能力與大模型記憶緊密相關，但上下文窗口并不能直接等價于記憶。

以構建一個聊天機器人為例，該機器人需要記住用戶在此前對話中說過的話。隨著對話長度的增加，記憶管理會將信息從輸入上下文中移出，存入一個可搜索的持久數據庫；同時對信息進行總結，以便將相關事實保留在輸入上下文中；還會在需要時從較早的對話中恢復相關內容。這種機制使得聊天機器人能夠在生成下一輪回復時，將當前最相關的信息保留在其輸入上下文記憶中。

基于記憶的方法看上去與 RAG 非常相似，實際上也確實如此。大致上分為兩種類型。

固定記憶池

一類方法采用外部編碼器將知識注入到記憶池中，例如 Memory Network，其重點在于解決 RNN 中的遺忘問題。后續工作則通過計算整個記憶池的加權和，作為記憶的代表向量。最具代表性的工作 MemoryLLM，在 LLM 的潛在空間中集成了一個內置記憶池。這個記憶池的設計目標是：在固定容量的限制下，實現新知識的有效整合，并最大程度地減少信息遺忘，從而避免記憶無限增長的問題。

另一類方法則直接使用語言模型本身作為編碼器來更新記憶。例如，Memory Transformer 以及 RMT，提出在讀取上下文時添加記憶 token，其中記憶池最多包含 20 個 token。

盡管這些固定大小的記憶池在實驗中表現出一定的效果，但其性能仍受到記憶容量限制。

非固定記憶池

其他基于記憶的方法通常采用非固定大小的記憶池，并引入不同的遺忘機制以應對記憶不斷增長的問題。在這些方法中，記憶池通常以以下幾種形式存在：

1.隱藏狀態（hidden states）：如 MemoryBank，將中間表示作為可持久化的記憶內容存儲。

2.鍵值對（key-value pairs）：代表性方法包括 KNN-LM 和 LONGMEM，以可檢索的鍵值結構進行知識保存和回調。

3.隱藏空間向量（vectors in hidden space）：如 Memformer 通過在潛在空間中保存向量來增強上下文記憶。

4.原始文本（raw texts）：如 RET-LLM，將知識以三元組的形式存入記憶中，并通過 API 查詢方式，在當前上下文下檢索相關信息。

這些方法提供了更靈活的記憶機制，但由于缺乏結構化的壓縮與管理手段，存儲的知識可能存在冗余，影響記憶效率與模型推理性能。

有關大模型記憶的部分技術，可以參考以下論文：

論文標題：MemoryLLM: Towards Self-Updatable Large Language Models
論文鏈接：https://arxiv.org/abs/2402.04624

記憶數據管理：記憶系統

據前文所述，LLM 的記憶與數據庫非常相似。雖然 RAG 引入了純文本的外部知識，但它仍然是一種無狀態的工作方法，缺乏生命周期管理與持久表示的整合能力。

記憶系統本質上和 RAG 檢索是幾乎一致的，但記憶系統機制會在記憶存儲的基礎上增加更豐富的信息組織、信息管理和信息檢索方法，將記憶存儲管理與計算機操作系統的原理相結合，能夠構建更加完善的記憶機制，使 LLM 擁有更持久的記憶。

近期有關 LLM 記憶系統的研究逐步走入聚光燈下，大多受傳統操作系統的內存機制啟發，建立了全新架構的記憶管理模式。以近期幾個具有代表性的研究工作為例：

Coursera 聯合創始人，前百度 AI 部門總負責人，前 Google Brain 項目創始成員與負責人吳恩達在近期的短課程中提到：

大型語言模型（LLM）的輸入上下文窗口具有有限空間。使用更長的輸入上下文不僅成本更高，而且處理速度更慢。因此，管理存儲在該上下文窗口中的內容至關重要。

在論文《MemGPT: Towards LLMs as Operating Systems》中，作者提出使用一個 LLM 代理來管理該上下文窗口。該系統配備了一個大型的持久內存，用于存儲所有可能被納入輸入上下文的信息，而一個代理則負責決定哪些信息實際被包含進去。該技術受傳統操作系統中分層內存系統的啟發：通過在物理內存與磁盤之間進行分頁，實現擴展虛擬內存的假象。

論文標題：MemGPT: Towards LLMs as Operating Systems
論文鏈接：https://arxiv.org/abs/2310.08560

記憶張量（上海）科技有限公司聯合上海交通大學、中國人民大學、同濟大學、浙江大學、中國電信等多家頂尖團隊發布了MemOS（Memory Operating System），一套面向大模型的工業級記憶操作系統。在技術實現層面，MemOS 借鑒了傳統操作系統的分層架構設計，也融合了 Memory3（憶立方）大模型在記憶分層管理方面的核心機制。整個系統由 API 與應用接口層、記憶調度與管理層、記憶存儲與基礎設施層三大核心層次組成，構建了一套從用戶交互到底層存儲的全鏈路記憶管理閉環。

項目官網：https://memos.openmem.net
論文鏈接：https://memos.openmem.net/paper_memos_v2

北郵百家 AI 團隊推出首個大模型記憶操作系統開源框架MemoryOS，借鑒了現代操作系統中成熟的內存管理原則，采用短期、中期、長期三級分層記憶存儲體系（實時對話存儲、主題信息整合、個性化知識沉淀），包含四大核心功能：記憶存儲、記憶更新、記憶檢索和響應生成，全方位管理 AI 記憶系統。

項目地址：https://github.com/BAI-LAB/MemoryOS
論文鏈接：https://arxiv.org/abs/2506.06326

加利福尼亞大學圣迭戈分校（UCSD）博士生 Yu Wang 和紐約大學教授陳溪（Xi Chen）聯合推出并開源了 MIRIX —— 全球首個真正意義上的多模態、多智能體 AI 記憶系統。MIRIX 擁有六類核心記憶，能夠細分認知角色。提出了一種模塊化多智能體架構（multi-agent architecture），由若干專用組件在統一調度機制下協作完成輸入處理、記憶更新和信息檢索。

論文標題：MIRIX: Multi-Agent Memory System for LLM-Based Agents
論文鏈接：https://arxiv.org/abs/2507.07957

除此以外，在針對 LLM 記憶管理與更新的前沿研究工作中，另一類參考人類神經或人類大腦記憶的模式同樣取得了很好的結果。

Larimar —— 一種受大腦啟發的新型架構，用于通過分布式情景記憶增強 LLMs。人類能非常迅速地執行知識更新和泛化，在大腦中，這種快速學習被認為依賴于海馬體及其情景記憶能力。該工作受人類情景記憶能力的啟發，構建了分層內存框架，提出了一種用于實時測試時適應的情景化且可適應的記憶條件 LLM 架構。

論文標題：Larimar: Large Language Models with Episodic Memory Control
論文地址：https://arxiv.org/pdf/2403.11901

M+ 探索了探索隱空間 (Latent-Space) 的記憶 —— 既壓縮又可端到端訓練，更接近人類在神經激活中存儲信息的方式。該工作在 MemoryLLM 之上提出的長期隱空間記憶擴展框架：通過把「過期」隱藏向量寫入 CPU - 側長期記憶池，再用協同檢索器拉回最相關記憶，它將 8 B 級模型的有效記憶跨度從原本不到 20 k tokens 提升到 160 k tokens 以上，同時顯存占用保持不變。

論文標題：M+: Extending MemoryLLM with Scalable Long-Term Memory
論文鏈接：https://arxiv.org/abs/2502.00592

如有相關前沿研究進展，歡迎讀者留言推薦，共同交流探討。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.