機器之心發布
機器之心編輯部
大模型記憶管理和優化框架是當前各大廠商爭相優化的熱點方向,MemOS 相比現有 OpenAI 的全局記憶在大模型記憶評測集上呈現出顯著的提升,平均準確性提升超過 38.97%,Tokens 的開銷進一步降低 60.95%,一舉登頂記憶管理的 SOTA 框架,特別是在考驗框架時序建模與檢索能力的時序推理任務上,提升比例更是達到了 159%,相當震撼!
圖 1. MemOS 項目官網報告的性能表現
在大型語言模型(LLM)一路狂飆的這幾年,參數規模和算力幾乎成了 AI 能力的代名詞。可當大模型逐漸走進科研、產業和生活,每個人都在問一個更深層的問題:它究竟能不能 “記住” 點什么?
從陪伴式對話、個性化推薦,到多輪任務協作,模型只靠一次推理、一次檢索,遠遠不夠。如何讓 AI 擁有可管理、可遷移、可共享的長期記憶,正在成為新一代大模型應用的關鍵挑戰。
近日,記憶張量(上海)科技有限公司聯合上海交通大學、中國人民大學、同濟大學、浙江大學、中國電信等多家頂尖團隊發布了MemOS(Memory Operating System),一套面向大模型的工業級記憶操作系統。它的技術路線起步于 2024 年團隊推出的 Memory3(憶立方)記憶分層大模型 —— 當時首次提出了記憶分層的概念,讓模型可以把部分知識 “外化” 存儲,減少推理成本,也為后續的長期學習打下基礎。
- 項目官網:https://memos.openmem.net
- 項目論文:https://memos.openmem.net/paper_memos_v2
- 代碼倉庫:https://github.com/MemTensor/MemOS
- Discord 討論組:https://discord.gg/Txbx3gebZR
- OpenMem 社區聯系郵箱:contact@openmem.net
與傳統 RAG 或純參數存儲不同,MemOS 把 “記憶” 看作一種和算力同等重要的系統資源。它通過標準化的MemCube記憶單元,將明文、激活狀態和參數記憶統一在同一個框架里進行調度、融合、歸檔和權限管理。簡單來說,模型不再只是 “看完即忘”,而是擁有了持續進化和自我更新的能力。
在行業看來,這種面向 AI 長期記憶的操作系統思路,或許會重塑智能系統的應用邊界 —— 讓大模型真正從 “靜態生成器”,變成可以陪伴用戶長期成長的 “數字同事” 和 “數字助理”。
圖 2. MemOS 項目官網 https://memos.openmem.net/
系統架構和核心創新
圖 3. MemOS 框架(源自 MemOS 官網)
在技術實現層面,MemOS 借鑒了傳統操作系統的分層架構設計,也融合了 Memory3(憶立方)大模型在記憶分層管理方面的核心機制。整個系統由API 與應用接口層、記憶調度與管理層、記憶存儲與基礎設施層三大核心層次組成,構建了一套從用戶交互到底層存儲的全鏈路記憶管理閉環。
API 與應用接口層,MemOS 提供了標準化的 Memory API,開發者可以通過簡單的接口實現記憶創建、刪除、更新等操作,讓大模型具備易于調用和擴展的持久記憶能力,支持多輪對話、長期任務和跨會話個性化等復雜應用場景。
表 1. 從計算機操作系統到記憶操作系統
在記憶調度與管理層,MemOS 提出了記憶調度(Memory Scheduling)的全新范式,支持基于上下文的“下一場景預測”(Next-Scene Prediction),可以在模型生成時提前加載潛在需要的記憶片段,顯著降低響應延遲、提升推理效率。
如圖 4 所示,MemOS 通過在不同的 Round、Session 或者 Agents 流程之間,異步對應用所需的潛在記憶進行預測與推薦,實現Next-Scene Prediction。具體地,MemOS Scheduler 通過在應用的不同位置埋觸發點(Trigger),不斷搜集和匯總記憶需求。觸發器生產的這些記憶需求會被添加到調度器的監控隊列(Monitoring Queue)中,以供調度執行器(Scheduling Executor)去消費,從而將高頻、高相關的記憶提前預備到MemCube 中合適的位置(或 KV Cache 緩存、或明文工作區記憶存儲等)去,大幅加速潛在的推理時間,提升記憶召回的準確性和效率。
圖 4. 記憶調度的核心思路
而在記憶存儲與基礎設施層,MemOS 通過標準化的MemCube封裝,將明文記憶、激活記憶和參數記憶三種形態有機整合。它支持多種持久化存儲方式,包括 Graph 數據庫、向量數據庫等,并具備跨模型的記憶遷移與復用能力。
整體來看,MemOS 不僅在技術框架上實現了對 AI 記憶的結構化、系統化管理,也為未來構建可共享、可遷移、可演化的 AI 記憶生態奠定了基礎。
圖 5. 標準化 MemCube(記憶立方體)的基礎構成
應用場景
在應用層面,MemOS 的推出為大模型在未來多個關鍵場景中帶來了全新的能力突破:
- 個性化智能體:MemOS 可以持續積累和管理用戶的偏好、歷史對話與行為習慣,讓每一次交互都在 “記憶之上” 不斷優化體驗,真正實現長期陪伴和個性化服務。
- 科研與知識管理:在科研場景中,MemOS 支持將分散的項目資料、筆記、分析結果以結構化方式長期保存和動態調用,幫助研究人員打造具備深度 “記憶力” 的智能助手,提升知識管理效率和研究連續性。
- 高可靠性場景:在金融、法律等對溯源和合規要求極高的領域,MemOS 將提供記憶溯源與權限審計功能,使模型的推理結果可以精準追溯到具體知識來源,增強透明度和可信性。
- 企業級 RAG 應用:在企業級檢索增強生成(RAG)場景,MemOS 能夠有效解決新舊知識混用、信息沖突等問題,確保模型在多輪對話和長周期任務中依然保持穩定、一致的回答能力。
憑借對三類記憶的統一調度與封裝,MemOS 不僅顯著提升了模型的智能性和靈活性,也為企業構建安全、可控、持續演進的 AI 應用奠定了基礎。
接下來,MemOS 團隊將上線Playground功能,面向開發者和企業用戶開放體驗,直觀展示在多樣化任務中,記憶能力帶來的性能提升和應用潛力。
圖 6 . MemOS Playground 即將上線測試
開源框架
圖 7. 項目開源地址:https://github.com/MemTensor/MemOS
作為一套完全開源的工業級框架,MemOS 的設計理念強調“標準化、模塊化、可組合”,面向開發者提供了清晰且易于集成的架構和工具鏈。
在 GitHub 公開的 Preview 版本中,MemOS 已實現包括 Memory API、核心調度模塊(MemScheduler)、樹 - 圖狀的明文記憶管理、KV Cache 激活記憶管理在內的多個關鍵功能,并提供了詳盡的示例代碼和演示腳本,幫助開發者快速上手,靈活構建具備持久記憶能力的智能應用。
圖 8. pip install MemoryOS 一鍵安裝使用
該框架遵循分層解耦的設計原則,所有核心能力均以Python 類和 REST 接口兩種形式對外開放,既可用于輕量級本地測試,也能與生產環境下的大模型(如 HuggingFace、OpenAI、Ollama 等)實現無縫集成。
未來,MemOS 將持續完善記憶生命周期管理、參數記憶插拔、跨平臺記憶遷移等高級功能,并通過MemCube 標準支持 “Memory-as-a-Service”(記憶即服務)的部署模式,幫助開發者和企業在不同場景下靈活構建具備持久記憶的 AI 系統。
MemOS-Preview 版本性能詳細評估
在當前版本中,MemOS 重點評估了框架在對話類場景下的記憶抽取與檢索效率,并采用行業公認的LoCoMo(Long Conversational Memory)Benchmark進行測評(Maharana A, Lee D H, Tulyakov S, et al. Evaluating Very Long-term Conversational Memory of LLM Agents. ACL, 2024)。
LoCoMo 評估集合由 Maharana 等人于 2024 年提出,并發表于 ACL 2024,旨在系統評估和強化 LLM 對極長對話歷史的記憶能力。目前,該基準已經成為包括 Mem0、Zep 等多種記憶管理框架的標準化測評工具。
本次評估主要考察模型在以下四項任務中的表現:
- 單跳任務評估(Single Hop):測試模型在已知上下文中對單一事實的直接回憶能力。
- 多跳任務評估(Multi Hop):考察模型能否通過多輪推理整合分散信息。
- 開放問題評估(Open Domain):評估模型在非限定問題上的記憶準確性和靈活性。
- 時序推理任務(Temporal Reasoning):檢驗模型處理事件順序和時間邏輯的能力。
當前 MemOS-Preview 版本在以上任務中的詳細評估結果如下表 2:
表 2. LoCoMo 端到端實驗性能對照表
從評估結果來看,MemOS-Preview-0630 版本相比 OpenAI 的全局記憶方案,在性能表現和 Tokens 開銷方面均實現了全面提升。
與 Mem0(本次評測采用 Mem0 官方提供的 Pro 版本高性能接口)相比,MemOS 在各項核心指標上也取得了顯著進步。特別是在時序推理這一對記憶系統要求最高的任務上,MemOS 相較 Mem0 和 OpenAI 均實現了超過20% 絕對值的性能提升,最高超過 159% 的相對值的提升,進一步驗證了其在復雜對話和長期推理場景中的優勢。
圖 9. MemOS 各項性能指標隨召回 TOP-K 數量的消融實驗
在記憶管理場景中,召回記憶的數量(TOP-K 值)以及對應的總 Context 長度,直接決定了框架的檢索效率和推理性能。通常而言,框架效率越高,就越能夠在相對較小的召回容量下取得最準確的回憶結果,從而顯著降低 Tokens 的編碼開銷。
如圖 9 所示,MemOS 在召回區間TOP-20 左右時,僅需約1000 個 Tokens的上下文長度,即可在各項評估指標上取得優異表現。相比之下,對照組在達到相似準確度時,通常需要2000–4000 Tokens的召回區間,MemOS 在保證效果的同時大幅減少了檢索所需的輸入規模和推理負擔。
表 3. 檢索效率評估
此外,為了系統評估當前開源框架在檢索時效性方面的表現,MemOS 團隊針對原始 RAG 框架和現有多種記憶管理方案開展了全面的消融實驗。
從表 3 中的結果可以看出,MemOS-Preview 開源版本的檢索性能已接近多個主流商業化記憶管理框架的 API 接口,并在最終效果得分上實現了顯著提升。值得注意的是,在部分評測任務中,MemOS 的表現甚至優于 Full-Context 方案,展現出在高效記憶管理與資源利用之間的良好平衡能力。
表 4. 記憶調度場景 KV Cache 復用的加速性能實驗
同時,為了進一步評估MemOS-Preview 版本在調度場景下的記憶緩存復用功能,作者圍繞不同模型規模和輸入長度,對緩存復用的性能進行了詳細的消融實驗。
實驗設置包括:在不同輸入長度的緩存上下文條件下,測量推理過程的加速比;以及在不同參數規模的模型上,評估緩存復用對性能的提升效果。
從表中結果可以看出,隨著模型規模的增大和緩存上下文長度的增加,相比無緩存場景,推理加速比顯著提高。在長記憶場景下,TTFT(Time To First Token)加速比超過 70%,顯示出緩存復用在大規模推理任務中的明顯優勢。
這些實驗結果表明,對于需要長期和高頻訪問的記憶內容,構建高效的緩存復用模塊對于提升記憶解碼性能和整體響應速度具有重要價值。
MemOS 的未來發展計劃
圖 10. MemOS 歷史研發 Milestone
關鍵計劃一:成立 OpenMem 開源社區
MemOS 團隊計劃發起OpenMem開源社區,面向全球研究機構和產業伙伴,共同打造一個開放、協作、共創的大模型記憶技術生態。該社區將重點推動記憶管理、記憶增強、記憶共享等領域的研究與應用,探索讓 AI 記憶能力實現可管理、可遷移、可共享的發展路徑。OpenMem 歡迎所有對 AI 模型記憶感興趣的團隊加入,共建開放記憶底座,賦能智能系統普惠未來。聯系方式:contact@openmem.net
關鍵計劃二:應用發展與聯合開發計劃
未來,MemOS 將與智能體(Agent)研發團隊、行業業務團隊和技術合作伙伴共同發起聯合開發計劃,推進基于記憶操作系統的多樣化應用落地。相關計劃將聚焦對話機器人、智能搜索、個人助理、企業知識管理等典型場景,探索長期記憶、多主體協作、個性化演進的應用模式,助力智能系統在復雜動態環境中實現持續進化和價值創造。
關鍵計劃三:MemOS 的長期迭代與研發
在長期研發方面,MemOS 將持續推進技術演進和版本迭代,重點聚焦記憶表征與壓縮、分布式記憶調度、跨模型記憶轉移、可解釋性與安全性保障等關鍵方向。未來,MemOS 還將逐步完善標準化接口、性能優化、合規治理等體系,打造面向大規模生產環境的高可用、低成本、強安全的記憶操作系統。團隊計劃持續深化與學術界和產業界的合作,推動 AI 從靜態生成走向長期進化與持續學習的新階段。
記憶張量簡介:記憶張量(上海)科技有限公司是上海算法創新研究院孵化的新型大模型公司,由中科院院士擔任首席科學顧問。公司聚焦基本原理驅動的系統性創新,以 “低成本、低幻覺、高泛化” 為核心特色,致力于探索符合中國國情的大模型發展新路徑,推動 AI 應用更廣泛落地。公司持續圍繞大模型記憶增強與管理框架進行技術迭代,自主研發的基于記憶分層架構的 “憶 3” 大模型已實現商業化落地,業務穩步增長,獲得招商證券、中國銀行、中國電信等頭部國央企業認可。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.