網易首頁 > 網易號 > 正文申請入駐

99年華人科學家創業，掏出全球首個視覺記憶大模型，無限上下文，已獲三星投資

2025-07-25 12:28:11　來源: 智東西

北京舉報

分享至

智東西
作者王涵
編輯漠影

智東西7月25日消息，今天，前Meta員工沈俊瀟（Shawn Shen）在海外社交媒體X上宣布，其和Enmin Zhou聯合創立的Memories.ai，正式推出其首款大型視覺記憶模型（Large Visual Memory Model）。

沈俊瀟還宣布Memories.ai已完成由Susa Ventures領投，Crane Venture Partners、三星Next、Fusion Fund等機構跟投的800萬美元（約合人民幣5730萬元）種子輪融資。

感興趣的用戶立即享受首月免費體驗，無需任何附加條件。

體驗地址：https://memories.ai/app

▲沈俊瀟官宣推文（來源：X）

這一技術旨在為多模態大語言模型（multi-modal LLMs）賦予視覺記憶回溯能力。該模型實現了視覺記憶檢索功能，能夠解析用戶意圖，檢索相關視覺記憶片段，整合關聯的視覺記憶信息，并基于這些記憶和用戶查詢進行推理。

其創新點在于智能決策機制，能自主判斷何時、如何及調取哪些視覺記憶。完成記憶信息整合后，模型能生成記憶引用，并以正確輸出格式回答用戶問題，這使得多模態大模型具備無限長視覺記憶上下文處理能力。

Memories.ai的兩位聯合創始人均是華人，沈俊瀟在博客中透露自己14歲就遠赴英國讀高中。

一、兩位華人聯合創立，曾14歲就遠赴英國求學

1999年出生的沈俊瀟，初中在蘇州上學，14歲就獲得獎學金到遠赴英國讀高中。領英主頁顯示，其本碩博均在劍橋大學就讀，2019年取得了工程專業的文學學士學位（劍橋大學等部分高校保留傳統BA授予制度，其工程專業畢業生仍獲BA學位），2020年取得都柏林圣三一學院的工程學碩士學位，2023年獲得工程學哲學博士學位。

在本科就讀期間，沈俊瀟還曾回到上海摩根士丹利短期實習，在博士就讀期間，2022年，他到了Meta現實實驗室工作，擔任研究科學家職位。2024年沈俊瀟離職創業，聯合創立了Memories.ai。

▲左：沈俊瀟，右：Enmin Zhou（圖源：Memories.ai）

Memories.ai聯合創始人兼CTO Enmin Zhou，2020年從美國加州大學洛杉磯分校畢業，獲得數學與計算科學學士學位，后在美國布朗大學就讀數據科學專業，于2022年畢業。

本科就讀期間他也曾回到上海，在上海深察信息科技短暫實習，碩士畢業后在Meta就職，擔任機器學習工程師一職。2024年Enmin Zhou離職創業，聯合創立了Memories.ai。

在博客中，沈俊瀟寫道，他們正是因為意識到解決視覺記憶問題刻不容緩，才離開Meta共同創立Memories.ai。

二、視頻問答能力超越Gemini 2.5 Pro、OpenAI GPT 4o和GPT4.1

從性能上看，在視頻零樣本分類基準測試中，Memories.ai的分數都較歷史第一的模型PE-G都一定上漲，其中在HMD8數據庫中，分數上漲了7.6分，在K400數據庫中，分數上漲了6.6分。

視頻檢索基準測試中，Memories.ai在所有數據集中的分數都超越了歷史第一Perception Encoder，各項測試均奪得桂冠，其中在AVN數據集的文字轉視頻測試中，其分數較Perception Encoder提升了11分。

視頻問答基準測試中，Memories.ai在MVBench、NextQA以及Temp Compass數據集中，全面超越OpenAI GPT 4o；在ActivityNetQA和Perception Text數據集中，超越谷歌Gemini 2.5 Pro和OpenAI GPT4.1，取得新的性能記錄。

▲包括OpenAI和谷歌模型系統在內的比較數據，均源自OpenAI和谷歌各自的官方發布博客。

三、受人類記憶機制啟發，建立初始記憶架構

在另一篇技術博客中，沈俊瀟介紹到，Memories.ai的創造是受了人類記憶機制啟發，而創立的整個大視覺記憶模型的初始記憶架構，包括：

將記憶線索轉化為可搜索請求的查詢模型、用于粗粒度檢索的檢索模型、全模態索引模型、用于細粒度細節提取的選擇模型、用于記憶監控的反思模型，以及用于記憶重構的重建模型。

記憶檢索過程可分解為以下關鍵步驟：

1、記憶線索：激發回憶過程

回憶通常始于線索。線索可以是外部的，如問題、舊照片、旋律、氣味、地名；也可以是內部的，如念頭、情緒。當大腦接收線索時，會激活與目標記憶相關的特定神經網絡。

在系統中，采用查詢模型將線索（主要為基于文本的線索）轉化為具體的、可搜索的內容，涉及文本解析和轉錄等步驟，將線索轉化為適合后續處理的格式。

2、粗粒度檢索：初步 “篩選”

激活過程并非總是精確的，初始檢索往往粗略且泛化。大腦快速搜索海量信息，尋找與當前線索最匹配的模式，一些相關的視覺片段可能會被初步激活，此為 “線索依賴性回憶”。

在系統中，使用檢索模型進行粗粒度檢索。對于上一步解析的查詢對象，檢索模型選擇合適的數據庫和查詢方法，識別所有相關片段，減輕 “線索依賴性回憶” 的影響，并激活所有相關視覺片段。

3、細粒度細節提取：深度 “閱讀” 與 “編輯”

當初始線索激活相關區域后，大腦進入更精細的處理階段，記憶的重構特性開始顯現：

細節補全：大腦填補記憶的細節，這些細節可能基于對世界的理解、邏輯推理和過往經驗推斷補充。

關聯整合：大腦將不同信息片段（如視覺圖像、聽覺片段和情緒波動）關聯整合，形成更完整的記憶圖景。

過濾選擇：大腦根據當前目標和問題，從所有激活信息中過濾出最相關和最重要的片段，具有高度目的性。

在系統中，使用全模態字幕模型和選擇模型進行細粒度細節提取。對于所有視覺片段，全模態字幕代理結合記憶線索為關鍵核心內容添加字幕。選擇代理基于所有已字幕內容進行推理，篩選出若干最相關的視覺片段，縮小記憶搜索范圍，基本完成視覺記憶檢索過程。

4、記憶監控：記憶的 “自我校正”

回憶過程中，大腦會監控和驗證檢索到的信息，評估其準確性和真實性，包括將其與現有的知識、信念和其他相關記憶進行比較。若回憶信息與已知事實相矛盾，可能會嘗試進一步回憶或修正。

在系統中，使用反思模型進行記憶檢測和驗證。當檢索到的記憶內容與事實沖突或不一致時，會重新進入細粒度細節提取階段。

5、記憶重構：從碎片到 “精修版”

回憶復雜事件時，大腦傾向于提取事件的核心要點、主要參與者和關鍵結果，過濾掉較不重要或冗余的信息，將其概括為更易存儲和檢索的形式。重構過程還涉及將分散的記憶碎片整合成有意義的模式，組織成連貫的敘述或概念。

在系統中，使用重建模型進行記憶重構。基于記憶線索和所有當前檢索到的信息，識別信息模式，利用世界知識和邏輯推理補全缺失細節，過濾和精煉無關或冗余信息，將分散的感知、概念和情感片段整合成連貫、有意義的敘述或概念結構。

結語：或將成為AGI發展的重要節點

沈俊瀟在博客中稱“這是在通用人工智能（AGI）發展中的一步。”

Memories.ai此次推出的大型視覺記憶模型，在技術路徑上以人類大腦的記憶機制為參照構建了初始架構，其具備的視覺記憶檢索、整合及推理能力，在視頻分類、檢索、問答等基準測試中展現出一定性能優勢。

而800萬美元種子輪（約合人民幣5730萬元）融資的完成，也體現了投資機構對該技術方向的關注。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.