智東西
作者 王涵
編輯 漠影
智東西7月25日消息,今天,前Meta員工沈俊瀟(Shawn Shen)在海外社交媒體X上宣布,其和Enmin Zhou聯合創立的Memories.ai,正式推出其首款大型視覺記憶模型(Large Visual Memory Model)。
沈俊瀟還宣布Memories.ai已完成由Susa Ventures領投,Crane Venture Partners、三星Next、Fusion Fund等機構跟投的800萬美元(約合人民幣5730萬元)種子輪融資。
感興趣的用戶立即享受首月免費體驗,無需任何附加條件。
體驗地址:https://memories.ai/app
▲沈俊瀟官宣推文(來源:X)
這一技術旨在為多模態大語言模型(multi-modal LLMs)賦予視覺記憶回溯能力。該模型實現了視覺記憶檢索功能,能夠解析用戶意圖,檢索相關視覺記憶片段,整合關聯的視覺記憶信息,并基于這些記憶和用戶查詢進行推理。
其創新點在于智能決策機制,能自主判斷何時、如何及調取哪些視覺記憶。完成記憶信息整合后,模型能生成記憶引用,并以正確輸出格式回答用戶問題,這使得多模態大模型具備無限長視覺記憶上下文處理能力。
Memories.ai的兩位聯合創始人均是華人,沈俊瀟在博客中透露自己14歲就遠赴英國讀高中。
一、兩位華人聯合創立,曾14歲就遠赴英國求學
1999年出生的沈俊瀟,初中在蘇州上學,14歲就獲得獎學金到遠赴英國讀高中。領英主頁顯示,其本碩博均在劍橋大學就讀,2019年取得了工程專業的文學學士學位( 劍橋大學等部分高校保留傳統BA授予制度,其工程專業畢業生仍獲BA學位),2020年取得都柏林圣三一學院的工程學碩士學位,2023年獲得工程學哲學博士學位。
在本科就讀期間,沈俊瀟還曾回到上海摩根士丹利短期實習,在博士就讀期間,2022年,他到了Meta現實實驗室工作,擔任研究科學家職位。2024年沈俊瀟離職創業,聯合創立了Memories.ai。
▲左:沈俊瀟,右:Enmin Zhou(圖源:Memories.ai)
Memories.ai聯合創始人兼CTO Enmin Zhou,2020年從美國加州大學洛杉磯分校畢業,獲得數學與計算科學學士學位,后在美國布朗大學就讀數據科學專業,于2022年畢業。
本科就讀期間他也曾回到上海,在上海深察信息科技短暫實習,碩士畢業后在Meta就職,擔任機器學習工程師一職。2024年Enmin Zhou離職創業,聯合創立了Memories.ai。
在博客中,沈俊瀟寫道,他們正是因為意識到解決視覺記憶問題刻不容緩,才離開Meta共同創立Memories.ai。
二、視頻問答能力超越Gemini 2.5 Pro、OpenAI GPT 4o和GPT4.1
從性能上看,在視頻零樣本分類基準測試中,Memories.ai的分數都較歷史第一的模型PE-G都一定上漲,其中在HMD8數據庫中,分數上漲了7.6分,在K400數據庫中,分數上漲了6.6分。
視頻檢索基準測試中,Memories.ai在所有數據集中的分數都超越了歷史第一Perception Encoder,各項測試均奪得桂冠,其中在AVN數據集的文字轉視頻測試中,其分數較Perception Encoder提升了11分。
視頻問答基準測試中,Memories.ai在MVBench、NextQA以及Temp Compass數據集中,全面超越OpenAI GPT 4o;在ActivityNetQA和Perception Text數據集中,超越谷歌Gemini 2.5 Pro和OpenAI GPT4.1,取得新的性能記錄。
▲包括OpenAI和谷歌模型系統在內的比較數據,均源自OpenAI和谷歌各自的官方發布博客。
三、受人類記憶機制啟發,建立初始記憶架構
在另一篇技術博客中,沈俊瀟介紹到,Memories.ai的創造是受了人類記憶機制啟發,而創立的整個大視覺記憶模型的初始記憶架構,包括:
將記憶線索轉化為可搜索請求的查詢模型、用于粗粒度檢索的檢索模型、全模態索引模型、用于細粒度細節提取的選擇模型、用于記憶監控的反思模型,以及用于記憶重構的重建模型。
記憶檢索過程可分解為以下關鍵步驟:
1、記憶線索:激發回憶過程
回憶通常始于線索。線索可以是外部的,如問題、舊照片、旋律、氣味、地名;也可以是內部的,如念頭、情緒。當大腦接收線索時,會激活與目標記憶相關的特定神經網絡。
在系統中,采用查詢模型將線索(主要為基于文本的線索)轉化為具體的、可搜索的內容,涉及文本解析和轉錄等步驟,將線索轉化為適合后續處理的格式。
2、粗粒度檢索:初步 “篩選”
激活過程并非總是精確的,初始檢索往往粗略且泛化。大腦快速搜索海量信息,尋找與當前線索最匹配的模式,一些相關的視覺片段可能會被初步激活,此為 “線索依賴性回憶”。
在系統中,使用檢索模型進行粗粒度檢索。對于上一步解析的查詢對象,檢索模型選擇合適的數據庫和查詢方法,識別所有相關片段,減輕 “線索依賴性回憶” 的影響,并激活所有相關視覺片段。
3、細粒度細節提取:深度 “閱讀” 與 “編輯”
當初始線索激活相關區域后,大腦進入更精細的處理階段,記憶的重構特性開始顯現:
細節補全:大腦填補記憶的細節,這些細節可能基于對世界的理解、邏輯推理和過往經驗推斷補充。
關聯整合:大腦將不同信息片段(如視覺圖像、聽覺片段和情緒波動)關聯整合,形成更完整的記憶圖景。
過濾選擇:大腦根據當前目標和問題,從所有激活信息中過濾出最相關和最重要的片段,具有高度目的性。
在系統中,使用全模態字幕模型和選擇模型進行細粒度細節提取。對于所有視覺片段,全模態字幕代理結合記憶線索為關鍵核心內容添加字幕。選擇代理基于所有已字幕內容進行推理,篩選出若干最相關的視覺片段,縮小記憶搜索范圍,基本完成視覺記憶檢索過程。
4、記憶監控:記憶的 “自我校正”
回憶過程中,大腦會監控和驗證檢索到的信息,評估其準確性和真實性,包括將其與現有的知識、信念和其他相關記憶進行比較。若回憶信息與已知事實相矛盾,可能會嘗試進一步回憶或修正。
在系統中,使用反思模型進行記憶檢測和驗證。當檢索到的記憶內容與事實沖突或不一致時,會重新進入細粒度細節提取階段。
5、記憶重構:從碎片到 “精修版”
回憶復雜事件時,大腦傾向于提取事件的核心要點、主要參與者和關鍵結果,過濾掉較不重要或冗余的信息,將其概括為更易存儲和檢索的形式。重構過程還涉及將分散的記憶碎片整合成有意義的模式,組織成連貫的敘述或概念。
在系統中,使用重建模型進行記憶重構。基于記憶線索和所有當前檢索到的信息,識別信息模式,利用世界知識和邏輯推理補全缺失細節,過濾和精煉無關或冗余信息,將分散的感知、概念和情感片段整合成連貫、有意義的敘述或概念結構。
結語:或將成為AGI發展的重要節點
沈俊瀟在博客中稱“這是在通用人工智能(AGI)發展中的一步。”
Memories.ai此次推出的大型視覺記憶模型,在技術路徑上以人類大腦的記憶機制為參照構建了初始架構,其具備的視覺記憶檢索、整合及推理能力,在視頻分類、檢索、問答等基準測試中展現出一定性能優勢。
而800萬美元種子輪(約合人民幣5730萬元)融資的完成,也體現了投資機構對該技術方向的關注。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.