網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Meta出走華人創(chuàng)業(yè)團隊，種子輪800萬美元，要打造視覺AI記憶大腦

2025-07-25 10:33:53　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

大家都在關注硅谷 AI 領頭羊們的搶人大戲，尤其是 Meta 近期又挖去了三位來自谷歌的 IMO 金牌研究者。

雖然說小扎（扎克伯格）鉚足了勁兒要重振 Llama 雄風，正如火如荼的進行人才大引進。

但是吧，挖進去的人在 Meta 顯山露水還需要一段時間，而從 Meta 離開的人的創(chuàng)業(yè)成果已經(jīng)嶄露頭角了。

Dr. Shawn Shen，聯(lián)合創(chuàng)始人兼首席執(zhí)行官（左）；Ben (Enmin) Zhou，聯(lián)合創(chuàng)始人兼首席技術官（右）。

前 Meta Reality Labs頂尖科學家團隊創(chuàng)立的 AI 研究實驗室Memories.ai，正式宣布完成 800 萬美元種子輪融資。本輪融資由 Susa Ventures 領投，三星風投（Samsung Next）、Fusion Fund 等知名機構跟投。

Memories.ai 團隊已經(jīng)在大模型領域完成了一項重大的突破成果，劍指 AI 系統(tǒng)的「記憶缺失」問題，為視覺模型創(chuàng)造了強大的「記憶大腦」。

「最強大腦」

眾所周知，大模型是標標準準的「金魚記憶」

比如，大多數(shù) AI 系統(tǒng)都缺乏對歷史畫面的記憶，難以理解前后之間的關聯(lián)。

就像我們經(jīng)常開的玩笑，「記憶是個先進先出棧」，只不過大模型的棧容量似乎總是不夠用。

這種「金魚記憶」限制了它們在需要深入理解場景和動態(tài)變化的應用中發(fā)揮作用，尤其是在視頻密集型任務里表現(xiàn)不佳。

為了徹底解決這個問題，Memories.ai 通過其核心創(chuàng)新 —— 大視覺記憶模型（LVMM），為 AI 系統(tǒng)引入了一個革命性的視覺記憶層

該模型突破了傳統(tǒng) AI 在視頻處理中僅限于片段式分析的范式，轉而能夠持續(xù)捕獲、存儲和結構化海量的視覺數(shù)據(jù)，從而使 AI 模型能夠：

永久保留上下文信息：從孤立的幀轉向對事件因果鏈的深度理解。

精準識別時序模式：實現(xiàn)對人臉、物體和行為在時間軸上的持續(xù)追蹤和識別。

智能對比分析：快速對比新舊視覺信息，有效識別變化和異常。

該平臺把原始視頻轉化成可搜索、帶上下文關聯(lián)的數(shù)據(jù)庫，讓 AI 系統(tǒng)具備類似人類的持續(xù)學習能力，給 AI 系統(tǒng)配備了無限視覺記憶的「最強大腦」。這一突破讓 AI 在理解視頻和實際應用方面，邁出了里程碑式的一步。

該團隊的大視覺記憶模型不僅在多個視覺理解任務中刷新了 SOTA 基準，更提供了一種全新的視角來解決復雜視覺信息檢索與理解的挑戰(zhàn)。

這些結果充分證明了模型在視頻分類、視頻檢索和視頻問答領域的「卓越性能」。

尤其在視覺記憶檢索方面，能夠高效處理那些需要大規(guī)模內容檢索作為輔助參考的復雜查詢，從而顯著提升了模型的應用廣度與深度。

「巨大潛能」

LVMM 技術在多個關鍵領域展現(xiàn)出巨大的應用潛力，其核心優(yōu)勢在于：

時間跨度無限制：能夠處理并記憶數(shù)月甚至數(shù)年的視頻數(shù)據(jù)。
上下文深度理解：不僅識別物體，更能理解事件的因果鏈和時序模式。
高效檢索與分析：將原始視頻轉化為可搜索數(shù)據(jù)庫，實現(xiàn)秒級檢索和分析。

該團隊已與多個領域的合作伙伴展開合作，推動 LVMM 技術的應用落地：

安防安全：顯著提升監(jiān)控錄像的檢索效率，在數(shù)秒內搜索數(shù)月的數(shù)據(jù)。
媒體娛樂：實現(xiàn)對數(shù)十年內容庫中特定場景或視覺元素的即時查找。
市場營銷：對數(shù)百萬社交視頻進行深度情感和提及分析，捕捉新興趨勢。
消費電子：為下一代移動體驗引入強大的視覺記憶能力，多家手機公司，如三星已成為首批合作對象之一。

Memories.ai 聯(lián)合創(chuàng)始人兼首席執(zhí)行官沈博士強調：「人類的智慧源于豐富的、相互關聯(lián)的視覺記憶。我們的使命是賦予 AI 這種深度的情境感知能力，以共同構建一個更安全、更智能的世界。」

「便捷交互」

為了讓用戶更直觀地體驗 LVMM（大視覺記憶模型）的強大能力，該團隊已將核心技術通過 API 接口全面開放，并同步推出直觀、可交互的網(wǎng)頁應用。用戶可以便捷地上傳視頻或接入現(xiàn)有視頻庫，實現(xiàn)快速、精準的內容檢索與深度分析。

借助毫秒級精度的檢索引擎，在視頻問答場景中展現(xiàn)了卓越的視頻幀級引用能力，真正實現(xiàn)了對視頻的多模態(tài)深度解析。

還有一系列的Demo Agents，展示了模型在不同場景下的應用能力，例如：

Video Creator對話式視頻創(chuàng)作助手，基于全球首個大視覺記憶模型，通過可自由編輯的提示詞模板，僅用簡單對話即可生成多剪輯高質量視頻。

Video Marketer是一個基于大視覺記憶模型的智能營銷工具，依托海量視頻數(shù)據(jù)，能即時洞察 TikTok 的爆款趨勢、熱門開場白和頭部網(wǎng)紅策略，助力高效實現(xiàn)社交視頻營銷。

這些 Demo Agents 不僅是技術能力的展示，更是探索未來應用的起點。

如果你是一家公司，正被海量視頻數(shù)據(jù)淹沒；或者是一位對視覺記憶與智能交叉點著迷的研究者；又或者只是好奇當人工智能擁有記憶之后會變成什么樣 —— 歡迎訪問 https://memories.ai。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.