機器之心報道
機器之心編輯部
大家都在關注硅谷 AI 領頭羊們的搶人大戲,尤其是 Meta 近期又挖去了三位來自谷歌的 IMO 金牌研究者。
雖然說小扎(扎克伯格)鉚足了勁兒要重振 Llama 雄風,正如火如荼的進行人才大引進。
但是吧,挖進去的人在 Meta 顯山露水還需要一段時間,而從 Meta 離開的人的創(chuàng)業(yè)成果已經(jīng)嶄露頭角了。
Dr. Shawn Shen,聯(lián)合創(chuàng)始人兼首席執(zhí)行官(左);Ben (Enmin) Zhou,聯(lián)合創(chuàng)始人兼首席技術官(右)。
前 Meta Reality Labs頂尖科學家團隊創(chuàng)立的 AI 研究實驗室Memories.ai,正式宣布完成 800 萬美元種子輪融資。本輪融資由 Susa Ventures 領投,三星風投(Samsung Next)、Fusion Fund 等知名機構跟投。
Memories.ai 團隊已經(jīng)在大模型領域完成了一項重大的突破成果,劍指 AI 系統(tǒng)的「記憶缺失」問題,為視覺模型創(chuàng)造了強大的「記憶大腦」。
「最強大腦」
眾所周知,大模型是標標準準的「金魚記憶」
比如,大多數(shù) AI 系統(tǒng)都缺乏對歷史畫面的記憶,難以理解前后之間的關聯(lián)。
就像我們經(jīng)常開的玩笑,「記憶是個先進先出棧」,只不過大模型的棧容量似乎總是不夠用。
這種「金魚記憶」限制了它們在需要深入理解場景和動態(tài)變化的應用中發(fā)揮作用,尤其是在視頻密集型任務里表現(xiàn)不佳。
為了徹底解決這個問題,Memories.ai 通過其核心創(chuàng)新 —— 大視覺記憶模型(LVMM),為 AI 系統(tǒng)引入了一個革命性的視覺記憶層
該模型突破了傳統(tǒng) AI 在視頻處理中僅限于片段式分析的范式,轉而能夠持續(xù)捕獲、存儲和結構化海量的視覺數(shù)據(jù),從而使 AI 模型能夠:
永久保留上下文信息: 從孤立的幀轉向對事件因果鏈的深度理解。
精準識別時序模式: 實現(xiàn)對人臉、物體和行為在時間軸上的持續(xù)追蹤和識別。
智能對比分析: 快速對比新舊視覺信息,有效識別變化和異常。
該平臺把原始視頻轉化成可搜索、帶上下文關聯(lián)的數(shù)據(jù)庫,讓 AI 系統(tǒng)具備類似人類的持續(xù)學習能力,給 AI 系統(tǒng)配備了無限視覺記憶的「最強大腦」。這一突破讓 AI 在理解視頻和實際應用方面,邁出了里程碑式的一步。
該團隊的大視覺記憶模型不僅在多個視覺理解任務中刷新了 SOTA 基準,更提供了一種全新的視角來解決復雜視覺信息檢索與理解的挑戰(zhàn)。
這些結果充分證明了模型在視頻分類、視頻檢索和視頻問答領域的「卓越性能」。
尤其在視覺記憶檢索方面,能夠高效處理那些需要大規(guī)模內容檢索作為輔助參考的復雜查詢,從而顯著提升了模型的應用廣度與深度。
「巨大潛能」
LVMM 技術在多個關鍵領域展現(xiàn)出巨大的應用潛力,其核心優(yōu)勢在于:
- 時間跨度無限制: 能夠處理并記憶數(shù)月甚至數(shù)年的視頻數(shù)據(jù)。
- 上下文深度理解: 不僅識別物體,更能理解事件的因果鏈和時序模式。
- 高效檢索與分析: 將原始視頻轉化為可搜索數(shù)據(jù)庫,實現(xiàn)秒級檢索和分析。
該團隊已與多個領域的合作伙伴展開合作,推動 LVMM 技術的應用落地:
- 安防安全: 顯著提升監(jiān)控錄像的檢索效率,在數(shù)秒內搜索數(shù)月的數(shù)據(jù)。
- 媒體娛樂: 實現(xiàn)對數(shù)十年內容庫中特定場景或視覺元素的即時查找。
- 市場營銷: 對數(shù)百萬社交視頻進行深度情感和提及分析,捕捉新興趨勢。
- 消費電子: 為下一代移動體驗引入強大的視覺記憶能力,多家手機公司,如三星已成為首批合作對象之一。
Memories.ai 聯(lián)合創(chuàng)始人兼首席執(zhí)行官沈博士強調:「人類的智慧源于豐富的、相互關聯(lián)的視覺記憶。我們的使命是賦予 AI 這種深度的情境感知能力,以共同構建一個更安全、更智能的世界。」
「便捷交互」
為了讓用戶更直觀地體驗 LVMM(大視覺記憶模型)的強大能力,該團隊已將核心技術通過 API 接口全面開放,并同步推出直觀、可交互的網(wǎng)頁應用。用戶可以便捷地上傳視頻或接入現(xiàn)有視頻庫,實現(xiàn)快速、精準的內容檢索與深度分析。
借助毫秒級精度的檢索引擎,在視頻問答場景中展現(xiàn)了卓越的視頻幀級引用能力,真正實現(xiàn)了對視頻的多模態(tài)深度解析。
還有一系列的Demo Agents,展示了模型在不同場景下的應用能力,例如:
Video Creator對話式視頻創(chuàng)作助手,基于全球首個大視覺記憶模型,通過可自由編輯的提示詞模板,僅用簡單對話即可生成多剪輯高質量視頻。
Video Marketer是一個基于大視覺記憶模型的智能營銷工具,依托海量視頻數(shù)據(jù),能即時洞察 TikTok 的爆款趨勢、熱門開場白和頭部網(wǎng)紅策略,助力高效實現(xiàn)社交視頻營銷。
這些 Demo Agents 不僅是技術能力的展示,更是探索未來應用的起點。
如果你是一家公司,正被海量視頻數(shù)據(jù)淹沒;或者是一位對視覺記憶與智能交叉點著迷的研究者;又或者只是好奇當人工智能擁有記憶之后會變成什么樣 —— 歡迎訪問 https://memories.ai。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.