大數據文摘受權轉載自學術頭條
整理:學術君
人類擁有視覺空間智能,可以通過連續的視覺觀察記憶空間。然而,在百萬規模的視頻數據集上訓練的多模態大語言模型(MLLMs)也能從視頻中進行“空間思維”嗎?
今日凌晨,紐約大學計算機科學助理教授謝賽寧團隊聯合“AI 教母”、斯坦福大學首位紅杉講席教授李飛飛和耶魯大學計算機科學與經濟學本科生 Rilyn Han,在一項名為“空間思維”(Thinking in Space)的研究中,探索了 MLLM 如何看見、記憶和回憶空間。
他們發現,雖然空間推理能力仍然是 MLLM 達到更高基準性能的主要瓶頸,但在這些模型中確實出現了局部世界模型和空間意識。
謝賽寧在 X 上發文稱,“在視覺方面,人類處理空間,但很少推理;多模態大語言模型思考,但往往忽略空間邏輯。然而,作為人類,從進行心智旋轉測驗到為新家挑選家具,人類都依賴于空間和視覺思維,但這些思維并不總能很好地轉化為語言。”
先看看官方給出的 demo:
視頻以 2 倍速播放
基于以上視頻中的情景,研究團隊測試了 Gemini-1.5 Pro 的空間智能能力,結果發現,Gemini-1.5 Pro 無一答對。以下是一些問答案例:
問:如果我站在冰箱旁,面對著洗衣機,那么爐子在我的左邊、右邊還是后面?如果我至少要轉 135 度才能面對一個物體,那么它就在我的后面。
問:從每個物體的最近點測量,哪個物體(桌子、凳子、沙發、爐子)離電視最近?
問:以下類別在視頻中的首次出現順序是什么:毯子、垃圾桶、微波爐、植物?
值得注意的是,目前流行的語言推理技術(如思維鏈、自洽性、思維樹)無法提高空間推理能力,而在問答過程中明確生成認知地圖可提高 MLLM 的空間距離能力。
據介紹,研究團隊通過研究涵蓋各種視覺空間智能任務(包括關系任務和度量任務)的新基準來探索這一問題。視頻是一種天然的媒介——它反映了人類體驗世界的方式,并要求較長形式的推理(以及世界建模)。
那么,他們究竟是如何獲得數據和標注的呢?在先前計算機視覺工作的基礎上,他們重新利用了現有的空間掃描視頻,并利用其 ground-truth 標注自動生成 VQA 問題。人類仍在環路中進行質量控制。
他們提出了一個新穎的基于視頻的視覺空間智能基準(VSI-Bench),通過 5000 多個問答對,他們發現 MLLM 顯示出具有競爭力的視覺空間智能,盡管仍低于人類。Gemini Pro 模型表現最佳,但與人類的表現仍有差距。雖然這對人類來說也并非易事(我們有時確實會迷失方向),但人類可以調整和完善我們的心智模型,而目前的 LLM 卻無法做到這一點。
謝賽寧表示,他最喜歡的部分之一就是分析表明這些任務與以語言為中心的智能有多么不同。當被要求進行解釋時,LLM 顯示,空間推理——而非物體識別或語言能力——是主要瓶頸,經常在視角轉換、自我中心轉換方面掙扎,并在較長的視野中失去對事物的追蹤。
另一個例子是,語言提示技術在這種情況下并不有效——CoT 或多數投票(majority voting)等方法實際上對我們的任務相當不利。
但值得注意的是,這些技術對于一般的視頻分析任務(如 VideoMME 中的任務)也是有效的。這再次強調了兩者的區別:并非所有視頻都是一樣的,理解電影情節等內容更依賴于語言智能,而不是視覺空間智能。
最后,他們還通過提示(prompting)模型在笛卡爾網格上“可視化”其記憶來探究模型,其中每個被占據的單元格都代表一個物體中心。
研究發現,在處理空間信息時,MLLM 會從給定的視頻中構建一系列局部世界模型,而不是一個連貫的全局模型。當問題涉及相距甚遠的物體時,這種局限性會迅速顯現出來。
這些觀察結果表明,該領域未來研究的一個重要方向是開發更有效的空間記憶機制。
謝賽寧表示,他們深信,視覺空間智能在現實世界中的應用比以往任何時候都要接近——想象一下,人工智能眼鏡能向你展示你去過的地方,讓你知道你在哪里,并指引你去你想去的地方。
論文地址:https://arxiv.org/abs/2412.14171
租售GPU算力
租:4090/A800/H800/H100
售:現貨H100/H800
特別適合企業級應用
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.