99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

謝賽寧、李飛飛「空間智能」新作:多模態大模型仍難突破空間推理

0
分享至


大數據文摘受權轉載自學術頭條

整理:學術君

人類擁有視覺空間智能,可以通過連續的視覺觀察記憶空間。然而,在百萬規模的視頻數據集上訓練的多模態大語言模型(MLLMs)也能從視頻中進行“空間思維”嗎?

今日凌晨,紐約大學計算機科學助理教授謝賽寧團隊聯合“AI 教母”、斯坦福大學首位紅杉講席教授李飛飛和耶魯大學計算機科學與經濟學本科生 Rilyn Han,在一項名為“空間思維”(Thinking in Space)的研究中,探索了 MLLM 如何看見、記憶和回憶空間。


他們發現,雖然空間推理能力仍然是 MLLM 達到更高基準性能的主要瓶頸,但在這些模型中確實出現了局部世界模型和空間意識。

謝賽寧在 X 上發文稱,“在視覺方面,人類處理空間,但很少推理;多模態大語言模型思考,但往往忽略空間邏輯。然而,作為人類,從進行心智旋轉測驗到為新家挑選家具,人類都依賴于空間和視覺思維,但這些思維并不總能很好地轉化為語言。”

先看看官方給出的 demo:

視頻以 2 倍速播放

基于以上視頻中的情景,研究團隊測試了 Gemini-1.5 Pro 的空間智能能力,結果發現,Gemini-1.5 Pro 無一答對。以下是一些問答案例:

問:如果我站在冰箱旁,面對著洗衣機,那么爐子在我的左邊、右邊還是后面?如果我至少要轉 135 度才能面對一個物體,那么它就在我的后面。


問:從每個物體的最近點測量,哪個物體(桌子、凳子、沙發、爐子)離電視最近?


問:以下類別在視頻中的首次出現順序是什么:毯子、垃圾桶、微波爐、植物?


值得注意的是,目前流行的語言推理技術(如思維鏈、自洽性、思維樹)無法提高空間推理能力,而在問答過程中明確生成認知地圖可提高 MLLM 的空間距離能力。

據介紹,研究團隊通過研究涵蓋各種視覺空間智能任務(包括關系任務和度量任務)的新基準來探索這一問題。視頻是一種天然的媒介——它反映了人類體驗世界的方式,并要求較長形式的推理(以及世界建模)。

那么,他們究竟是如何獲得數據和標注的呢?在先前計算機視覺工作的基礎上,他們重新利用了現有的空間掃描視頻,并利用其 ground-truth 標注自動生成 VQA 問題。人類仍在環路中進行質量控制。


他們提出了一個新穎的基于視頻的視覺空間智能基準(VSI-Bench),通過 5000 多個問答對,他們發現 MLLM 顯示出具有競爭力的視覺空間智能,盡管仍低于人類。Gemini Pro 模型表現最佳,但與人類的表現仍有差距。雖然這對人類來說也并非易事(我們有時確實會迷失方向),但人類可以調整和完善我們的心智模型,而目前的 LLM 卻無法做到這一點。


謝賽寧表示,他最喜歡的部分之一就是分析表明這些任務與以語言為中心的智能有多么不同。當被要求進行解釋時,LLM 顯示,空間推理——而非物體識別或語言能力——是主要瓶頸,經常在視角轉換、自我中心轉換方面掙扎,并在較長的視野中失去對事物的追蹤。


另一個例子是,語言提示技術在這種情況下并不有效——CoT 或多數投票(majority voting)等方法實際上對我們的任務相當不利。

但值得注意的是,這些技術對于一般的視頻分析任務(如 VideoMME 中的任務)也是有效的。這再次強調了兩者的區別:并非所有視頻都是一樣的,理解電影情節等內容更依賴于語言智能,而不是視覺空間智能。


最后,他們還通過提示(prompting)模型在笛卡爾網格上“可視化”其記憶來探究模型,其中每個被占據的單元格都代表一個物體中心。

研究發現,在處理空間信息時,MLLM 會從給定的視頻中構建一系列局部世界模型,而不是一個連貫的全局模型。當問題涉及相距甚遠的物體時,這種局限性會迅速顯現出來。

這些觀察結果表明,該領域未來研究的一個重要方向是開發更有效的空間記憶機制。


謝賽寧表示,他們深信,視覺空間智能在現實世界中的應用比以往任何時候都要接近——想象一下,人工智能眼鏡能向你展示你去過的地方,讓你知道你在哪里,并指引你去你想去的地方。

論文地址:https://arxiv.org/abs/2412.14171

租售GPU算力

租:4090/A800/H800/H100

售:現貨H100/H800

特別適合企業級應用

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上海一男子將煙頭丟在木地板縫隙引發火災,被行拘

上海一男子將煙頭丟在木地板縫隙引發火災,被行拘

環球網資訊
2025-05-03 10:13:10
為什么現在孩子罵不得?不是玻璃心,他們的大腦已經發生可怕變化

為什么現在孩子罵不得?不是玻璃心,他們的大腦已經發生可怕變化

小鬼頭體育
2025-04-30 09:11:42
莫迪瘋了!印巴大戰已經開打,南亞要炸鍋了?

莫迪瘋了!印巴大戰已經開打,南亞要炸鍋了?

大嘴說天下
2025-05-01 22:44:25
扎帕羅夫:曾坐過監獄,祖籍中國新疆成為吉爾吉斯斯坦總統

扎帕羅夫:曾坐過監獄,祖籍中國新疆成為吉爾吉斯斯坦總統

起喜電影
2025-04-29 00:44:43
中美貿易風云又起!中國商務部發聲,信息量超大

中美貿易風云又起!中國商務部發聲,信息量超大

涼羽亭
2025-05-02 23:50:17
李小璐霍思燕姐妹聚會,兩人都素顏,體重過百的霍思燕更顯臉瘦

李小璐霍思燕姐妹聚會,兩人都素顏,體重過百的霍思燕更顯臉瘦

鑫鑫說說
2025-05-03 09:16:53
孟加拉主席:若印度攻擊巴基斯坦,孟加拉國將占領印度東北地區

孟加拉主席:若印度攻擊巴基斯坦,孟加拉國將占領印度東北地區

南方健哥
2025-05-03 11:05:47
66歲倪萍:若有來生,我既不要爹娘,也不要孩子,更不要家庭

66歲倪萍:若有來生,我既不要爹娘,也不要孩子,更不要家庭

我不叫阿哏
2025-05-01 02:05:19
俄羅斯已經吞下了一枚毒誘餌

俄羅斯已經吞下了一枚毒誘餌

魔幻故事
2025-04-26 15:58:56
又一次全國大拆遷開始了?這次和10年前暴富的那一次有啥區別?

又一次全國大拆遷開始了?這次和10年前暴富的那一次有啥區別?

巢客HOME
2025-05-01 05:35:04
國家發改委領導有調整

國家發改委領導有調整

魯中晨報
2025-05-02 07:36:19
防守強硬!阿門13中5拿到14分7板2助3斷

防守強硬!阿門13中5拿到14分7板2助3斷

直播吧
2025-05-03 12:07:17
老知青臨終前讓女兒找陜北初戀,見最后一面,女兒見到后,傻眼了

老知青臨終前讓女兒找陜北初戀,見最后一面,女兒見到后,傻眼了

紙鳶奇譚
2025-04-30 16:08:09
母雞不用和公雞交配就能產蛋,那么公雞存在的意義是什么?

母雞不用和公雞交配就能產蛋,那么公雞存在的意義是什么?

宇宙時空
2025-05-02 16:00:12
中國女排集訓直播透露3個信號,主力陣容浮現,當家球星王者歸來

中國女排集訓直播透露3個信號,主力陣容浮現,當家球星王者歸來

吾愛女排
2025-05-03 08:01:50
為啥娃七八歲后家長就不熱衷于曬娃了?網友:自己看!

為啥娃七八歲后家長就不熱衷于曬娃了?網友:自己看!

有趣的火烈鳥
2025-04-09 16:25:09
如果發生經濟大蕭條,普通人該怎么辦?

如果發生經濟大蕭條,普通人該怎么辦?

深度報
2025-03-21 23:46:28
華為Mate80爆料翻車!內置風扇可能沒了,但新麒麟芯片實錘了!

華為Mate80爆料翻車!內置風扇可能沒了,但新麒麟芯片實錘了!

小8說科技
2025-05-01 17:39:43
快船掘金看起來筋疲力盡了!美記:還有個72-14的球隊在等他們

快船掘金看起來筋疲力盡了!美記:還有個72-14的球隊在等他們

直播吧
2025-05-02 12:47:47
交警提醒:5月1號起,除了戴頭盔,電動車上路繼續“3必查”

交警提醒:5月1號起,除了戴頭盔,電動車上路繼續“3必查”

錘不倒的拖油瓶
2025-05-02 05:25:12
2025-05-03 12:20:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6611文章數 94407關注度
往期回顧 全部

科技要聞

特朗普下手,英偉達對華“特供版”要改

頭條要聞

石破茂對美強硬表態:絕不接受對汽車加征關稅

頭條要聞

石破茂對美強硬表態:絕不接受對汽車加征關稅

體育要聞

盧的調整,雖遲但到

娛樂要聞

趙又廷節目中高調撒糖 大贊高圓圓超好

財經要聞

巴菲特年度盛會,六大看點前曕!

汽車要聞

易三方科技體驗日·北京站上演硬核駕控

態度原創

家居
健康
手機
親子
公開課

家居要聞

意式輕奢 低飽和質感美學

唇皰疹和口腔潰瘍是"同伙"嗎?

手機要聞

Google NotebookLM Android 和 iOS 應用現已開放預訂

親子要聞

這個方法真好用

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 都安| 平昌县| 怀化市| 宁乡县| 八宿县| 防城港市| 黎川县| 桃园市| 固安县| 哈巴河县| 库伦旗| 邯郸县| 广水市| 柳河县| 竹北市| 惠安县| 黑山县| 大丰市| 垦利县| 宣汉县| 遂川县| 分宜县| 抚顺市| 青浦区| 蓬安县| 绥棱县| 囊谦县| 房产| 三穗县| 沐川县| 通辽市| 会宁县| 宁陵县| 武夷山市| 建湖县| 靖西县| 铁岭县| 普格县| 石台县| 佳木斯市| 瑞安市|