網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請入駐

密室逃脫成AI新考場，通關(guān)率不足50%，暴露空間推理短板

2025-07-14 14:03:09　來源: 量子位

北京舉報(bào)

分享至

清華大學(xué)團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

近年來，多模態(tài)大模型（MLLMs）發(fā)展迅猛，從看圖說話到視頻理解，似乎無所不能。

但你是否想過：它們真的“看懂”并“想通”了嗎？

模型在面對復(fù)雜的、多步驟的視覺推理任務(wù)時(shí)，能否像人類一樣推理和決策？

為評估多模態(tài)大模型在視覺環(huán)境中，完成復(fù)雜任務(wù)推理的能力。清華大學(xué)團(tuán)隊(duì)受密室逃脫游戲啟發(fā)，提出EscapeCraft：一個(gè)3D密室逃脫環(huán)境，讓大模型在3D密室中通過自由探索尋找道具，解鎖出口。

該論文目前已入選ICCV 2025。

EscapeCraft 環(huán)境

沉浸式互動(dòng)環(huán)境，靈感源自密室逃脫

研究團(tuán)隊(duì)打造了可自動(dòng)生成、靈活配置的 3D 場景 EscapeCraft，模型在里面自由行動(dòng)：找鑰匙、開箱子、解密碼、逃出房間……其中每一步都需整合視覺、空間、邏輯等多模態(tài)信息。

任務(wù)可擴(kuò)展，應(yīng)用無限可能

EscapeCraft以逃出房間為最終目的，重點(diǎn)評測逃脫過程中的探索和決策行為、推理路徑等。支持不同房間風(fēng)格、道具鏈長度與難度組合，還可擴(kuò)展到問答、邏輯推理、敘述重建等任務(wù)。它是一個(gè)高度靈活、可持續(xù)迭代的通用評測平臺(tái)，也可以為未來的智能體、多模態(tài)推理、強(qiáng)化學(xué)習(xí)等方向研究提供基礎(chǔ)環(huán)境、數(shù)據(jù)和獎(jiǎng)勵(lì)設(shè)置方面的支持。

EscapeCraft支持自由定制和擴(kuò)展想要的難度等級。不同難度等級下所需的逃脫步驟有所不同。

為了提高任務(wù)的難度，我們將線索放置在了墻上而不是箱子中，考驗(yàn)?zāi)Ｐ蛯τ诃h(huán)境信息的接收和處理能力，除此之外線索在房間的擺放位置也可自由選擇。

在第一個(gè)場景中，線索位于靠近出口的墻上，此時(shí)GPT-4o的表現(xiàn)更加出色，可以對線索進(jìn)行正確利用。

不過，當(dāng)我們把線索移動(dòng)到距離出口較遠(yuǎn)的墻上，GPT-4o開始不斷重復(fù)歷史路徑，無法對正確理解和利用線索，導(dǎo)致逃脫失敗。

模型推理和過程評測

Gemini-1.5-Pro 密室逃脫第一視角

這張圖展示了 Gemini-1.5-pro 模型成功逃脫一個(gè)房間的全過程。

開始的0到4步，模型原地不動(dòng)，通過旋轉(zhuǎn)視角來觀察房間的環(huán)境。

它先從右側(cè)開始旋轉(zhuǎn)，一步步查看房間的不同區(qū)域，試圖找到可交互的物體或線索，比如電視、桌子和椅子。

到了第五步，模型將視角對準(zhǔn)電視方向，繼續(xù)尋找可操作的元素，這時(shí)我們可以看到桌上有一把鑰匙。

第六步時(shí)，模型前進(jìn)并拾取了這把鑰匙。拿到鑰匙后，模型表示自己準(zhǔn)備轉(zhuǎn)身面對門，嘗試使用鑰匙。

接下來的步驟中，模型開始朝門的方向移動(dòng)，意圖解鎖房門。在移動(dòng)過程中，他多次調(diào)整視角，尤其是向上看，試圖確認(rèn)門的位置。

由于視角偏低，模型一開始沒能看到門，于是不斷微調(diào)視角方向來定位門的位置。

從“答對”到“會(huì)想”

與傳統(tǒng)只看最終任務(wù)結(jié)果的評測不同，EscapeCraft 關(guān)注整個(gè)任務(wù)完成過程：模型是否自主探索？有沒有重復(fù)犯錯(cuò)？道具用得對不對？從而真正測試模型的“類人推理過程”。

論文重點(diǎn)彌補(bǔ)以結(jié)果為導(dǎo)向的評估缺陷，強(qiáng)調(diào)中間推理過程。為此設(shè)計(jì)了多個(gè)衡量視覺感知、多模態(tài)推理、環(huán)境探索和工具獲取和利用的過程的創(chuàng)新指標(biāo)：

Intent-Outcome Consistency（意圖與結(jié)果一致性）：衡量模型與環(huán)境的交互結(jié)果是否和的模型的交互意圖一致，即模型是否“在正確的位置做正確的事”。

Prop Gain / Grab Ratio / GSR：刻畫模型在探索和推理過程中的行為模式，反映模型的交互質(zhì)量、推理效率、和智能程度。

評測結(jié)果顯示：GPT-4o 在 Difficulty-3 中僅有 26.5% 的子目標(biāo)達(dá)成是“真正理解后完成的”，其余大多為偶然成功（比如想拿電視卻誤抓到關(guān)鍵道具）。

研究還發(fā)現(xiàn)大量有趣失敗案例。例如：

模型面對不可交互的沙發(fā)，仍試圖抓取，并在“理由”中解釋“沙發(fā)下可能藏著鑰匙”；

模型原本已經(jīng)看見了關(guān)鍵道具，卻在移動(dòng)過程中將其“逐步移出視野”，隨后繼續(xù)提及該道具卻操作失敗……

團(tuán)隊(duì)據(jù)此將錯(cuò)誤拆分為兩類：

視覺感知錯(cuò)誤：誤判目標(biāo)是否可交互，視角控制失敗；

推理邏輯錯(cuò)誤：目標(biāo)設(shè)定錯(cuò)誤，或動(dòng)作與意圖不符。

其中 Claude 3.5 的錯(cuò)誤中，61.1% 屬于推理問題，38.9% 屬于視覺問題。這說明即便模型“看到了”，不代表它“想清楚了”。

誰能逃離“密室”？模型表現(xiàn)結(jié)果對比

單房間逃脫結(jié)果統(tǒng)計(jì)，包括3個(gè)不同難度級別（數(shù)值越大越難）。

研究評測了包括 GPT-4o、Gemini-1.5 Pro、Claude 3.5、LLaMA-3.2、Qwen、Phi-3 等熱門模型，發(fā)現(xiàn)：

在任務(wù)評價(jià)指標(biāo)方面：

GPT-4o 逃脫成功率（ER）最佳，但在任務(wù)復(fù)雜度提升后仍頻頻出錯(cuò)；

國產(chǎn)大模型Doubao 1.5 Pro在最簡單的關(guān)卡中，逃脫成功率超越Gemini 1.5 Pro和Claude 3.5 Sonnet；并且其交互成功率（Grab SR）超越GPT-4o和Claude 3.5 Sonnet；

即使模型逃脫成功率相同，EscapeCraft依然能利用道具獲取率（Prop）、使用步數(shù)（Step），交互成功率（Grab SR）和交互率（Grab Ratio）對模型進(jìn)行比較。

比如，在“Difficult-2”中，Gemini 1.5 Pro和Claude 3.5 Sonnet有相同的逃脫成功率和道具獲取率，但是Gemini 1.5 Pro憑借較高的交互率，即使它的交互成功率較低，也能通過相對較少的步數(shù)成功逃脫；而Claude 3.5 Sonnet雖然交互率低，但每一步交互的成功率較高，體現(xiàn)出該模型完成任務(wù)時(shí)的“深思熟慮”。

在推理和探索行為方面：

Gemini 和 Claude 常在房間角落“卡住”，空間方向等判斷失誤，空轉(zhuǎn)失敗；

多數(shù)模型容易“反復(fù)抓錯(cuò)”或“認(rèn)錯(cuò)道具”，他們的失敗方式也各有特色：有的不會(huì)動(dòng)、有的亂動(dòng)、有的只移動(dòng)不采取交互行動(dòng)、有的動(dòng)作對了但“目的不清”……；

子目標(biāo)達(dá)成率雖高，但意圖-結(jié)果一致性普遍低下，即“想要和沙發(fā)交互，但是意外地拿到鑰匙”；

在多房間設(shè)定下，模型能從第一個(gè)房間學(xué)習(xí)到的逃脫經(jīng)驗(yàn)有限，僅在兩個(gè)房間關(guān)卡設(shè)定相似的條件下有輔助作用。

項(xiàng)目主頁：
https://thunlp-mt.github.io/EscapeCraft
GitHub 地址：
https://github.com/THUNLP-MT/EscapeCraft
論文原文：
https://arxiv.org/abs/2503.10042v4

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.