清華大學(xué)團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI
近年來,多模態(tài)大模型(MLLMs)發(fā)展迅猛,從看圖說話到視頻理解,似乎無所不能。
但你是否想過:它們真的“看懂”并“想通”了嗎?
模型在面對復(fù)雜的、多步驟的視覺推理任務(wù)時(shí),能否像人類一樣推理和決策?
為評估多模態(tài)大模型在視覺環(huán)境中,完成復(fù)雜任務(wù)推理的能力。清華大學(xué)團(tuán)隊(duì)受密室逃脫游戲啟發(fā),提出EscapeCraft:一個(gè)3D密室逃脫環(huán)境,讓大模型在3D密室中通過自由探索尋找道具,解鎖出口。
該論文目前已入選ICCV 2025。
EscapeCraft 環(huán)境
沉浸式互動(dòng)環(huán)境,靈感源自密室逃脫
研究團(tuán)隊(duì)打造了可自動(dòng)生成、靈活配置的 3D 場景 EscapeCraft,模型在里面自由行動(dòng):找鑰匙、開箱子、解密碼、逃出房間……其中每一步都需整合視覺、空間、邏輯等多模態(tài)信息。
任務(wù)可擴(kuò)展,應(yīng)用無限可能
EscapeCraft以逃出房間為最終目的,重點(diǎn)評測逃脫過程中的探索和決策行為、推理路徑等。支持不同房間風(fēng)格、道具鏈長度與難度組合,還可擴(kuò)展到問答、邏輯推理、敘述重建等任務(wù)。它是一個(gè)高度靈活、可持續(xù)迭代的通用評測平臺(tái),也可以為未來的智能體、多模態(tài)推理、強(qiáng)化學(xué)習(xí)等方向研究提供基礎(chǔ)環(huán)境、數(shù)據(jù)和獎(jiǎng)勵(lì)設(shè)置方面的支持。
EscapeCraft支持自由定制和擴(kuò)展想要的難度等級。不同難度等級下所需的逃脫步驟有所不同。
為了提高任務(wù)的難度,我們將線索放置在了墻上而不是箱子中,考驗(yàn)?zāi)P蛯τ诃h(huán)境信息的接收和處理能力,除此之外線索在房間的擺放位置也可自由選擇。
在第一個(gè)場景中,線索位于靠近出口的墻上,此時(shí)GPT-4o的表現(xiàn)更加出色,可以對線索進(jìn)行正確利用。
不過,當(dāng)我們把線索移動(dòng)到距離出口較遠(yuǎn)的墻上,GPT-4o開始不斷重復(fù)歷史路徑,無法對正確理解和利用線索,導(dǎo)致逃脫失敗。
模型推理和過程評測
Gemini-1.5-Pro 密室逃脫第一視角
這張圖展示了 Gemini-1.5-pro 模型成功逃脫一個(gè)房間的全過程。
開始的0到4步,模型原地不動(dòng),通過旋轉(zhuǎn)視角來觀察房間的環(huán)境。
它先從右側(cè)開始旋轉(zhuǎn),一步步查看房間的不同區(qū)域,試圖找到可交互的物體或線索,比如電視、桌子和椅子。
到了第五步,模型將視角對準(zhǔn)電視方向,繼續(xù)尋找可操作的元素,這時(shí)我們可以看到桌上有一把鑰匙。
第六步時(shí),模型前進(jìn)并拾取了這把鑰匙。拿到鑰匙后,模型表示自己準(zhǔn)備轉(zhuǎn)身面對門,嘗試使用鑰匙。
接下來的步驟中,模型開始朝門的方向移動(dòng),意圖解鎖房門。在移動(dòng)過程中,他多次調(diào)整視角,尤其是向上看,試圖確認(rèn)門的位置。
由于視角偏低,模型一開始沒能看到門,于是不斷微調(diào)視角方向來定位門的位置。
從“答對”到“會(huì)想”
與傳統(tǒng)只看最終任務(wù)結(jié)果的評測不同,EscapeCraft 關(guān)注整個(gè)任務(wù)完成過程:模型是否自主探索?有沒有重復(fù)犯錯(cuò)?道具用得對不對?從而真正測試模型的“類人推理過程”。
論文重點(diǎn)彌補(bǔ)以結(jié)果為導(dǎo)向的評估缺陷,強(qiáng)調(diào)中間推理過程。為此設(shè)計(jì)了多個(gè)衡量視覺感知、多模態(tài)推理、環(huán)境探索和工具獲取和利用的過程的創(chuàng)新指標(biāo):
Intent-Outcome Consistency(意圖與結(jié)果一致性):衡量模型與環(huán)境的交互結(jié)果是否和的模型的交互意圖一致,即模型是否“在正確的位置做正確的事”。
Prop Gain / Grab Ratio / GSR:刻畫模型在探索和推理過程中的行為模式,反映模型的交互質(zhì)量、推理效率、和智能程度。
評測結(jié)果顯示:GPT-4o 在 Difficulty-3 中僅有 26.5% 的子目標(biāo)達(dá)成是“真正理解后完成的”,其余大多為偶然成功(比如想拿電視卻誤抓到關(guān)鍵道具)。
研究還發(fā)現(xiàn)大量有趣失敗案例。例如:
模型面對不可交互的沙發(fā),仍試圖抓取,并在“理由”中解釋“沙發(fā)下可能藏著鑰匙”;
模型原本已經(jīng)看見了關(guān)鍵道具,卻在移動(dòng)過程中將其“逐步移出視野”,隨后繼續(xù)提及該道具卻操作失敗……
團(tuán)隊(duì)據(jù)此將錯(cuò)誤拆分為兩類:
視覺感知錯(cuò)誤:誤判目標(biāo)是否可交互,視角控制失敗;
推理邏輯錯(cuò)誤:目標(biāo)設(shè)定錯(cuò)誤,或動(dòng)作與意圖不符。
其中 Claude 3.5 的錯(cuò)誤中,61.1% 屬于推理問題,38.9% 屬于視覺問題。這說明即便模型“看到了”,不代表它“想清楚了”。
誰能逃離“密室”?模型表現(xiàn)結(jié)果對比
單房間逃脫結(jié)果統(tǒng)計(jì),包括3個(gè)不同難度級別(數(shù)值越大越難)。
研究評測了包括 GPT-4o、Gemini-1.5 Pro、Claude 3.5、LLaMA-3.2、Qwen、Phi-3 等熱門模型,發(fā)現(xiàn):
在任務(wù)評價(jià)指標(biāo)方面:
GPT-4o 逃脫成功率(ER)最佳,但在任務(wù)復(fù)雜度提升后仍頻頻出錯(cuò);
國產(chǎn)大模型Doubao 1.5 Pro在最簡單的關(guān)卡中,逃脫成功率超越Gemini 1.5 Pro和Claude 3.5 Sonnet;并且其交互成功率(Grab SR)超越GPT-4o和Claude 3.5 Sonnet;
即使模型逃脫成功率相同,EscapeCraft依然能利用道具獲取率(Prop)、使用步數(shù)(Step),交互成功率(Grab SR)和交互率(Grab Ratio)對模型進(jìn)行比較。
比如,在“Difficult-2”中,Gemini 1.5 Pro和Claude 3.5 Sonnet有相同的逃脫成功率和道具獲取率,但是Gemini 1.5 Pro憑借較高的交互率,即使它的交互成功率較低,也能通過相對較少的步數(shù)成功逃脫;而Claude 3.5 Sonnet雖然交互率低,但每一步交互的成功率較高,體現(xiàn)出該模型完成任務(wù)時(shí)的“深思熟慮”。
在推理和探索行為方面:
Gemini 和 Claude 常在房間角落“卡住”,空間方向等判斷失誤,空轉(zhuǎn)失敗;
多數(shù)模型容易“反復(fù)抓錯(cuò)”或“認(rèn)錯(cuò)道具”,他們的失敗方式也各有特色:有的不會(huì)動(dòng)、有的亂動(dòng)、有的只移動(dòng)不采取交互行動(dòng)、有的動(dòng)作對了但“目的不清”……;
子目標(biāo)達(dá)成率雖高,但意圖-結(jié)果一致性普遍低下,即“想要和沙發(fā)交互,但是意外地拿到鑰匙”;
在多房間設(shè)定下,模型能從第一個(gè)房間學(xué)習(xí)到的逃脫經(jīng)驗(yàn)有限,僅在兩個(gè)房間關(guān)卡設(shè)定相似的條件下有輔助作用。
項(xiàng)目主頁:
https://thunlp-mt.github.io/EscapeCraft
GitHub 地址:
https://github.com/THUNLP-MT/EscapeCraft
論文原文:
https://arxiv.org/abs/2503.10042v4
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.