99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

密室逃脫成AI新考場,通關(guān)率不足50%,暴露空間推理短板

0
分享至

清華大學(xué)團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

近年來,多模態(tài)大模型(MLLMs)發(fā)展迅猛,從看圖說話到視頻理解,似乎無所不能。

但你是否想過:它們真的“看懂”并“想通”了嗎?

模型在面對復(fù)雜的、多步驟的視覺推理任務(wù)時(shí),能否像人類一樣推理和決策?

為評估多模態(tài)大模型在視覺環(huán)境中,完成復(fù)雜任務(wù)推理的能力。清華大學(xué)團(tuán)隊(duì)受密室逃脫游戲啟發(fā),提出EscapeCraft:一個(gè)3D密室逃脫環(huán)境,讓大模型在3D密室中通過自由探索尋找道具,解鎖出口。

該論文目前已入選ICCV 2025。



EscapeCraft 環(huán)境

沉浸式互動(dòng)環(huán)境,靈感源自密室逃脫

研究團(tuán)隊(duì)打造了可自動(dòng)生成、靈活配置的 3D 場景 EscapeCraft,模型在里面自由行動(dòng):找鑰匙、開箱子、解密碼、逃出房間……其中每一步都需整合視覺、空間、邏輯等多模態(tài)信息。

任務(wù)可擴(kuò)展,應(yīng)用無限可能

EscapeCraft以逃出房間為最終目的,重點(diǎn)評測逃脫過程中的探索和決策行為、推理路徑等。支持不同房間風(fēng)格、道具鏈長度與難度組合,還可擴(kuò)展到問答、邏輯推理、敘述重建等任務(wù)。它是一個(gè)高度靈活、可持續(xù)迭代的通用評測平臺(tái),也可以為未來的智能體、多模態(tài)推理、強(qiáng)化學(xué)習(xí)等方向研究提供基礎(chǔ)環(huán)境、數(shù)據(jù)和獎(jiǎng)勵(lì)設(shè)置方面的支持。

EscapeCraft支持自由定制和擴(kuò)展想要的難度等級。不同難度等級下所需的逃脫步驟有所不同。



為了提高任務(wù)的難度,我們將線索放置在了墻上而不是箱子中,考驗(yàn)?zāi)P蛯τ诃h(huán)境信息的接收和處理能力,除此之外線索在房間的擺放位置也可自由選擇。

在第一個(gè)場景中,線索位于靠近出口的墻上,此時(shí)GPT-4o的表現(xiàn)更加出色,可以對線索進(jìn)行正確利用。

不過,當(dāng)我們把線索移動(dòng)到距離出口較遠(yuǎn)的墻上,GPT-4o開始不斷重復(fù)歷史路徑,無法對正確理解和利用線索,導(dǎo)致逃脫失敗。



模型推理和過程評測

Gemini-1.5-Pro 密室逃脫第一視角



這張圖展示了 Gemini-1.5-pro 模型成功逃脫一個(gè)房間的全過程。

開始的0到4步,模型原地不動(dòng),通過旋轉(zhuǎn)視角來觀察房間的環(huán)境。

它先從右側(cè)開始旋轉(zhuǎn),一步步查看房間的不同區(qū)域,試圖找到可交互的物體或線索,比如電視、桌子和椅子。

到了第五步,模型將視角對準(zhǔn)電視方向,繼續(xù)尋找可操作的元素,這時(shí)我們可以看到桌上有一把鑰匙。

第六步時(shí),模型前進(jìn)并拾取了這把鑰匙。拿到鑰匙后,模型表示自己準(zhǔn)備轉(zhuǎn)身面對門,嘗試使用鑰匙。

接下來的步驟中,模型開始朝門的方向移動(dòng),意圖解鎖房門。在移動(dòng)過程中,他多次調(diào)整視角,尤其是向上看,試圖確認(rèn)門的位置。

由于視角偏低,模型一開始沒能看到門,于是不斷微調(diào)視角方向來定位門的位置。

從“答對”到“會(huì)想”

與傳統(tǒng)只看最終任務(wù)結(jié)果的評測不同,EscapeCraft 關(guān)注整個(gè)任務(wù)完成過程:模型是否自主探索?有沒有重復(fù)犯錯(cuò)?道具用得對不對?從而真正測試模型的“類人推理過程”。

論文重點(diǎn)彌補(bǔ)以結(jié)果為導(dǎo)向的評估缺陷,強(qiáng)調(diào)中間推理過程。為此設(shè)計(jì)了多個(gè)衡量視覺感知、多模態(tài)推理、環(huán)境探索和工具獲取和利用的過程的創(chuàng)新指標(biāo):

Intent-Outcome Consistency(意圖與結(jié)果一致性):衡量模型與環(huán)境的交互結(jié)果是否和的模型的交互意圖一致,即模型是否“在正確的位置做正確的事”。

Prop Gain / Grab Ratio / GSR:刻畫模型在探索和推理過程中的行為模式,反映模型的交互質(zhì)量、推理效率、和智能程度。

評測結(jié)果顯示:GPT-4o 在 Difficulty-3 中僅有 26.5% 的子目標(biāo)達(dá)成是“真正理解后完成的”,其余大多為偶然成功(比如想拿電視卻誤抓到關(guān)鍵道具)。

研究還發(fā)現(xiàn)大量有趣失敗案例。例如:

模型面對不可交互的沙發(fā),仍試圖抓取,并在“理由”中解釋“沙發(fā)下可能藏著鑰匙”;

模型原本已經(jīng)看見了關(guān)鍵道具,卻在移動(dòng)過程中將其“逐步移出視野”,隨后繼續(xù)提及該道具卻操作失敗……

團(tuán)隊(duì)據(jù)此將錯(cuò)誤拆分為兩類:

視覺感知錯(cuò)誤:誤判目標(biāo)是否可交互,視角控制失敗;

推理邏輯錯(cuò)誤:目標(biāo)設(shè)定錯(cuò)誤,或動(dòng)作與意圖不符。

其中 Claude 3.5 的錯(cuò)誤中,61.1% 屬于推理問題,38.9% 屬于視覺問題。這說明即便模型“看到了”,不代表它“想清楚了”。

誰能逃離“密室”?模型表現(xiàn)結(jié)果對比

單房間逃脫結(jié)果統(tǒng)計(jì),包括3個(gè)不同難度級別(數(shù)值越大越難)。



研究評測了包括 GPT-4o、Gemini-1.5 Pro、Claude 3.5、LLaMA-3.2、Qwen、Phi-3 等熱門模型,發(fā)現(xiàn):

在任務(wù)評價(jià)指標(biāo)方面:

GPT-4o 逃脫成功率(ER)最佳,但在任務(wù)復(fù)雜度提升后仍頻頻出錯(cuò);

國產(chǎn)大模型Doubao 1.5 Pro在最簡單的關(guān)卡中,逃脫成功率超越Gemini 1.5 Pro和Claude 3.5 Sonnet;并且其交互成功率(Grab SR)超越GPT-4o和Claude 3.5 Sonnet;

即使模型逃脫成功率相同,EscapeCraft依然能利用道具獲取率(Prop)、使用步數(shù)(Step),交互成功率(Grab SR)和交互率(Grab Ratio)對模型進(jìn)行比較。

比如,在“Difficult-2”中,Gemini 1.5 Pro和Claude 3.5 Sonnet有相同的逃脫成功率和道具獲取率,但是Gemini 1.5 Pro憑借較高的交互率,即使它的交互成功率較低,也能通過相對較少的步數(shù)成功逃脫;而Claude 3.5 Sonnet雖然交互率低,但每一步交互的成功率較高,體現(xiàn)出該模型完成任務(wù)時(shí)的“深思熟慮”。

在推理和探索行為方面:

Gemini 和 Claude 常在房間角落“卡住”,空間方向等判斷失誤,空轉(zhuǎn)失敗;

多數(shù)模型容易“反復(fù)抓錯(cuò)”或“認(rèn)錯(cuò)道具”,他們的失敗方式也各有特色:有的不會(huì)動(dòng)、有的亂動(dòng)、有的只移動(dòng)不采取交互行動(dòng)、有的動(dòng)作對了但“目的不清”……;

子目標(biāo)達(dá)成率雖高,但意圖-結(jié)果一致性普遍低下,即“想要和沙發(fā)交互,但是意外地拿到鑰匙”;

在多房間設(shè)定下,模型能從第一個(gè)房間學(xué)習(xí)到的逃脫經(jīng)驗(yàn)有限,僅在兩個(gè)房間關(guān)卡設(shè)定相似的條件下有輔助作用。

項(xiàng)目主頁:
https://thunlp-mt.github.io/EscapeCraft

GitHub 地址:
https://github.com/THUNLP-MT/EscapeCraft

論文原文:
https://arxiv.org/abs/2503.10042v4

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
清華高北大1分,復(fù)交浙錄取線落后中科大,廈大僅排名第30位

清華高北大1分,復(fù)交浙錄取線落后中科大,廈大僅排名第30位

史海流年號(hào)
2025-07-17 22:25:38
宗繼昌律師發(fā)聲:宗慶后曾承認(rèn)3個(gè)孩子是宗氏血脈,不會(huì)虧待他們

宗繼昌律師發(fā)聲:宗慶后曾承認(rèn)3個(gè)孩子是宗氏血脈,不會(huì)虧待他們

涵豆說娛
2025-07-14 17:58:19
朱拉尼逃跑,高層遭斬首,電視臺(tái)被叛軍占領(lǐng),國家剛到手就丟了?

朱拉尼逃跑,高層遭斬首,電視臺(tái)被叛軍占領(lǐng),國家剛到手就丟了?

井普椿的獨(dú)白
2025-07-20 11:36:19
天價(jià)耳環(huán)大反轉(zhuǎn)!央視通報(bào):貪污、別墅只是幌子,兩項(xiàng)違法才是真

天價(jià)耳環(huán)大反轉(zhuǎn)!央視通報(bào):貪污、別墅只是幌子,兩項(xiàng)違法才是真

冷紫葉
2025-07-17 22:59:01
雅魯藏布江水壩背后,是中國與印度幾十年來的隱秘“水”戰(zhàn)

雅魯藏布江水壩背后,是中國與印度幾十年來的隱秘“水”戰(zhàn)

阿胡
2025-07-20 11:24:19
大勝韓國,宮魯鳴后悔半決賽棄用王思雨,除了數(shù)據(jù)一特質(zhì)無可替代

大勝韓國,宮魯鳴后悔半決賽棄用王思雨,除了數(shù)據(jù)一特質(zhì)無可替代

小潌拍客在北漂
2025-07-20 18:55:40
梁靖崑兒子曬與王楚欽合照,網(wǎng)友:梁靖崑才多大,兒子都這么大了

梁靖崑兒子曬與王楚欽合照,網(wǎng)友:梁靖崑才多大,兒子都這么大了

鳳幻洋
2025-07-20 16:26:04
官方通報(bào)自來水異味原因 多篇論文顯示藻類確可造成水體嗅味,并出現(xiàn)沼澤或化糞池味

官方通報(bào)自來水異味原因 多篇論文顯示藻類確可造成水體嗅味,并出現(xiàn)沼澤或化糞池味

紅星新聞
2025-07-19 17:47:14
洪欣帶女兒到杭州旅游,11歲張晞彤留一頭黃色卷發(fā),顏值非常一般

洪欣帶女兒到杭州旅游,11歲張晞彤留一頭黃色卷發(fā),顏值非常一般

探源歷史
2025-07-20 13:28:34
廣東深圳:5000萬銀行假流水成掠奪6億資產(chǎn)幫兇

廣東深圳:5000萬銀行假流水成掠奪6億資產(chǎn)幫兇

先驅(qū)鳥
2025-07-20 08:28:13
頒獎(jiǎng)2核心抱頭痛哭!2人遭狠批,輸日本非實(shí)力原因,鄭薇怎么評價(jià)

頒獎(jiǎng)2核心抱頭痛哭!2人遭狠批,輸日本非實(shí)力原因,鄭薇怎么評價(jià)

老吳說體育
2025-07-20 19:29:00
朱孝天再次發(fā)文,大S花錢大手大腳,小S能力有限,評價(jià)一針見血

朱孝天再次發(fā)文,大S花錢大手大腳,小S能力有限,評價(jià)一針見血

老鵜愛說事
2025-07-19 16:16:04
大反轉(zhuǎn)!遼寧老年暴走團(tuán)擋道120被全網(wǎng)罵慘,律師:他們沒錯(cuò)!

大反轉(zhuǎn)!遼寧老年暴走團(tuán)擋道120被全網(wǎng)罵慘,律師:他們沒錯(cuò)!

坦然風(fēng)云
2025-07-20 10:30:03
宗馥莉長輩全部戰(zhàn)隊(duì)杜建英,正中她下懷,引蛇出洞,然后一網(wǎng)打盡

宗馥莉長輩全部戰(zhàn)隊(duì)杜建英,正中她下懷,引蛇出洞,然后一網(wǎng)打盡

公子麥少
2025-07-20 11:46:07
網(wǎng)友號(hào)召抵制《羊蹄山》:女權(quán)丑化一切 再好玩也不買

網(wǎng)友號(hào)召抵制《羊蹄山》:女權(quán)丑化一切 再好玩也不買

3DM游戲
2025-07-19 08:03:43
曾被吹捧上天,如今卻“淪為笑柄”的凈水器,你還在用嗎?

曾被吹捧上天,如今卻“淪為笑柄”的凈水器,你還在用嗎?

裝修秀
2025-05-18 11:45:03
警惕莫迪來華小心思!繼中方一個(gè)官宣,印度希望中國明年投桃報(bào)李

警惕莫迪來華小心思!繼中方一個(gè)官宣,印度希望中國明年投桃報(bào)李

議紀(jì)史
2025-07-19 20:15:03
陳佩斯要哭了!本來看到幾萬的預(yù)售老爺子已經(jīng)泄氣了!結(jié)果逆襲了

陳佩斯要哭了!本來看到幾萬的預(yù)售老爺子已經(jīng)泄氣了!結(jié)果逆襲了

小娛樂悠悠
2025-07-20 10:00:06
中國女籃輕取韓國奪得季軍,女籃的一二三號(hào)位全部需要顛覆

中國女籃輕取韓國奪得季軍,女籃的一二三號(hào)位全部需要顛覆

李廣專業(yè)體育評論
2025-07-20 18:11:04
疑宗慶后司機(jī)爆料:他不喝酒,為人較節(jié)儉,一輛A6十六七年都不換

疑宗慶后司機(jī)爆料:他不喝酒,為人較節(jié)儉,一輛A6十六七年都不換

談史論天地
2025-07-20 15:22:22
2025-07-20 21:23:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10893文章數(shù) 176192關(guān)注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創(chuàng)始人首次復(fù)盤

頭條要聞

深圳自建房業(yè)主私裝電梯二手承重木斷裂 3名工人墜亡

頭條要聞

深圳自建房業(yè)主私裝電梯二手承重木斷裂 3名工人墜亡

體育要聞

中國女籃輸日本,天賦完敗給努力和戰(zhàn)術(shù)

娛樂要聞

肖戰(zhàn)改名官宣!徹底不裝了,要自由

財(cái)經(jīng)要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態(tài)度原創(chuàng)

藝術(shù)
時(shí)尚
親子
旅游
房產(chǎn)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

夏天穿衣別死氣沉沉!來點(diǎn)彩色、多穿牛仔褲,減齡又不老套

親子要聞

長沙才待幾天,雙胞胎小哥倆已經(jīng)念起媽媽了

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產(chǎn)要聞

海南中學(xué)江東校區(qū)學(xué)區(qū)劃片重磅出爐!這些項(xiàng)目贏麻了!

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 云阳县| 商洛市| 东乡县| 峡江县| 尚义县| 凌海市| 陕西省| 高州市| 西城区| 宁蒗| 两当县| 海城市| 根河市| 上饶县| 大宁县| 闸北区| 南昌县| 定南县| 莲花县| 鹿泉市| 松桃| 霍城县| 新邵县| 扶风县| 威信县| 黔江区| 莒南县| 潜山县| 乌兰察布市| 洞口县| 保康县| 高邮市| 长治市| 博乐市| 澄迈县| 新干县| 德钦县| 涟源市| 图们市| 深州市| 弥渡县|