純靠“腦補(bǔ)”圖像，大模型推理準(zhǔn)確率狂飆80%丨劍橋谷歌新研究

2025-05-21 16:46:26　來源: 量子位

北京舉報(bào)

分享至

鷺羽發(fā)自凹非寺
量子位 | 公眾號 QbitAI

不再依賴語言，僅憑圖像就能完成模型推理？

大模型又雙叒叕迎來新SOTA！

當(dāng)你和大模型一起玩超級瑪麗時(shí)，復(fù)雜環(huán)境下你會根據(jù)畫面在腦海里自動規(guī)劃步驟，但LLMs還需要先轉(zhuǎn)成文字攻略一格格按照指令移動，效率又低、信息也可能會丟失，那難道就沒有一個(gè)可以跳過“語言中介”的方法嗎？

于是來自劍橋、倫敦大學(xué)學(xué)院和谷歌的研究團(tuán)隊(duì)推出了首次純粹依靠圖像進(jìn)行推理的新范式——基于強(qiáng)化學(xué)習(xí)的視覺規(guī)劃（VPRL）。

新框架利用GRPO對大型視覺模型進(jìn)行后訓(xùn)練，在多個(gè)代表性視覺導(dǎo)航任務(wù)中的性能表現(xiàn)都遠(yuǎn)超基于文本的推理方法。

準(zhǔn)確率高達(dá)80%，性能超文本推理至少40%，首次驗(yàn)證了視覺規(guī)劃顯著優(yōu)于文本規(guī)劃，為直覺式圖像推理任務(wù)開辟了新方向。

以下是有關(guān)VPRL的更多細(xì)節(jié)。

VPRL更準(zhǔn)確、更有效

現(xiàn)有的視覺推理基準(zhǔn)都是將視覺信息映射到文本領(lǐng)域進(jìn)行處理，整個(gè)推理過程都由語言模型完成。

純視覺規(guī)劃則是讓模型直接利用圖像序列，沒有中間商“賺差價(jià)”，推理效率直線UP。

由此團(tuán)隊(duì)直接引入一個(gè)基于強(qiáng)化學(xué)習(xí)的視覺規(guī)劃訓(xùn)練框架VPRL，基于群組相對策略優(yōu)化（GRPO），利用視覺狀態(tài)之間的轉(zhuǎn)換來計(jì)算獎勵(lì)信號，同時(shí)驗(yàn)證環(huán)境約束。

該框架可以分為兩個(gè)階段：

策略初始化

通過環(huán)境中的隨機(jī)游走軌跡初始化模型，再對每條軌跡提取圖像對，并給定輸入前綴，此外通過最小化監(jiān)督損失以鼓勵(lì)生成連貫的視覺輸出：

強(qiáng)化學(xué)習(xí)優(yōu)化

利用模型在隨機(jī)軌跡初始化后已具備的探索能力，通過生成下一視覺狀態(tài)模擬潛在動作結(jié)果，并引導(dǎo)模型執(zhí)行有效規(guī)劃。

具體來說，就是基于GRPO計(jì)算組內(nèi)相對優(yōu)勢，每個(gè)候選的相對優(yōu)勢為：

同時(shí)為引導(dǎo)模型生成更高優(yōu)勢的響應(yīng)，通過最大化以下目標(biāo)函數(shù)更新策略模型：

在視覺規(guī)劃框架中，核心挑戰(zhàn)始終在于生成的視覺狀態(tài)能否正確反映規(guī)劃動作的意圖，因此需要通過獎勵(lì)函數(shù)評估動作有效性（獎勵(lì)進(jìn)展動作、零獎勵(lì)非進(jìn)展動作、懲罰無效動作），進(jìn)度獎勵(lì)函數(shù)定義為：

除了VPRL，研究團(tuán)隊(duì)還選用了幾種系統(tǒng)變體作為基線，分別是基于微調(diào)的視覺規(guī)劃（VPFT）和文本中的監(jiān)督微調(diào)（SFT），以比較基于語言和基于視覺的規(guī)劃，同時(shí)評估強(qiáng)化學(xué)習(xí)的作用。

VPFT與VPRL在第一階段訓(xùn)練架構(gòu)一致，但用最佳規(guī)劃軌跡取代隨機(jī)軌跡；而SFT用一個(gè)預(yù)期動作序列的文本描述取代中間視覺結(jié)果。

視覺規(guī)劃vs語言規(guī)劃

實(shí)驗(yàn)搭建

為了更直觀地比較兩種規(guī)劃效果，團(tuán)隊(duì)選取了三個(gè)可以完全以視覺方式表達(dá)和執(zhí)行的代表性任務(wù)：

FrozenLake：智能體需從起點(diǎn)安全導(dǎo)航至終點(diǎn)，過程中需要避開冰洞。
Maze：智能體需從起點(diǎn)（綠點(diǎn)）導(dǎo)航至終點(diǎn)（紅旗）。
MiniBehavior：智能體需拾取打印機(jī)并放置到桌上，包含“拾取”和“放置”兩個(gè)附加動作。

在模型的選取上，選擇專門在視覺數(shù)據(jù)上訓(xùn)練的模型LVM-3B，確保預(yù)訓(xùn)練期間不接觸任何文本數(shù)據(jù)。

另外評估比較Qwen 2.5VL-Instruct在僅推理（Direct2和CoT）和訓(xùn)練后設(shè)置（SFT）兩種模式下的文本規(guī)劃效果，以及將Gemini 2.0 Flash和Gemini 2.5 Pro作為多模態(tài)推理的參考模型。

評估指標(biāo)采用精確匹配率（EM）和進(jìn)展率（PR），前者衡量模型是否成功生成與最優(yōu)路徑一致的完整規(guī)劃軌跡，后者則測量從開始到最優(yōu)路徑的連續(xù)正確步數(shù)與總步數(shù)的比率。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明，視覺規(guī)劃顯著優(yōu)于文本規(guī)劃。

視覺規(guī)劃（VPFT和VPRL）在所有任務(wù)上都取得了最高分，如表所示，VPRL在三個(gè)任務(wù)中平均EM高達(dá)80.6%，遠(yuǎn)超文本基線（如Gemini 2.5 Pro平均EM為43.7%）。

在強(qiáng)化學(xué)習(xí)的增益上，VPRL也相比監(jiān)督基線VPFT提升超20%，尤其是在復(fù)雜任務(wù)MiniBehavior中EM更是高達(dá)75.8%。

說明通過獎勵(lì)驅(qū)動，可以幫助模型自由探索不同行動并從結(jié)果中學(xué)習(xí)，從而有效提高規(guī)劃性能。

與此同時(shí)在魯棒性上，隨著網(wǎng)格尺寸增大（如FrozenLake從3×3到6×6），VPRL性能下降平緩（EM從97.6%降至82.4%），而Gemini 2.5 Pro從98.0%驟降至38.8%，充分體現(xiàn)了VPRL更強(qiáng)的穩(wěn)定性。

與VPFT相比，VPRL也將無效失敗率降低了24%，從而幫助模型保持在有效的動作空間內(nèi)。

綜上，實(shí)驗(yàn)結(jié)果首次驗(yàn)證了純視覺推理的可行性，通過研究團(tuán)隊(duì)提出的新范式VPRL框架，可以在視覺導(dǎo)航任務(wù)中實(shí)現(xiàn)超越文本模型的推理性能，并展現(xiàn)出極強(qiáng)的泛化能力，推動多模態(tài)推理在未來朝著更直觀的圖像化方向發(fā)展。

值得一提的是，團(tuán)隊(duì)成員長期致力于視覺推理研究，他們也曾研究通過多模態(tài)思維可視化（MVoT）生成視覺“思想”，以徹底改變AI推理方式，感興趣的小伙伴們可以持續(xù)關(guān)注團(tuán)隊(duì)的研究進(jìn)展～

論文鏈接：https://arxiv.org/abs/2505.11409
代碼鏈接：https://github.com/yix8/VisualPlanning

參考鏈接：
[1]https://x.com/_yixu/status/1924497238908375072
[2]https://huggingface.co/papers/2505.11409

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.