99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

純靠“腦補(bǔ)”圖像,大模型推理準(zhǔn)確率狂飆80%丨劍橋谷歌新研究

0
分享至

鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

不再依賴語言,僅憑圖像就能完成模型推理?

大模型又雙叒叕迎來新SOTA!



當(dāng)你和大模型一起玩超級瑪麗時(shí),復(fù)雜環(huán)境下你會根據(jù)畫面在腦海里自動規(guī)劃步驟,但LLMs還需要先轉(zhuǎn)成文字攻略一格格按照指令移動,效率又低、信息也可能會丟失,那難道就沒有一個(gè)可以跳過“語言中介”的方法嗎?







于是來自劍橋、倫敦大學(xué)學(xué)院和谷歌的研究團(tuán)隊(duì)推出了首次純粹依靠圖像進(jìn)行推理的新范式——基于強(qiáng)化學(xué)習(xí)的視覺規(guī)劃(VPRL)



新框架利用GRPO對大型視覺模型進(jìn)行后訓(xùn)練,在多個(gè)代表性視覺導(dǎo)航任務(wù)中的性能表現(xiàn)都遠(yuǎn)超基于文本的推理方法。

準(zhǔn)確率高達(dá)80%,性能超文本推理至少40%,首次驗(yàn)證了視覺規(guī)劃顯著優(yōu)于文本規(guī)劃,為直覺式圖像推理任務(wù)開辟了新方向。



以下是有關(guān)VPRL的更多細(xì)節(jié)。

VPRL更準(zhǔn)確、更有效

現(xiàn)有的視覺推理基準(zhǔn)都是將視覺信息映射到文本領(lǐng)域進(jìn)行處理,整個(gè)推理過程都由語言模型完成。

純視覺規(guī)劃則是讓模型直接利用圖像序列,沒有中間商“賺差價(jià)”,推理效率直線UP。

由此團(tuán)隊(duì)直接引入一個(gè)基于強(qiáng)化學(xué)習(xí)的視覺規(guī)劃訓(xùn)練框架VPRL,基于群組相對策略優(yōu)化(GRPO),利用視覺狀態(tài)之間的轉(zhuǎn)換來計(jì)算獎勵(lì)信號,同時(shí)驗(yàn)證環(huán)境約束。



該框架可以分為兩個(gè)階段:

  • 策略初始化

通過環(huán)境中的隨機(jī)游走軌跡初始化模型,再對每條軌跡提取圖像對,并給定輸入前綴,此外通過最小化監(jiān)督損失以鼓勵(lì)生成連貫的視覺輸出:



  • 強(qiáng)化學(xué)習(xí)優(yōu)化

利用模型在隨機(jī)軌跡初始化后已具備的探索能力,通過生成下一視覺狀態(tài)模擬潛在動作結(jié)果,并引導(dǎo)模型執(zhí)行有效規(guī)劃。

具體來說,就是基于GRPO計(jì)算組內(nèi)相對優(yōu)勢,每個(gè)候選的相對優(yōu)勢為:



同時(shí)為引導(dǎo)模型生成更高優(yōu)勢的響應(yīng),通過最大化以下目標(biāo)函數(shù)更新策略模型:



在視覺規(guī)劃框架中,核心挑戰(zhàn)始終在于生成的視覺狀態(tài)能否正確反映規(guī)劃動作的意圖,因此需要通過獎勵(lì)函數(shù)評估動作有效性(獎勵(lì)進(jìn)展動作、零獎勵(lì)非進(jìn)展動作、懲罰無效動作),進(jìn)度獎勵(lì)函數(shù)定義為:



除了VPRL,研究團(tuán)隊(duì)還選用了幾種系統(tǒng)變體作為基線,分別是基于微調(diào)的視覺規(guī)劃(VPFT)文本中的監(jiān)督微調(diào)(SFT),以比較基于語言和基于視覺的規(guī)劃,同時(shí)評估強(qiáng)化學(xué)習(xí)的作用。

VPFT與VPRL在第一階段訓(xùn)練架構(gòu)一致,但用最佳規(guī)劃軌跡取代隨機(jī)軌跡;而SFT用一個(gè)預(yù)期動作序列的文本描述取代中間視覺結(jié)果。

視覺規(guī)劃vs語言規(guī)劃

實(shí)驗(yàn)搭建

為了更直觀地比較兩種規(guī)劃效果,團(tuán)隊(duì)選取了三個(gè)可以完全以視覺方式表達(dá)和執(zhí)行的代表性任務(wù):

  1. FrozenLake:智能體需從起點(diǎn)安全導(dǎo)航至終點(diǎn),過程中需要避開冰洞。
  2. Maze:智能體需從起點(diǎn)(綠點(diǎn))導(dǎo)航至終點(diǎn)(紅旗)。
  3. MiniBehavior:智能體需拾取打印機(jī)并放置到桌上,包含“拾取”和“放置”兩個(gè)附加動作。



在模型的選取上,選擇專門在視覺數(shù)據(jù)上訓(xùn)練的模型LVM-3B,確保預(yù)訓(xùn)練期間不接觸任何文本數(shù)據(jù)。

另外評估比較Qwen 2.5VL-Instruct在僅推理(Direct2和CoT)和訓(xùn)練后設(shè)置(SFT)兩種模式下的文本規(guī)劃效果,以及將Gemini 2.0 FlashGemini 2.5 Pro作為多模態(tài)推理的參考模型。



評估指標(biāo)采用精確匹配率(EM)進(jìn)展率(PR),前者衡量模型是否成功生成與最優(yōu)路徑一致的完整規(guī)劃軌跡,后者則測量從開始到最優(yōu)路徑的連續(xù)正確步數(shù)與總步數(shù)的比率。

實(shí)驗(yàn)結(jié)果



實(shí)驗(yàn)結(jié)果表明,視覺規(guī)劃顯著優(yōu)于文本規(guī)劃

視覺規(guī)劃(VPFT和VPRL)在所有任務(wù)上都取得了最高分,如表所示,VPRL在三個(gè)任務(wù)中平均EM高達(dá)80.6%,遠(yuǎn)超文本基線(如Gemini 2.5 Pro平均EM為43.7%)

在強(qiáng)化學(xué)習(xí)的增益上,VPRL也相比監(jiān)督基線VPFT提升超20%,尤其是在復(fù)雜任務(wù)MiniBehavior中EM更是高達(dá)75.8%

說明通過獎勵(lì)驅(qū)動,可以幫助模型自由探索不同行動并從結(jié)果中學(xué)習(xí),從而有效提高規(guī)劃性能。



與此同時(shí)在魯棒性上,隨著網(wǎng)格尺寸增大(如FrozenLake從3×3到6×6),VPRL性能下降平緩(EM從97.6%降至82.4%),而Gemini 2.5 Pro從98.0%驟降至38.8%,充分體現(xiàn)了VPRL更強(qiáng)的穩(wěn)定性。

與VPFT相比,VPRL也將無效失敗率降低了24%,從而幫助模型保持在有效的動作空間內(nèi)。



綜上,實(shí)驗(yàn)結(jié)果首次驗(yàn)證了純視覺推理的可行性,通過研究團(tuán)隊(duì)提出的新范式VPRL框架,可以在視覺導(dǎo)航任務(wù)中實(shí)現(xiàn)超越文本模型的推理性能,并展現(xiàn)出極強(qiáng)的泛化能力,推動多模態(tài)推理在未來朝著更直觀的圖像化方向發(fā)展。

值得一提的是,團(tuán)隊(duì)成員長期致力于視覺推理研究,他們也曾研究通過多模態(tài)思維可視化(MVoT)生成視覺“思想”,以徹底改變AI推理方式,感興趣的小伙伴們可以持續(xù)關(guān)注團(tuán)隊(duì)的研究進(jìn)展~



論文鏈接:https://arxiv.org/abs/2505.11409
代碼鏈接:https://github.com/yix8/VisualPlanning

參考鏈接:
[1]https://x.com/_yixu/status/1924497238908375072
[2]https://huggingface.co/papers/2505.11409

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“黃楊鈿甜事件”中最諷刺的一幕出現(xiàn)了!

“黃楊鈿甜事件”中最諷刺的一幕出現(xiàn)了!

末名先生
2025-05-21 16:05:50
兩塊五的劣質(zhì)奶粉一采購就是幾萬桶,他們準(zhǔn)備賣給誰……

兩塊五的劣質(zhì)奶粉一采購就是幾萬桶,他們準(zhǔn)備賣給誰……

柴狗夫斯基
2025-05-21 12:12:57
形勢嚴(yán)峻啊!現(xiàn)在汽車庫存都350萬臺了,創(chuàng)下了兩年內(nèi)的新高…

形勢嚴(yán)峻啊!現(xiàn)在汽車庫存都350萬臺了,創(chuàng)下了兩年內(nèi)的新高…

火山詩話
2025-05-21 18:18:34
國際刑事法院尷尬了:中方帶領(lǐng)60國成立新組織,一國迅速宣布退群

國際刑事法院尷尬了:中方帶領(lǐng)60國成立新組織,一國迅速宣布退群

說天說地說實(shí)事
2025-05-21 21:05:58
不愧是「神藥」!最新研究發(fā)現(xiàn),二甲雙胍或可將活到90歲的幾率提升30%

不愧是「神藥」!最新研究發(fā)現(xiàn),二甲雙胍或可將活到90歲的幾率提升30%

醫(yī)諾維
2025-05-21 16:58:10
4月份朱媛媛片場畫面曝光!步履蹣跚面色蒼白,下臺階需要人攙扶

4月份朱媛媛片場畫面曝光!步履蹣跚面色蒼白,下臺階需要人攙扶

點(diǎn)點(diǎn)細(xì)語
2025-05-21 16:26:22
朱媛媛:被張國立趕出門,辛柏青為她放棄成名機(jī)會,夫妻相愛30年

朱媛媛:被張國立趕出門,辛柏青為她放棄成名機(jī)會,夫妻相愛30年

晨晨星
2025-05-21 21:06:18
等不來邀請函,特朗普換了打法,最高達(dá)3521%關(guān)稅,中方強(qiáng)硬回?fù)?>
    </a>
        <h3>
      <a href=阿雹娛樂
2025-05-21 17:51:06
香港新冠病毒變異株確診,陳奕迅等31人一周內(nèi)死亡!

香港新冠病毒變異株確診,陳奕迅等31人一周內(nèi)死亡!

觀察者海風(fēng)
2025-05-21 13:21:14
張凱麗含淚回憶朱媛媛:約好的聚會再無法成行

張凱麗含淚回憶朱媛媛:約好的聚會再無法成行

紅星新聞
2025-05-21 13:57:16
一路4-0!孫穎莎橫掃法國盧茨鎖定16強(qiáng),1/8決賽迎戰(zhàn)申裕斌

一路4-0!孫穎莎橫掃法國盧茨鎖定16強(qiáng),1/8決賽迎戰(zhàn)申裕斌

乒談
2025-05-21 23:07:30
實(shí)話實(shí)說,為什么美國的制裁能讓一個(gè)國家變得徹底貧窮落后呢?

實(shí)話實(shí)說,為什么美國的制裁能讓一個(gè)國家變得徹底貧窮落后呢?

翻開歷史和現(xiàn)實(shí)
2025-05-21 16:29:35
朱媛媛因卵巢癌去世,而IV期卵巢癌患者5年生存率只有25%

朱媛媛因卵巢癌去世,而IV期卵巢癌患者5年生存率只有25%

聞識
2025-05-21 16:19:22
朱媛媛生病最后畫面曝光:坐病床上雙手合十,臉上長滿斑笑容憔悴

朱媛媛生病最后畫面曝光:坐病床上雙手合十,臉上長滿斑笑容憔悴

古希臘掌管月桂的神
2025-05-21 20:16:41
辣眼!王大雷禁區(qū)內(nèi)思考人生被斷球引熱議,球迷:他到底在裝什么

辣眼!王大雷禁區(qū)內(nèi)思考人生被斷球引熱議,球迷:他到底在裝什么

側(cè)身凌空斬
2025-05-21 22:25:55
大快人心,想投降被拒絕了

大快人心,想投降被拒絕了

毛豆論道
2025-05-21 14:26:23
揭秘!微博官方刪除小米法務(wù)部黑公關(guān)通報(bào)

揭秘!微博官方刪除小米法務(wù)部黑公關(guān)通報(bào)

號外工作室
2025-05-22 00:20:39
綿陽一村民在外務(wù)工家中老宅被拆,鎮(zhèn)政府回應(yīng):系施工方誤拆

綿陽一村民在外務(wù)工家中老宅被拆,鎮(zhèn)政府回應(yīng):系施工方誤拆

澎湃新聞
2025-05-21 14:20:29
扣除500分!鄭欽文排名又變了,保利尼送大禮,沖擊法網(wǎng)冠軍

扣除500分!鄭欽文排名又變了,保利尼送大禮,沖擊法網(wǎng)冠軍

何老師呀
2025-05-22 00:24:31
1-4爆大冷!張本智和崩盤:雙線出局,提前告別世乒賽,國乒狂喜

1-4爆大冷!張本智和崩盤:雙線出局,提前告別世乒賽,國乒狂喜

侃球熊弟
2025-05-21 23:54:50
2025-05-22 06:20:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10523文章數(shù) 176148關(guān)注度
往期回顧 全部

科技要聞

網(wǎng)易直擊IO大會:Gemini接管一切 眼鏡炸場

頭條要聞

歐洲領(lǐng)導(dǎo)人徹底失望:特朗普24小時(shí)不到就背棄我們

頭條要聞

歐洲領(lǐng)導(dǎo)人徹底失望:特朗普24小時(shí)不到就背棄我們

體育要聞

打破三大魔咒!廣廈終于將冠軍帶回浙江

娛樂要聞

中國國家話劇院發(fā)訃告:沉痛悼念朱媛媛

財(cái)經(jīng)要聞

年虧百億、裁員自救!“AI四小龍”難了

汽車要聞

價(jià)格下調(diào) 2025聰明款I(lǐng)D.4 X限時(shí)13.99萬起

態(tài)度原創(chuàng)

教育
時(shí)尚
旅游
手機(jī)
藝術(shù)

教育要聞

5月25日開始報(bào)名!2025南京陽光招生平臺報(bào)名登記提醒!

趙麗穎的短發(fā)美上熱搜!夏天想換發(fā)型一定不要錯(cuò)過這篇

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機(jī)要聞

真我Neo7 Turbo手機(jī)定檔5月29日發(fā)布,號稱“強(qiáng)悍小透明”

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 炎陵县| 金沙县| 咸阳市| 德惠市| 溧水县| 桂阳县| 温宿县| 汪清县| 调兵山市| 额尔古纳市| 洱源县| 桃园县| 神池县| 甘南县| 都匀市| 昌都县| 水城县| 涟源市| 延庆县| 集安市| 西青区| 镇安县| 合水县| 墨江| 临湘市| 五常市| 井研县| 华宁县| 兰西县| 牡丹江市| 墨竹工卡县| 仙居县| 宽甸| 璧山县| 姜堰市| 乌鲁木齐市| 阿勒泰市| 济阳县| 临漳县| 吴川市| 广平县|