99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

多模態(tài)大模型不會畫輔助線:o3僅25.8%,遠(yuǎn)低于人類82.3%

0
分享至

不圓 整理自 凹非寺
量子位 | 公眾號 QbitAI

多模態(tài)時(shí)代應(yīng)如何評估模型的視覺輸出能力?

來自清華大學(xué)、騰訊混元、斯坦福大學(xué)、卡耐基梅隆大學(xué)等頂尖機(jī)構(gòu)的研究團(tuán)隊(duì)聯(lián)合發(fā)布了RBench-V:一款針對大模型的視覺推理能力的新型基準(zhǔn)測試。

過去的評估基準(zhǔn)主要集中于評估多模態(tài)輸入和純文本推理過程。

而RBench-V系統(tǒng)性評估了當(dāng)前主流大模型基于“畫圖”的視覺推理能力:

比如在圖中畫出輔助線、描點(diǎn)連線、繪制光線路徑、標(biāo)注目標(biāo)區(qū)域,等等。



結(jié)果發(fā)現(xiàn),即使是表現(xiàn)最好的模型o3,在RBench-V上的準(zhǔn)確率也只有25.8%,遠(yuǎn)低于人類的82.3%。

這篇論文在reddit machine learning社區(qū)引發(fā)了討論,有網(wǎng)友評價(jià):

  • 有趣的現(xiàn)象,視覺推理連小孩都能做到,GPT-4o卻做不到。



RBench-V:專為模型視覺推理設(shè)計(jì)

為了評估模型的跨模態(tài)推理能力,RBench-V精心設(shè)計(jì)并篩選了共計(jì)803道題目,涵蓋幾何與圖論(數(shù)學(xué))、力學(xué)與電磁學(xué)(物理)、多目標(biāo)識別(計(jì)數(shù))以及路徑規(guī)劃與圖形聯(lián)想(圖形游戲)等多個(gè)領(lǐng)域。

與以往僅要求文字回答的多模態(tài)評測不同,RBench-V的每一道題都明確要求模型生成或修改圖像內(nèi)容來支持推理過程:

簡單地說,就是讓大模型像人類專家一樣,通過繪制輔助線、觀察圖形結(jié)構(gòu)等可視化方式進(jìn)行思考。

這種對“畫出圖以輔助思考”過程的強(qiáng)調(diào),對模型的視覺理解和圖文協(xié)同推理能力提出了全新的要求。



評測發(fā)現(xiàn),盡管GPT-4o、Gemini、o3等新一代大模型標(biāo)榜具備“多模態(tài)理解與生成”能力,它們在真正需要圖像輸出參與推理的問題上仍顯得力不從心。

主流大模型的評測結(jié)果:遠(yuǎn)不及人類水平



在RBench-V的評測中,即便是當(dāng)前業(yè)界最強(qiáng)的閉源模型,也遠(yuǎn)遠(yuǎn)比不上人類視覺推理能力。

OpenAI發(fā)布的旗艦?zāi)P蚾3以25.8%的整體準(zhǔn)確率排名首位,Google最新推出的Gemini2.5緊隨其后,得分為20.2%。

但這兩者的表現(xiàn)與人類專家高達(dá)82.3%的平均準(zhǔn)確率相比,依然很不夠看,說明了現(xiàn)有模型在復(fù)雜多模態(tài)推理任務(wù)中認(rèn)知能力的嚴(yán)重不足。

在開源模型陣營中,主流代表如Qwen2.5VL、InternVL、LLaVA-OneVision等模型的準(zhǔn)確率普遍徘徊在8%至10%之間,甚至在某些任務(wù)維度上接近“隨機(jī)作答”的水平——

所謂“把答題卡放地上踩一腳”的水平。

這種懸殊的表現(xiàn)不僅揭示了當(dāng)前開源生態(tài)在多模態(tài)輸出生成上的技術(shù)瓶頸,也反映出大模型從“看懂圖”到“畫出圖以輔助思考”的能力缺失。

當(dāng)前,大模型對于視覺推理尚處于早期探索階段。



此外,通過比較不同模型的得分,可以看到:僅靠擴(kuò)大模型參數(shù)規(guī)模、引入圖像輸入通道,或在文字層面堆疊長鏈條思維(Chain-of-Thought,CoT)并不能有效提升模型的視覺推理能力。

當(dāng)下模型的重大短板:難以借助圖像進(jìn)行推理

RBench-V的研究揭示了一個(gè)關(guān)鍵問題:當(dāng)前的大模型在處理需要空間直覺和圖像操作的幾何類問題時(shí),往往選擇“走捷徑”。

與人類專家傾向于通過直觀的可視化方法進(jìn)行思考不同,大多數(shù)模型更習(xí)慣于將圖形問題抽象為坐標(biāo)系下的代數(shù)表達(dá),并采用文本推理路徑完成解題。

這種“用文字繞過圖形”的策略雖然在某些場景下能夠給出正確答案,但實(shí)際上掩蓋了其對圖像信息的深層理解缺失,也暴露出它們“表面聰明,實(shí)則薄弱”的多模態(tài)推理能力。

RBench-V的實(shí)驗(yàn)結(jié)果顯示,即便是采用長文本推理路徑或具備“看圖說話”能力的模型,在面對需要圖像輸出的復(fù)雜問題時(shí),仍然束手無策。



RBench-V團(tuán)隊(duì)指出,真正推動大模型邁向“類人智能”的突破口,在于構(gòu)建能夠在推理過程中主動生成圖像、構(gòu)圖輔助思考的認(rèn)知框架。

這其中,多模態(tài)思維鏈(Multi-modal Chain-of-Thought,M-CoT)機(jī)制、智能體推理(Agent-based Reasoning)范式等新興方法,可能成為人工智能通往未來的重要路徑。

論文、代碼、數(shù)據(jù)均可在項(xiàng)目主頁找到:
https://evalmodels.github.io/rbenchv/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
4個(gè)中校2個(gè)中隊(duì)長,巴鐵公開擊落印軍名單,除了殲10還有梟龍戰(zhàn)果

4個(gè)中校2個(gè)中隊(duì)長,巴鐵公開擊落印軍名單,除了殲10還有梟龍戰(zhàn)果

說天說地說實(shí)事
2025-05-29 19:02:12
石應(yīng)康自殺闞全程被抓,兩個(gè)標(biāo)志性人物落幕,預(yù)示著一個(gè)時(shí)代結(jié)束

石應(yīng)康自殺闞全程被抓,兩個(gè)標(biāo)志性人物落幕,預(yù)示著一個(gè)時(shí)代結(jié)束

醫(yī)院院長
2025-05-29 12:59:40
86票贊成,美國得州通過新法案,不許中國等外國人在美買房買地

86票贊成,美國得州通過新法案,不許中國等外國人在美買房買地

南權(quán)先生
2025-05-29 13:47:51
成龍新片將慘敗,成本7.2億,票房不到8萬,巨星為何隕落

成龍新片將慘敗,成本7.2億,票房不到8萬,巨星為何隕落

影視高原說
2025-05-29 08:37:11
知名主持人朱迅在甘孜折多山救治高反游客,當(dāng)?shù)匚穆镁止ぷ魅藛T:她給女游客吸氧還幫忙按摩穴位

知名主持人朱迅在甘孜折多山救治高反游客,當(dāng)?shù)匚穆镁止ぷ魅藛T:她給女游客吸氧還幫忙按摩穴位

極目新聞
2025-05-29 16:52:59
求職難!特里:幾次面試都說我沒經(jīng)驗(yàn),但我當(dāng)了22年切爾西隊(duì)長

求職難!特里:幾次面試都說我沒經(jīng)驗(yàn),但我當(dāng)了22年切爾西隊(duì)長

直播吧
2025-05-29 14:24:11
賓利車一美女衣著暴露做不雅之事,現(xiàn)場視頻流出,一畫面信息量大

賓利車一美女衣著暴露做不雅之事,現(xiàn)場視頻流出,一畫面信息量大

博士觀察
2025-05-29 17:54:14
唇語專家破譯法國總統(tǒng)馬克龍被妻子打臉后對話:布麗吉特怒罵“滾開,你個(gè)廢物”

唇語專家破譯法國總統(tǒng)馬克龍被妻子打臉后對話:布麗吉特怒罵“滾開,你個(gè)廢物”

愛意隨風(fēng)起呀
2025-05-29 00:50:32
蘋果官網(wǎng)出售 iPhone 原裝電池,但價(jià)格有點(diǎn)夸張

蘋果官網(wǎng)出售 iPhone 原裝電池,但價(jià)格有點(diǎn)夸張

XCiOS俱樂部
2025-05-29 14:09:35
楊穎被經(jīng)紀(jì)人當(dāng)街訓(xùn)罵照曝光!自費(fèi)租房面試找工作,吃地?cái)偀o人識

楊穎被經(jīng)紀(jì)人當(dāng)街訓(xùn)罵照曝光!自費(fèi)租房面試找工作,吃地?cái)偀o人識

史書無明
2025-05-28 21:51:52
廣東省政協(xié)機(jī)關(guān)原一級巡視員張廣寧被開除黨籍和公職

廣東省政協(xié)機(jī)關(guān)原一級巡視員張廣寧被開除黨籍和公職

環(huán)球網(wǎng)資訊
2025-05-29 17:10:15
腦梗去世的人越來越多?醫(yī)生勸告:天熱寧可打麻將,也別做4件事

腦梗去世的人越來越多?醫(yī)生勸告:天熱寧可打麻將,也別做4件事

華庭講美食
2025-05-29 08:52:24
浙江一地驚現(xiàn)“雙頭蛇”!村民嚇懵:還會倒著爬

浙江一地驚現(xiàn)“雙頭蛇”!村民嚇懵:還會倒著爬

瀟湘晨報(bào)
2025-05-29 12:55:51
A股,為何今天突然大漲,有什么利好?

A股,為何今天突然大漲,有什么利好?

萌生財(cái)經(jīng)
2025-05-29 11:36:02
國產(chǎn)大飛機(jī)C919停飛真相:沒有反轉(zhuǎn),現(xiàn)實(shí)比想象的更加殘酷

國產(chǎn)大飛機(jī)C919停飛真相:沒有反轉(zhuǎn),現(xiàn)實(shí)比想象的更加殘酷

林子說事
2025-05-29 09:34:52
俄媒警告:如果德國援烏武器打擊莫斯科,俄“唯一選擇將是打擊柏林”

俄媒警告:如果德國援烏武器打擊莫斯科,俄“唯一選擇將是打擊柏林”

紅星新聞
2025-05-29 12:08:16
上市即巔峰,連續(xù)43個(gè)跌停,從106跌到0.06,里面散戶全線被套!

上市即巔峰,連續(xù)43個(gè)跌停,從106跌到0.06,里面散戶全線被套!

財(cái)經(jīng)市界
2025-05-29 08:54:16
突發(fā)!確認(rèn)墜機(jī)

突發(fā)!確認(rèn)墜機(jī)

浙江之聲
2025-05-29 15:10:37
西媒:利雅得勝利今天宣布C羅離隊(duì),他確定去有世俱杯踢的球隊(duì)

西媒:利雅得勝利今天宣布C羅離隊(duì),他確定去有世俱杯踢的球隊(duì)

雷速體育
2025-05-29 09:32:11
邵新宇辭去湖北省副省長職務(wù)

邵新宇辭去湖北省副省長職務(wù)

澎湃新聞
2025-05-29 18:22:18
2025-05-29 20:12:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10589文章數(shù) 176155關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)財(cái)報(bào)炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

哪吒汽車上海總部LOGO被連夜拆除:工人還用刮刀清理

頭條要聞

哪吒汽車上海總部LOGO被連夜拆除:工人還用刮刀清理

體育要聞

納達(dá)爾,法網(wǎng),漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發(fā)生了

財(cái)經(jīng)要聞

若對等關(guān)稅叫停,特朗普還能怎么加關(guān)稅

汽車要聞

搭載Thor芯片 領(lǐng)克900城市NOA挑戰(zhàn)重慶

態(tài)度原創(chuàng)

藝術(shù)
家居
教育
房產(chǎn)
軍事航空

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

暖色復(fù)古 溫馨小資情調(diào)

教育要聞

數(shù)學(xué)思維 小學(xué)數(shù)學(xué)

房產(chǎn)要聞

清盤倒計(jì)時(shí)!這個(gè)天河芯紅盤,贏的不止多一點(diǎn)!

軍事要聞

以軍承認(rèn)使用激光武器攔截?zé)o人機(jī)

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 弥渡县| 定安县| 凌源市| 汉沽区| 汉源县| 丰台区| 定远县| 石棉县| 晋江市| 甘孜县| 阜平县| 胶州市| 清镇市| 科尔| 万荣县| 沂南县| 南宁市| 达州市| 哈巴河县| 南郑县| 安宁市| 宁明县| 阳山县| 大关县| 高安市| 平邑县| 台安县| 珲春市| 唐河县| 宝丰县| 邹城市| 桑植县| 铜陵市| 响水县| 山西省| 北碚区| 惠东县| 滨海县| 咸阳市| 岳西县| 威远县|