99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<bdo id="skjgz"><strong id="skjgz"><dl id="skjgz"></dl></strong></bdo>

<tt id="skjgz"><b id="skjgz"></b></tt>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

多模態大模型不會畫輔助線：o3僅25.8%，遠低于人類82.3%

2025-05-28 12:37:09　來源: 量子位

北京舉報

0

分享至

不圓整理自凹非寺
量子位 | 公眾號 QbitAI

多模態時代應如何評估模型的視覺輸出能力？

來自清華大學、騰訊混元、斯坦福大學、卡耐基梅隆大學等頂尖機構的研究團隊聯合發布了RBench-V：一款針對大模型的視覺推理能力的新型基準測試。

過去的評估基準主要集中于評估多模態輸入和純文本推理過程。

而RBench-V系統性評估了當前主流大模型基于“畫圖”的視覺推理能力：

比如在圖中畫出輔助線、描點連線、繪制光線路徑、標注目標區域，等等。

結果發現，即使是表現最好的模型o3，在RBench-V上的準確率也只有25.8%，遠低于人類的82.3%。

這篇論文在reddit machine learning社區引發了討論，有網友評價：

有趣的現象，視覺推理連小孩都能做到，GPT-4o卻做不到。

RBench-V：專為模型視覺推理設計

為了評估模型的跨模態推理能力，RBench-V精心設計并篩選了共計803道題目，涵蓋幾何與圖論（數學）、力學與電磁學（物理）、多目標識別（計數）以及路徑規劃與圖形聯想（圖形游戲）等多個領域。

與以往僅要求文字回答的多模態評測不同，RBench-V的每一道題都明確要求模型生成或修改圖像內容來支持推理過程：

簡單地說，就是讓大模型像人類專家一樣，通過繪制輔助線、觀察圖形結構等可視化方式進行思考。

這種對“畫出圖以輔助思考”過程的強調，對模型的視覺理解和圖文協同推理能力提出了全新的要求。

評測發現，盡管GPT-4o、Gemini、o3等新一代大模型標榜具備“多模態理解與生成”能力，它們在真正需要圖像輸出參與推理的問題上仍顯得力不從心。

主流大模型的評測結果：遠不及人類水平

在RBench-V的評測中，即便是當前業界最強的閉源模型，也遠遠比不上人類視覺推理能力。

OpenAI發布的旗艦模型o3以25.8%的整體準確率排名首位，Google最新推出的Gemini2.5緊隨其后，得分為20.2%。

但這兩者的表現與人類專家高達82.3%的平均準確率相比，依然很不夠看，說明了現有模型在復雜多模態推理任務中認知能力的嚴重不足。

在開源模型陣營中，主流代表如Qwen2.5VL、InternVL、LLaVA-OneVision等模型的準確率普遍徘徊在8%至10%之間，甚至在某些任務維度上接近“隨機作答”的水平——

所謂“把答題卡放地上踩一腳”的水平。

這種懸殊的表現不僅揭示了當前開源生態在多模態輸出生成上的技術瓶頸，也反映出大模型從“看懂圖”到“畫出圖以輔助思考”的能力缺失。

當前，大模型對于視覺推理尚處于早期探索階段。

此外，通過比較不同模型的得分，可以看到：僅靠擴大模型參數規模、引入圖像輸入通道，或在文字層面堆疊長鏈條思維（Chain-of-Thought,CoT）并不能有效提升模型的視覺推理能力。

當下模型的重大短板：難以借助圖像進行推理

RBench-V的研究揭示了一個關鍵問題：當前的大模型在處理需要空間直覺和圖像操作的幾何類問題時，往往選擇“走捷徑”。

與人類專家傾向于通過直觀的可視化方法進行思考不同，大多數模型更習慣于將圖形問題抽象為坐標系下的代數表達，并采用文本推理路徑完成解題。

這種“用文字繞過圖形”的策略雖然在某些場景下能夠給出正確答案，但實際上掩蓋了其對圖像信息的深層理解缺失，也暴露出它們“表面聰明，實則薄弱”的多模態推理能力。

RBench-V的實驗結果顯示，即便是采用長文本推理路徑或具備“看圖說話”能力的模型，在面對需要圖像輸出的復雜問題時，仍然束手無策。

RBench-V團隊指出，真正推動大模型邁向“類人智能”的突破口，在于構建能夠在推理過程中主動生成圖像、構圖輔助思考的認知框架。

這其中，多模態思維鏈（Multi-modal Chain-of-Thought,M-CoT）機制、智能體推理（Agent-based Reasoning）范式等新興方法，可能成為人工智能通往未來的重要路徑。

論文、代碼、數據均可在項目主頁找到：
https://evalmodels.github.io/rbenchv/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

中國團隊讓AI擁有「視覺想象力」，像人類一樣腦補畫面來思考

機器之心Pro 2025-05-29 15:26:48
0 跟貼 0
全球30名頂尖數學家秘密集會圍剿AI，當場破防！驚呼已接近數學天才

新智元 2025-06-07 16:04:37
97 跟貼 97

RLHF已死，RLVR引爆AGI革命！Claude 4核心成員萬字對談

新智元 2025-06-07 09:04:24
26 跟貼 26

訓練步數翻倍=推理能力質變，小模型突破推理極限

機器之心Pro 2025-06-04 19:08:50
1 跟貼 1
百度發布金融行業大模型，沈抖：產業從提示詞優化走向智能體構建

鈦媒體APP 2025-06-08 19:16:13
19 跟貼 19

生數科技CEO駱怡航：從模型到生產，多模態AI如何推動視頻創作更高效

華爾街見聞官方 2025-06-08 12:51:16
0 跟貼 0

垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
哈佛團隊發現多巴胺能神經元新機制，或是突破AI瓶頸的鑰匙

DeepTech深科技 2025-06-08 22:16:25
33 跟貼 33

中國人工智能市場規模可能會達到500億美元

每日經濟新聞 2025-05-08 22:13:42
96 跟貼 96
莎頭經典奧運混雙之作王者之師對戰神秘之師上演大型視覺盛宴

阿倫趣事會 2025-06-06 14:44:46
1 跟貼 1
阿拉斯加汽車跳崖比賽，心跳狂飆的視覺盛宴！

烏雅問風d 2025-06-08 01:09:46
2 跟貼 2
AI人工智能方向的未來，張雪峰言簡意賅

天雪之楠 2025-06-06 07:41:55
14 跟貼 14
光速能否被超越呢？答案是肯定的，那就是量子糾纏！

世界地理小知識 2025-06-07 09:49:33
5 跟貼 5
河南周口，農機夫婦夜間偶遇8旬獨居老人，幫其收割麥子！

大象新聞 2025-06-08 12:21:07
303 跟貼 303
七家大模型挑戰 2025 高考數學：DeepSeek、訊飛星火得分超140

IT之家 2025-06-08 17:46:39
65 跟貼 65
我的高考經歷是怎樣的？人工智能時代又該如何選專業？

李稻葵 2025-06-06 13:49:10
7 跟貼 7
端側模型又“瘦身成功”！220倍極限提速、8B模型超過Gemma3-12B，面壁智能甩出“性能大小王”

智東西 2025-06-07 20:59:29
1 跟貼 1
高考作文“抽象”沖上熱搜，ChatGPT、DeepSeek等推理大模型集體上場，實測來了！

CSDN 2025-06-07 17:57:10
3 跟貼 3
美媒：美國恢復處理哈佛國際學生簽證

新京報 2025-06-08 09:16:06
12827 跟貼 12827
柯南漫畫1145話：朗姆展現推理能力，柯南的確不如他

二次元那些事 2025-06-04 22:34:46
2 跟貼 2
國產具身大模型首獲汽車制造全場景驗證；2024年廣東海洋生產總值超2萬億元丨大灣區財經早參

每日經濟新聞 2025-06-09 07:54:10
0 跟貼 0
人工智能的搞笑對話

情感路人乙 2025-06-07 21:57:46
0 跟貼 0
河南首富換人！泡泡瑪特創始人王寧身家1467億元，取代秦英林成河南新首富

紅星新聞 2025-06-08 16:39:11
6953 跟貼 6953
遼寧牛人造出“量子激光炮”，堪稱無人機殺手，威力堪比導彈

深度解析熱點 2025-06-07 13:17:17
0 跟貼 0
許其亮同志生平

新華社 2025-06-08 15:27:05
1111 跟貼 1111
深度科普：宇宙萬物99%都是虛無，為何看起來是實體的？

宇宙時空 2025-06-08 14:53:09
1 跟貼 1
他入獄10年自學數學，如今憑借手稿發了篇論文，被同行評價“足以開辟數論新領域”

超級數學建模 2025-06-08 22:36:54
1 跟貼 1
俄輸在了人工智能上！烏克蘭用算法降維打擊俄羅斯，震驚了世界

八月娛記 2025-06-07 08:15:59
1 跟貼 1
光速為何是宇宙速度極限？如果光速無限，萬物將不復存在！

宇宙時空 2025-06-07 15:32:01
30 跟貼 30
意義重大！俄軍“挺進”烏重要經濟中心

參考消息 2025-06-08 21:24:07
1939 跟貼 1939
老板邊賣西瓜邊做設計，沒有顧客時便坐在一旁畫圖，網友：哪個是副業？

警界君 2025-06-07 00:34:12
0 跟貼 0
深度科普：無限的概念有多離譜？把木棍無限分割最終會得到什么？

宇宙時空 2025-06-08 14:57:37
0 跟貼 0
50歲金巧巧自曝30年前做過醫美，“很后悔！”

極目新聞 2025-06-08 18:38:16
933 跟貼 933
多地家電“國補”暫停？有地方稱前期補貼資金用完，專家稱第二批第三批在撥

澎湃新聞 2025-06-06 14:12:27
3869 跟貼 3869
抗日神劇逆天劇情：女俠化身“超級大腦”戰士，比人工智能還離譜

魔方影子 2025-06-06 18:00:00
0 跟貼 0
專家點評2025年上海高考數學試卷：難度適中，穩中求新

澎湃新聞 2025-06-07 21:53:12
15 跟貼 15
凱特王妃病情好轉葬禮計劃卻被曝光？提前準備是英國王室傳統｜國際觀察

封面新聞 2025-06-08 13:35:07
1 跟貼 1
湖北一地：市內出差一律自費吃食堂

魯中晨報 2025-06-08 09:49:51
226 跟貼 226
突然爆火！上海白領下班后熱衷聽人敲碗？一次上百元，“這里不聊房子車子”，70歲老人也來了

上觀新聞 2025-06-08 21:31:42
242 跟貼 242
韋東奕入駐抖音事件，需追問的三個問題

澎湃新聞 2025-06-09 00:31:04
65 跟貼 65

韓媒：由于無緣美加墨，中國對陣巴林很可能有大批球迷高喊退錢

韓媒：由于無緣美加墨，中國對陣巴林很可能有大批球迷高喊退錢

雷速體育

2025-06-08 11:16:58

阿爾卡拉斯大滿貫決賽挽救賽點奪冠，為公開賽時代第三人

阿爾卡拉斯大滿貫決賽挽救賽點奪冠，為公開賽時代第三人

懂球帝

2025-06-09 03:16:11

遭母親打罵、嫁中國8年不受歡迎，李在明當選后，輪到46歲她火了

遭母親打罵、嫁中國8年不受歡迎，李在明當選后，輪到46歲她火了

麥大人

2025-06-07 12:59:50

民政局離婚排隊人爆滿，反映了一個真相：年輕人不結婚、不生孩子，都是父母導致的

民政局離婚排隊人爆滿，反映了一個真相：年輕人不結婚、不生孩子，都是父母導致的

LULU生活家

2025-06-06 18:28:54

上海市政府原副秘書長，當上業委會主任！72歲老干部整活老小區：拒交物業費20年的居民主動補繳

上海市政府原副秘書長，當上業委會主任！72歲老干部整活老小區：拒交物業費20年的居民主動補繳

上觀新聞

2025-06-08 14:20:33

內娛最大的笑話，一個連路都走不利索的歌手，78歲開演唱會撈錢？

內娛最大的笑話，一個連路都走不利索的歌手，78歲開演唱會撈錢？

書雁飛史oh

2025-05-08 21:22:23

拒絕交易，確定留隊！NBA最有種的球星誕生，你比詹杜更忠誠

拒絕交易，確定留隊！NBA最有種的球星誕生，你比詹杜更忠誠

籃球掃地僧

2025-06-08 13:23:51

《生化9》公開驚呆“礙事梨”體模！直接爆粗口了

《生化9》公開驚呆“礙事梨”體模！直接爆粗口了

游民星空

2025-06-07 18:09:11

收到中方賀電不到兩小時，李在明開始當著全世界向中方兌現承諾！

收到中方賀電不到兩小時，李在明開始當著全世界向中方兌現承諾！

小企鵝侃世界

2025-06-07 22:43:44

60歲老人商場打碎茅臺賠76萬，付款后轉身就走，老板:壞了快追

60歲老人商場打碎茅臺賠76萬，付款后轉身就走，老板:壞了快追

黃家湖的憂傷

2025-06-04 17:25:37

通過今年的高考，能看出中國社會，有兩個方面發生了巨大的變化！

通過今年的高考，能看出中國社會，有兩個方面發生了巨大的變化！

小企鵝侃世界

2025-06-08 12:43:45

意義重大！俄軍“挺進”烏重要經濟中心

意義重大！俄軍“挺進”烏重要經濟中心

參考消息

2025-06-08 21:24:07

人活多久看頭發就能知道？提醒：壽命長的人，頭發或有4個特征！

人活多久看頭發就能知道？提醒：壽命長的人，頭發或有4個特征！

犀利辣椒

2025-06-09 06:12:06

女子河邊散步被毒蛇咬傷，及時注射抗蛇毒血清獲救當事人：第二天就好轉可慢慢走動

女子河邊散步被毒蛇咬傷，及時注射抗蛇毒血清獲救當事人：第二天就好轉可慢慢走動

極目新聞

2025-06-08 19:30:00

強對流、高溫、暴雨、大霧預警齊發，部分地區有10級以上雷暴大風

強對流、高溫、暴雨、大霧預警齊發，部分地區有10級以上雷暴大風

界面新聞

2025-06-09 07:03:04

Made in China椅子驚現神秘符號！美國小哥上網求助是啥漢字！看到這些回復他笑了

Made in China椅子驚現神秘符號！美國小哥上網求助是啥漢字！看到這些回復他笑了

英國那些事兒

2025-06-08 23:09:36

張建簡歷被撤下，違規吃喝被通報

張建簡歷被撤下，違規吃喝被通報

觀察者網

2025-06-08 13:50:57

體壇丑聞毀三觀！睡有婦之夫、玩嫖娼賭球、與小三玩刺激被抓現行

體壇丑聞毀三觀！睡有婦之夫、玩嫖娼賭球、與小三玩刺激被抓現行

紅色鑒史官

2025-04-29 17:10:03

致命高溫將席卷全國，人民日報發文提醒熱射病，已出現死亡病例

致命高溫將席卷全國，人民日報發文提醒熱射病，已出現死亡病例

涵豆說娛

2025-06-08 18:57:21

快遞小哥攙扶老太被索賠40萬，懷孕妻子跳樓后，當晚老太家被滅門

快遞小哥攙扶老太被索賠40萬，懷孕妻子跳樓后，當晚老太家被滅門

罪案洞察者

2025-06-06 17:35:02

追蹤人工智能動態

10613文章數 176165關注度

往期回顧全部

科技要聞

被甩在身后，蘋果AI急了，WWDC是最后機會?

頭條要聞

美媒：特朗普團隊考慮報復馬斯克

頭條要聞

美媒：特朗普團隊考慮報復馬斯克

體育要聞

史詩級讓2追3!阿爾卡拉斯3-2辛納衛冕法網

娛樂要聞

與前妻對簿公堂卻暴露了張紀中的窘境

財經要聞

美國“內戰”開始了

汽車要聞

復古造型樂趣依舊寶馬R12 nineT又帥又好騎

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

教育

房產

手機

游戲

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶，寫字都帶仙氣兒～

教育要聞

校長、老師也需要賞識與鼓勵

房產要聞

與亞沙共鑒，新城藝境|三亞新地標盛大啟幕暨限量藏品全球首發

手機要聞

Galaxy S25 Ultra阻擋彈片挽救烏克蘭士兵的生命三星表示將免費維修

LPL冠軍中單被釘上恥辱柱，豪門戰隊天價陣容，結果止步八強！

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：抚宁县| 达州市| 桓台县| 将乐县| 南通市| 双峰县| 郓城县| 紫金县| 文山县| 嘉义市| 虎林市| 陇川县| 岢岚县| 商都县| 石楼县| 邯郸市| 昭通市| 遵义市| 旬邑县| 永胜县| 长乐市| 奉贤区| 洪洞县| 德令哈市| 清原| 拉萨市| 武宁县| 双鸭山市| 龙山县| 普兰店市| 寻甸| 施甸县| 浙江省| 松桃| 广南县| 新巴尔虎右旗| 桦南县| 叶城县| 肇庆市| 乌海市| 新郑市|