99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

多模態大模型不會畫輔助線:o3僅25.8%,遠低于人類82.3%

0
分享至

不圓 整理自 凹非寺
量子位 | 公眾號 QbitAI

多模態時代應如何評估模型的視覺輸出能力?

來自清華大學、騰訊混元、斯坦福大學、卡耐基梅隆大學等頂尖機構的研究團隊聯合發布了RBench-V:一款針對大模型的視覺推理能力的新型基準測試。

過去的評估基準主要集中于評估多模態輸入和純文本推理過程。

而RBench-V系統性評估了當前主流大模型基于“畫圖”的視覺推理能力:

比如在圖中畫出輔助線、描點連線、繪制光線路徑、標注目標區域,等等。



結果發現,即使是表現最好的模型o3,在RBench-V上的準確率也只有25.8%,遠低于人類的82.3%。

這篇論文在reddit machine learning社區引發了討論,有網友評價:

  • 有趣的現象,視覺推理連小孩都能做到,GPT-4o卻做不到。



RBench-V:專為模型視覺推理設計

為了評估模型的跨模態推理能力,RBench-V精心設計并篩選了共計803道題目,涵蓋幾何與圖論(數學)、力學與電磁學(物理)、多目標識別(計數)以及路徑規劃與圖形聯想(圖形游戲)等多個領域。

與以往僅要求文字回答的多模態評測不同,RBench-V的每一道題都明確要求模型生成或修改圖像內容來支持推理過程:

簡單地說,就是讓大模型像人類專家一樣,通過繪制輔助線、觀察圖形結構等可視化方式進行思考。

這種對“畫出圖以輔助思考”過程的強調,對模型的視覺理解和圖文協同推理能力提出了全新的要求。



評測發現,盡管GPT-4o、Gemini、o3等新一代大模型標榜具備“多模態理解與生成”能力,它們在真正需要圖像輸出參與推理的問題上仍顯得力不從心。

主流大模型的評測結果:遠不及人類水平



在RBench-V的評測中,即便是當前業界最強的閉源模型,也遠遠比不上人類視覺推理能力。

OpenAI發布的旗艦模型o3以25.8%的整體準確率排名首位,Google最新推出的Gemini2.5緊隨其后,得分為20.2%。

但這兩者的表現與人類專家高達82.3%的平均準確率相比,依然很不夠看,說明了現有模型在復雜多模態推理任務中認知能力的嚴重不足。

在開源模型陣營中,主流代表如Qwen2.5VL、InternVL、LLaVA-OneVision等模型的準確率普遍徘徊在8%至10%之間,甚至在某些任務維度上接近“隨機作答”的水平——

所謂“把答題卡放地上踩一腳”的水平。

這種懸殊的表現不僅揭示了當前開源生態在多模態輸出生成上的技術瓶頸,也反映出大模型從“看懂圖”到“畫出圖以輔助思考”的能力缺失。

當前,大模型對于視覺推理尚處于早期探索階段。



此外,通過比較不同模型的得分,可以看到:僅靠擴大模型參數規模、引入圖像輸入通道,或在文字層面堆疊長鏈條思維(Chain-of-Thought,CoT)并不能有效提升模型的視覺推理能力。

當下模型的重大短板:難以借助圖像進行推理

RBench-V的研究揭示了一個關鍵問題:當前的大模型在處理需要空間直覺和圖像操作的幾何類問題時,往往選擇“走捷徑”。

與人類專家傾向于通過直觀的可視化方法進行思考不同,大多數模型更習慣于將圖形問題抽象為坐標系下的代數表達,并采用文本推理路徑完成解題。

這種“用文字繞過圖形”的策略雖然在某些場景下能夠給出正確答案,但實際上掩蓋了其對圖像信息的深層理解缺失,也暴露出它們“表面聰明,實則薄弱”的多模態推理能力。

RBench-V的實驗結果顯示,即便是采用長文本推理路徑或具備“看圖說話”能力的模型,在面對需要圖像輸出的復雜問題時,仍然束手無策。



RBench-V團隊指出,真正推動大模型邁向“類人智能”的突破口,在于構建能夠在推理過程中主動生成圖像、構圖輔助思考的認知框架。

這其中,多模態思維鏈(Multi-modal Chain-of-Thought,M-CoT)機制、智能體推理(Agent-based Reasoning)范式等新興方法,可能成為人工智能通往未來的重要路徑。

論文、代碼、數據均可在項目主頁找到:
https://evalmodels.github.io/rbenchv/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
韓媒:由于無緣美加墨,中國對陣巴林很可能有大批球迷高喊退錢

韓媒:由于無緣美加墨,中國對陣巴林很可能有大批球迷高喊退錢

雷速體育
2025-06-08 11:16:58
阿爾卡拉斯大滿貫決賽挽救賽點奪冠,為公開賽時代第三人

阿爾卡拉斯大滿貫決賽挽救賽點奪冠,為公開賽時代第三人

懂球帝
2025-06-09 03:16:11
遭母親打罵、嫁中國8年不受歡迎,李在明當選后,輪到46歲她火了

遭母親打罵、嫁中國8年不受歡迎,李在明當選后,輪到46歲她火了

麥大人
2025-06-07 12:59:50
民政局離婚排隊人爆滿,反映了一個真相:年輕人不結婚、不生孩子,都是父母導致的

民政局離婚排隊人爆滿,反映了一個真相:年輕人不結婚、不生孩子,都是父母導致的

LULU生活家
2025-06-06 18:28:54
上海市政府原副秘書長,當上業委會主任!72歲老干部整活老小區:拒交物業費20年的居民主動補繳

上海市政府原副秘書長,當上業委會主任!72歲老干部整活老小區:拒交物業費20年的居民主動補繳

上觀新聞
2025-06-08 14:20:33
內娛最大的笑話,一個連路都走不利索的歌手,78歲開演唱會撈錢?

內娛最大的笑話,一個連路都走不利索的歌手,78歲開演唱會撈錢?

書雁飛史oh
2025-05-08 21:22:23
拒絕交易,確定留隊!NBA最有種的球星誕生,你比詹杜更忠誠

拒絕交易,確定留隊!NBA最有種的球星誕生,你比詹杜更忠誠

籃球掃地僧
2025-06-08 13:23:51
《生化9》公開驚呆“礙事梨”體模!直接爆粗口了

《生化9》公開驚呆“礙事梨”體模!直接爆粗口了

游民星空
2025-06-07 18:09:11
收到中方賀電不到兩小時,李在明開始當著全世界向中方兌現承諾!

收到中方賀電不到兩小時,李在明開始當著全世界向中方兌現承諾!

小企鵝侃世界
2025-06-07 22:43:44
60歲老人商場打碎茅臺賠76萬,付款后轉身就走,老板:壞了快追

60歲老人商場打碎茅臺賠76萬,付款后轉身就走,老板:壞了快追

黃家湖的憂傷
2025-06-04 17:25:37
通過今年的高考,能看出中國社會,有兩個方面發生了巨大的變化!

通過今年的高考,能看出中國社會,有兩個方面發生了巨大的變化!

小企鵝侃世界
2025-06-08 12:43:45
意義重大!俄軍“挺進”烏重要經濟中心

意義重大!俄軍“挺進”烏重要經濟中心

參考消息
2025-06-08 21:24:07
人活多久看頭發就能知道?提醒:壽命長的人,頭發或有4個特征!

人活多久看頭發就能知道?提醒:壽命長的人,頭發或有4個特征!

犀利辣椒
2025-06-09 06:12:06
女子河邊散步被毒蛇咬傷,及時注射抗蛇毒血清獲救 當事人:第二天就好轉可慢慢走動

女子河邊散步被毒蛇咬傷,及時注射抗蛇毒血清獲救 當事人:第二天就好轉可慢慢走動

極目新聞
2025-06-08 19:30:00
強對流、高溫、暴雨、大霧預警齊發,部分地區有10級以上雷暴大風

強對流、高溫、暴雨、大霧預警齊發,部分地區有10級以上雷暴大風

界面新聞
2025-06-09 07:03:04
Made in China椅子驚現神秘符號!美國小哥上網求助是啥漢字!看到這些回復他笑了

Made in China椅子驚現神秘符號!美國小哥上網求助是啥漢字!看到這些回復他笑了

英國那些事兒
2025-06-08 23:09:36
張建簡歷被撤下,違規吃喝被通報

張建簡歷被撤下,違規吃喝被通報

觀察者網
2025-06-08 13:50:57
體壇丑聞毀三觀!睡有婦之夫、玩嫖娼賭球、與小三玩刺激被抓現行

體壇丑聞毀三觀!睡有婦之夫、玩嫖娼賭球、與小三玩刺激被抓現行

紅色鑒史官
2025-04-29 17:10:03
致命高溫將席卷全國,人民日報發文提醒熱射病,已出現死亡病例

致命高溫將席卷全國,人民日報發文提醒熱射病,已出現死亡病例

涵豆說娛
2025-06-08 18:57:21
快遞小哥攙扶老太被索賠40萬,懷孕妻子跳樓后,當晚老太家被滅門

快遞小哥攙扶老太被索賠40萬,懷孕妻子跳樓后,當晚老太家被滅門

罪案洞察者
2025-06-06 17:35:02
2025-06-09 08:40:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10613文章數 176165關注度
往期回顧 全部

科技要聞

被甩在身后,蘋果AI急了,WWDC是最后機會?

頭條要聞

美媒:特朗普團隊考慮報復馬斯克

頭條要聞

美媒:特朗普團隊考慮報復馬斯克

體育要聞

史詩級讓2追3!阿爾卡拉斯3-2辛納衛冕法網

娛樂要聞

與前妻對簿公堂卻暴露了張紀中的窘境

財經要聞

美國“內戰”開始了

汽車要聞

復古造型樂趣依舊 寶馬R12 nineT又帥又好騎

態度原創

本地
教育
房產
手機
游戲

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

教育要聞

校長、老師也需要賞識與鼓勵

房產要聞

與亞沙共鑒,新城藝境|三亞新地標盛大啟幕暨限量藏品全球首發

手機要聞

Galaxy S25 Ultra阻擋彈片挽救烏克蘭士兵的生命 三星表示將免費維修

LPL冠軍中單被釘上恥辱柱,豪門戰隊天價陣容,結果止步八強!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 抚宁县| 达州市| 桓台县| 将乐县| 南通市| 双峰县| 郓城县| 紫金县| 文山县| 嘉义市| 虎林市| 陇川县| 岢岚县| 商都县| 石楼县| 邯郸市| 昭通市| 遵义市| 旬邑县| 永胜县| 长乐市| 奉贤区| 洪洞县| 德令哈市| 清原| 拉萨市| 武宁县| 双鸭山市| 龙山县| 普兰店市| 寻甸| 施甸县| 浙江省| 松桃| 广南县| 新巴尔虎右旗| 桦南县| 叶城县| 肇庆市| 乌海市| 新郑市|