不圓 整理自 凹非寺
量子位 | 公眾號 QbitAI
多模態時代應如何評估模型的視覺輸出能力?
來自清華大學、騰訊混元、斯坦福大學、卡耐基梅隆大學等頂尖機構的研究團隊聯合發布了RBench-V:一款針對大模型的視覺推理能力的新型基準測試。
過去的評估基準主要集中于評估多模態輸入和純文本推理過程。
而RBench-V系統性評估了當前主流大模型基于“畫圖”的視覺推理能力:
比如在圖中畫出輔助線、描點連線、繪制光線路徑、標注目標區域,等等。
結果發現,即使是表現最好的模型o3,在RBench-V上的準確率也只有25.8%,遠低于人類的82.3%。
這篇論文在reddit machine learning社區引發了討論,有網友評價:
- 有趣的現象,視覺推理連小孩都能做到,GPT-4o卻做不到。
RBench-V:專為模型視覺推理設計
為了評估模型的跨模態推理能力,RBench-V精心設計并篩選了共計803道題目,涵蓋幾何與圖論(數學)、力學與電磁學(物理)、多目標識別(計數)以及路徑規劃與圖形聯想(圖形游戲)等多個領域。
與以往僅要求文字回答的多模態評測不同,RBench-V的每一道題都明確要求模型生成或修改圖像內容來支持推理過程:
簡單地說,就是讓大模型像人類專家一樣,通過繪制輔助線、觀察圖形結構等可視化方式進行思考。
這種對“畫出圖以輔助思考”過程的強調,對模型的視覺理解和圖文協同推理能力提出了全新的要求。
評測發現,盡管GPT-4o、Gemini、o3等新一代大模型標榜具備“多模態理解與生成”能力,它們在真正需要圖像輸出參與推理的問題上仍顯得力不從心。
主流大模型的評測結果:遠不及人類水平
在RBench-V的評測中,即便是當前業界最強的閉源模型,也遠遠比不上人類視覺推理能力。
OpenAI發布的旗艦模型o3以25.8%的整體準確率排名首位,Google最新推出的Gemini2.5緊隨其后,得分為20.2%。
但這兩者的表現與人類專家高達82.3%的平均準確率相比,依然很不夠看,說明了現有模型在復雜多模態推理任務中認知能力的嚴重不足。
在開源模型陣營中,主流代表如Qwen2.5VL、InternVL、LLaVA-OneVision等模型的準確率普遍徘徊在8%至10%之間,甚至在某些任務維度上接近“隨機作答”的水平——
所謂“把答題卡放地上踩一腳”的水平。
這種懸殊的表現不僅揭示了當前開源生態在多模態輸出生成上的技術瓶頸,也反映出大模型從“看懂圖”到“畫出圖以輔助思考”的能力缺失。
當前,大模型對于視覺推理尚處于早期探索階段。
此外,通過比較不同模型的得分,可以看到:僅靠擴大模型參數規模、引入圖像輸入通道,或在文字層面堆疊長鏈條思維(Chain-of-Thought,CoT)并不能有效提升模型的視覺推理能力。
當下模型的重大短板:難以借助圖像進行推理
RBench-V的研究揭示了一個關鍵問題:當前的大模型在處理需要空間直覺和圖像操作的幾何類問題時,往往選擇“走捷徑”。
與人類專家傾向于通過直觀的可視化方法進行思考不同,大多數模型更習慣于將圖形問題抽象為坐標系下的代數表達,并采用文本推理路徑完成解題。
這種“用文字繞過圖形”的策略雖然在某些場景下能夠給出正確答案,但實際上掩蓋了其對圖像信息的深層理解缺失,也暴露出它們“表面聰明,實則薄弱”的多模態推理能力。
RBench-V的實驗結果顯示,即便是采用長文本推理路徑或具備“看圖說話”能力的模型,在面對需要圖像輸出的復雜問題時,仍然束手無策。
RBench-V團隊指出,真正推動大模型邁向“類人智能”的突破口,在于構建能夠在推理過程中主動生成圖像、構圖輔助思考的認知框架。
這其中,多模態思維鏈(Multi-modal Chain-of-Thought,M-CoT)機制、智能體推理(Agent-based Reasoning)范式等新興方法,可能成為人工智能通往未來的重要路徑。
論文、代碼、數據均可在項目主頁找到:
https://evalmodels.github.io/rbenchv/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.