網易首頁 > 網易號 > 正文申請入駐

GPT-4o不敵Qwen，無一模型及格！UC伯克利港大等提出多模態新基準

2025-05-14 17:28:33　來源: 量子位

北京舉報

分享至

All-Angles Bench 團隊投稿至凹非寺
量子位 | 公眾號 QbitAI

多視圖理解推理有新的評判標準了！

什么是多視圖理解？也就是從不同視角整合視覺信息進而實現理解決策。

想象一下，機器人在復雜環境中執行任務，這就需要根據多個攝像頭的畫面準確判斷物體位置、距離和運動方向，這就依賴于強大的多視圖理解能力。

但過去，由于評估多視圖推理能力的基準測試稀缺，這一領域的研究進展相對緩慢。

來自UC伯克利、憶生科技、香港大學、紐約大學、加州大學戴維斯分校、牛津大學等多家機構的研究者聯合提出了All-Angles Bench，旨在全面評估MLLMs的多視圖理解能力。它涵蓋了90個真實場景下，超過2100組人工標注的多視圖問答對。

其評測數據集以及評測代碼現已全部開源。

他們對27個領先的多模態大語言模型進行基準測試，其中包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o。

結果顯示，多模態大語言模型與人類水平之間存在顯著差距，并進一步發現模態大語言模型存在兩種主要的缺陷模式：（1）在遮擋情況下跨視圖對應能力較弱；（2）對粗略相機位姿的估計能力較差。

具體來看：

多視圖理解Bench

數據構建

All-Angles Bench是一個包含超過2100組人工標注的多視圖問答對的大規模基準，涵蓋了90個來源于EGO4D-EXO和EgoHumans數據集的真實世界場景。

數據集包含六大具有挑戰性的任務，分別是Counting、Attribute Identification、Relative Distance、Relative Direction、Object Manipulation和Camera Pose Estimation。

這些任務旨在從多角度考察MLLMs對3D場景的理解能力，包括物體之間的位置關系、物體與相機之間的位置關系等。

構建過程

1. 數據收集與問題類型設計：研究團隊精心挑選了90個多樣化的多視圖場景，并利用GPT設計了上述六大任務下的相關問題。

2. 問題篩查與人工標注：通過人工標注對問題進行細化，修飾以及答案生成。研究團隊并且使用交叉檢查的方法，確保了問題的清晰度、正確性和相關性，使得測試問題能夠準確地評估模型的能力。

3. 成對問題生成與人工質量檢查：為了評估模型在跨視圖一致性方面的表現，研究團隊通過重新表述問題或改變視角來生成成對問題。在生成過程中，保持視角對應關系不變，并進行最后的質量控制，以確保成對問題的有效性。

性能評估

研究團隊對27個領先的MLLMs進行了全面評估，其中包括知名的Gemini-2.0-Flash、Claude-3.7-Sonnet、GPT-4o，以及多種開源和閉源模型。

結果發現，無論是閉源還是開源的多模態大語言模型，在多視圖理解能力方面與人類水平之間仍存在顯著差距。

發現1：對人類來說簡單的任務，比如粗略的相機位姿估計，對多模態大語言模型而言卻頗具挑戰。

在Camera Pose Estimation任務中，人類標注者的準確率達到88.9%，而Gemini-2.0-Flash、Qwen2.5-VL-72B和InternVL2.5-38B這些頂尖的多模態大語言模型，其準確率落后超過50%，這凸顯了其與人類推理水平的顯著差距。

發現2：某些開源多模態大語言模型在方向敏感的任務上超越了閉源模型。

有趣的是，Ovis2-34B和Qwen2.5-VL-72B在Relative Direction和Object Manipulation任務上的表現甚至優于Gemini-2.0-Flash和Claude-3.7-Sonnet等閉源模型。推測這可能得益于開源模型集成的視頻理解能力和精細的視覺定位能力，使得在跨視圖跟蹤物體重新定向方面表現出色。

實驗分析

1、多模態大語言模型在成對問答中的不一致性

研究人員將模型的回答分為三類：CC（兩個回答都正確）、WW（兩個回答都錯誤）和IC（一個正確，一個錯誤）。較高的IC占比表明模型的多視圖理解能力較弱，即簡單的換個說法就會導致其回答出錯。

在對六個頂尖的多模態大語言模型進行評估時發現：

1）GPT-4o在Relative Distance任務上的IC得分最高（約70%），遠高于其他模型在該任務上的IC得分。

2）所有模型在Relative Direction任務上平均IC得分最高，表明在處理方向變化時存在困難。

3）Gemini-2.0-Flash和Claude-3.7-Sonnet在各個任務中的不一致性較為均衡，而Ovis2-34B和GPT-4o則表現出顯著的基于任務的不一致性差異。

2、多模態大語言模型在多視圖對應方面表現不佳

雖然在所有物體在單一視角下都可見（完全可見）的情況下，多模態大語言模型（MLLMs）往往能夠成功處理任務，但在跨視角整合碎片化信息（部分可見）時，它們有時會出現問題。

例如，GPT-4o 有時會選擇每個視角中的最大數量，而不是對跨視角的物體數量進行統一統計.

研究人員還在完全可見和部分可見的設置下，對 GPT-4o、Ovis2-34B 和 InternVL2.5-38B 這三款模型評估了以下三種方法：1）Zero-Shot CoT；2）Self-Consistency；3）Identification CoT。

雖然思維鏈方法在部分可見的情況下提升了 GPT-4o 的表現，但對于在多視圖計數方面本就表現出色的模型（如 InternVL2.5-38B）而言，帶來的提升比較微少。

這表明，僅靠優化提示詞并不夠，如果要對多視圖理解有根本性的性能提升，還需要進行專門的多視圖訓練。

3、多模態大語言模型在粗略的相機位姿估計方面表現不佳

通過可視化的方法，研究人員讓MLLM推理多視圖下的物體和和相機的位置與朝向，可以發現，雖然 GPT-4o 和 Gemini-2.0-Flash 對單張圖像的場景理解表現尚可，但它們在對齊不同的相機視角時存在困難，難以正確處理視角變換，進而影響多模態大語言模型的多視圖一致性。

論文地址：https://arxiv.org/abs/2504.15280
項目主頁：https://danielchyeh.github.io/All-Angles-Bench/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.