網易首頁 > 網易號 > 正文申請入駐

o3拼盡全力無法戰勝？全新視覺推理Benchmark揭露AI與人類在核心能力上的差異

2025-04-25 08:38:26　來源: 將門創投

北京舉報

分享至

隨著AI的發展進入下半場，定義問題變得更加重要。盡管多模態大模型在現有評測基準中的分數大幅上升，但在實際應用中卻仍然面臨諸多局限。因此，為以OpenAI o3和Gemini 2.5 Pro為代表的視覺推理模型設計全新的評測基準顯得尤為重要。

本文介紹了一個新提出的多模態大模型（LMMs）評測數據集MOAT。為了研究現有LMMs與人類之間的差距和背后的原因，MOAT中的每個題目需要同時運用多種基礎視覺能力。此外，在團隊設計的能力分類體系中，首次提出了跟隨復雜文本指令和跟隨復雜視覺指令的能力。在MOAT上，人類準確率比表現最好的LMM（OpenAI o1）高43.9%。

在論文發布后，Gemini 2.5 Pro和OpenAI o3等新一代推理模型相繼問世。團隊發現這些模型雖然相比于o1有較大提升（準確率從38.8%提升至48%左右），但仍然與人類表現（82.7%）有明顯差距，尤其是在物體計數、空間理解、指令跟隨等方面。即使是對于o3，MOAT中的復雜視覺任務仍然屬于“拼盡全力無法戰勝”的狀態。

論文題目： MOAT: Evaluating LMMs for Capability Integration and Instruction Grounding 論文鏈接： https://arxiv.org/abs/2503.09348 項目鏈接： https://cambrian-yzt.github.io/MOAT/

一、動機

視覺是人類感知和理解世界的重要方式之一。因此，視覺能力也一直是人工智能領域的研究熱點之一。多模態大模型（LMMs）雖然展現出了解決視覺-文本任務上的能力，但在許多任務上仍與人類水平有較大差距。與之相比，大語言模型在很多純文本任務上已經超越了人類普遍水平、甚至人類專家水平。

為了研究LMMs性能劣勢的原因，我們需要準確、系統地考察和評測LMMs。而現有的評測數據集中，有些數據集的每個題目只能針對一種視覺-文本能力，忽略了真實視覺場景的復雜性；有些數據集的評測受到大模型內置知識和語言生成風格的影響，難以準確評測LMMs的真實能力；有些數據集的能力分類不夠全面，尤其是遺漏了復雜指令跟隨的能力。因此，我們需要一個新的LMMs評測數據集，不僅能提供一個全面的視覺-文本能力分類體系，同時也能夠考察LMMs是否能夠同時運用多種能力。

對此，我們提出一個全新的LMMs評測數據集MOAT，和對應的能力分類體系。我們的分類體系包含4個大類、共10種基礎能力，使其能夠細粒度地評價LMMs。我們的分類中首次提出了復雜文本指令跟隨能力和視覺指令跟隨能力。MOAT中的問題涉及多種能力，一道題考察的能力數量最多高達6種。此外，為了防止評測結果受到文本生成質量和模型知識庫的干擾、保證評測的公平性，MOAT中的每個題目都是有唯一正確答案的客觀題，并且在題目中提供了所有解題所需的知識。

我們將MOAT評測了20余個LMMs，其中OpenAI o1效果最優（準確率38.8%），遠低于人類水平（準確率82.7%）。此外，我們針對能力分類進行了細粒度的分析，并總結了一些值得注意的現象，用于指導未來LLMs相關的研究：對于部分能力，所有的LMMs有統一的性能缺陷；不同的模型家族具有不同的能力優劣傾向；參數規模能顯著提高表現；基于提示詞的思維鏈（Chain-of-Thought,CoT）和推理模型在某些能力上展現出穩定的提升，但在有些能力上展現出穩定的性能退化；通過調整圖像大小來避免圖像tiling可以顯著提升使用tiling機制LMMs的分類能力。

二、數據集細節2.1 能力分類體系

我們定義了共4大類、10種視覺-文本基礎能力的分類體系。為了保證評測的準確性，我們的分類體系排除了：所有任務都需要的能力，例如物體和屬性識別（模型在這些能力上的表現可以通過benchmark上的總準確率反映）；純文本模態的能力，例如文本生成能力和數學能力。我們的分類體系包括：

感知類
- 計數 (CNT)：準確數出圖像中特定物體的個數。
- 文本識別 (OCR)：閱讀圖像中的文字。
- 理解圖表和可視化 (UCV)：能夠理解圖表或其它利用顏色、形狀、文本等的組合來傳達的直觀信息。
空間理解
- 理解空間關系 (RLA)：理解二維或三維空間中，物體之間的相對位置關系或物理連接關系。
- 理解空間變換 (3DTF)：理解三維空間中空間變換，并能理解變換對應的語義。例如一個化學分子球棍模型旋轉后不改變其分子結構。
- 理解空間物理量 (3DQNT)：能夠估計或比較空間物理量，例如長度、角度、面積、體積等。
指令跟隨
- 文本指令跟隨 (GNDT)：理解并運用復雜的文本指令。例如理解靶紙的復雜計分規則。
- 視覺指令跟隨 (GNDV)：理解并運用基于圖像的指令。例如理解宜家說明書。
處理復雜場景
- 信息富集場景中檢索任務相關信息 (RET)：在具有大量信息場景中，檢索出和具體問題相關的信息。例如在10余個出口的車站檢索目標相關信息。
- 多圖像理解 (MTIMG)：處理多張圖像的能力。

2.2 數據集構建

基于上述的能力分類體系，我們構建了評測數據集MOAT，并對每個問題標注了解答所需的能力。此外，對于需要額外知識的問題，我們會通過文本或圖像的形式來提供對應的知識，保證回答者自身不需要具備任何專業知識就可以回答MOAT中的所有問題。對于有些問題，我們會在提示詞中提供可選的選項。

三、實驗

我們選擇了20余個商用或開源LMMs，測試了它們在MOAT上的運行結果。此外，我們測試了人類在MOAT上的結果。然后，我們針對具體的能力分類進行了細粒度分析，并提供了一些有利于未來LMMs研究工作的實驗結論。

3.1 實驗結果

實驗結果。開源模型以淡藍底標注。'random guess'表示在選擇題中隨機選擇、并放棄非選擇題時的準確率。

在實驗結果中，我們發現：

人類遙遙領先：在MOAT上，人類在所有能力都遠遠超過LMMs，準確率最高可領先62.8%，最低也有20.1%。在整體準確率上，差距也有43.9%。
不同家族各有側重：不同的LMMs家族在能力優劣上各有側重，并且同一系列的模型往往有統一性。例如，OpenAI系列（GPT-4v、GPT-4o、o1）在UCV、3DTF、MTIMG、RLA能力上表現出色，而Claude 3.7系列則在3DQNT、GNDT、GNDV上領先。
部分能力嚴重落后：所有模型在CNT、RLA、GNDT、GNDV能力上都表現不佳。除了極少數模型之外，UCV能力的準確率也很低。

3.1 細粒度分析3.1.1 純文本推理的不足

我們比較了三個模型在不同推理設置（無推理提示詞、基于提示詞的CoT、內置推理能力）下的表現。從整體的準確率來看，基于提示詞的CoT和現在大火的原生推理能力均無法穩定提升表現。

從具體每個能力分析，純文本推理在純視覺能力或視覺占主導的能力上（例如3DTF、3DQNT、GNDT、GNDV）反而會表現出明顯的性能下降。通過對推理過程的觀察，我們猜測這是因為文本模態的推理加劇了細粒度理解能力的不足帶來的幻覺；而在文本模態強相關、或涉及上下文信息的能力上（例如OCR、UCV、RLA、RET），推理能力才具有一定的提升效果。

比較相同基座模型，在不同設置下（無推理提示詞、基于提示詞的CoT、內置推理能力）的表現。 3.1.2 Tiling機制嚴重影響計數能力（CNT）

在麻將計數任務中，LMMs需要先根據文本指令找到需要計數的麻將位置（Phase 1）、再進行計數（Phase 2）。如果將圖片裁剪出需要計數的區域，則僅需要CNT能力。

麻將技術任務的兩個步驟

我們發現，相比于計數本身，對LMMs更難的是找到需要計數的區域；同時，tiling會導致計數能力嚴重下降，這可能是因為tiling將圖片分割為固定大小的tile時，把同一個物體切分進了多個tile，破壞了圖片在計數層面的語義。

在麻將計數任務上的實驗結果。Original表示輸入圖像不進行任何修改、問題涉及包括CNT的多種能力；CNT-only表示將輸入圖像裁剪成只包含待計數區域，問題只涉及CNT能力；CNT-only w/o Tiling表示在此之上，調整圖像大小使其不需要進行tiling。四、總結

我們提出了一個新的LMMs評測數據集MOAT，它需要LMMs同時運用多種能力，并且首次提出考察指令跟隨能力。MOAT提出了一個包含10種基本能力的分類體系，使其可以準確全面地評價現有的LMMs，并為未來LMMs地研究提供指導。MOAT中的復雜視覺任務對于OpenAI o3、Gemini 2.5 Pro等最新的視覺推理模型仍然具有極高的挑戰性，在MOAT上取得突破可能需要LMMs在范式層面的創新。

llustration From IconScout By IconScout Store

-The End-

掃碼觀看！

本周上新！

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區（www.techbeat.net）。社區上線600+期talk視頻，3000+篇技術干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺，希望為AI人才打造更專業的服務和體驗，加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章，并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向，對用戶啟發更大的文章，做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信（yellowsubbj）投稿，溝通投稿詳情；還可以關注“將門創投”公眾號，后臺回復“投稿”二字，獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域的新型創投機構，也是北京市標桿型孵化器。公司致力于通過連接技術與商業，發掘和培育具有全球影響力的科技創新企業，推動企業創新發展與產業升級。

將門成立于2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投后服務，歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.