網易首頁 > 網易號 > 正文申請入駐

GPT-4o-Image僅完成28.9%任務！上海AI實驗室等發布圖像編輯基準

2025-05-30 15:07:43　來源: 量子位

美國,加利福尼亞州舉報

分享至

RISEBench團隊投稿
量子位 | 公眾號 QbitAI

GPT-4o-Image也只能完成28.9%的任務，圖像編輯評測新基準來了！

360個全部由人類專家仔細思考并校對的高質量測試案例，暴露多模態模型在結合推理能力進行圖像編輯時的短板。

最近，上海人工智能實驗室聯手上海交大、同濟大學、武漢大學、普林斯頓大學的研究人員，針對圖像編輯AI提出了三個問題：

現有的圖像編輯評測基準是否已經無法跟上時代的步伐？
僅僅停留在“更換顏色”等改變物體表層屬性的測試，是否已顯得過于簡單，無法真正衡量AI的“深度理解”能力？
當指令變得更加復雜，涉及圖片背后的邏輯、上下文關聯甚至隱含意圖時，現有模型能否正確“領會”并精準執行，同時保證生成圖像的質量和與原圖的自然一致性？

為了填補這一空白，深度挖掘并客觀評估視覺編輯模型在理解復雜指令方面的能力上限，團隊推出了一項全新任務——Reasoning-Informed ViSual Editing （RISE）。

另外，他們還配套發布了一個高質量評測基準——RISEBench，覆蓋時間、因果、空間、邏輯四種核心推理類型，每個案例包含原圖和編輯指令。

例如輸入一張圖像，展示了一片草地上有片枯葉，上方有個放大鏡，任務指令為“畫出該場景在夏天30秒后的模樣”。

團隊測試了當前性能領先的九個視覺編輯模型，實驗測試結果令人意外：

即使是最強的GPT-4o-Image，在復雜視覺編輯任務中的準確率也僅為28.9%，最強的開源模型BAGEL僅能完成5.8%的任務，其它被測開源模型完成率幾乎為零，顯示出當前開源模型與閉源模型在視覺理解能力上的差距。

以下是更多細節。

RISEBench長啥樣？

與傳統評測基準不同，RISEBench旨在評估視覺編輯模型在各類需要深層理解的指令上的性能。它不僅僅停留在表面修改，更深入地探索視覺編輯模型對時間、因果、空間和邏輯等復雜概念的把握。

RISEBench精心設計了360道高難度問題，全部由人類專家仔細思考并校對，確保了問題的嚴謹性和挑戰性。這些題目被劃分為四大核心類別，旨在全面考驗模型的推理能力：

Temporal Reasoning(時間推理)：考驗模型對時間線索的理解和未來/過去狀態的預測。
Causal Reasoning(因果推理)：評估模型能否理解各類動作（碰撞，點燃，物理化學反應等）與結果之間的因果關系。
Spatial Reasoning(空間推理)：挑戰模型對物體空間位置、關系、視角變換等想象能力的掌握。
Logical Reasoning(邏輯推理)：衡量模型對抽象規則、數學運算、邏輯關系的推斷能力。

為了確保評估的全面性和泛化性，RISEBench的輸入圖像來源廣泛，包括互聯網數據、已有基準、模型生成圖像以及代碼生成圖像等多個不同分布的數據源。

這種多源異構的設計，能夠廣泛細致地考驗模型對不同輸入圖像和指令的應對能力，避免模型在特定數據分布上過擬合。

自動化的細粒度評估體系

為了精準、高效地評判模型輸出是否符合要求，作者團隊將整體評估拆分成了三個關鍵子維度，并采用前沿的多模態大模型作為評判專家（LMM-as-Judge）的方式，使用GPT-4.1作為評估模型對每個維度進行打分，確保評估的客觀性和一致性。

1、Instruction Reasoning(指令理解)：考核模型是否準確理解了指令的深層含義。

對于輸出結果可用文字準確描述的指令，評估模型會判斷生成圖像與給定文本答案是否匹配。
對于最終輸出難以用文字描述的復雜指令，我們針對性地提供了用于參考的圖像回答，評估模型將判斷生成圖像是否與參考圖像相匹配。

2、Appearance Consistency(外觀一致性)：評估生成圖像與原圖在背景以及風格、紋理等與指令無關的視覺元素上的一致性，確保編輯自然。

3、Visual Plausibility(視覺合理性)：衡量生成圖像的整體視覺質量、真實感和視覺合理性，避免出現不自然或失真的效果。

每個維度均為1-5分，當三個維度均為滿分時標記為完成了編輯任務。這種細粒度的評估設計顯著提升了模型打分與人類判斷的對齊程度，為未來視覺編輯模型的發展提供了更加可靠和公正的評估體系。

視覺編輯模型理解能力遠未及格

作者團隊對近期備受關注的多個閉源及開源模型進行了嚴格評估，包括GPT-4o-Image、Gemini-Flash-2.0-Series (Experimental & Preview)、HiDream-Edit以及開源模型BAGEL、Step1X-Edit、OmniGen、EMU2、Flux.1。

結果令人深思：

全面欠缺：測評結果明確指出，當前的視覺編輯模型在完成復雜指令方面仍存在相當大的欠缺。它們距離真正“讀懂”用戶的深層意圖，還有很長的路要走。
GPT-4o-Image一騎絕塵，但仍遠低于預期：即使是目前公認最強的閉源模型GPT-4o-Image，在RISEBench上也僅僅只能完美完成28.9%的任務。
閉源與開源差距顯著：排名第二、第三的Gemini-Flash-2.0-Experimental和Gemini-Flash-2.0-Preview，分別僅能完成13.3%和9.4%的任務，與GPT-4o-Image之間存在著明顯的代際差距。更令人擔憂的是，最強的開源模型BAGEL僅能完成5.8%的任務，這彰顯出當前開源模型與閉源模型之間在視覺理解能力上的巨大鴻溝。其他被測模型的完成率幾乎為零，暴露出其薄弱的理解能力。

為了更深入地分析各模型的表現，研究團隊還統計了每個模型在指令理解（Instruction Reasoning）、外觀一致性（Appearance Consistency）和視覺合理性（Visual Plausibility）這三個評估維度上的平均得分，揭示了其短板所在。

結果表明：

領先者全面發展： GPT和Gemini系列模型在所有三個維度上都展現出了相對較高的水準，因此在整體任務完成度上表現相對更佳。
開源模型短板明顯： BAGEL雖然在指令理解能力上僅次于GPT和Gemini，但在生成圖像的視覺合理性上得分較低，這意味著其輸出圖像往往存在更多的失真或模糊現象，影響了最終得分。
各有側重，但均有缺陷： HiDream-Edit雖然具備部分理解能力，但在保持輸出圖像內容一致性上表現較差，容易出現與原圖脫節的情況。Step1X-Edit雖然能生成較高視覺合理性的圖像，但其指令理解能力和一致性表現均較低。
理解力成為決定性因素：其他模型由于幾乎完全沒有理解能力，且在保持一致性方面也表現不佳，最終導致其整體完成度接近于0。

團隊認為，這些細致的評估結果清晰地揭示了當前視覺編輯模型所面臨的嚴峻挑戰：

不僅僅是簡單的技術實現，更深層次的認知和推理能力才是決定未來模型性能的關鍵瓶頸。

最后，作者團隊展望未來并表示：

RISEBench的發布，標志著圖像編輯評測標準的一次重大升級。希望它能推動下一代視覺編輯模型發展，引領編輯模型從“模仿”走向“理解”，最終實現真正智能、富有創造力的視覺交互。

論文鏈接：https://arxiv.org/pdf/2504.02826
GitHub鏈接：https://github.com/PhoenixZ810/RISEBench

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.