99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

GPT-4o-Image僅完成28.9%任務!上海AI實驗室等發布圖像編輯基準

0
分享至

RISEBench團隊 投稿
量子位 | 公眾號 QbitAI

GPT-4o-Image也只能完成28.9%的任務,圖像編輯評測新基準來了!

360個全部由人類專家仔細思考并校對的高質量測試案例,暴露多模態模型在結合推理能力進行圖像編輯時的短板。



最近,上海人工智能實驗室聯手上海交大、同濟大學、武漢大學、普林斯頓大學的研究人員,針對圖像編輯AI提出了三個問題:

  • 現有的圖像編輯評測基準是否已經無法跟上時代的步伐?
  • 僅僅停留在“更換顏色”等改變物體表層屬性的測試,是否已顯得過于簡單,無法真正衡量AI的“深度理解”能力?
  • 當指令變得更加復雜,涉及圖片背后的邏輯、上下文關聯甚至隱含意圖時,現有模型能否正確“領會”并精準執行,同時保證生成圖像的質量和與原圖的自然一致性?

為了填補這一空白,深度挖掘并客觀評估視覺編輯模型在理解復雜指令方面的能力上限,團隊推出了一項全新任務——Reasoning-Informed ViSual Editing (RISE)。

另外,他們還配套發布了一個高質量評測基準——RISEBench,覆蓋時間、因果、空間、邏輯四種核心推理類型,每個案例包含原圖和編輯指令。



例如輸入一張圖像,展示了一片草地上有片枯葉,上方有個放大鏡,任務指令為“畫出該場景在夏天30秒后的模樣”。



團隊測試了當前性能領先的九個視覺編輯模型,實驗測試結果令人意外:

即使是最強的GPT-4o-Image,在復雜視覺編輯任務中的準確率也僅為28.9%,最強的開源模型BAGEL僅能完成5.8%的任務,其它被測開源模型完成率幾乎為零,顯示出當前開源模型與閉源模型在視覺理解能力上的差距。

以下是更多細節。

RISEBench長啥樣?

與傳統評測基準不同,RISEBench旨在評估視覺編輯模型在各類需要深層理解的指令上的性能。它不僅僅停留在表面修改,更深入地探索視覺編輯模型對時間、因果、空間和邏輯等復雜概念的把握。



RISEBench精心設計了360道高難度問題,全部由人類專家仔細思考并校對,確保了問題的嚴謹性和挑戰性。這些題目被劃分為四大核心類別,旨在全面考驗模型的推理能力:

  • Temporal Reasoning(時間推理): 考驗模型對時間線索的理解和未來/過去狀態的預測。
  • Causal Reasoning(因果推理): 評估模型能否理解各類動作(碰撞,點燃,物理化學反應等)與結果之間的因果關系。
  • Spatial Reasoning(空間推理): 挑戰模型對物體空間位置、關系、視角變換等想象能力的掌握。
  • Logical Reasoning(邏輯推理): 衡量模型對抽象規則、數學運算、邏輯關系的推斷能力。

為了確保評估的全面性和泛化性,RISEBench的輸入圖像來源廣泛,包括互聯網數據、已有基準、模型生成圖像以及代碼生成圖像等多個不同分布的數據源。

這種多源異構的設計,能夠廣泛細致地考驗模型對不同輸入圖像和指令的應對能力,避免模型在特定數據分布上過擬合。



自動化的細粒度評估體系

為了精準、高效地評判模型輸出是否符合要求,作者團隊將整體評估拆分成了三個關鍵子維度,并采用前沿的多模態大模型作為評判專家(LMM-as-Judge)的方式,使用GPT-4.1作為評估模型對每個維度進行打分,確保評估的客觀性和一致性。

1、Instruction Reasoning(指令理解): 考核模型是否準確理解了指令的深層含義。

  • 對于輸出結果可用文字準確描述的指令,評估模型會判斷生成圖像與給定文本答案是否匹配。
  • 對于最終輸出難以用文字描述的復雜指令,我們針對性地提供了用于參考的圖像回答,評估模型將判斷生成圖像是否與參考圖像相匹配。

2、Appearance Consistency(外觀一致性): 評估生成圖像與原圖在背景以及風格、紋理等與指令無關的視覺元素上的一致性,確保編輯自然。

3、Visual Plausibility(視覺合理性): 衡量生成圖像的整體視覺質量、真實感和視覺合理性,避免出現不自然或失真的效果。

每個維度均為1-5分,當三個維度均為滿分時標記為完成了編輯任務。這種細粒度的評估設計顯著提升了模型打分與人類判斷的對齊程度,為未來視覺編輯模型的發展提供了更加可靠和公正的評估體系。



視覺編輯模型理解能力遠未及格

作者團隊對近期備受關注的多個閉源及開源模型進行了嚴格評估,包括GPT-4o-Image、Gemini-Flash-2.0-Series (Experimental & Preview)、HiDream-Edit以及開源模型BAGEL、Step1X-Edit、OmniGen、EMU2、Flux.1。

結果令人深思:

  • 全面欠缺: 測評結果明確指出,當前的視覺編輯模型在完成復雜指令方面仍存在相當大的欠缺。它們距離真正“讀懂”用戶的深層意圖,還有很長的路要走。
  • GPT-4o-Image一騎絕塵,但仍遠低于預期: 即使是目前公認最強的閉源模型GPT-4o-Image,在RISEBench上也僅僅只能完美完成28.9%的任務。
  • 閉源與開源差距顯著: 排名第二、第三的Gemini-Flash-2.0-Experimental和Gemini-Flash-2.0-Preview,分別僅能完成13.3%和9.4%的任務,與GPT-4o-Image之間存在著明顯的代際差距。更令人擔憂的是,最強的開源模型BAGEL僅能完成5.8%的任務,這彰顯出當前開源模型與閉源模型之間在視覺理解能力上的巨大鴻溝。 其他被測模型的完成率幾乎為零,暴露出其薄弱的理解能力。



為了更深入地分析各模型的表現,研究團隊還統計了每個模型在指令理解(Instruction Reasoning)、外觀一致性(Appearance Consistency)和視覺合理性(Visual Plausibility)這三個評估維度上的平均得分,揭示了其短板所在。

結果表明:

  • 領先者全面發展: GPT和Gemini系列模型在所有三個維度上都展現出了相對較高的水準,因此在整體任務完成度上表現相對更佳。
  • 開源模型短板明顯: BAGEL雖然在指令理解能力上僅次于GPT和Gemini,但在生成圖像的視覺合理性上得分較低,這意味著其輸出圖像往往存在更多的失真或模糊現象,影響了最終得分。
  • 各有側重,但均有缺陷: HiDream-Edit雖然具備部分理解能力,但在保持輸出圖像內容一致性上表現較差,容易出現與原圖脫節的情況。Step1X-Edit雖然能生成較高視覺合理性的圖像,但其指令理解能力和一致性表現均較低。
  • 理解力成為決定性因素: 其他模型由于幾乎完全沒有理解能力,且在保持一致性方面也表現不佳,最終導致其整體完成度接近于0。

團隊認為,這些細致的評估結果清晰地揭示了當前視覺編輯模型所面臨的嚴峻挑戰:

不僅僅是簡單的技術實現,更深層次的認知和推理能力才是決定未來模型性能的關鍵瓶頸。



最后,作者團隊展望未來并表示:

  • RISEBench的發布,標志著圖像編輯評測標準的一次重大升級。希望它能推動下一代視覺編輯模型發展,引領編輯模型從“模仿”走向“理解”,最終實現真正智能、富有創造力的視覺交互。

論文鏈接:https://arxiv.org/pdf/2504.02826
GitHub鏈接:https://github.com/PhoenixZ810/RISEBench

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國:一旦中美開戰,中國不能擊沉美國航母,否則將引起世界大戰

美國:一旦中美開戰,中國不能擊沉美國航母,否則將引起世界大戰

瀘沽湖
2025-05-21 10:50:11
原來她早已去世!26歲全身潰爛不治而亡,被全家8口“吸血”多年

原來她早已去世!26歲全身潰爛不治而亡,被全家8口“吸血”多年

史紀文譚
2025-04-29 19:17:32
俄國防部:俄軍利用“伊斯坎德爾”導彈系統在尼古拉耶夫州摧毀烏軍特種部隊中心指揮所

俄國防部:俄軍利用“伊斯坎德爾”導彈系統在尼古拉耶夫州摧毀烏軍特種部隊中心指揮所

俄羅斯衛星通訊社
2025-05-31 16:06:16
KTV包廂空了,酒廠慌了,如今的年輕人在刷什么?

KTV包廂空了,酒廠慌了,如今的年輕人在刷什么?

青眼財經
2025-05-30 19:30:42
128合1卡帶中最垃圾的FC游戲,如今卻是無數玩家的遺憾

128合1卡帶中最垃圾的FC游戲,如今卻是無數玩家的遺憾

街機時代
2025-05-29 18:35:03
核戰轟直搗基輔,俄軍反擊震動全歐洲,不到1天,日本向俄方開火

核戰轟直搗基輔,俄軍反擊震動全歐洲,不到1天,日本向俄方開火

天行艦
2025-05-29 00:00:07
農村留守婦女的性生活到底有多尷尬?

農村留守婦女的性生活到底有多尷尬?

書畫藝術收藏
2024-03-06 19:00:05
李亞鵬不再隱瞞!坦言地產公司賣了70多億,破產或與王菲有關系

李亞鵬不再隱瞞!坦言地產公司賣了70多億,破產或與王菲有關系

二月侃事
2025-05-24 09:30:51
大善人?曝掘金或助湖人三方交易中鋒 湖人送克內克特輔佐約基奇

大善人?曝掘金或助湖人三方交易中鋒 湖人送克內克特輔佐約基奇

老王大話體育
2025-05-31 23:43:11
菲前總統:中美開戰,美國會從菲律賓基地攻擊中國的導彈基地

菲前總統:中美開戰,美國會從菲律賓基地攻擊中國的導彈基地

慢看世界
2025-05-31 08:32:43
這才是真正的滿分身材!肥而不膩,甜卻不齁,愛的不得了!

這才是真正的滿分身材!肥而不膩,甜卻不齁,愛的不得了!

素然追光
2025-05-10 03:30:03
重慶戰勝佛山,遼寧險勝石家莊,廣東不敵廣西,中甲排名更新

重慶戰勝佛山,遼寧險勝石家莊,廣東不敵廣西,中甲排名更新

格斗聯盟
2025-05-31 20:53:19
這才是真正的八路軍女兵,沒有漂亮的小手槍,沒有精致的小皮鞋

這才是真正的八路軍女兵,沒有漂亮的小手槍,沒有精致的小皮鞋

云端小院
2025-05-25 06:33:45
韓國總統大選提前投票結束 投票率34.74%?創史上第二高

韓國總統大選提前投票結束 投票率34.74%?創史上第二高

環球網資訊
2025-05-30 19:45:11
小米SU7又獲第一,雷軍發文!

小米SU7又獲第一,雷軍發文!

電動知家
2025-05-30 08:39:50
南京市民石臼湖欣賞花海遇險,水中跪行半小時終脫困

南京市民石臼湖欣賞花海遇險,水中跪行半小時終脫困

揚子晚報
2025-05-30 22:15:11
麻省理工學院關閉DEI辦公室,哈佛還會“硬剛”嗎

麻省理工學院關閉DEI辦公室,哈佛還會“硬剛”嗎

漢娜書房
2025-05-29 23:25:32
遼寧27歲帥哥周南去世!剛結婚倆月,妻子懷孕5個月,胎兒也沒了

遼寧27歲帥哥周南去世!剛結婚倆月,妻子懷孕5個月,胎兒也沒了

裕豐娛間說
2025-05-31 11:55:02
中央定調!最低繳費年限從15年提至20年,養老金能增加500元嗎?

中央定調!最低繳費年限從15年提至20年,養老金能增加500元嗎?

財話連篇
2025-05-28 23:47:55
6月桃花運最旺的星座top4,有你嗎?

6月桃花運最旺的星座top4,有你嗎?

同道大叔
2025-05-31 22:06:11
2025-06-01 01:15:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10599文章數 176159關注度
往期回顧 全部

科技要聞

1小時大定破千,余承東:尊界S800是個開端

頭條要聞

69歲正部級高官被查 半個多月前曾赴海南考察

頭條要聞

69歲正部級高官被查 半個多月前曾赴海南考察

體育要聞

亞錦賽女子200米:16歲陳妤頡22秒97奪金

娛樂要聞

張柏芝曬端午vlog!大兒子送禮物

財經要聞

中汽協倡議:反對“內卷式”惡性競爭

汽車要聞

續航超1000km/增程動力 上汽大眾ID.ERA深圳車展亮相

態度原創

數碼
教育
親子
時尚
軍事航空

數碼要聞

單 SSD 容量可達 1PB,SNIA 正開發面向 2U 的 EDSFF E2 外形規格

教育要聞

為什么留學中介的話不能信?

親子要聞

現在的兒童節禮物VS 30年前的禮物!

7款復購2次以上的香香好物!誰用誰好聞!

軍事要聞

馬克龍在"香會"發言:法國是中國的朋友

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亳州市| 西林县| 玛纳斯县| 密云县| 阜阳市| 固原市| 华蓥市| 碌曲县| 乌鲁木齐县| 井冈山市| 上饶县| 平邑县| 武陟县| 余干县| 沽源县| 安西县| 靖边县| 合川市| 长葛市| 文安县| 屏东市| 江孜县| 普格县| 桑植县| 宁安市| 焉耆| 静安区| 涞水县| 江西省| 高邑县| 镶黄旗| 陇川县| 含山县| 凤山县| 津市市| 普兰店市| 双柏县| 宁阳县| 五峰| 仙游县| 墨竹工卡县|