99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

GPT-4o圖像生成架構被“破解”了?自回歸主干+擴散解碼器

0
分享至

GPT-4o圖像生成架構被“破解”了!

最近一陣,“萬物皆可吉卜力”讓GPT-4o的圖像生成功能一炮而紅,人們隨之好奇:

4o圖像生成的架構底層邏輯到底是什么?GPT-4o究竟強在哪?存在哪些短板?

作為解答,北京大學、中山大學等多家科研機構共同推出GPT-ImgEval,首次系統評估了GPT-4o在圖像生成上的真實表現。

這份量化評估基準不僅囊括了生成質量編輯能力知識推理,還嘗試揭示GPT-4o背后的可能架構,還探討了它生成圖像的可檢測性問題



下面具體來看。

GPT-4o架構揭秘:可能使用了擴散+自回歸混合方案

GPT-ImgEval團隊嘗試“反向破解”GPT-4o的圖像生成架構。

研究團隊在論文中提出了4種候選架構方案(見下圖),盡管細節略有不同,但有一點是一致的:GPT-4o很可能采用的是自回歸主干+擴散頭的混合結構。

通俗來說,它的工作流程可能是這樣的:文本或指令→ 自回歸模塊理解語義 → 生成中間視覺Token → 擴散模型將這些Token解碼成圖像。



當然,架構猜測不能僅靠想象。為此,研究團隊設計了一套嚴謹的實證方法

  1. 先選取一組統一的文本提示(prompt),分別使用自回歸模型(VAR)和擴散模型(Diffusion)各自生成1萬張圖像作為對比樣本;
  2. 利用這些圖像訓練一個二分類器,讓它學會識別圖像是“AR風格”還是“Diffusion風格”;
  3. 然后,用同樣的Prompt交給GPT-4o生成圖像,將這些圖像輸入該分類器進行識別。

也就是說,整個過程中,提示詞保持完全一致,只看不同模型生成的圖像“長得像誰”,以此判斷GPT-4o的生成方式更接近哪類結構。

結果很直接:GPT-4o生成的圖像幾乎全部被識別為“擴散風格”,這就從圖像風格維度驗證了GPT-4o的確可能用了擴散模型作為解碼器。



除了對視覺解碼器的分析,研究人員也深入探討了視覺編碼方式。他們指出,一些研究(如UniTok)認為基于向量量化(VQ)的編碼器可能會削弱模型的語義理解能力。

因此,作者認為如果采用了pixel encoder,其大概率是連續(非VQ)的而不是離散(VQ)的,并基于此提出了四種可能的完整架構示意圖。



三大維度全面評估GPT-4o圖像能力

GPT-ImgEval聚焦三類核心任務,對GPT-4o進行了系統評估:

  • 文本生成圖像(GenEval):通過對物體數量、顏色、位置、組合屬性等細粒度維度進行測評,驗證模型對文本的理解與圖像的構造能力。
  • 指令編輯圖像(Reason-Edit):模擬用戶給出修改指令后,模型在保留圖像語義基礎上進行局部編輯的能力,如替換、刪除、變色等。
  • 基于世界知識的語義合成(WISE):考察模型是否能將對世界常識、文化背景、科學原理等知識真正“顯性化”為圖像輸出。

為了支持這一系統評估,研究團隊開發了一套針對GPT-4o的自動化交互腳本,解決了當前該模型尚未開放圖像生成API的現實問題。

這套腳本直接與GPT-4o網頁界面交互,模擬真實用戶行為:

  1. 自動輸入提示詞(Prompt)、點擊提交
  2. 自動抓取生成圖像并存儲歸檔
  3. 每次請求會新開瀏覽器窗口,確保不同任務之間上下文不相互干擾
  4. 支持任務批量運行,可實現大規模、可重復的圖像生成任務調度

最終,GPT-ImgEval的整體工作流如下圖所示:



在文本生成圖像(GenEval)任務中,GPT-4o取得了0.84的總得分,超越目前所有擴散類與自回歸類圖像生成模型。

尤其在以下幾項中表現突出:數量控制(0.85)、顏色綁定(0.92)、空間位置(0.75)、屬性組合(0.61)。



下圖是一些GPT-4o使用GenEval基準中的prompt生圖的具體例子:



而在圖像編輯任務(Reason-Edit)中,GPT-4o得分高達0.929,領先第二名超過0.35,說明其在指令理解和局部控制上表現極其穩定。





在知識合成(WISE)任務中,GPT-4o同樣大放異彩,多個子維度(生物、文化、物理等)得分均超過0.9,總分0.89,遠高于當前開源模型(普遍在0.4~0.5之間)。

這說明GPT-4o具有強大的世界知識和推理能力,這應該是得益于GPT-4o這種統一多模態框架。





更多研究結論

GPT-4o vs Gemini 2.0 Flash:多輪編輯對比

研究團隊還對GPT-4o與Google的Gemini 2.0 Flash進行了多輪圖像編輯對比。

除了性能與架構機制,GPT-4o在實際的使用體驗中也展現出了強勁的競爭力。研究團隊對其與Google最新發布的 Gemini 2.0 Flash 進行了多輪編輯任務的實測對比。

  1. GPT-4o支持完整的多輪對話式編輯流程,上下文一致性強
  2. Gemini響應速度更快,但每輪需重新上傳圖像,缺乏連續性
  3. 連續修改、復雜指令理解、圖像語義保持方面,GPT-4o表現出更高的穩定性

從整體趨勢來看,兩者在編輯輪數增加后均出現一致性下降,但GPT-4o下降更緩,保持更穩。

GPT-4o與Gemini 2.0 Flash多輪編輯一致性對比如下圖所示:



這一對比結果也進一步驗證了:融合大模型語義理解能力的圖像生成系統,在交互式創作任務中,正在展現出壓倒性優勢。

GPT-4o仍存五大問題,圖像量化評估并非無解

研究團隊總結出GPT-4o當前的五個常見生成難點

  1. 無法嚴格保持原圖尺寸與邊框比例,有時會自動裁切或縮放
  2. 強制銳化,即使用戶要求生成模糊圖,也會被模型“優化”成高清
  3. 編輯偏暖、全圖色調變化,即使只修改小部分,可能全圖色調甚至是全局都會被一定程度修改
  4. 復雜場景失真,多人或人-物體交互場景易出現姿態不自然或結構錯亂
  5. 非英文文本支持較弱,如中文標識常出錯,難以在復雜背景準確生成

這些問題不僅影響使用體驗,也提示我們——GPT-4o仍在追求“自然感”與“精確控制”之間尋找平衡。



這些圖像能被檢測出來嗎?

除了感知層面的觀察和評估,研究團隊進一步思考一個關鍵問題:GPT-4o生成的圖像,是否真的可以“以假亂真”?

為此,研究者使用多個主流圖像取證模型,對GPT-4o生成的圖像進行了系統性評估。

結果顯示,包括Effort、FakeVLM在內的多種檢測器,對GPT-4o圖像的識別準確率普遍超過95%,最高接近99.6%。



不僅僅停留在數值層面,研究團隊還對量化評估成功的原因進行了機制層面的歸因分析

  1. GPT-4o可能在圖像生成過程中引入了超分辨率模塊,通過上采樣插值導致明顯偽影
  2. 模型有過度銳化與細節增強傾向,視覺效果雖然“精致”,卻留下了被取證模型捕捉的痕跡
  3. 在用戶未要求修改時,仍可能出現尺寸、色彩的隱性變化,破壞了圖像一致性
  4. GPT-4o生成圖像色調普遍偏暖,整體風格趨同,易被量化評估模型建立“風格識別模式”

可量化評估,并非弱點,而是AIGC安全設計的基線能力

研究團隊認為,是否可量化評估,不應成為衡量生成模型能力強弱的標準,而應被視為評估其可控性與安全性的重要指標。

在未來的AIGC系統設計中,“逼真”固然重要,但“可識別”、“可追蹤”同樣不可或缺。GPT-4o生成圖像中的偽影、色彩偏好等特征,也正是推動生成量化評估研究的重要突破口。

這也正是GPT-ImgEval的差異化亮點之一:不僅做量化評估,更從安全機制的角度進行深入診斷和前瞻探索

GPT-4o很強,但“終局”遠未到來

GPT-ImgEval不僅驗證了GPT-4o在圖像生成上的優勢,更指出了它仍需突破的短板。尤其是在可控性、多語種處理、局部編輯穩定性等方面,仍有不少提升空間。

GPT-ImgEval不僅系統性驗證了GPT-4o在圖像生成、圖像編輯與知識合成三大任務中的領先表現,更進一步揭示了其架構特征、失敗模式與安全邊界。

該研究不僅在評測維度上實現了覆蓋廣泛、量化精準,也從架構判別、編輯可控性、多輪理解能力和偽影檢測等多個層面,對GPT-4o進行了技術全景式診斷

研究團隊認為,該工作的重要意義在于:

1、提供系統化多模態評估范式:首次從“生成-編輯-推理”全流程出發,建立綜合圖像能力測試框架;

2、推動閉源模型的“可解釋評測”研究:在無法訪問模型細節的前提下,建立架構猜測和行為歸因機制;

3、強調通用多輪編輯場景的實用價值:用用戶視角驗證語義理解一致性與細節保真性,為交互設計落地提供參考;

4、補齊圖像生成安全性研究缺口:通過可檢測性實證,發現圖像中的上采樣/超分偽影、色彩特征,推動AIGC取證技術演進。

更多細節歡迎查閱原論文。

論文地址:
https://arxiv.org/pdf/2406.19435
代碼鏈接:
https://github.com/PicoTrex/GPT-ImgEval
數據集下載:
https://huggingface.co/datasets/Yejy53/GPT-ImgEval

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
啦啦隊女神熱舞走光!NuBra掉下來當場摸到小葡萄

啦啦隊女神熱舞走光!NuBra掉下來當場摸到小葡萄

葫蘆哥愛吐槽
2025-05-04 15:23:20
居民存款終于離開了銀行,但沒去消費、沒有購房,甚至沒流入實體

居民存款終于離開了銀行,但沒去消費、沒有購房,甚至沒流入實體

細語
2025-05-04 14:12:31
五一假期,又有媒體翻車了……

五一假期,又有媒體翻車了……

麥杰遜
2025-05-04 19:16:44
蘇州直升機墜機驚天反轉!知情人猛料爆出,這事兒沒那么簡單!

蘇州直升機墜機驚天反轉!知情人猛料爆出,這事兒沒那么簡單!

做一個合格的吃瓜群眾
2025-05-04 14:20:53
“亞洲第一美”女星曬全裸下水照,重要兩點若隱若現

“亞洲第一美”女星曬全裸下水照,重要兩點若隱若現

葫蘆哥愛吐槽
2025-05-04 15:52:29
合肥文旅因300塊錢,葬送了五一假期的流量

合肥文旅因300塊錢,葬送了五一假期的流量

映射生活的身影
2025-05-03 14:55:22
證監會決心“壯士斷腕”,5月5日,凌晨的三大重要消息全面來襲!

證監會決心“壯士斷腕”,5月5日,凌晨的三大重要消息全面來襲!

風口招財豬
2025-05-05 02:06:12
副縣長拉攏6名公職人員,組建“七兄弟吃喝圈”,長期接受打牌摜蛋等“保姆式”服務

副縣長拉攏6名公職人員,組建“七兄弟吃喝圈”,長期接受打牌摜蛋等“保姆式”服務

新京報政事兒
2025-05-04 21:54:39
哈利22+13步行者1-0騎士,米切爾空砍33分三分球11投1中

哈利22+13步行者1-0騎士,米切爾空砍33分三分球11投1中

湖人崛起
2025-05-05 08:28:59
?ESPN專家團預測東西部半決賽結果:騎士&凱爾特人晉級,雷霆搶七贏掘金

?ESPN專家團預測東西部半決賽結果:騎士&凱爾特人晉級,雷霆搶七贏掘金

雷速體育
2025-05-05 06:45:24
剛剛,又一女明星確診!人類最大危機來襲!

剛剛,又一女明星確診!人類最大危機來襲!

互聯網思維
2025-05-05 00:02:31
廖百威現狀:定居廣州低調生活,60歲看著像40歲,兒子是知名歌手

廖百威現狀:定居廣州低調生活,60歲看著像40歲,兒子是知名歌手

墨印齋
2025-05-04 16:07:59
一爆再爆 沈騰是真的有問題了 馬麗都出來撇清關系 表示不再合作

一爆再爆 沈騰是真的有問題了 馬麗都出來撇清關系 表示不再合作

小彭聊社會
2025-05-05 00:20:40
心態崩了,寧波有人從白天開到黑夜!“這是有多少人啊!”提醒:這些路段,將限時禁行

心態崩了,寧波有人從白天開到黑夜!“這是有多少人啊!”提醒:這些路段,將限時禁行

魯中晨報
2025-05-04 22:12:09
武漢一大學女書記突然去世,年僅45歲,最后照流出,學校回應死因

武漢一大學女書記突然去世,年僅45歲,最后照流出,學校回應死因

博士觀察
2025-05-05 00:35:49
失望!憤怒!中東裔家長暴力毆打華人初中生,被法庭輕判!

失望!憤怒!中東裔家長暴力毆打華人初中生,被法庭輕判!

華人生活網
2025-05-05 03:42:52
又抽象了,“鄧超備戰明年斯諾克”沖上熱搜,世界斯諾克巡回賽官方回復

又抽象了,“鄧超備戰明年斯諾克”沖上熱搜,世界斯諾克巡回賽官方回復

瀟湘晨報
2025-05-04 17:29:06
奪得職業生涯首冠后,凱恩第一時間社媒發布表情

奪得職業生涯首冠后,凱恩第一時間社媒發布表情

懂球帝
2025-05-05 01:51:39
世界臺協主席:若趙心童奪得世錦賽冠軍,他會成為中國的國家英雄

世界臺協主席:若趙心童奪得世錦賽冠軍,他會成為中國的國家英雄

直播吧
2025-05-05 07:09:08
人家要的不是錢,是你的命!黃奇帆講中美關稅戰,損失比為7:10

人家要的不是錢,是你的命!黃奇帆講中美關稅戰,損失比為7:10

大風文字
2025-05-04 17:09:49
2025-05-05 09:44:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10424文章數 176130關注度
往期回顧 全部

科技要聞

ChatGPT催生的百萬年薪崗位,大廠不愿意招了

頭條要聞

解放軍儀仗隊紅場高唱抗日歌曲 留學生舉日本投降號外

頭條要聞

解放軍儀仗隊紅場高唱抗日歌曲 留學生舉日本投降號外

體育要聞

有我們在,蘇杯冠軍,包的老弟

娛樂要聞

55歲王菲跟“李亞鵬時期”完全不同!

財經要聞

一個時代的結束!巴菲特年底將卸任

汽車要聞

小米SU7大優惠!5月限時購車權益送輔助駕駛

態度原創

健康
親子
時尚
游戲
軍事航空

唇皰疹和口腔潰瘍是"同伙"嗎?

親子要聞

【起底】北京代孕公司試管供卵機構|NCD

鐘楚曦、宋佳美得各有風格,她們的穿搭太值得借鑒了

《天國拯救2》趣味數據公布:人人都是"竊格瓦拉"

軍事要聞

媒體:美俄兩場閱兵 都有新看頭

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 台东县| 牟定县| 定远县| 西贡区| 扶沟县| 塔城市| 清水河县| 菏泽市| 乃东县| 虎林市| 吉安县| 珠海市| 始兴县| 清流县| 洪泽县| 额尔古纳市| 两当县| 玛多县| 且末县| 甘德县| 黄骅市| 沁源县| 张家川| 新巴尔虎左旗| 许昌市| 上虞市| 容城县| 卓尼县| 黎川县| 怀宁县| 静海县| 乡城县| 仙游县| 达尔| 浏阳市| 奉贤区| 桃园市| 忻城县| 鄂温| 大新县| 汽车|