網易首頁 > 網易號 > 正文申請入駐

字節開源SuperEdit圖像編輯方法，AI的P圖水平如何？

2025-05-06 16:09:16　來源: 至頂AI實驗室

北京舉報

分享至

往朋友圈發照片之前，很多人都會做的一件事就是：P圖。

甚至友誼的小船也因此說翻就翻：“為什么只P你自己？”。

P圖好像一直都是一件困難的事，不只是直男學不會，AI也學不會。

字節的ByteDance Intelligent Creation (USA) 團隊開源了SuperEdit項目，幫助AI提升P圖水平，項目包含數據和模型。（所以直男沒救了嗎？）

開場：為什么一部“圖像聽指令”的大片會翻車？

把鏡頭拉到過去，InstructPix2Pix第一次讓圖像編輯聽懂“給小狗換成貓”，卻發現生成的畫面常常自行加戲，要么背景亂動，要么顏色穿幫。

原因在于，“劇組”為了省事，把大語言模型寫的劇本（文本指令）和擴散模型拍的鏡頭（編輯后圖像）生硬拼在一起；兩者對不上號，剪輯臺得到的就是嘈雜、失真的監督信號。

這種噪聲劇本問題延續到了SmartEdit、MGIE等后續項目，但大家更傾向于請“大演員”，再塞進一個多模態大模型或額外預訓練任務去救場，計算開銷一路飆升，卻沒根治劇本錯位的老毛病。

劇情設定：導演要先改劇本，再教演員演對戲

SuperEdit把注意力從堆砌演員（模型）移回了最樸素卻最關鍵的環節：劇本。它做了兩步：

劇本勘誤（Rectifying Supervision）

先讓 GPT?4o 這位“總編劇”把原圖與編輯圖放在一起，按“全景?局部?細節?風格”四類鏡頭語言逐幀比對，重寫一份真正描述兩張圖差異的新劇本。

例如，“把塔變成燈塔”會被拆解成“全景：園林替換為海岸”“局部：多層寶塔換成圓柱形燈塔”等，更貼合畫面變化。

錯戲對唱（Contrastive Supervision）

有了好劇本，還要讓演員分得清“真臺詞”與“錯臺詞”。SuperEdit讓 GPT?4o 隨手寫出若干“假指令”（只改動數量、位置或類別的一小句話），再給模型三方對戲：真指令、假指令、目標圖像。

通過三元組損失，模型學會讓“真臺詞”生成的噪聲更貼近真實，而把“假臺詞”推遠。

就像導演在片場用彩排（正反兩條臺詞）磨演員的臺詞味，SuperEdit讓模型把最細微的文字差別也演到位。

走進片場：技術鏡頭背后的“導演手冊”

把抽象公式翻譯成片場隱喻：

擴散模型的時間步＝一條鏡頭的拍攝階段。早期鏡頭決定“宏大場景”，中期聚焦“角色動作”，后期補細節和上色，而“風格濾鏡”貫穿全程。SuperEdit正是依照這一規律，要求GPT?4o分層寫劇本。

三元組損失＝導演在剪輯室播放A/B樣片，要求“真劇本樣片”比“假劇本樣片”更吻合原噪聲，從而讓演員記住正確演法。

77token限制＝片場每句臺詞長度有限，于是GPT?4o再做一次“臺詞精簡”保證能塞進CLIP文本編碼器。

效果上映：票房與口碑雙豐收

“票房”——自動評價指標

在Real?Edit基準上，SuperEdit 只用4萬訓練對、1.1B參數，Following/ Preserving/Quality三項分數分別拿到3.59/4.14/4.01，整體3.91，全面超越用120萬對數據、14B參數的SmartEdit。

“口碑”——真人影評人打分

15位資深真人評委對同一套測試圖像打分：SuperEdit比之前最強的SmartEdit在三大維度分別提升1.8%、16%、14.8%，觀眾緣不錯。

刪減片段：消融實驗

當只用原始 “噪聲劇本”訓練時，模型在Following 方面僅 41%/2.45；改用勘誤劇本即跳到 62%/3.40，再加對比監督沖到67%/3.59，可見兩招都是關鍵橋段。

訓練樣本從5k拉到40k，整體分數由3.42線性攀升至3.91，曲線仍未飽和，顯示方法對數據利用率極高。

彩蛋：MagicBrush & 低分辨率測試

在MagicBrush基準，SuperEdit無額外模塊仍取得與SmartEdit近乎持平甚至更優的CLIP?T、DINO指標。

此外，即便把訓練分辨率降到 256×256，SuperEdit在Real?Edit基準上仍壓過 SmartEdit。

幕后故事：成本、可擴展性與局限

SuperEdit用GPT?4o勘誤4萬對圖像僅花約800美元，遠低于訓練13B VLM的資源消耗。作者還驗證了用InstructDiffusion的U?Net預權重可再把三大指標推至71/83/71，顯示數據驅動與模型升級互補而非排斥。

不過，局限性還是有的：（1）對多目標、位置關系復雜的場景仍偶有翻車；（2）生成高分辨率極端細節時可能出現風格漂移；（3）依賴GPT?4o，雖成本低于巨型VLM，但仍受商業API授權限制。

說到底：這項研究好在哪？

如果你只是想讓手機里的修圖app更聽話，SuperEdit的思路意味著未來你一句“把夕陽換成霓虹”，軟件真的只會動那一抹天際，而不是順便給你換了地上的貓。

如果你是AI創作者，SuperEdit告訴你：少即是多。與其盲目上更大的模型，不如先把數據“劇本”寫準確，讓演員按詞就位。

如果你是算法研究者，本片提示：監督信號質量仍是決定模型上限的“第一生產力”。

彩蛋提問留給讀者

當模型已經學會分辨“真臺詞”與“錯臺詞”，下一步會不會是讓它即時生成“替補臺詞”應對實時修改？如果答案是肯定的，那圖像編輯的導演椅，或許很快就能真正交到每個普通用戶手中。想深入體驗，不妨親自翻閱原論文，你已經有了最順手的觀影指南。

論文地址：https://arxiv.org/abs/2505.02370

本文來自至頂AI實驗室，一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破，挖掘其潛在的應用場景，為企業和個人提供切實可行的解決方案。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI 視頻的國產之光，這個新功能徹底解放抽卡的雙手

愛范兒 2025-01-10 12:05:21
1 跟貼 1
人民大學&字節Seed：利用μP實現Diffusion Transformers高效擴展

機器之心Pro 2025-06-26 16:32:21
0 跟貼 0

聊天機器人有時候會“胡說八道”，GPT等模型的“幻覺率”有多高？

醫咖會 2025-02-02 19:05:14
1 跟貼 1

AI視覺圖靈時代來了！字節OmniHuman，一張圖配上音頻生成視頻

機器之心Pro 2025-02-05 17:10:00
0 跟貼 0
Recraft爆紅，我們和創始人聊了聊

鈦媒體APP 2025-01-08 17:09:32
1 跟貼 1

首次引入強化學習！火山引擎Q-Insight讓畫質理解邁向深度思考

機器之心Pro 2025-04-08 10:44:59
2 跟貼 2

3D VLA新范式！CVPR冠軍方案BridgeVLA，真機性能提升32%

新智元 2025-06-26 13:40:58
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0

宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
全面評測圖像編輯模型推理能力：所有模型在程序性推理方面表現差

量子位 2025-06-13 14:20:11
0 跟貼 0
o3一圖鎖定地球表面坐標，AI看圖猜地點戰勝人類大師，奧特曼轉發

量子位 2025-05-05 12:35:36
0 跟貼 0
掌閱科技CEO孫凱：用AI做短劇能節省90%時間，為什么我們不敢全用？

每日經濟新聞 2025-06-26 22:25:09
0 跟貼 0
AI再現姚貝娜《金沙》名場面，如何看待這場“重逢”？

每日經濟新聞 2025-06-26 22:25:09
0 跟貼 0
達沃斯觀察｜世界目光聚焦天津，勾勒AI產業新圖景

財聯社 2025-06-26 23:32:21
0 跟貼 0
時隔7年再布局智能硬件 “AIGC第一股”出門問問選擇避開雷軍的“槍口”

每日經濟新聞 2025-06-26 22:37:23
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
首發AI眼鏡小米加入“百鏡大戰”

經濟觀察報 2025-06-27 00:33:26
0 跟貼 0
1000萬Clips，真的是小米YU7輔助駕駛的"護身符"？

Autolab 2025-06-26 21:29:25
0 跟貼 0
人工智能專業勸退？大廠算法工程師的肺腑之言，985計算機本碩

馬佳柔懷n 2025-06-25 01:14:58
4 跟貼 4
大力宣傳女兒卻沒勇氣開評論區，小S終究還是玩不起了

振華觀史 2025-06-24 13:33:51
8 跟貼 8
一輩子要出片的亞洲人，拍照pose更新了

VOGUE中國 2025-06-23 12:56:08
1 跟貼 1
一對老人五臺山寺廟供奉大米遭和尚嫌棄怒扔門口！

爆料視頻 2025-06-26 09:27:24
37354 跟貼 37354
不閱讀的人，他的三觀是由親朋好友加算法決定的

財經網科技 2025-06-22 16:31:25
0 跟貼 0
俄專機降落在紐約俄外交部回應

環球網資訊 2025-06-26 17:12:09
13884 跟貼 13884
劉哥爆料：曲線女主持的炸裂大瓜,看完簡直驚呆了!!!

娛樂小欣 2025-06-23 02:57:18
0 跟貼 0
男人擺弄模型，小鎮就發生變化

吾李有劇 2025-06-25 20:24:49
0 跟貼 0
廣州花都50多人凌晨四點白衣列隊行走引關注，官方：系集體辟谷

新京報 2025-06-26 14:31:28
153 跟貼 153
夢幻西游：武神壇驚現超級武僧，群秒暴擊1萬4，算不算法系一哥？

浩仔說夢 2025-06-22 08:00:00
0 跟貼 0
莎莎第一個指令做完，沒有做出準備的動作，而大頭完全了解莎莎

元氣食力派 2025-06-24 15:43:48
1 跟貼 1
美國使用的GBU-57鉆地彈：技術參數與實戰威力的深度探討

數碼八叔 2025-06-22 14:41:18
0 跟貼 0
11個月的萌娃玩滑板，還能聽懂爸爸的技術指令，網友：我自尊心有點不舒服

荊門晚報 2025-06-25 12:10:05
0 跟貼 0
用參數思想求角度，設而不求，有意思！

大鵬老師講數學 2025-06-26 05:01:00
0 跟貼 0
工人徒手掰斷鋼筋河北一樓盤被曝光住建部門：質監站已介入

比奇看有趣 2025-06-26 13:59:23
5079 跟貼 5079
公公打工補貼家用，背上15萬貸款，兒媳分析一通：虧了

瀟湘晨報 2025-06-26 07:58:06
1434 跟貼 1434
博主探店一碗面558元還要收筷子費？杭州面館店長：明碼標價，配合拍4小時反遭網暴

瀟湘晨報 2025-06-24 12:31:54
7153 跟貼 7153
成都網紅墻“花花”變“labubu”引爭議最新：涂鴉已被抹掉

封面新聞 2025-06-26 15:19:06
3173 跟貼 3173
媒體：英國公布針對中國的審計報告對華“既要又要”

環球時報國際 2025-06-26 14:57:36
519 跟貼 519
如何看網友“許愿”“蘇超”決賽飛戰機？國防部答南都

南方都市報 2025-06-26 16:00:16
3120 跟貼 3120
臀線為何總是黯淡無光？科學塑形方法，改善曲線讓自信回歸

光旭教練 2025-06-24 13:00:00
1 跟貼 1
賭王看不起傻小子，殊不知人家是學霸，用線性代數贏牌

財神影視 2025-06-26 10:14:03
1 跟貼 1

至頂AI實驗室

一個專注于探索生成式AI前沿技術及其應用的實驗室。

177文章數 145關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

家居

手機

房產

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

字節開源SuperEdit圖像編輯方法，AI的P圖水平如何？

小米YU7價格來了！標準版起售價25.35萬元

小米YU7開啟預定3分鐘大定破20萬臺 只比SU7貴3萬

小米YU7開啟預定3分鐘大定破20萬臺 只比SU7貴3萬

蓄謀已久的開拓者，就是最適合楊瀚森的球隊

倪妮，怎么突然下桌了？

央視再揭茅臺鎮“年份酒”造假黑幕

智界全系2萬元現金減免 豪華智能限時普惠

態度原創

為啥現在厭學小孩越來越多？

木質簡約 空間極致利用

599 元三軸增穩，影石 Insta360 發布手機穩定器 Flow 2

最強黑馬殺出！海南這些區域，教育正悄悄崛起！

小米YU7開啟預定3分鐘大定破20萬臺只比SU7貴3萬

小米YU7開啟預定3分鐘大定破20萬臺只比SU7貴3萬

智界全系2萬元現金減免豪華智能限時普惠

木質簡約空間極致利用