往朋友圈發照片之前,很多人都會做的一件事就是:P圖。
甚至友誼的小船也因此說翻就翻:“為什么只P你自己?”。
P圖好像一直都是一件困難的事,不只是直男學不會,AI也學不會。
字節的ByteDance Intelligent Creation (USA) 團隊開源了SuperEdit項目,幫助AI提升P圖水平,項目包含數據和模型。(所以直男沒救了嗎?)
開場:為什么一部“圖像聽指令”的大片會翻車?
把鏡頭拉到過去,InstructPix2Pix第一次讓圖像編輯聽懂“給小狗換成貓”,卻發現生成的畫面常常自行加戲,要么背景亂動,要么顏色穿幫。
原因在于,“劇組”為了省事,把大語言模型寫的劇本(文本指令)和擴散模型拍的鏡頭(編輯后圖像)生硬拼在一起;兩者對不上號,剪輯臺得到的就是嘈雜、失真的監督信號。
這種噪聲劇本問題延續到了SmartEdit、MGIE等后續項目,但大家更傾向于請“大演員”,再塞進一個多模態大模型或額外預訓練任務去救場,計算開銷一路飆升,卻沒根治劇本錯位的老毛病。
劇情設定:導演要先改劇本,再教演員演對戲
SuperEdit把注意力從堆砌演員(模型)移回了最樸素卻最關鍵的環節:劇本。它做了兩步:
劇本勘誤(Rectifying Supervision)
先讓 GPT?4o 這位“總編劇”把原圖與編輯圖放在一起,按“全景?局部?細節?風格”四類鏡頭語言逐幀比對,重寫一份真正描述兩張圖差異的新劇本。
例如,“把塔變成燈塔”會被拆解成“全景:園林替換為海岸”“局部:多層寶塔換成圓柱形燈塔”等,更貼合畫面變化。
錯戲對唱(Contrastive Supervision)
有了好劇本,還要讓演員分得清“真臺詞”與“錯臺詞”。SuperEdit讓 GPT?4o 隨手寫出若干“假指令”(只改動數量、位置或類別的一小句話),再給模型三方對戲:真指令、假指令、目標圖像。
通過三元組損失,模型學會讓“真臺詞”生成的噪聲更貼近真實,而把“假臺詞”推遠。
就像導演在片場用彩排(正反兩條臺詞)磨演員的臺詞味,SuperEdit讓模型把最細微的文字差別也演到位。
走進片場:技術鏡頭背后的“導演手冊”
把抽象公式翻譯成片場隱喻:
擴散模型的時間步=一條鏡頭的拍攝階段。早期鏡頭決定“宏大場景”,中期聚焦“角色動作”,后期補細節和上色,而“風格濾鏡”貫穿全程。SuperEdit正是依照這一規律,要求GPT?4o分層寫劇本。
三元組損失=導演在剪輯室播放A/B樣片,要求“真劇本樣片”比“假劇本樣片”更吻合原噪聲,從而讓演員記住正確演法。
77token限制=片場每句臺詞長度有限,于是GPT?4o再做一次“臺詞精簡”保證能塞進CLIP文本編碼器。
效果上映:票房與口碑雙豐收
“票房”——自動評價指標
在Real?Edit基準上,SuperEdit 只用4萬訓練對、1.1B參數,Following/ Preserving/Quality三項分數分別拿到3.59/4.14/4.01,整體3.91,全面超越用120萬對數據、14B參數的SmartEdit。
“口碑”——真人影評人打分
15位資深真人評委對同一套測試圖像打分:SuperEdit比之前最強的SmartEdit在三大維度分別提升1.8%、16%、14.8%,觀眾緣不錯。
刪減片段:消融實驗
當只用原始 “噪聲劇本”訓練時,模型在Following 方面僅 41%/2.45;改用勘誤劇本即跳到 62%/3.40,再加對比監督沖到67%/3.59,可見兩招都是關鍵橋段。
訓練樣本從5k拉到40k,整體分數由3.42線性攀升至3.91,曲線仍未飽和,顯示方法對數據利用率極高。
彩蛋:MagicBrush & 低分辨率測試
在MagicBrush基準,SuperEdit無額外模塊仍取得與SmartEdit近乎持平甚至更優的CLIP?T、DINO指標。
此外,即便把訓練分辨率降到 256×256,SuperEdit在Real?Edit基準上仍壓過 SmartEdit。
幕后故事:成本、可擴展性與局限
SuperEdit用GPT?4o勘誤4萬對圖像僅花約800美元,遠低于訓練13B VLM的資源消耗。作者還驗證了用InstructDiffusion的U?Net預權重可再把三大指標推至71/83/71,顯示數據驅動與模型升級互補而非排斥。
不過,局限性還是有的:(1)對多目標、位置關系復雜的場景仍偶有翻車;(2)生成高分辨率極端細節時可能出現風格漂移;(3)依賴GPT?4o,雖成本低于巨型VLM,但仍受商業API授權限制。
說到底:這項研究好在哪?
如果你只是想讓手機里的修圖app更聽話,SuperEdit的思路意味著未來你一句“把夕陽換成霓虹”,軟件真的只會動那一抹天際,而不是順便給你換了地上的貓。
如果你是AI創作者,SuperEdit告訴你:少即是多。與其盲目上更大的模型,不如先把數據“劇本”寫準確,讓演員按詞就位。
如果你是算法研究者,本片提示:監督信號質量仍是決定模型上限的“第一生產力”。
彩蛋提問留給讀者
當模型已經學會分辨“真臺詞”與“錯臺詞”,下一步會不會是讓它即時生成“替補臺詞”應對實時修改?如果答案是肯定的,那圖像編輯的導演椅,或許很快就能真正交到每個普通用戶手中。想深入體驗,不妨親自翻閱原論文,你已經有了最順手的觀影指南。
論文地址:https://arxiv.org/abs/2505.02370
本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.