99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

字節開源SuperEdit圖像編輯方法,AI的P圖水平如何?

0
分享至

往朋友圈發照片之前,很多人都會做的一件事就是:P圖。

甚至友誼的小船也因此說翻就翻:“為什么只P你自己?”。

P圖好像一直都是一件困難的事,不只是直男學不會,AI也學不會。

字節的ByteDance Intelligent Creation (USA) 團隊開源了SuperEdit項目,幫助AI提升P圖水平,項目包含數據和模型。(所以直男沒救了嗎?)



開場:為什么一部“圖像聽指令”的大片會翻車?

把鏡頭拉到過去,InstructPix2Pix第一次讓圖像編輯聽懂“給小狗換成貓”,卻發現生成的畫面常常自行加戲,要么背景亂動,要么顏色穿幫。

原因在于,“劇組”為了省事,把大語言模型寫的劇本(文本指令)和擴散模型拍的鏡頭(編輯后圖像)生硬拼在一起;兩者對不上號,剪輯臺得到的就是嘈雜、失真的監督信號。

這種噪聲劇本問題延續到了SmartEdit、MGIE等后續項目,但大家更傾向于請“大演員”,再塞進一個多模態大模型或額外預訓練任務去救場,計算開銷一路飆升,卻沒根治劇本錯位的老毛病。

劇情設定:導演要先改劇本,再教演員演對戲

SuperEdit把注意力從堆砌演員(模型)移回了最樸素卻最關鍵的環節:劇本。它做了兩步:

劇本勘誤(Rectifying Supervision)

先讓 GPT?4o 這位“總編劇”把原圖與編輯圖放在一起,按“全景?局部?細節?風格”四類鏡頭語言逐幀比對,重寫一份真正描述兩張圖差異的新劇本。

例如,“把塔變成燈塔”會被拆解成“全景:園林替換為海岸”“局部:多層寶塔換成圓柱形燈塔”等,更貼合畫面變化。



錯戲對唱(Contrastive Supervision)

有了好劇本,還要讓演員分得清“真臺詞”與“錯臺詞”。SuperEdit讓 GPT?4o 隨手寫出若干“假指令”(只改動數量、位置或類別的一小句話),再給模型三方對戲:真指令、假指令、目標圖像。

通過三元組損失,模型學會讓“真臺詞”生成的噪聲更貼近真實,而把“假臺詞”推遠。



就像導演在片場用彩排(正反兩條臺詞)磨演員的臺詞味,SuperEdit讓模型把最細微的文字差別也演到位。

走進片場:技術鏡頭背后的“導演手冊”

把抽象公式翻譯成片場隱喻:

擴散模型的時間步=一條鏡頭的拍攝階段。早期鏡頭決定“宏大場景”,中期聚焦“角色動作”,后期補細節和上色,而“風格濾鏡”貫穿全程。SuperEdit正是依照這一規律,要求GPT?4o分層寫劇本。

三元組損失=導演在剪輯室播放A/B樣片,要求“真劇本樣片”比“假劇本樣片”更吻合原噪聲,從而讓演員記住正確演法。

77token限制=片場每句臺詞長度有限,于是GPT?4o再做一次“臺詞精簡”保證能塞進CLIP文本編碼器。

效果上映:票房與口碑雙豐收

“票房”——自動評價指標

在Real?Edit基準上,SuperEdit 只用4萬訓練對、1.1B參數,Following/ Preserving/Quality三項分數分別拿到3.59/4.14/4.01,整體3.91,全面超越用120萬對數據、14B參數的SmartEdit。

“口碑”——真人影評人打分

15位資深真人評委對同一套測試圖像打分:SuperEdit比之前最強的SmartEdit在三大維度分別提升1.8%、16%、14.8%,觀眾緣不錯。

刪減片段:消融實驗

當只用原始 “噪聲劇本”訓練時,模型在Following 方面僅 41%/2.45;改用勘誤劇本即跳到 62%/3.40,再加對比監督沖到67%/3.59,可見兩招都是關鍵橋段。

訓練樣本從5k拉到40k,整體分數由3.42線性攀升至3.91,曲線仍未飽和,顯示方法對數據利用率極高。

彩蛋:MagicBrush & 低分辨率測試



在MagicBrush基準,SuperEdit無額外模塊仍取得與SmartEdit近乎持平甚至更優的CLIP?T、DINO指標。

此外,即便把訓練分辨率降到 256×256,SuperEdit在Real?Edit基準上仍壓過 SmartEdit。

幕后故事:成本、可擴展性與局限

SuperEdit用GPT?4o勘誤4萬對圖像僅花約800美元,遠低于訓練13B VLM的資源消耗。作者還驗證了用InstructDiffusion的U?Net預權重可再把三大指標推至71/83/71,顯示數據驅動與模型升級互補而非排斥。

不過,局限性還是有的:(1)對多目標、位置關系復雜的場景仍偶有翻車;(2)生成高分辨率極端細節時可能出現風格漂移;(3)依賴GPT?4o,雖成本低于巨型VLM,但仍受商業API授權限制。

說到底:這項研究好在哪?

如果你只是想讓手機里的修圖app更聽話,SuperEdit的思路意味著未來你一句“把夕陽換成霓虹”,軟件真的只會動那一抹天際,而不是順便給你換了地上的貓。

如果你是AI創作者,SuperEdit告訴你:少即是多。與其盲目上更大的模型,不如先把數據“劇本”寫準確,讓演員按詞就位。

如果你是算法研究者,本片提示:監督信號質量仍是決定模型上限的“第一生產力”。

彩蛋提問留給讀者

當模型已經學會分辨“真臺詞”與“錯臺詞”,下一步會不會是讓它即時生成“替補臺詞”應對實時修改?如果答案是肯定的,那圖像編輯的導演椅,或許很快就能真正交到每個普通用戶手中。想深入體驗,不妨親自翻閱原論文,你已經有了最順手的觀影指南。

論文地址:https://arxiv.org/abs/2505.02370

本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
丟臉到國外!被央視多次點名的“文盲”,被郝蕾徹底扯下遮羞布

丟臉到國外!被央視多次點名的“文盲”,被郝蕾徹底扯下遮羞布

白面書誏
2025-05-12 19:09:53
張勇等9人退出阿里合伙人

張勇等9人退出阿里合伙人

魯中晨報
2025-06-26 22:08:14
雅虎為首輪30人評級:弗拉格A+ 灰熊選科沃德A++ 楊瀚森16順位C+

雅虎為首輪30人評級:弗拉格A+ 灰熊選科沃德A++ 楊瀚森16順位C+

顏小白的籃球夢
2025-06-26 12:33:02
開拓者已擁有五位中鋒 楊瀚森為何不用擔心出場時間?

開拓者已擁有五位中鋒 楊瀚森為何不用擔心出場時間?

羅說NBA
2025-06-26 16:47:04
中方給稀土加上“新鎖”,美方不僅沒脾氣,還給中國開了道口子

中方給稀土加上“新鎖”,美方不僅沒脾氣,還給中國開了道口子

梁訊
2025-06-26 17:46:14
貴州猴子河特大橋引橋倒塌分析

貴州猴子河特大橋引橋倒塌分析

彭衛兵課題組
2025-06-26 17:55:53
馬斯克離開政府效率部一個月后,19歲的核心成員愛德華·科里斯汀被曝已辭職:曾幫特朗普賣“金卡”

馬斯克離開政府效率部一個月后,19歲的核心成員愛德華·科里斯汀被曝已辭職:曾幫特朗普賣“金卡”

魯中晨報
2025-06-26 07:12:07
安徽一女子網購5斤荔枝,一口氣剝完后僅退款,網友:氣死了

安徽一女子網購5斤荔枝,一口氣剝完后僅退款,網友:氣死了

大笑江湖史
2025-06-26 17:55:06
套現41.75億!服裝巨頭雅戈爾,進入“收獲期”

套現41.75億!服裝巨頭雅戈爾,進入“收獲期”

侃見財經
2025-06-26 08:23:18
劉詩詩婚變升級,曝他和吳奇隆結婚原因:必須回族,沒有更佳選擇

劉詩詩婚變升級,曝他和吳奇隆結婚原因:必須回族,沒有更佳選擇

古希臘掌管月桂的神
2025-06-26 17:19:33
涉嫌嚴重違紀違法,江蘇4人被查

涉嫌嚴重違紀違法,江蘇4人被查

揚子晚報
2025-06-26 19:11:52
保時捷女銷冠真容曝光!工作6年還生了娃,同事披露她賣車多原因

保時捷女銷冠真容曝光!工作6年還生了娃,同事披露她賣車多原因

寒士之言本尊
2025-06-05 22:08:25
什么是211,什么是985?一定要讓孩子早知道

什么是211,什么是985?一定要讓孩子早知道

尚曦讀史
2025-06-26 09:54:28
大V批Labubu是人為制造稀缺的商業泡沫,泡泡瑪特發函刪稿:惡意中傷,沒炒作洗錢!

大V批Labubu是人為制造稀缺的商業泡沫,泡泡瑪特發函刪稿:惡意中傷,沒炒作洗錢!

回旋鏢
2025-06-26 17:55:08
兒子要求父親死刑后續,已執死刑,兒子拒領骨灰,知情人爆更多

兒子要求父親死刑后續,已執死刑,兒子拒領骨灰,知情人爆更多

南南說娛
2025-06-26 10:24:18
東風15C鉆透90米花崗巖!華夏神矛專破地堡,美軍鉆地彈甘拜下風

東風15C鉆透90米花崗巖!華夏神矛專破地堡,美軍鉆地彈甘拜下風

科學知識點秀
2025-06-26 07:00:13
盤點中國球員NBA總得分排行:周琦24分,易建聯2148分僅排第三

盤點中國球員NBA總得分排行:周琦24分,易建聯2148分僅排第三

大衛的籃球故事
2025-06-26 21:08:32
河南高考女狀元出爐了,724分,數學滿分,長得國泰民安的一張臉

河南高考女狀元出爐了,724分,數學滿分,長得國泰民安的一張臉

阿纂看事
2025-06-26 17:37:01
充電寶風波愈演愈烈,中國民航局今日發布緊急通知!問題源頭或指向美國巨頭安普瑞斯,主要客戶包括小米、OPPO、vivo等手機巨頭

充電寶風波愈演愈烈,中國民航局今日發布緊急通知!問題源頭或指向美國巨頭安普瑞斯,主要客戶包括小米、OPPO、vivo等手機巨頭

金融界
2025-06-26 18:21:36
太刺激了!國泰君安國際大漲近90%后高臺跳水,一度跌10%!什么情況?

太刺激了!國泰君安國際大漲近90%后高臺跳水,一度跌10%!什么情況?

每日經濟新聞
2025-06-26 14:27:20
2025-06-27 01:12:49
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術及其應用的實驗室。
177文章數 145關注度
往期回顧 全部

科技要聞

小米YU7價格來了!標準版起售價25.35萬元

頭條要聞

小米YU7開啟預定3分鐘大定破20萬臺 只比SU7貴3萬

頭條要聞

小米YU7開啟預定3分鐘大定破20萬臺 只比SU7貴3萬

體育要聞

蓄謀已久的開拓者,就是最適合楊瀚森的球隊

娛樂要聞

倪妮,怎么突然下桌了?

財經要聞

央視再揭茅臺鎮“年份酒”造假黑幕

汽車要聞

智界全系2萬元現金減免 豪華智能限時普惠

態度原創

教育
家居
手機
房產
公開課

教育要聞

為啥現在厭學小孩越來越多?

家居要聞

木質簡約 空間極致利用

手機要聞

599 元三軸增穩,影石 Insta360 發布手機穩定器 Flow 2

房產要聞

最強黑馬殺出!海南這些區域,教育正悄悄崛起!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 蓝田县| 阳江市| 满城县| 绥阳县| 麻江县| 云梦县| 固始县| 临洮县| 商河县| 井研县| 夹江县| 昭苏县| 赣榆县| 吉安县| 会东县| 万源市| 武胜县| 茂名市| 双流县| 文昌市| 达孜县| 隆子县| 田阳县| 江津市| 清远市| 婺源县| 慈溪市| 铜山县| 镇赉县| 张北县| 迁西县| 广河县| 吴川市| 凤城市| 赤城县| 博白县| 石台县| 鄂伦春自治旗| 万安县| 香河县| 略阳县|