新智元報道
編輯:編輯部 XZH
【新智元導讀】豆包的一句話P圖功能,又進化了!各種高考祝福、網絡梗圖、大片級精修、設計師草稿,無不是信手拈來。此刻,AI P圖再次迎來降維打擊,只要用自然語言,就能實現(xiàn)精準的圖片編輯。可以說,AI修圖終于來到了3.0時代!
高考第一天就這么來了!莘莘學子們離解放的日子,也只剩不到三天。
祝廣大考生文曲星附體,逢考必過,心想事成!
如今,回憶起當年的場景,有沒有想過直接穿越到霍格沃茨的魔法世界?
還是未來的賽博朋克世界?
話說,現(xiàn)在P圖已經進化成這樣了嗎?
說句話,圖就自己變了!
輕描淡寫一句「天空換成夕陽」,早晨的城市公園瞬間鋪滿溫柔的晚霞
雖說用AI來P圖已經是稀松平常,但在這次用過豆包AI最新版本智能修圖后,真的有被征服,只剩下一個感受——穩(wěn)!太穩(wěn)了!
不論是精準的在圖像上編輯文字。
張伯倫拿著100分照片的梗圖,秒變高考祝福
還是局部圖像任意修改細節(jié)。
豆包在精細且自然地處理編輯區(qū)域的同時,都能高保真地維持其他信息。
這次豆包的能力提升主要得益于圖像編輯模型SeedEdit 3.0全量上線。
經過兩個版本的迭代,豆包AI智能生圖直接化身你個人專屬的P圖專家。
愛因斯坦在上海
一秒入古畫,人在畫中游
將衣服和發(fā)型換成大人模樣
而且,操作起來既然不用糾結細節(jié),也無需學習復雜的軟件界面。
你只需要一句簡單的指令,便能看到想象力如何被一鍵點亮。
圖片文字編輯:超準超實用
一直以來,AI在圖像編輯領域都有個很難過去的坎——在圖片中「準確地」添加文字。
舉個例子,比如我們想在眼鏡左鏡片上添加文字「暴」,右鏡片上添加文字「富」。
這時,模型不僅需要完全理解圖片(找到墨鏡),并且還要理解要添加的文字(別認錯字)。
對于這項任務,即使是國外的扛把子ChatGPT,翻車也是常態(tài)。尤其,是在處理中文時。
比如將圖中的「暴富」換成「發(fā)財」,ChatGPT兩個字都打錯了。
相比之下,豆包就能完美達成。
改文案、做海報,簡直是打工人神器,以后編輯圖片不用再求人了。
將界面改為手機點餐app的UI,移除人像,將「Shop」「Spring Sale Up to 50% Off」「Clothing」「Shoes」「Accessories」「Home」「Wireless Eardus」「Woman Hat」「Brejan Sweater」「Sneakers」「-20% On select items」「New Arrivals」等文字改成餐飲相關的
圖像局部修改:化身PS達人
這次帶來的另一個「神器」功能,就是局部修改PS。
比如,我們可以把喬幫主抱著的蘋果電腦換成最新版的MacBook。
或者把手里的iPhone換成字面意思上的蘋果。
如此沒有違和感的成片,說聲「PS大神」不為過吧!
圖像風格遷移:秒變攝影大師
豆包這次升級另外一個看點就是可以進行圖片整體風格遷移,比如將人物直接放入拍立得相框。
這下,再也不擔心女朋友的要求了。
AI修圖,正當時
豆包上的AI生圖,為何進化到了如此強大的地步?
這就不得不提它背后的模型——SeedEdit 3.0了。
要知道,之前的圖像編輯模型,往往存在這樣一個令人頭疼的通病——
在保留圖像主體和背景、精準執(zhí)行編輯指令方面表現(xiàn)不佳,導致生成結果可控性差、成品率低,難以滿足真實應用需求。
而SeedEdit 3.0通過引入多源數(shù)據融合策略與定制化獎勵機制,成功突破了這一瓶頸。
無論是主體還原、背景一致性,還是細節(jié)保真度,SeedEdit 3.0均實現(xiàn)大幅提升。
尤其在人像美化、場景替換、視角調整與光影變化等復雜編輯任務中,展現(xiàn)出了讓人印象極其深刻的穩(wěn)定性與真實感。
可以看到,如今在SeedEdit 3.0加持下的豆包已經不單單局限于日常P圖,更是變成了設計師們的工作利器。
圖像編輯一騎絕塵
比如,在花瓶的瓶身上畫上花紋,將花瓶上色成青花瓷,并變成真實花瓶。
再比如,將圖片里的四種花上色,并擺放在同一個精美的玻璃瓶里,玻璃瓶置于客廳的窗臺上,去掉標注的文字,變?yōu)閷憣崝z影圖片。
之所以能有如此表現(xiàn),正是因為團隊在 SeedEdit 3.0的研發(fā)工作中提出了一種高效的數(shù)據融合策略,并構建了多種專用獎勵模型。
通過將這些獎勵模型與擴散模型聯(lián)合訓練,團隊針對性地改善了關鍵任務的編輯質量(如人臉對齊、文本渲染等)。在落地時也對推理加速進行了同步優(yōu)化。
從上面這些實測中不難看出,SeedEdit 3.0對非編輯區(qū)域的保持能力很強——既能留住細節(jié),又能兼顧美感。
P圖中的「變」與「不變」
在實測過程中,豆包的另一個令人印象深刻之處就是:P起圖來,它怎么那么會!
讓照片中的人物頭戴簪花,衣服換成惠安民族服裝,背景替換為福建海邊。
這是三個要求,不僅要找到人物,還要定位服裝,最后還要識別背景。
而豆包都完美做到了。
這當然也要歸功于SeedEdit 3.0。
要知道,圖像編輯任務訓練的另一大關鍵,就是讓模型聽懂指令,區(qū)分出哪里需要變,哪里需要不變。
為此,團隊專門開發(fā)了一套增強型數(shù)據融合策略,構建了合成數(shù)據集、編輯專家數(shù)據、傳統(tǒng)人工編輯操作、視頻幀與多鏡頭幾個類別的數(shù)據。
基于上述數(shù)據,研究者促使擴散模型在真實數(shù)據與合成的「輸入-輸出編輯空間」進行交錯學習,提高對真實圖片的編輯效果。
就這樣,對于編輯圖像時的難題——「哪里改,哪里不改」,SeedEdit 3.0都表現(xiàn)出了更佳的理解力和權衡力。
再加上豆包APP的超強圖片編輯能力,用AI來P圖真正做到了「言出法隨」。
還有比如這張,原圖是哪吒和敖丙在實驗室里做果汁。我們要求p成背景在高考考場,豆包就很好地領會到了。
就算是細節(jié)拉滿的promt,豆包也能輕松get。
把照片改成插畫風格,女生騎坐在一條可愛的卡通紅金魚身上,金魚眼睛大且靈動,魚鰭、魚尾色彩鮮艷,背景是橙紅色放射狀漸變并帶白色線條裝飾,上方有黃橙漸變卡通字「一定高中」,底部是藍白色海浪圖案。
對齊不同模態(tài)信息
值得一提的是,這次豆包P圖保留的人臉細膩質感,實在令人贊嘆不已。
這就要歸功于,SeedEdit 3.0團隊對于模型細節(jié)上的提升。
他們還沿用了此前驗證過的框架:底層使用視覺理解模型,頂層采用因果擴散網絡,并在擴散過程中重新引入圖像編碼器。然后在視覺理解模型與擴散模型之間,加入一條連接,用于將前者獲取的編輯推理信息與后者對齊。
改造完成后的SeedEdit 3.0結構
由此,人臉與物體特征這類細節(jié)保留顯著提升。
最后,在訓練和推理加速上,SeedEdit 3.0還融合了蒸餾模型方法、CFG蒸餾、統(tǒng)一噪聲參照、自適應時間步采樣等多個加速方法,實現(xiàn)了10秒級的推理。
在未來,團隊還將探索更豐富的編輯操作,讓大家創(chuàng)意爆棚,靈感爆棚。
現(xiàn)已加入生產力豪華套餐
隨著圖像生成的質量越來越高,AI生圖也開始從「玩具」逐漸進化成真正的生產力工具。
與此同時,用戶的需求也早已不局限在生圖這個單一的場景中。這一點,從GPT-4o「魔改吉卜力風」一夜火爆全網,便不難看出。
現(xiàn)在,在AI修圖邁入3.0時代的今天,豆包SeedEdit 3.0不僅打破了傳統(tǒng)P圖工具的門檻,更真正將「所見即所得」升級為「所想即所得」。
不論是圖中文字編輯、局部精修、風格遷移,還是超寫實建模與視覺美學體驗,它都做到了「穩(wěn)準狠」——穩(wěn)在每一次操作都可復現(xiàn),準在每一句指令都能精準理解,狠在生成效果足以媲美專業(yè)級修圖師。
在這個大家都希望AI「言出法隨」的時代,你只需動動嘴,剩下的交給AI。
現(xiàn)在,是時候告別繁瑣,擁抱想象力的無限可能了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.