99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

挖掘DiT位置解耦特性,Personalize Anything免訓練個性化圖像生成

0
分享至



本文的主要作者來自北京航空航天大學、清華大學和中國人民大學。本文的第一作者為清華大學碩士生封皓然,共同第一作者暨項目負責人為北京航空航天大學碩士生黃澤桓,團隊主要研究方向為計算機視覺與生成式人工智能。本文的通訊作者為北京航空航天大學副教授盛律。



個性化圖像生成是圖像生成領域的一項重要技術,正以前所未有的速度吸引著廣泛關注。它能夠根據用戶提供的獨特概念,精準合成定制化的視覺內容,滿足日益增長的個性化需求,并同時支持對生成結果進行細粒度的語義控制與編輯,使其能夠精確實現心中的創意愿景。隨著圖像生成模型的持續突破,這項技術已在廣告營銷、角色設計、虛擬時尚等多個領域展現出巨大的應用潛力和商業價值,正在深刻地改變著我們創造和消費視覺內容的方式。

然而當人們對個性化圖像生成的期望不斷上升時,傳統的個性化圖像生成方法面臨著以下幾個挑戰:①細節還原瓶頸(如何更精準地還原物體細節,尤其是在多物體的情況下)② 交互控制難題(如何在進行個性化生成的同時,支持對物體位置等空間因素的精準控制)③ 應用拓展受限(如何將個性化和編輯統一在同一框架,以滿足更多應用需求)。這些挑戰嚴重制約著個性化圖像生成技術的進一步突破,亟需構建更高效的生成框架。

因此,清華大學、北京航空航天大學團隊推出了全新的架構設計 ——Personalize Anything,它能夠在無需訓練的情況下,完成概念主體的高度細節還原,支持用戶對物體進行細粒度的位置操控,并能夠擴展至多個應用中,為個性化圖像生成引入了一個新范式。

總結而言,Personalize Anything 的特點如下:

  • 高效的免訓練框架:無需訓練,具備較高的計算效率,僅需一次反演(inversion)和一次推理過程
  • 高保真度與可控性:在保持高精度細節的同時兼顧了物體姿態的多樣性,并支持位置控制
  • 高擴展性:同時支持多種任務,包括多物體處理、物體與場景的整合、inpainting 和 outpainting 等



  • 論文標題:Personalize Anything for Free with Diffusion Transformer
  • 論文鏈接:https://arxiv.org/abs/2503.12590
  • 項目主頁:https://fenghora.github.io/Personalize-Anything-Page/
  • 代碼倉庫:https://github.com/fenghora/personalize-anything

效果展示:無需訓練,支持個性化、多物體組合、編輯

Personalize Anything 能夠在多種任務上表現出色,可以對多組物體與場景進行組合,并同時自由控制主體位置,這是以往個性化圖像生成模型難以做到的。



下面圖像中依次展示了 Personalize Anything 在布局引導生成、inpainting、outpainting 三種任務上的表現。可以看到,Personalize Anything 在多種任務上都能夠生成貼合文本的高質量圖像。



技術突破:從 DiT 架構的新發現到個性化任意內容

個性化圖像生成的傳統方法通常需要對定制概念進行微調,或者在大規模數據集上進行預訓練,這不僅消耗大量計算資源,還影響模型的泛化能力。最近,無需訓練的方法嘗試通過注意力共享機制來避免這些問題,但這些方法難以保持概念的一致性。此外,由于這些方法主要針對傳統的 UNet 架構設計,無法應用于最新的 DiT 架構模型,導致它們無法應用在更大規模和更好效果的圖像生成模型上。

注意力共享機制不適用于 DiT 架構

在了解 Personalize Anything 技術細節前,先來看看為什么傳統無需訓練的方法不能夠應用在 DiT 架構的圖像生成模型上。



如上文所述,傳統無需訓練的方法多通過注意力共享機制,也就是在運算自注意力時,將概念圖像特征直接與生成圖像特征進行拼接,但是經由團隊實驗發現,對于 DiT 架構而言,由于位置編碼的影響,當去噪圖像和參考圖像共用同一套位置編碼時,會導致過度關注,從而在生成的圖像中產生重影(圖 a);當調整參考圖像的位置編碼避免沖突時,生成圖像的注意力幾乎不出現在參考圖像中,導致主體一致性較弱(如圖 b 和圖 c),這限制了傳統方法在 DiT 架構上的應用。

通過上述實驗發現,DiT 中顯式編碼的位置信息對其注意力機制具有強烈影響 —— 這與 U-Net 隱式處理位置的方式存在根本差異。這使得生成的圖像難以在傳統的注意力共享中正確地關注參考對象的標記。

DiT 架構的新啟發:標記替換引發主體重建



基于對 DiT 架構顯式位置編碼的認識,團隊繼續對 DiT 的特征表示進行了探索。團隊發現,將參考圖像未帶位置編碼的標記替換進去噪圖像的指定位置,能夠重建出良好的主體圖像。而傳統 Unet 架構所具有的卷積操作會導致位置編碼與圖像特征混雜在一起,導致在進行特征替換時影響最后的圖像質量。

這一發現使團隊意識到,簡單但有效的特征替換,對于 DiT 架構而言是一個可行的個性化圖像生成方法。

定制任意內容:時間步適應替換策略與特征擾動



基于上述發現,團隊將特征替換引入個性化圖像生成方法中,并創新地提出了時間步適應標記替換機制(Timestep-adaptive Token Replacement) 。

在整個流程中,首先對參考圖像進行反演,并通過 mask 獲取參考圖像未帶位置編碼的標記。在去噪過程的早期階段,為了保留物體特征細節,將參考圖像主體的標記直接替換進生成圖像中。而在后期,則轉為傳統的注意力共享機制。這種時間適應特征替換機制能夠增圖像生成后概念主體的多樣性,同時減少生成圖像的割裂感。

為了進一步保證概念主體姿態的多樣性,團隊又額外提出了特征擾動,旨在通過對概念圖像特征進行重排,或者調整 mask,來控制特征替換時的概念圖像特征代表的物體姿態等,從而為生成的圖像引入多樣性。

更多應用:無縫擴展至布局引導、多物體組合、編輯等



Personalize Anything 除了在核心任務上表現出色,還具有強大的擴展能力,可以應用于更復雜的實際場景。首先,可以通過自由選擇特征注入的位置,來實現位置引導的生成;其次,框架支持對多物體進行自由組合,采取順序注入的方式,支持物體間層級關系的控制;并且 Personalize Anything 支持用戶將將圖像視為整體,允許用戶保留部分圖像內容,同時對另一部分進行可控編輯。這種靈活的可擴展性為未來的研究和應用開辟了更為廣闊的前景。

卓越性能:在保真度和多功能性等多個維度上表現突出

團隊從單物體定制,多物體組合,物體 - 場景組合這三個任務入手,與眾多優秀的開源模型進行定性定量的對比。可以看到 Personalize Anything 的結果基本都優于現有方法,并在后續的人類偏好測試中取得了顯著優勢。

單物體個性化生成







多物體組合生成







物體 - 場景組合





未來展望

Personalize Anything 研究團隊揭示了 DiT 中位置解耦表示的性質,為免訓練的圖像空間操縱、個性化生成奠定基礎。團隊期待 DiT 的幾何編程原理能夠進一步拓展到視頻、3D 生成等領域,實現更復雜、更精細的場景構建與編輯。希望通過深入研究和廣泛應用,讓這一思路激發更多可控生成的研究,推動 AI 在創意內容生成、虛擬現實、數字孿生等領域的廣泛應用。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
炒空心菜,直接下鍋炒是大錯,教你飯店不外傳技巧,翠綠也不發黑

炒空心菜,直接下鍋炒是大錯,教你飯店不外傳技巧,翠綠也不發黑

秀廚娘
2025-06-15 18:10:16
資本力量太可怕!半個娛樂圈都在吹捧的labubu,被郭麒麟戳破真相

資本力量太可怕!半個娛樂圈都在吹捧的labubu,被郭麒麟戳破真相

趣文說娛
2025-06-12 13:46:39
放任工作人員對詹姆斯冷嘲熱諷,還想老詹退役后為他們打工

放任工作人員對詹姆斯冷嘲熱諷,還想老詹退役后為他們打工

阿雄侃籃球
2025-06-15 23:31:52
殷桃問雷佳音:怎么不推薦我出演《長安的荔枝》?岳云鵬反應搞笑

殷桃問雷佳音:怎么不推薦我出演《長安的荔枝》?岳云鵬反應搞笑

行者聊官
2025-06-15 17:17:14
伊朗反對軍準備發起進攻!德黑蘭核設施遭受重擊

伊朗反對軍準備發起進攻!德黑蘭核設施遭受重擊

項鵬飛
2025-06-15 20:21:18
李夢因傷無緣亞洲杯大名單,本人發長文致謝:感謝祖國和國家隊,這不是終點

李夢因傷無緣亞洲杯大名單,本人發長文致謝:感謝祖國和國家隊,這不是終點

魯中晨報
2025-06-16 09:06:12
吳彥祖曬多張混血女兒合影!12歲吳斐然眉眼英氣,像爸爸也像媽媽

吳彥祖曬多張混血女兒合影!12歲吳斐然眉眼英氣,像爸爸也像媽媽

TVB的四小花
2025-06-16 11:51:10
馬筱梅降服小菻菻有一套,小菻菻對她的話深信不疑,汪小菲服了!

馬筱梅降服小菻菻有一套,小菻菻對她的話深信不疑,汪小菲服了!

鄭丁嘉話
2025-06-16 10:36:03
四川男子過度放縱18歲女兒,偷送成人禮物被母親撞見 ,釀成慘劇

四川男子過度放縱18歲女兒,偷送成人禮物被母親撞見 ,釀成慘劇

阿妹講故事
2025-03-16 21:06:48
高考后旗袍迎來“退貨潮”,汗臭難聞吊牌沒摘,網友:犯了大忌!

高考后旗袍迎來“退貨潮”,汗臭難聞吊牌沒摘,網友:犯了大忌!

涵豆說娛
2025-06-14 09:06:48
TVB最強Body花旦恨放假罕曬泳裝照,身材Fit爆與17年前選港姐一樣

TVB最強Body花旦恨放假罕曬泳裝照,身材Fit爆與17年前選港姐一樣

粵睇先生
2025-06-16 12:41:57
賴昌星不再隱瞞,被捕后揭露與董文華的關系,難怪老藝術家會退圈

賴昌星不再隱瞞,被捕后揭露與董文華的關系,難怪老藝術家會退圈

小蓋紀實
2024-10-23 14:04:41
我幫鄰居女兒補數學,高考后她舉報我收費,成績公布那天她哭著上門

我幫鄰居女兒補數學,高考后她舉報我收費,成績公布那天她哭著上門

黃家湖的憂傷
2025-06-11 16:58:32
快訊!以媒:以色列軍機襲擊伊朗“圣城旅”位于德黑蘭的指揮中心

快訊!以媒:以色列軍機襲擊伊朗“圣城旅”位于德黑蘭的指揮中心

環球網資訊
2025-06-16 12:41:50
夜場女孩為什么拒絕接吻?網友:這是行業內最后的一絲尊嚴!

夜場女孩為什么拒絕接吻?網友:這是行業內最后的一絲尊嚴!

特約前排觀眾
2025-06-10 00:05:09
李在明膽大敢為,徹底斬亂韓國動亂根源,歷屆總統不敢動,他不怕

李在明膽大敢為,徹底斬亂韓國動亂根源,歷屆總統不敢動,他不怕

獵火照狼山
2025-06-15 22:00:59
S家局面徹底失控!兩大恩人全“反水”,小S成了過街老鼠無人理

S家局面徹底失控!兩大恩人全“反水”,小S成了過街老鼠無人理

火之文
2025-06-15 15:10:06
白巖松又出金句:60到80是最好的年齡!驚醒千萬中老年人!

白巖松又出金句:60到80是最好的年齡!驚醒千萬中老年人!

詩詞中國
2025-05-14 12:49:28
以色列和伊朗攤牌:中東面臨滑向更大沖突風險

以色列和伊朗攤牌:中東面臨滑向更大沖突風險

上觀新聞
2025-06-15 08:20:08
河南養老金調整將開始,歷年傾斜變化,工齡35年能漲100元嗎?

河南養老金調整將開始,歷年傾斜變化,工齡35年能漲100元嗎?

小嵩
2025-06-16 09:06:23
2025-06-16 13:35:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10642文章數 142339關注度
往期回顧 全部

科技要聞

22年后,馬斯克“殺死”了最初的特斯拉

頭條要聞

媒體:在伊朗與以色列的沖突中 伊拉克的態度耐人尋味

頭條要聞

媒體:在伊朗與以色列的沖突中 伊拉克的態度耐人尋味

體育要聞

被偷走的世界杯資格 他們用20年搶回來了

娛樂要聞

郭富城官宣方媛懷三胎 拒絕透露性別

財經要聞

大廠搶灘的「穩定幣」,能火多久?

汽車要聞

前臉與N7相似 新一代日產軒逸假想圖曝光

態度原創

健康
藝術
數碼
教育
房產

呼吸科專家破解呼吸道九大謠言!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

HKC 惠科推出全球首款 800Hz 刷新率電競顯示器,24.5 英寸 FHD

教育要聞

2024智慧家長家教好故事展播(三十六)

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 新兴县| 枝江市| 恩施市| 上饶市| 雷波县| 航空| 根河市| 剑河县| 沁水县| 监利县| 大新县| 枝江市| 三明市| 界首市| 澎湖县| 周至县| 宜宾市| 岳阳县| 上栗县| 霍林郭勒市| 大理市| 辰溪县| 湖口县| 林西县| 平山县| 九寨沟县| 丹阳市| 吉木乃县| 兴仁县| 中江县| 东乡县| 高阳县| 通江县| 黎川县| 石阡县| 尖扎县| 宜昌市| 甘谷县| 阳新县| 江华| 洪湖市|