網易首頁 > 網易號 > 正文申請入駐

“甲方快樂模型”成平面設計新SOTA！多條件一鍵生成 |復旦＆字節

2025-06-12 16:42:23　來源: 量子位

北京舉報

分享至

CreatiDesign團隊投稿
量子位 | 公眾號 QbitAI

平面設計師有救了！

復旦大學和字節跳動團隊聯合提出CreatiDesign新模型，可實現高精度、多模態、可編輯的AI圖形設計生成。

△CreatiDesign能生成各種類型的平面設計圖，如電影海報、品牌促銷、產品廣告和社交媒體圖。

AI雖然在文生圖領域已取得了很大的突破，但以往方法在處理圖形設計時，要么“偏科”，要么缺乏精準的可控性。

而CreatiDesign推出了統一多條件控制的擴散Transformer架構，并配套構建了40萬樣本的大規模多條件標注數據集，滿足實際設計需求。

挑戰：需求多、數據少、控制難

在真實的平面設計場景中，用戶往往會同時提供：

主視覺元素：（如產品圖/LOGO，需保持高度一致性）
輔助裝飾元素：（如裝飾品，用于襯托主體，需按指定位置排版）
文本內容（如Slogan，需按指定位置排版）

這種“多條件異質融合”對先前的擴散模型提出了三大挑戰：

1.多條件異質信息的統一建模難
以往的可控擴散模型大多針對單一條件（如僅控制主體圖或僅控制布局或文本），缺乏將多種異質條件（圖像、布局、文本等）進行統一融合和協同建模的能力。

2.多條件之間的精細解耦與區域獨立控制難
即便部分最新模型初步實現了多條件輸入，依然難以確保每個子控制條件能夠精準、獨立地控制其對應的圖像區域。

3.缺乏大規模高質量、多標注的訓練數據
開源的圖形設計數據集有限。現有的數據集缺乏精細化、多條件的標注，難以滿足模型對多樣性和高質量數據的訓練需求。

為此，CreatiDesign從模型架構、數據構造等角度出發，提出了系統性的解決方案，旨在賦能擴散模型創意平面設計的能力

方法：條件協同、獨立可控、流程全自動

統一多模態條件驅動

CreatiDesign基于MM-DiT（Multimodal Diffusion Transformer）框架，采用極簡架構調整，實現了多種異質條件的協同控制：

多主體的圖像條件：用戶可以一次性輸入多個主視覺元素（如產品圖、LOGO等），并在空白畫布上任意擺布，得到多主體的圖像條件。然后將此圖像送入原生的VAE進行編碼，得到一組主視覺token。這些token能完整保留每個主體的細粒度視覺特征，為后續生成提供主體約束。

語義布局條件：每個輔助元素或文本的語義描述，先由T5文本編碼器轉換為語義特征token，空間位置信息（bounding box坐標）則經過傅立葉變換后，和語義特征拼接，再通過MLP進一步融合，最終得到集成了語義和空間信息的布局token。這種方式實現了對布局元素內容和空間排布的雙重精準控制。

全局描述：用戶還可以輸入整體的描述，同樣由T5編碼為全局描述token，為全局內容和風格把控提供指導。

最終，所有類型的token（主視覺token、布局token、全局描述token）被拼接后輸入到MM-DiT中。在每一層Transformer中，CreatiDesign采用多模態注意力（MM-Attention）機制，使不同模態的token進行深度融合，從而實現多條件的聯合建模和控制。

多模態注意力掩碼機制

為提升每個條件的獨立可控性，CreatiDesign提出兩種專屬注意力掩碼：

Subject Attention Mask：主體token僅與其指定區域內的圖像token進行雙向交互，且與布局token、全局描述token及無關區域的圖像token完全隔離，確保主體內容高度還原、獨立于其他條件。

Layout Attention Mask：每個布局token僅與其指定區域內的圖像token交互，同時阻斷布局token之間、布局token與主視覺或全局描述token之間的交互，防止布局元素之間的語義串擾與不同條件之間的干擾。

這種顯式的掩碼機制，使每個條件都能精準、獨立地調控對應圖像區域，極大提升了生成結果的一致性與可控性，保證了多條件復雜設計意圖的嚴格還原。

自動化數據集生成流水線

CreatiDesign還提出了全自動的平面設計數據合成流程，包含：

主題生成：基于設計關鍵詞庫，使用LLM（如GPT-4）生成包含主視覺元素、布局元素和文本內容的多要素設計主題；

文本圖層渲染：依據分層布局協議（HLG），通過渲染引擎自動生成帶精準排版的文本前景圖層（RGBA）；

基于前景的圖像生成：借鑒LayerDiffuse范式，聯合LoRA模塊，實現基于文本前景和主題描述背景的高質量平面設計圖像生成;

實體檢測與標注：利用GroundingSAM2檢測所有實體（主視覺、輔助裝飾），并通過VLM生成細粒度屬性描述，實現全要素多條件的自動標注。

最終，CreatiDesign開源了規模達40萬組、具備多條件高質量標注的平面設計樣本，為多條件可控模型的訓練提供數據基礎。

實驗：SOTA級性能展示

在多維度的評估基準上，CreatiDesign在主體保持度、布局遵循度、文本正確率以及圖像整體質量等關鍵指標上均取得了領先的性能。

具體來說，CreatiDesign在主視覺元素的還原（如DINO-I、M-DINO分數）、輔助元素的空間位置與屬性一致性、文本內容的準確率（Sen.Acc）和編輯距離（NED），乃至圖像整體質量（IR、PickScore）等各項評價指標上，在當前主流的多主體圖像驅動、布局驅動及多條件驅動的SOTA模型中，位居第一梯隊。

從表格中可以看到，CreatiDesign的平均綜合得分高達69.28，相比基礎模型FLUX.1-dev的47.50分，提升幅度達到45.9%。這一顯著提升僅依賴于基礎模型4.1%的額外參數量，高效得提升了基礎模型在圖形設計上的能力。

上圖中紫色蒙版代表不一致或位置錯誤的主體，紅色蒙版代表語義或位置不正確的實體，灰色蒙版代表不協調的背景或前景區域。

可視化結果進一步驗證了CreatiDesign在生成結果上的優勢：與以往的多條件或單條件模型相比，CreatiDesign能夠更加嚴格地遵循用戶的設計意圖，具體體現在主體元素的高度還原、輔助元素及文本的精準布局，以及整體畫面的和諧一致。

對比圖中可以清晰地看到，其他模型常常出現主體錯位、內容缺失、文本錯誤等問題，而CreatiDesign能夠準確保留各個輸入要素，并實現復雜多元素的協調排布。

此外，CreatiDesign無需額外訓練即可支持多輪編輯：用戶可在已有平面設計結果上靈活插入新文本、新主體，或對文本內容進行修改，模型能夠精準編輯指定區域，同時保持非編輯區域的內容不變。

相比Gemini2.0等主流大模型在編輯過程中常出現的非編輯區域變化、內容漂移等問題，CreatiDesign展現出更強的編輯靈活性與保持性。

論文地址：https://arxiv.org/pdf/2505.19114
項目主頁：https://huizhang0812.github.io/CreatiDesign/
項目代碼：https://github.com/HuiZhang0812/CreatiDesign
數據集：https://huggingface.co/datasets/HuiZhang0812/CreatiDesign_dataset

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.