CreatiDesign團隊 投稿
量子位 | 公眾號 QbitAI
平面設計師有救了!
復旦大學和字節跳動團隊聯合提出CreatiDesign新模型,可實現高精度、多模態、可編輯的AI圖形設計生成。
△CreatiDesign能生成各種類型的平面設計圖,如電影海報、品牌促銷、產品廣告和社交媒體圖。
AI雖然在文生圖領域已取得了很大的突破,但以往方法在處理圖形設計時,要么“偏科”,要么缺乏精準的可控性。
而CreatiDesign推出了統一多條件控制的擴散Transformer架構,并配套構建了40萬樣本的大規模多條件標注數據集,滿足實際設計需求。
挑戰:需求多、數據少、控制難
在真實的平面設計場景中,用戶往往會同時提供:
- 主視覺元素:(如產品圖/LOGO,需保持高度一致性)
- 輔助裝飾元素:(如裝飾品,用于襯托主體,需按指定位置排版)
- 文本內容(如Slogan,需按指定位置排版)
這種“多條件異質融合”對先前的擴散模型提出了三大挑戰:
1.多條件異質信息的統一建模難
以往的可控擴散模型大多針對單一條件(如僅控制主體圖或僅控制布局或文本),缺乏將多種異質條件(圖像、布局、文本等)進行統一融合和協同建模的能力。
2.多條件之間的精細解耦與區域獨立控制難
即便部分最新模型初步實現了多條件輸入,依然難以確保每個子控制條件能夠精準、獨立地控制其對應的圖像區域。
3.缺乏大規模高質量、多標注的訓練數據
開源的圖形設計數據集有限。現有的數據集缺乏精細化、多條件的標注,難以滿足模型對多樣性和高質量數據的訓練需求。
為此,CreatiDesign從模型架構、數據構造等角度出發,提出了系統性的解決方案,旨在賦能擴散模型創意平面設計的能力
方法:條件協同、獨立可控、流程全自動
統一多模態條件驅動
CreatiDesign基于MM-DiT(Multimodal Diffusion Transformer)框架,采用極簡架構調整,實現了多種異質條件的協同控制:
多主體的圖像條件:用戶可以一次性輸入多個主視覺元素(如產品圖、LOGO等),并在空白畫布上任意擺布,得到多主體的圖像條件。然后將此圖像送入原生的VAE進行編碼,得到一組主視覺token。這些token能完整保留每個主體的細粒度視覺特征,為后續生成提供主體約束。
語義布局條件:每個輔助元素或文本的語義描述,先由T5文本編碼器轉換為語義特征token,空間位置信息(bounding box坐標)則經過傅立葉變換后,和語義特征拼接,再通過MLP進一步融合,最終得到集成了語義和空間信息的布局token。這種方式實現了對布局元素內容和空間排布的雙重精準控制。
全局描述:用戶還可以輸入整體的描述,同樣由T5編碼為全局描述token,為全局內容和風格把控提供指導。
最終,所有類型的token(主視覺token、布局token、全局描述token)被拼接后輸入到MM-DiT中。在每一層Transformer中,CreatiDesign采用多模態注意力(MM-Attention)機制,使不同模態的token進行深度融合,從而實現多條件的聯合建模和控制。
多模態注意力掩碼機制
為提升每個條件的獨立可控性,CreatiDesign提出兩種專屬注意力掩碼:
Subject Attention Mask:主體token僅與其指定區域內的圖像token進行雙向交互,且與布局token、全局描述token及無關區域的圖像token完全隔離,確保主體內容高度還原、獨立于其他條件。
Layout Attention Mask:每個布局token僅與其指定區域內的圖像token交互,同時阻斷布局token之間、布局token與主視覺或全局描述token之間的交互,防止布局元素之間的語義串擾與不同條件之間的干擾。
這種顯式的掩碼機制,使每個條件都能精準、獨立地調控對應圖像區域,極大提升了生成結果的一致性與可控性,保證了多條件復雜設計意圖的嚴格還原。
自動化數據集生成流水線
CreatiDesign還提出了全自動的平面設計數據合成流程,包含:
主題生成:基于設計關鍵詞庫,使用LLM(如GPT-4)生成包含主視覺元素、布局元素和文本內容的多要素設計主題;
文本圖層渲染:依據分層布局協議(HLG),通過渲染引擎自動生成帶精準排版的文本前景圖層(RGBA);
基于前景的圖像生成:借鑒LayerDiffuse范式,聯合LoRA模塊,實現基于文本前景和主題描述背景的高質量平面設計圖像生成;
實體檢測與標注:利用GroundingSAM2檢測所有實體(主視覺、輔助裝飾),并通過VLM生成細粒度屬性描述,實現全要素多條件的自動標注。
最終,CreatiDesign開源了規模達40萬組、具備多條件高質量標注的平面設計樣本,為多條件可控模型的訓練提供數據基礎。
實驗:SOTA級性能展示
在多維度的評估基準上,CreatiDesign在主體保持度、布局遵循度、文本正確率以及圖像整體質量等關鍵指標上均取得了領先的性能。
具體來說,CreatiDesign在主視覺元素的還原(如DINO-I、M-DINO分數)、輔助元素的空間位置與屬性一致性、文本內容的準確率(Sen.Acc)和編輯距離(NED),乃至圖像整體質量(IR、PickScore)等各項評價指標上,在當前主流的多主體圖像驅動、布局驅動及多條件驅動的SOTA模型中,位居第一梯隊。
從表格中可以看到,CreatiDesign的平均綜合得分高達69.28,相比基礎模型FLUX.1-dev的47.50分,提升幅度達到45.9%。這一顯著提升僅依賴于基礎模型4.1%的額外參數量,高效得提升了基礎模型在圖形設計上的能力。
上圖中紫色蒙版代表不一致或位置錯誤的主體,紅色蒙版代表語義或位置不正確的實體,灰色蒙版代表不協調的背景或前景區域。
可視化結果進一步驗證了CreatiDesign在生成結果上的優勢:與以往的多條件或單條件模型相比,CreatiDesign能夠更加嚴格地遵循用戶的設計意圖,具體體現在主體元素的高度還原、輔助元素及文本的精準布局,以及整體畫面的和諧一致。
對比圖中可以清晰地看到,其他模型常常出現主體錯位、內容缺失、文本錯誤等問題,而CreatiDesign能夠準確保留各個輸入要素,并實現復雜多元素的協調排布。
此外,CreatiDesign無需額外訓練即可支持多輪編輯:用戶可在已有平面設計結果上靈活插入新文本、新主體,或對文本內容進行修改,模型能夠精準編輯指定區域,同時保持非編輯區域的內容不變。
相比Gemini2.0等主流大模型在編輯過程中常出現的非編輯區域變化、內容漂移等問題,CreatiDesign展現出更強的編輯靈活性與保持性。
論文地址:https://arxiv.org/pdf/2505.19114
項目主頁:https://huizhang0812.github.io/CreatiDesign/
項目代碼:https://github.com/HuiZhang0812/CreatiDesign
數據集:https://huggingface.co/datasets/HuiZhang0812/CreatiDesign_dataset
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.