99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

“甲方快樂模型”成平面設計新SOTA!多條件一鍵生成 |復旦&字節

0
分享至

CreatiDesign團隊 投稿
量子位 | 公眾號 QbitAI

平面設計師有救了!

復旦大學和字節跳動團隊聯合提出CreatiDesign新模型,可實現高精度、多模態、可編輯的AI圖形設計生成。



△CreatiDesign能生成各種類型的平面設計圖,如電影海報、品牌促銷、產品廣告和社交媒體圖。

AI雖然在文生圖領域已取得了很大的突破,但以往方法在處理圖形設計時,要么“偏科”,要么缺乏精準的可控性。

而CreatiDesign推出了統一多條件控制的擴散Transformer架構,并配套構建了40萬樣本的大規模多條件標注數據集,滿足實際設計需求。



挑戰:需求多、數據少、控制難

在真實的平面設計場景中,用戶往往會同時提供:

  • 主視覺元素:(如產品圖/LOGO,需保持高度一致性)
  • 輔助裝飾元素:(如裝飾品,用于襯托主體,需按指定位置排版)
  • 文本內容(如Slogan,需按指定位置排版)



這種“多條件異質融合”對先前的擴散模型提出了三大挑戰:

1.多條件異質信息的統一建模難
以往的可控擴散模型大多針對單一條件(如僅控制主體圖或僅控制布局或文本),缺乏將多種異質條件(圖像、布局、文本等)進行統一融合和協同建模的能力。

2.多條件之間的精細解耦與區域獨立控制難
即便部分最新模型初步實現了多條件輸入,依然難以確保每個子控制條件能夠精準、獨立地控制其對應的圖像區域。

3.缺乏大規模高質量、多標注的訓練數據
開源的圖形設計數據集有限。現有的數據集缺乏精細化、多條件的標注,難以滿足模型對多樣性和高質量數據的訓練需求。

為此,CreatiDesign從模型架構、數據構造等角度出發,提出了系統性的解決方案,旨在賦能擴散模型創意平面設計的能力

方法:條件協同、獨立可控、流程全自動



統一多模態條件驅動

CreatiDesign基于MM-DiT(Multimodal Diffusion Transformer)框架,采用極簡架構調整,實現了多種異質條件的協同控制:

多主體的圖像條件:用戶可以一次性輸入多個主視覺元素(如產品圖、LOGO等),并在空白畫布上任意擺布,得到多主體的圖像條件。然后將此圖像送入原生的VAE進行編碼,得到一組主視覺token。這些token能完整保留每個主體的細粒度視覺特征,為后續生成提供主體約束。

語義布局條件:每個輔助元素或文本的語義描述,先由T5文本編碼器轉換為語義特征token,空間位置信息(bounding box坐標)則經過傅立葉變換后,和語義特征拼接,再通過MLP進一步融合,最終得到集成了語義和空間信息的布局token。這種方式實現了對布局元素內容和空間排布的雙重精準控制。

全局描述:用戶還可以輸入整體的描述,同樣由T5編碼為全局描述token,為全局內容和風格把控提供指導。

最終,所有類型的token(主視覺token、布局token、全局描述token)被拼接后輸入到MM-DiT中。在每一層Transformer中,CreatiDesign采用多模態注意力(MM-Attention)機制,使不同模態的token進行深度融合,從而實現多條件的聯合建模和控制。

多模態注意力掩碼機制

為提升每個條件的獨立可控性,CreatiDesign提出兩種專屬注意力掩碼:

Subject Attention Mask:主體token僅與其指定區域內的圖像token進行雙向交互,且與布局token、全局描述token及無關區域的圖像token完全隔離,確保主體內容高度還原、獨立于其他條件。

Layout Attention Mask:每個布局token僅與其指定區域內的圖像token交互,同時阻斷布局token之間、布局token與主視覺或全局描述token之間的交互,防止布局元素之間的語義串擾與不同條件之間的干擾。

這種顯式的掩碼機制,使每個條件都能精準、獨立地調控對應圖像區域,極大提升了生成結果的一致性與可控性,保證了多條件復雜設計意圖的嚴格還原。

自動化數據集生成流水線

CreatiDesign還提出了全自動的平面設計數據合成流程,包含:

主題生成:基于設計關鍵詞庫,使用LLM(如GPT-4)生成包含主視覺元素、布局元素和文本內容的多要素設計主題;

文本圖層渲染:依據分層布局協議(HLG),通過渲染引擎自動生成帶精準排版的文本前景圖層(RGBA);

基于前景的圖像生成:借鑒LayerDiffuse范式,聯合LoRA模塊,實現基于文本前景和主題描述背景的高質量平面設計圖像生成;

實體檢測與標注:利用GroundingSAM2檢測所有實體(主視覺、輔助裝飾),并通過VLM生成細粒度屬性描述,實現全要素多條件的自動標注。

最終,CreatiDesign開源了規模達40萬組、具備多條件高質量標注的平面設計樣本,為多條件可控模型的訓練提供數據基礎。

實驗:SOTA級性能展示



在多維度的評估基準上,CreatiDesign在主體保持度、布局遵循度、文本正確率以及圖像整體質量等關鍵指標上均取得了領先的性能。

具體來說,CreatiDesign在主視覺元素的還原(如DINO-I、M-DINO分數)、輔助元素的空間位置與屬性一致性、文本內容的準確率(Sen.Acc)和編輯距離(NED),乃至圖像整體質量(IR、PickScore)等各項評價指標上,在當前主流的多主體圖像驅動、布局驅動及多條件驅動的SOTA模型中,位居第一梯隊。

從表格中可以看到,CreatiDesign的平均綜合得分高達69.28,相比基礎模型FLUX.1-dev的47.50分,提升幅度達到45.9%。這一顯著提升僅依賴于基礎模型4.1%的額外參數量,高效得提升了基礎模型在圖形設計上的能力。



上圖中紫色蒙版代表不一致或位置錯誤的主體,紅色蒙版代表語義或位置不正確的實體,灰色蒙版代表不協調的背景或前景區域。

可視化結果進一步驗證了CreatiDesign在生成結果上的優勢:與以往的多條件或單條件模型相比,CreatiDesign能夠更加嚴格地遵循用戶的設計意圖,具體體現在主體元素的高度還原、輔助元素及文本的精準布局,以及整體畫面的和諧一致。

對比圖中可以清晰地看到,其他模型常常出現主體錯位、內容缺失、文本錯誤等問題,而CreatiDesign能夠準確保留各個輸入要素,并實現復雜多元素的協調排布。

此外,CreatiDesign無需額外訓練即可支持多輪編輯:用戶可在已有平面設計結果上靈活插入新文本、新主體,或對文本內容進行修改,模型能夠精準編輯指定區域,同時保持非編輯區域的內容不變。



相比Gemini2.0等主流大模型在編輯過程中常出現的非編輯區域變化、內容漂移等問題,CreatiDesign展現出更強的編輯靈活性與保持性。

論文地址:https://arxiv.org/pdf/2505.19114
項目主頁:https://huizhang0812.github.io/CreatiDesign/
項目代碼:https://github.com/HuiZhang0812/CreatiDesign
數據集:https://huggingface.co/datasets/HuiZhang0812/CreatiDesign_dataset

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
關于八國聯軍的三大謊言:曾家喻戶曉,很多人信以為真,其實是假

關于八國聯軍的三大謊言:曾家喻戶曉,很多人信以為真,其實是假

詩意世界
2025-06-08 23:40:44
網紅博主竟是命案犯罪嫌疑人!大連警方破獲31年前積案

網紅博主竟是命案犯罪嫌疑人!大連警方破獲31年前積案

魯中晨報
2025-06-13 09:38:07
這妞厲害!來橫店三個月從配角到女二!

這妞厲害!來橫店三個月從配角到女二!

TVB的四小花
2025-06-14 01:16:34
夜線快評:唯有真相才是最大的告慰!

夜線快評:唯有真相才是最大的告慰!

看看新聞Knews
2025-06-13 18:05:48
伊媒:多名革命衛隊指揮官、核科學家身亡,哈梅內伊高級顧問重傷

伊媒:多名革命衛隊指揮官、核科學家身亡,哈梅內伊高級顧問重傷

澎湃新聞
2025-06-13 12:10:31
網盤中的加密文件,二十年后依然回味無窮

網盤中的加密文件,二十年后依然回味無窮

街機時代
2025-04-27 16:10:02
我偷偷將岳母床頭的避孕藥,換成維生素,3月后她下腹微凸釀成慘劇

我偷偷將岳母床頭的避孕藥,換成維生素,3月后她下腹微凸釀成慘劇

星宇共鳴
2025-06-07 12:16:14
羅嘉良兒子顏值被噴「浪費基因」!17位男神星二代「長殘」引熱議

羅嘉良兒子顏值被噴「浪費基因」!17位男神星二代「長殘」引熱議

和斌斌一起看劇
2025-06-06 06:20:03
禁酒令下,三人同事聚餐還能吃飯嗎?喝酒當心踩紅線

禁酒令下,三人同事聚餐還能吃飯嗎?喝酒當心踩紅線

娛樂圈見解說
2025-06-13 09:44:43
中央批準,馬森述履新廣東

中央批準,馬森述履新廣東

魯中晨報
2025-06-13 16:54:20
蒙古“變臉”比翻書還快!過境費從2.5億砍到1.2億,中俄會買賬嗎

蒙古“變臉”比翻書還快!過境費從2.5億砍到1.2億,中俄會買賬嗎

百科密碼
2025-06-13 17:06:51
狂歡夢碎!“高考后才知道家里沒有1萬塊”,炸出多少家庭的無奈

狂歡夢碎!“高考后才知道家里沒有1萬塊”,炸出多少家庭的無奈

振華觀史
2025-06-13 16:19:12
俄常駐聯合國代表:以方軍事冒險將中東推向全面戰爭邊緣

俄常駐聯合國代表:以方軍事冒險將中東推向全面戰爭邊緣

財聯社
2025-06-14 12:09:09
墜亡實習醫生羅帥宇媽媽最新發聲:堅信兒子的墜亡和舉報劉某峰有直接關系

墜亡實習醫生羅帥宇媽媽最新發聲:堅信兒子的墜亡和舉報劉某峰有直接關系

極目新聞
2025-06-13 15:26:23
囤積10大前鋒!穆里尼奧逼瘋加拉塔薩雷,狂人接下來如何出牌?

囤積10大前鋒!穆里尼奧逼瘋加拉塔薩雷,狂人接下來如何出牌?

漫川舟船
2025-06-14 10:04:07
陳麗華立遺囑:兒女每人100億,余下幾百億都歸“唐僧”老公

陳麗華立遺囑:兒女每人100億,余下幾百億都歸“唐僧”老公

深析古今
2025-06-13 22:38:06
56歲大爺遭妻子冷落23年,住院無人陪,醫生說出實情妻子癱坐在地

56歲大爺遭妻子冷落23年,住院無人陪,醫生說出實情妻子癱坐在地

無名講堂
2025-06-10 18:04:28
衛報:又悶又熱!梅西等球星將在世俱杯上面臨高溫考驗

衛報:又悶又熱!梅西等球星將在世俱杯上面臨高溫考驗

雷速體育
2025-06-14 11:39:20
男子將6歲女兒鎖衣柜致死,20年后回老宅聽到女兒:爸爸放我出去

男子將6歲女兒鎖衣柜致死,20年后回老宅聽到女兒:爸爸放我出去

古怪奇談錄
2025-05-27 14:13:40
美媒:美防長與民主黨議員發生激烈爭執,被后者要求“滾出”五角大樓

美媒:美防長與民主黨議員發生激烈爭執,被后者要求“滾出”五角大樓

環球網資訊
2025-06-13 10:48:50
2025-06-14 13:16:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10659文章數 176166關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

教育
手機
數碼
游戲
軍事航空

教育要聞

老師表面喜歡,實則“內心反感”的4種學生,地位還不如倒數差生

手機要聞

小米 Poco F7 手機渲染圖曝光:驍龍 8s Gen 4 芯片、7550mAh電池

數碼要聞

REDMI即將發布首款旗艦小平板 全面超越iPad mini

SIE總裁稱PS+訂閱價格還會上漲 玩家更喜歡高級檔會員

軍事要聞

伊朗多名將領、核科學家遇襲身亡 身份披露

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 潞西市| 康保县| 榆中县| 平阴县| 盘山县| 福安市| 塘沽区| 察雅县| 马尔康县| 临沂市| 和硕县| 信宜市| 修文县| 宁强县| 格尔木市| 葵青区| 留坝县| 平阳县| 临邑县| 通许县| 嘉祥县| 永城市| 凤冈县| 习水县| 永康市| 海伦市| 英德市| 正阳县| 万载县| 尤溪县| 石台县| 讷河市| 南华县| 南汇区| 湘潭市| 怀化市| 丰都县| 英山县| 阿尔山市| 繁峙县| 沂源县|