圖像生成新范式！MIGE多模態(tài)指令統(tǒng)一框架，超越OmniGen

2025-04-01 18:32:49　來源: wisemodel開源社區(qū)

北京舉報(bào)

分享至

始智AI wisemodel.cn開源社區(qū)

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在，歡迎加入共同成長。wisemodel社區(qū)上線，最新上線4090資源不限量，價(jià)格實(shí)惠，靈活方便，支持在線微調(diào)訓(xùn)練模型，及和，并。

擴(kuò)散模型的最新進(jìn)展極大推動(dòng)了個(gè)性化圖像生成技術(shù)發(fā)展。在這一領(lǐng)域，傳統(tǒng)方法通常將主體驅(qū)動(dòng)圖像生成和基于指令的圖像編輯這兩類任務(wù)分開處理，不僅面臨高質(zhì)量數(shù)據(jù)匱乏問題，還存在泛化能力不足的情況，難以同時(shí)保持主體一致性和指令遵循能力。

研究團(tuán)隊(duì)提出了 MIGE ，一個(gè) 統(tǒng)一了主體驅(qū)動(dòng) 可控生成和基于指令編輯的圖像生成框架。 MIGE 通過利用多模態(tài)指令和條件輸入，實(shí)現(xiàn)了兩種任務(wù)的聯(lián)合訓(xùn)練，從而增強(qiáng)任務(wù)協(xié)同效應(yīng)并緩解數(shù)據(jù)稀缺問題。聯(lián)合訓(xùn)練還解鎖了新的能力，例如基于指令的主體驅(qū)動(dòng)圖像編輯。

這一新任務(wù)還構(gòu)建了數(shù)據(jù)生成流程，并提出了用于評估的 MIGEBench 。實(shí)驗(yàn)結(jié)果表明，聯(lián)合訓(xùn)練顯著提升了主體保真度和指令遵循能力，證明了任務(wù)統(tǒng)一帶來的優(yōu)勢。這一整合方式增強(qiáng)了可控性，并為未來的多模態(tài)圖像生成與編輯提供了新的發(fā)展方向。現(xiàn)已上線始智AI-wisemodel開源社區(qū)，歡迎前去體驗(yàn)。

模型和數(shù)據(jù)集地址

https://wisemodel.cn/models/EurekaTian/MIGE

https://wisemodel.cn/datasets/EurekaTian/MIGEBench

01.

方法與模型

1.1.任務(wù)統(tǒng)一

現(xiàn)有方法通常將主體驅(qū)動(dòng)的生成和基于指令的圖像編輯視為兩個(gè)獨(dú)立任務(wù)，受限于數(shù)據(jù)稀缺和泛化能力不足，影響了整體性能。事實(shí)上，這兩類任務(wù)的核心目標(biāo)都是在保持視覺一致性的同時(shí)，實(shí)現(xiàn)指令要求的修改。

因此，統(tǒng)一這兩類任務(wù)可以實(shí)現(xiàn)相互增強(qiáng)。聯(lián)合訓(xùn)練多樣化的數(shù)據(jù)不僅提升了主體保持能力，也增強(qiáng)了指令遵循性，超越了單一任務(wù)模型的表現(xiàn)。

研究團(tuán)隊(duì)提出了 MIGE，通過多模態(tài)指令作為統(tǒng)一的任務(wù)表示，實(shí)現(xiàn)主體驅(qū)動(dòng)生成與指令編輯的融合。該方法支持靈活的任務(wù)組合，并提供多模態(tài)指導(dǎo)。

此外，研究團(tuán)隊(duì)引入條件輸入來結(jié)構(gòu)化地統(tǒng)一任務(wù)，從而提升視覺一致性。這種結(jié)合方式不僅提供了豐富的視覺和指令信息，還能自然地表示不同類型的任務(wù)。

圖2 MIGE 作為統(tǒng)一框架，能夠處理多模態(tài)指令和條件輸入，適用于多種任務(wù)和場景。

（1）統(tǒng)一的多模態(tài)指令：為了實(shí)現(xiàn)跨多個(gè)任務(wù)的聯(lián)合訓(xùn)練，建立統(tǒng)一的任務(wù)表示至關(guān)重要。我們引入了一種由交錯(cuò)排列的圖像和文本組成的多模態(tài)指令，既提供了視覺參考，也包含了文本指導(dǎo)，從而支持多種可控的生成任務(wù)。

如圖 2 所示，“ ”作為占位符，可以依次替換為輸入圖像，這些圖像既可以是參考主體，也可以是整個(gè)場景，從而與文本語義相結(jié)合，形成交錯(cuò)表達(dá)。這種統(tǒng)一的方式不僅適用于主體驅(qū)動(dòng)的生成和基于指令的編輯，還能夠擴(kuò)展到更復(fù)雜的組合任務(wù)。

（2）統(tǒng)一的條件輸入：我們采用條件輸入設(shè)計(jì)來在結(jié)構(gòu)上統(tǒng)一任務(wù)，既確保了任務(wù)區(qū)分的清晰性，又能實(shí)現(xiàn)共享能力。通過拼接不同的條件輸入，我們可以區(qū)分不同的初始生成狀態(tài)，并捕捉任務(wù)特定的細(xì)微差異，從而提高執(zhí)行的準(zhǔn)確性。

如圖 2 所示，在基于指令的編輯任務(wù)中，我們將 VAE 編碼后的源圖像與噪聲張量拼接，以指導(dǎo)模型在給定圖像的基礎(chǔ)上進(jìn)行編輯。而在主體驅(qū)動(dòng)的生成任務(wù)中，我們使用全零張量作為輸入，相當(dāng)于一塊空白畫布，引導(dǎo)模型自由生成，同時(shí)保持指定的視覺特征。

這種設(shè)計(jì)能夠有效地區(qū)分兩個(gè)任務(wù)，同時(shí)保證編輯任務(wù)中的輸入輸出一致性。此外，在統(tǒng)一框架內(nèi)對任務(wù)進(jìn)行結(jié)構(gòu)化建模，使得模型能夠共享能力，并輕松擴(kuò)展到新的任務(wù)。

2）模型架構(gòu)

如圖 3 所示，MIGE 的架構(gòu)由兩個(gè)主要組件組成：多模態(tài)編碼器（用于處理多模態(tài)指令）和基于 Transformer 的擴(kuò)散模型（用于建模輸入與輸出的關(guān)系）。擴(kuò)散模型將潛在空間的噪聲與條件輸入沿通道維度進(jìn)行拼接作為輸入，并在多模態(tài)條件的控制下進(jìn)行可控生成。

為了進(jìn)一步增強(qiáng)參考圖像中視覺信息與語義信息的融合，我們在編碼器中引入了一種新的特征融合機(jī)制。

（1）多模態(tài)編碼器

為了將多模態(tài)指令映射到統(tǒng)一的視覺-語言語義空間，我們設(shè)計(jì)了一種多模態(tài)編碼器，其主要由大語言模型（LLM）和圖像特征編碼組件組成。

圖像特征編碼組件包括：預(yù)訓(xùn)練的 VAE 編碼器（用于提取視覺特征）、來自 EVA-CLIP 的預(yù)訓(xùn)練 ViT（用于提取語義特征）、Q-Former 和一個(gè)線性投影層。每張圖像被表示為 32 個(gè)標(biāo)記，這些圖像標(biāo)記與文本標(biāo)記一起輸入 LLM ，作為統(tǒng)一的多模態(tài)條件。

與以往方法主要側(cè)重于提取參考圖像的語義特征不同，這些方法往往缺乏保留主體細(xì)節(jié)的能力。為了解決這一問題，我們提出了一種特征融合機(jī)制，結(jié)合不同視覺編碼器的優(yōu)勢：ViT 作為語義特征提取器，VAE 編碼器作為視覺特征提取器，利用其圖像壓縮與重建能力。

如圖 3 所示，我們使用 Q-Former 壓縮的 CLIP 語義特征作為引導(dǎo)，自適應(yīng)地融合VAE 提取的視覺特征。

通過這一融合機(jī)制，我們可以在不增加額外圖像標(biāo)記的情況下，同時(shí)捕捉參考圖像的視覺信息和語義信息，從而提升模型的主體保持能力和生成質(zhì)量。

圖 3 MIGE 的整體框架由兩個(gè)主要組件組成：多模態(tài)編碼器用于處理多模態(tài)指令，基于 Transformer 的擴(kuò)散模型用于建模輸入與輸出的關(guān)系。編碼器引入了一種特征融合機(jī)制，以整合參考圖像的視覺與語義特征。

3）聯(lián)合訓(xùn)練

多模態(tài)指令和條件輸入統(tǒng)一了任務(wù)表示和輸入輸出格式，從而實(shí)現(xiàn)聯(lián)合訓(xùn)練。我們在所有任務(wù)的數(shù)據(jù)上對 MIGE 進(jìn)行微調(diào)，以增強(qiáng)任務(wù)間的協(xié)同作用。

除了兩個(gè)圖像編碼器外，所有參數(shù)均參與聯(lián)合訓(xùn)練，以對齊擴(kuò)散模型的條件空間與多模態(tài)編碼器，如圖 3 所示。這種方法提高了任務(wù)之間的協(xié)調(diào)性，并增強(qiáng)了跨模態(tài)的一致性。

聯(lián)合訓(xùn)練能夠促進(jìn)多任務(wù)學(xué)習(xí)，平衡主體保持與指令控制，同時(shí)建模任務(wù)之間的關(guān)系。為此，我們構(gòu)建了一個(gè)多任務(wù)數(shù)據(jù)集，用于多模態(tài)指令微調(diào)，涵蓋以下三類任務(wù)：主體驅(qū)動(dòng)的圖像生成、基于指令的圖像編輯，基于指令的主體驅(qū)動(dòng)圖像生成。

圖 4 用于基于指令的主體驅(qū)動(dòng)圖像編輯的數(shù)據(jù)構(gòu)建流程。

在主體驅(qū)動(dòng)的圖像生成任務(wù)中，我們參考 KOSMOS-G 和 UNIMO-G 的數(shù)據(jù)構(gòu)建方法，利用 LLM 從圖片描述中提取實(shí)體信息，并輸入 Grounded SAM 進(jìn)行目標(biāo)分割。

此外，我們還引入了 OmniControl 的 Subjects200k 數(shù)據(jù)集，以提升對目標(biāo)主體的保持能力。

在基于指令的圖像編輯任務(wù)中，我們從現(xiàn)有數(shù)據(jù)集中篩選高質(zhì)量樣本，并采用基于規(guī)則的方法構(gòu)造多模態(tài)指令數(shù)據(jù)。

基于指令的主體驅(qū)動(dòng)圖像生成是一個(gè)新興任務(wù)，包括兩個(gè)子任務(wù)：基于指令的主體添加和主體替換。這一任務(wù)允許用戶通過多模態(tài)指令，在圖像中添加或替換指定主體。然而，目前尚無足夠規(guī)模的公開數(shù)據(jù)集可用于該任務(wù)。

為了構(gòu)建基于指令的主體驅(qū)動(dòng)的添加任務(wù)數(shù)據(jù)，我們提出了一條受 SAM-FB 啟發(fā)的數(shù)據(jù)構(gòu)建流程，如圖 4a 所示。具體步驟如下：

1.以 SA-1B 數(shù)據(jù)集為基礎(chǔ)，構(gòu)造輸入-輸出樣本。

2.使用 SAM 進(jìn)行目標(biāo)分割，并利用 MLLM 過濾并保留主要主體。

3.對去除主體后的區(qū)域進(jìn)行背景修復(fù)，確保完整的背景信息。

4.結(jié)合主體名稱與目標(biāo)圖像，使用 GPT-4o 生成多模態(tài)指令。

由于資源限制，我們僅處理了 SA-1B 數(shù)據(jù)集的一部分，共獲得約 20 萬個(gè)樣本，但該流程可擴(kuò)展以生成更多數(shù)據(jù)。

對于主體替換任務(wù)，我們從現(xiàn)有編輯數(shù)據(jù)集中篩選樣本，使用 Grounded SAM 獲取主體分割結(jié)果，并構(gòu)造多模態(tài)指令，以形成輸入-輸出對，如圖 4b 所示。此外，我們引入了基于 IDM-VTON 生成的虛擬試衣（Virtual Try-on）數(shù)據(jù)，共計(jì)約 11 萬個(gè)樣本。

02.

實(shí)驗(yàn)與結(jié)果

1）實(shí)現(xiàn)細(xì)節(jié)

MIGE 由條件擴(kuò)散模型和多模態(tài)編碼器組成。我們的設(shè)計(jì)支持靈活選擇不同的擴(kuò)散模型，初始模型采用在512×512分辨率上預(yù)訓(xùn)練的PIXART-α。用于處理?xiàng)l件輸入的參數(shù)初始化為零，而模型的原始權(quán)重保持不變。

多模態(tài)編碼器由預(yù)訓(xùn)練的 Flan-T5-XXL作為 LLM 進(jìn)行初始化，并包含一個(gè)圖像編碼組件。該組件包括查詢標(biāo)記、Q-Former 和投影層，其初始化基于BLIP-2的pretrain_flant5xxl檢查點(diǎn)。

視覺特征提取器采用凍結(jié)的VAE 編碼器，與擴(kuò)散模型中的 VAE 一致。此外，在特征融合機(jī)制中引入了一個(gè)零初始化的 MLP 層，用于逐步融合視覺特征。

MIGE 在多任務(wù)數(shù)據(jù)集上進(jìn)行訓(xùn)練，優(yōu)化器采用AdamW，權(quán)重衰減設(shè)為0.03，學(xué)習(xí)率設(shè)為1e-5。訓(xùn)練過程持續(xù)18 輪，使用48 張 H20 GPU，總計(jì)6 天，批量大小為960（每張 GPU 處理 20 個(gè)樣本）。

在訓(xùn)練過程中，對主體添加和主體替換任務(wù)采用1:1 采樣策略。此外，在訓(xùn)練時(shí)，模型以5% 的概率隨機(jī)丟棄條件輸入或多模態(tài)條件，并有額外 5% 的概率同時(shí)丟棄兩者，以支持推理階段的無分類器引導(dǎo)（classifier-free guidance）。

2）評估結(jié)果

作為一個(gè)統(tǒng)一模型， MIGE 在各類圖像生成和編輯任務(wù)中表現(xiàn)出色，優(yōu)于現(xiàn)有的特定任務(wù)模型。本節(jié)重點(diǎn)展示其在主體驅(qū)動(dòng)圖像生成和基于指令的編輯任務(wù)中的強(qiáng)大性能，并在我們新的基準(zhǔn)上展現(xiàn)其在基于指令的主體驅(qū)動(dòng)圖像生成任務(wù)中的新興能力。更多定性比較結(jié)果參考圖9。

圖 5 主體驅(qū)動(dòng)的圖像生成（頂部行）和基于指令的圖像編輯（底部行）的定性比較。我們分別在這兩個(gè)任務(wù)上比較了通用模型和特定任務(wù)模型。圖中列出的提示詞用于 MIGE 進(jìn)行生成，并根據(jù)每個(gè)模型的使用方式進(jìn)行調(diào)整。

（1）主體驅(qū)動(dòng)的圖像生成（subuject-driven image generation）

從多模態(tài)提示中生成同時(shí)滿足圖像和文本約束的圖像是一個(gè)具有挑戰(zhàn)性的任務(wù)。我們將MIGE 與兩種同樣使用 MLLM 進(jìn)行多模態(tài)條件編碼的特定任務(wù)方法，以及兩種通用模型進(jìn)行比較，如表 1 所示。我們使用 DINO 和 CLIP-I 評估主體保真度，并使用 CLIP-T 評估對多模態(tài)指令的遵循情況。

在 DreamBench 上的實(shí)驗(yàn)結(jié)果表明，MIGE 在保持競爭性文本一致性的同時(shí)，更好地保留了主體特征，尤其在 DINO 評價(jià)指標(biāo)上表現(xiàn)優(yōu)異。

圖 5 中的定性比較進(jìn)一步證明，MIGE 不僅在單主體生成任務(wù)上表現(xiàn)更好，而且在多主體生成任務(wù)中能夠保留每個(gè)主體的獨(dú)特特征，而其他模型要么未能保留所有主體，要么丟失了個(gè)體特征。

這一優(yōu)勢得益于 MIGE 能夠靈活地在多模態(tài)指令中結(jié)合多個(gè)參考實(shí)體，并通過其特征融合機(jī)制整合額外的視覺特征。

表 1 DreamBench 上主體驅(qū)動(dòng)圖像生成的定量結(jié)果。MIGE 在主體保持方面優(yōu)于通用模型，并且在與針對該任務(wù)設(shè)計(jì)的模型的比較中保持競爭力。

（2）基于指令的圖像編輯（Instruction-based Image Editing）

基于指令的圖像編輯使用戶能夠根據(jù)自由形式的多模態(tài)指令修改源圖像，包括添加、移除、修改對象屬性或改變整體風(fēng)格。表2展示了對Emu Edit 和MagicBrush 測試集的定量分析。

DINO和CLIP-I評估與源圖像的相似度，而CLIP-T衡量與目標(biāo)描述的一致性。量化文本和圖像CLIP向量變化之間的一致性，而L1和L2捕捉像素級差異。

如表2所示，MIGE取得了最高的CLIP-T分?jǐn)?shù)，并且在指標(biāo)上超越了所有特定任務(wù)模型，這表明它在有效遵循多模態(tài)指令方面具有卓越的能力。

作為一個(gè)通用模型，MIGE在MagicBrush測試集的所有指標(biāo)上都優(yōu)于其他所有通用模型，取得了最低的L1和L2分?jǐn)?shù)以及最高的CLIP-I、DINO和CLIP-T分?jǐn)?shù)，凸顯了其強(qiáng)大的指令保真度和對細(xì)節(jié)的保留能力。

圖5進(jìn)一步展示了這種能力，在圖5中，MIGE是唯一能夠準(zhǔn)確遵循指令在紅色手提箱上添加達(dá)菲鴨圖像且不改變其他無關(guān)區(qū)域的模型。

表 2 Emu Edit 測試集和 MagicBrush 測試集的基于指令的圖像編輯定量結(jié)果。MIGE 在 MagicBrush 測試集表現(xiàn)最佳，在通用模型具有較強(qiáng)的指令遵循性和細(xì)節(jié)保留能力。

（3）基于指令的主體驅(qū)動(dòng)圖像編輯（Instruction-based Subject-driven Image Editing）

Benchmark 構(gòu)建：基于指令的主體驅(qū)動(dòng)圖像編輯是一項(xiàng)新穎的任務(wù)。現(xiàn)有方法依賴于掩碼或位置坐標(biāo)進(jìn)行編輯，但不支持基于指令的編輯。目前的基準(zhǔn)主要針對主體添加和替換任務(wù)，分別評估前景和背景的相似性，但未提供完整編輯后的圖像作為標(biāo)準(zhǔn)答案，因此不適用于該任務(wù)。

為解決這些問題，我們構(gòu)建了一個(gè)包含 1,000 個(gè)測試樣本的基準(zhǔn)數(shù)據(jù)集，其中 500 個(gè)用于基于指令的主體添加，500 個(gè)用于主體替換。

數(shù)據(jù)來源于 SEED-Data-Edit，主體由 Grounded SAM提取。目標(biāo)圖像的描述由 GPT-4o 生成，并經(jīng)過人工審核優(yōu)化。為了與現(xiàn)有方法兼容，我們的基準(zhǔn)數(shù)據(jù)集還包含掩碼。

圖 6 MIGEBench中主體添加的例子

圖 7 MIGEBench中主體替換的例子

評估結(jié)果：評估重點(diǎn)關(guān)注編輯能力和主體保持能力。編輯能力使用 DINO、CLIP-I 和 CLIP-T 進(jìn)行評估，其中 DINO 和 CLIP-I 衡量編輯結(jié)果與標(biāo)準(zhǔn)答案圖像的相似度，CLIP-T 評估編輯后圖像與目標(biāo)描述的匹配度。

主體保持能力的評估方式是利用 Grounded SAM 提取編輯后的主體，并使用 DINO 和 CLIP-I 將其與輸入主體圖像進(jìn)行比對。這種評估方式將圖像級編輯能力與主體級特征保持能力分開衡量。

表 3 基于指令的主體驅(qū)動(dòng)編輯的量化結(jié)果。在表格中，“Instruction”列中標(biāo)有叉號的方法使用掩碼進(jìn)行編輯，而其他方法則基于多模態(tài)指令生成圖像。總體而言，MIGE 在兩項(xiàng)任務(wù)中均顯著優(yōu)于其他方法，展現(xiàn)出卓越的編輯能力和主體保持能力。

對于不支持基于指令編輯的方法，我們在表格中用叉號標(biāo)記，并在測試時(shí)使用掩碼。表 3a 和 3b 展示了與其他方法的量化對比結(jié)果。

此外，我們計(jì)算了源圖像與目標(biāo)圖像之間的 DINO 和 CLIP-I 指標(biāo)，以及源圖像與目標(biāo)描述之間的 CLIP-T 指標(biāo)，并在表格的第一行（標(biāo)注為“source-target”）作為基線結(jié)果進(jìn)行展示。

在編輯能力方面，MIGE 在所有指標(biāo)上均取得最高的整體提升，證明了其在多模態(tài)指令引導(dǎo)的編輯任務(wù)中的有效性。如圖 8 的定性對比所示，MIGE 能夠正確理解指令中的“替換”含義，而不僅僅是將主體粘貼到圖像上。

在主體保持能力方面，結(jié)果表明 MIGE 在兩項(xiàng)任務(wù)中均實(shí)現(xiàn)了最佳表現(xiàn)，具體如圖 8 所示。

圖 8 主體添加和主體替換的定性結(jié)果。上半部分對比主體添加的結(jié)果，下半部分對比主體替換的結(jié)果。在測試過程中，多模態(tài)指令中的“ ”占位符會根據(jù)圖像序列進(jìn)行替換。MIGE 展現(xiàn)出高度的編輯靈活性，并在主體保持能力和輸入-輸出一致性方面表現(xiàn)出色。

3）消融實(shí)驗(yàn)

（1）聯(lián)合訓(xùn)練的有效性

為了評估聯(lián)合訓(xùn)練的有效性，我們分別在單個(gè)數(shù)據(jù)集上訓(xùn)練模型（分別標(biāo)記為“only_subject data”，“only_edit data,”和“only_compositional data”），并將其性能與聯(lián)合訓(xùn)練的模型進(jìn)行對比。

表 1 和表 2 的結(jié)果顯示，聯(lián)合訓(xùn)練在所有指標(biāo)上均帶來了持續(xù)的提升，這表明主體驅(qū)動(dòng)的生成與基于指令的編輯能夠相互促進(jìn)。進(jìn)一步地，如表 3 所示，聯(lián)合訓(xùn)練還提升了組合任務(wù)的性能，進(jìn)一步凸顯了其整體優(yōu)勢。這些結(jié)果強(qiáng)調(diào)了聯(lián)合訓(xùn)練的有效性和必要性。

總的來說，在我們的統(tǒng)一框架下進(jìn)行主體驅(qū)動(dòng)生成與基于指令的編輯的聯(lián)合訓(xùn)練，不僅增強(qiáng)了組合能力，還提升了每個(gè)單獨(dú)任務(wù)的性能。

（2）特征融合的有效性

MIGE 在多模態(tài)編碼器中采用特征融合機(jī)制，將 ViT 提取的語義特征與 VAE 提取的視覺特征進(jìn)行融合。如表 1 和表 2 所示，與不使用 VAE 特征的模型（標(biāo)記為“wo_VAE feature”）相比，加入 VAE 特征顯著提升了參考圖像的細(xì)節(jié)保留能力，對主體驅(qū)動(dòng)的圖像生成和基于指令的圖像編輯均有所幫助。

這一點(diǎn)尤其體現(xiàn)在 CLIP-I 和 DINO 評分的提升，以及 L1 和 L2 指標(biāo)的顯著降低，表明額外的視覺特征有助于保持輸入與輸出的一致性。

（3）基于指令的主體驅(qū)動(dòng)圖像編輯數(shù)據(jù)的有效性

在主體驅(qū)動(dòng)的圖像生成和基于指令的圖像編輯任務(wù)上進(jìn)行聯(lián)合訓(xùn)練，使模型能夠泛化到基于指令的主體驅(qū)動(dòng)圖像編輯任務(wù)（標(biāo)記為“subject data + edit data”）。

為了增強(qiáng) MIGE 在這一新任務(wù)中的能力，特別是對空間術(shù)語和尺寸描述的理解，我們構(gòu)建了一個(gè)專門的數(shù)據(jù)集用于聯(lián)合訓(xùn)練。如表 3a 和表 3b 所示，該任務(wù)特定數(shù)據(jù)顯著提升了模型的整體性能。這一結(jié)果證明了我們構(gòu)建的數(shù)據(jù)集的有效性，同時(shí)所提出的數(shù)據(jù)生成流程也可作為未來數(shù)據(jù)集構(gòu)建的重要參考。

（4）多模態(tài)指令的有效性

現(xiàn)有的基于指令的編輯方法通常使用純文本指令作為條件輸入，而我們將其擴(kuò)展為多模態(tài)指令。為了衡量多模態(tài)指令的優(yōu)勢，我們訓(xùn)練了僅使用文本編輯指令的模型進(jìn)行對比。如表 2 所示，相比于僅使用文本指令（標(biāo)記為“wo_multimodal instruction”），采用多模態(tài)指令能夠穩(wěn)定提升模型性能，并增強(qiáng)輸入輸出的一致性及指令遵循能力。

在多任務(wù)訓(xùn)練中，多模態(tài)指令帶來的顯著提升體現(xiàn)在 L1 和 L2 指標(biāo)的降低，表明其對圖像的控制更加精細(xì)，編輯更準(zhǔn)確。雖然文本指令能夠提供必要的修改信息，但評分提升以及其他指標(biāo)的降低表明，多模態(tài)指令引入視覺上下文，使修改更加精準(zhǔn)且忠實(shí)于指令要求。

圖 9 主體驅(qū)動(dòng)圖像生成（頂部）、基于指令的圖像編輯（中部）和基于指令的主體驅(qū)動(dòng)圖像編輯（底部）的定性對比結(jié)果。

----- END -----

wisemodel相關(guān)：

系統(tǒng)升級：

大賽報(bào)名：

系列模型：

關(guān)于wisemodel更多

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅(jiān)持和投入，更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù)，歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來，逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū)，為了加快公司發(fā)展，我們長期需要技術(shù)、運(yùn)營等人才加盟，技術(shù)側(cè)重在AI infra、后端開發(fā)，熟悉K8S、模型訓(xùn)練和推理等技術(shù)，以及熟悉開發(fā)者生態(tài)運(yùn)營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果，鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等，在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹，也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立，旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者，以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等，還有投資機(jī)構(gòu)、科技媒體等，共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.