99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

圖像生成新范式!MIGE多模態(tài)指令統(tǒng)一框架,超越OmniGen

0
分享至

始智AI wisemodel.cn開源社區(qū)

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel社區(qū)上線,最新上線4090資源不限量,價(jià)格實(shí)惠,靈活方便,支持在線微調(diào)訓(xùn)練模型,及和,并。

擴(kuò)散模型的最新進(jìn)展極大推動(dòng)了個(gè)性化圖像生成技術(shù)發(fā)展。在這一領(lǐng)域,傳統(tǒng)方法通常將主體驅(qū)動(dòng)圖像生成和基于指令的圖像編輯這兩類任務(wù)分開處理,不僅面臨高質(zhì)量數(shù)據(jù)匱乏問題,還存在泛化能力不足的情況,難以同時(shí)保持主體一致性和指令遵循能力。

研究團(tuán)隊(duì)提出了 MIGE ,一個(gè) 統(tǒng)一了 主體驅(qū)動(dòng) 可控 生成和基于指令編輯的 圖像生成 框架。 MIGE 通過利用多模態(tài)指令和條件輸入,實(shí)現(xiàn)了兩種任務(wù)的聯(lián)合訓(xùn)練,從而增強(qiáng)任務(wù)協(xié)同效應(yīng)并緩解數(shù)據(jù)稀缺問題。聯(lián)合訓(xùn)練還解鎖了新的能力,例如基于指令的主體驅(qū)動(dòng)圖像編輯。

這一新任務(wù)還構(gòu)建了數(shù)據(jù)生成流程,并提出了用于評估的 MIGEBench 。實(shí)驗(yàn)結(jié)果表明,聯(lián)合訓(xùn)練顯著提升了主體保真度和指令遵循能力,證明了任務(wù)統(tǒng)一帶來的優(yōu)勢。這一整合方式增強(qiáng)了可控性,并為未來的多模態(tài)圖像生成與編輯提供了新的發(fā)展方向。現(xiàn)已上線始智AI-wisemodel開源社區(qū),歡迎前去體驗(yàn)。


模型和數(shù)據(jù)集地址

https://wisemodel.cn/models/EurekaTian/MIGE

https://wisemodel.cn/datasets/EurekaTian/MIGEBench

01.

方法與模型


1.1.任務(wù)統(tǒng)一

現(xiàn)有方法通常將主體驅(qū)動(dòng)的生成和基于指令的圖像編輯視為兩個(gè)獨(dú)立任務(wù),受限于數(shù)據(jù)稀缺和泛化能力不足,影響了整體性能。事實(shí)上,這兩類任務(wù)的核心目標(biāo)都是在保持視覺一致性的同時(shí),實(shí)現(xiàn)指令要求的修改。

因此,統(tǒng)一這兩類任務(wù)可以實(shí)現(xiàn)相互增強(qiáng)。聯(lián)合訓(xùn)練多樣化的數(shù)據(jù)不僅提升了主體保持能力,也增強(qiáng)了指令遵循性,超越了單一任務(wù)模型的表現(xiàn)。

研究團(tuán)隊(duì)提出了 MIGE,通過多模態(tài)指令作為統(tǒng)一的任務(wù)表示,實(shí)現(xiàn)主體驅(qū)動(dòng)生成與指令編輯的融合。該方法支持靈活的任務(wù)組合,并提供多模態(tài)指導(dǎo)。

此外,研究團(tuán)隊(duì)引入條件輸入來結(jié)構(gòu)化地統(tǒng)一任務(wù),從而提升視覺一致性。這種結(jié)合方式不僅提供了豐富的視覺和指令信息,還能自然地表示不同類型的任務(wù)。


圖2 MIGE 作為統(tǒng)一框架,能夠處理多模態(tài)指令和條件輸入,適用于多種任務(wù)和場景。

1)統(tǒng)一的多模態(tài)指令:為了實(shí)現(xiàn)跨多個(gè)任務(wù)的聯(lián)合訓(xùn)練,建立統(tǒng)一的任務(wù)表示至關(guān)重要。我們引入了一種由交錯(cuò)排列的圖像和文本組成的多模態(tài)指令,既提供了視覺參考,也包含了文本指導(dǎo),從而支持多種可控的生成任務(wù)。

如圖 2 所示,“ ”作為占位符,可以依次替換為輸入圖像,這些圖像既可以是參考主體,也可以是整個(gè)場景,從而與文本語義相結(jié)合,形成交錯(cuò)表達(dá)。這種統(tǒng)一的方式不僅適用于主體驅(qū)動(dòng)的生成和基于指令的編輯,還能夠擴(kuò)展到更復(fù)雜的組合任務(wù)。

2)統(tǒng)一的條件輸入:我們采用條件輸入設(shè)計(jì)來在結(jié)構(gòu)上統(tǒng)一任務(wù),既確保了任務(wù)區(qū)分的清晰性,又能實(shí)現(xiàn)共享能力。通過拼接不同的條件輸入,我們可以區(qū)分不同的初始生成狀態(tài),并捕捉任務(wù)特定的細(xì)微差異,從而提高執(zhí)行的準(zhǔn)確性。

如圖 2 所示,在基于指令的編輯任務(wù)中,我們將 VAE 編碼后的源圖像與噪聲張量拼接,以指導(dǎo)模型在給定圖像的基礎(chǔ)上進(jìn)行編輯。而在主體驅(qū)動(dòng)的生成任務(wù)中,我們使用全零張量作為輸入,相當(dāng)于一塊空白畫布,引導(dǎo)模型自由生成,同時(shí)保持指定的視覺特征。

這種設(shè)計(jì)能夠有效地區(qū)分兩個(gè)任務(wù),同時(shí)保證編輯任務(wù)中的輸入輸出一致性。此外,在統(tǒng)一框架內(nèi)對任務(wù)進(jìn)行結(jié)構(gòu)化建模,使得模型能夠共享能力,并輕松擴(kuò)展到新的任務(wù)。


2)模型架構(gòu)

如圖 3 所示,MIGE 的架構(gòu)由兩個(gè)主要組件組成:多模態(tài)編碼器(用于處理多模態(tài)指令)和基于 Transformer 的擴(kuò)散模型(用于建模輸入與輸出的關(guān)系)。擴(kuò)散模型將潛在空間的噪聲與條件輸入沿通道維度進(jìn)行拼接作為輸入,并在多模態(tài)條件的控制下進(jìn)行可控生成。

為了進(jìn)一步增強(qiáng)參考圖像中視覺信息與語義信息的融合,我們在編碼器中引入了一種新的特征融合機(jī)制

1)多模態(tài)編碼器

為了將多模態(tài)指令映射到統(tǒng)一的視覺-語言語義空間,我們設(shè)計(jì)了一種多模態(tài)編碼器,其主要由大語言模型(LLM)和圖像特征編碼組件組成。

圖像特征編碼組件包括:預(yù)訓(xùn)練的 VAE 編碼器(用于提取視覺特征)、來自 EVA-CLIP 的預(yù)訓(xùn)練 ViT(用于提取語義特征)、Q-Former 和一個(gè)線性投影層。每張圖像被表示為 32 個(gè)標(biāo)記,這些圖像標(biāo)記與文本標(biāo)記一起輸入 LLM ,作為統(tǒng)一的多模態(tài)條件。

與以往方法主要側(cè)重于提取參考圖像的語義特征不同,這些方法往往缺乏保留主體細(xì)節(jié)的能力。為了解決這一問題,我們提出了一種特征融合機(jī)制,結(jié)合不同視覺編碼器的優(yōu)勢:ViT 作為語義特征提取器,VAE 編碼器作為視覺特征提取器,利用其圖像壓縮與重建能力。

如圖 3 所示,我們使用 Q-Former 壓縮的 CLIP 語義特征作為引導(dǎo),自適應(yīng)地融合VAE 提取的視覺特征。

通過這一融合機(jī)制,我們可以在不增加額外圖像標(biāo)記的情況下,同時(shí)捕捉參考圖像的視覺信息和語義信息,從而提升模型的主體保持能力和生成質(zhì)量。


圖 3 MIGE 的整體框架由兩個(gè)主要組件組成:多模態(tài)編碼器用于處理多模態(tài)指令,基于 Transformer 的擴(kuò)散模型用于建模輸入與輸出的關(guān)系。編碼器引入了一種特征融合機(jī)制,以整合參考圖像的視覺與語義特征。


3)聯(lián)合訓(xùn)練

多模態(tài)指令和條件輸入統(tǒng)一了任務(wù)表示和輸入輸出格式,從而實(shí)現(xiàn)聯(lián)合訓(xùn)練。我們在所有任務(wù)的數(shù)據(jù)上對 MIGE 進(jìn)行微調(diào),以增強(qiáng)任務(wù)間的協(xié)同作用。

除了兩個(gè)圖像編碼器外,所有參數(shù)均參與聯(lián)合訓(xùn)練,以對齊擴(kuò)散模型的條件空間與多模態(tài)編碼器,如圖 3 所示。這種方法提高了任務(wù)之間的協(xié)調(diào)性,并增強(qiáng)了跨模態(tài)的一致性。

聯(lián)合訓(xùn)練能夠促進(jìn)多任務(wù)學(xué)習(xí),平衡主體保持與指令控制,同時(shí)建模任務(wù)之間的關(guān)系。為此,我們構(gòu)建了一個(gè)多任務(wù)數(shù)據(jù)集,用于多模態(tài)指令微調(diào),涵蓋以下三類任務(wù):主體驅(qū)動(dòng)的圖像生成、基于指令的圖像編輯,基于指令的主體驅(qū)動(dòng)圖像生成。


圖 4 用于基于指令的主體驅(qū)動(dòng)圖像編輯的數(shù)據(jù)構(gòu)建流程。

在主體驅(qū)動(dòng)的圖像生成任務(wù)中,我們參考 KOSMOS-G 和 UNIMO-G 的數(shù)據(jù)構(gòu)建方法,利用 LLM 從圖片描述中提取實(shí)體信息,并輸入 Grounded SAM 進(jìn)行目標(biāo)分割。

此外,我們還引入了 OmniControl 的 Subjects200k 數(shù)據(jù)集,以提升對目標(biāo)主體的保持能力。

在基于指令的圖像編輯任務(wù)中,我們從現(xiàn)有數(shù)據(jù)集中篩選高質(zhì)量樣本,并采用基于規(guī)則的方法構(gòu)造多模態(tài)指令數(shù)據(jù)。

基于指令的主體驅(qū)動(dòng)圖像生成是一個(gè)新興任務(wù),包括兩個(gè)子任務(wù):基于指令的主體添加和主體替換。這一任務(wù)允許用戶通過多模態(tài)指令,在圖像中添加或替換指定主體。然而,目前尚無足夠規(guī)模的公開數(shù)據(jù)集可用于該任務(wù)。

為了構(gòu)建基于指令的主體驅(qū)動(dòng)的添加任務(wù)數(shù)據(jù),我們提出了一條受 SAM-FB 啟發(fā)的數(shù)據(jù)構(gòu)建流程,如圖 4a 所示。具體步驟如下:

1.以 SA-1B 數(shù)據(jù)集為基礎(chǔ),構(gòu)造輸入-輸出樣本。

2.使用 SAM 進(jìn)行目標(biāo)分割,并利用 MLLM 過濾并保留主要主體。

3.對去除主體后的區(qū)域進(jìn)行背景修復(fù),確保完整的背景信息。

4.結(jié)合主體名稱與目標(biāo)圖像,使用 GPT-4o 生成多模態(tài)指令。

由于資源限制,我們僅處理了 SA-1B 數(shù)據(jù)集的一部分,共獲得約 20 萬個(gè)樣本,但該流程可擴(kuò)展以生成更多數(shù)據(jù)。

對于主體替換任務(wù),我們從現(xiàn)有編輯數(shù)據(jù)集中篩選樣本,使用 Grounded SAM 獲取主體分割結(jié)果,并構(gòu)造多模態(tài)指令,以形成輸入-輸出對,如圖 4b 所示。此外,我們引入了基于 IDM-VTON 生成的虛擬試衣(Virtual Try-on)數(shù)據(jù),共計(jì)約 11 萬個(gè)樣本。

02.

實(shí)驗(yàn)與結(jié)果


1)實(shí)現(xiàn)細(xì)節(jié)

MIGE 由條件擴(kuò)散模型和多模態(tài)編碼器組成。我們的設(shè)計(jì)支持靈活選擇不同的擴(kuò)散模型,初始模型采用在512×512分辨率上預(yù)訓(xùn)練的PIXART-α。用于處理?xiàng)l件輸入的參數(shù)初始化為零,而模型的原始權(quán)重保持不變。

多模態(tài)編碼器由預(yù)訓(xùn)練的 Flan-T5-XXL作為 LLM 進(jìn)行初始化,并包含一個(gè)圖像編碼組件。該組件包括查詢標(biāo)記、Q-Former 和投影層,其初始化基于BLIP-2的pretrain_flant5xxl檢查點(diǎn)。

視覺特征提取器采用凍結(jié)的VAE 編碼器,與擴(kuò)散模型中的 VAE 一致。此外,在特征融合機(jī)制中引入了一個(gè)零初始化的 MLP 層,用于逐步融合視覺特征。

MIGE 在多任務(wù)數(shù)據(jù)集上進(jìn)行訓(xùn)練,優(yōu)化器采用AdamW,權(quán)重衰減設(shè)為0.03,學(xué)習(xí)率設(shè)為1e-5。訓(xùn)練過程持續(xù)18 輪,使用48 張 H20 GPU,總計(jì)6 天,批量大小為960(每張 GPU 處理 20 個(gè)樣本)。

在訓(xùn)練過程中,對主體添加和主體替換任務(wù)采用1:1 采樣策略。此外,在訓(xùn)練時(shí),模型以5% 的概率隨機(jī)丟棄條件輸入或多模態(tài)條件,并有額外 5% 的概率同時(shí)丟棄兩者,以支持推理階段的無分類器引導(dǎo)(classifier-free guidance)。


2)評估結(jié)果

作為一個(gè)統(tǒng)一模型, MIGE 在各類圖像生成和編輯任務(wù)中表現(xiàn)出色,優(yōu)于現(xiàn)有的特定任務(wù)模型。本節(jié)重點(diǎn)展示其在主體驅(qū)動(dòng)圖像生成和基于指令的編輯任務(wù)中的強(qiáng)大性能,并在我們新的基準(zhǔn)上展現(xiàn)其在基于指令的主體驅(qū)動(dòng)圖像生成任務(wù)中的新興能力。更多定性比較結(jié)果參考圖9。


圖 5 主體驅(qū)動(dòng)的圖像生成(頂部行)和基于指令的圖像編輯(底部行)的定性比較。我們分別在這兩個(gè)任務(wù)上比較了通用模型和特定任務(wù)模型。圖中列出的提示詞用于 MIGE 進(jìn)行生成,并根據(jù)每個(gè)模型的使用方式進(jìn)行調(diào)整。

(1)主體驅(qū)動(dòng)的圖像生成(subuject-driven image generation

從多模態(tài)提示中生成同時(shí)滿足圖像和文本約束的圖像是一個(gè)具有挑戰(zhàn)性的任務(wù)。我們將MIGE 與兩種同樣使用 MLLM 進(jìn)行多模態(tài)條件編碼的特定任務(wù)方法,以及兩種通用模型進(jìn)行比較,如表 1 所示。我們使用 DINO 和 CLIP-I 評估主體保真度,并使用 CLIP-T 評估對多模態(tài)指令的遵循情況。

在 DreamBench 上的實(shí)驗(yàn)結(jié)果表明,MIGE 在保持競爭性文本一致性的同時(shí),更好地保留了主體特征,尤其在 DINO 評價(jià)指標(biāo)上表現(xiàn)優(yōu)異。

圖 5 中的定性比較進(jìn)一步證明,MIGE 不僅在單主體生成任務(wù)上表現(xiàn)更好,而且在多主體生成任務(wù)中能夠保留每個(gè)主體的獨(dú)特特征,而其他模型要么未能保留所有主體,要么丟失了個(gè)體特征。

這一優(yōu)勢得益于 MIGE 能夠靈活地在多模態(tài)指令中結(jié)合多個(gè)參考實(shí)體,并通過其特征融合機(jī)制整合額外的視覺特征。


表 1 DreamBench 上主體驅(qū)動(dòng)圖像生成的定量結(jié)果。MIGE 在主體保持方面優(yōu)于通用模型,并且在與針對該任務(wù)設(shè)計(jì)的模型的比較中保持競爭力。

(2)基于指令的圖像編輯(Instruction-based Image Editing

基于指令的圖像編輯使用戶能夠根據(jù)自由形式的多模態(tài)指令修改源圖像,包括添加、移除、修改對象屬性或改變整體風(fēng)格。表2展示了對Emu Edit 和MagicBrush 測試集的定量分析。

DINO和CLIP-I評估與源圖像的相似度,而CLIP-T衡量與目標(biāo)描述的一致性。 量化文本和圖像CLIP向量變化之間的一致性,而L1和L2捕捉像素級差異。

如表2所示,MIGE取得了最高的CLIP-T分?jǐn)?shù),并且在指標(biāo)上超越了所有特定任務(wù)模型,這表明它在有效遵循多模態(tài)指令方面具有卓越的能力。

作為一個(gè)通用模型,MIGE在MagicBrush測試集的所有指標(biāo)上都優(yōu)于其他所有通用模型,取得了最低的L1和L2分?jǐn)?shù)以及最高的CLIP-I、DINO和CLIP-T分?jǐn)?shù),凸顯了其強(qiáng)大的指令保真度和對細(xì)節(jié)的保留能力。

圖5進(jìn)一步展示了這種能力,在圖5中,MIGE是唯一能夠準(zhǔn)確遵循指令在紅色手提箱上添加達(dá)菲鴨圖像且不改變其他無關(guān)區(qū)域的模型。


表 2 Emu Edit 測試集和 MagicBrush 測試集的基于指令的圖像編輯定量結(jié)果。MIGE 在 MagicBrush 測試集表現(xiàn)最佳,在通用模型具有較強(qiáng)的指令遵循性和細(xì)節(jié)保留能力。

(3)基于指令的主體驅(qū)動(dòng)圖像編輯(Instruction-based Subject-driven Image Editing

Benchmark 構(gòu)建:基于指令的主體驅(qū)動(dòng)圖像編輯是一項(xiàng)新穎的任務(wù)。現(xiàn)有方法依賴于掩碼或位置坐標(biāo)進(jìn)行編輯,但不支持基于指令的編輯。目前的基準(zhǔn)主要針對主體添加和替換任務(wù),分別評估前景和背景的相似性,但未提供完整編輯后的圖像作為標(biāo)準(zhǔn)答案,因此不適用于該任務(wù)。

為解決這些問題,我們構(gòu)建了一個(gè)包含 1,000 個(gè)測試樣本的基準(zhǔn)數(shù)據(jù)集,其中 500 個(gè)用于基于指令的主體添加,500 個(gè)用于主體替換。

數(shù)據(jù)來源于 SEED-Data-Edit,主體由 Grounded SAM提取。目標(biāo)圖像的描述由 GPT-4o 生成,并經(jīng)過人工審核優(yōu)化。為了與現(xiàn)有方法兼容,我們的基準(zhǔn)數(shù)據(jù)集還包含掩碼。


圖 6 MIGEBench中主體添加的例子


圖 7 MIGEBench中主體替換的例子

評估結(jié)果:評估重點(diǎn)關(guān)注編輯能力和主體保持能力。編輯能力使用 DINO、CLIP-I 和 CLIP-T 進(jìn)行評估,其中 DINO 和 CLIP-I 衡量編輯結(jié)果與標(biāo)準(zhǔn)答案圖像的相似度,CLIP-T 評估編輯后圖像與目標(biāo)描述的匹配度。

主體保持能力的評估方式是利用 Grounded SAM 提取編輯后的主體,并使用 DINO 和 CLIP-I 將其與輸入主體圖像進(jìn)行比對。這種評估方式將圖像級編輯能力與主體級特征保持能力分開衡量。


表 3 基于指令的主體驅(qū)動(dòng)編輯的量化結(jié)果。在表格中,“Instruction”列中標(biāo)有叉號的方法使用掩碼進(jìn)行編輯,而其他方法則基于多模態(tài)指令生成圖像。總體而言,MIGE 在兩項(xiàng)任務(wù)中均顯著優(yōu)于其他方法,展現(xiàn)出卓越的編輯能力和主體保持能力。

對于不支持基于指令編輯的方法,我們在表格中用叉號標(biāo)記,并在測試時(shí)使用掩碼。表 3a 和 3b 展示了與其他方法的量化對比結(jié)果。

此外,我們計(jì)算了源圖像與目標(biāo)圖像之間的 DINO 和 CLIP-I 指標(biāo),以及源圖像與目標(biāo)描述之間的 CLIP-T 指標(biāo),并在表格的第一行(標(biāo)注為“source-target”)作為基線結(jié)果進(jìn)行展示。

在編輯能力方面,MIGE 在所有指標(biāo)上均取得最高的整體提升,證明了其在多模態(tài)指令引導(dǎo)的編輯任務(wù)中的有效性。如圖 8 的定性對比所示,MIGE 能夠正確理解指令中的“替換”含義,而不僅僅是將主體粘貼到圖像上。

在主體保持能力方面,結(jié)果表明 MIGE 在兩項(xiàng)任務(wù)中均實(shí)現(xiàn)了最佳表現(xiàn),具體如圖 8 所示。


圖 8 主體添加和主體替換的定性結(jié)果。上半部分對比主體添加的結(jié)果,下半部分對比主體替換的結(jié)果。在測試過程中,多模態(tài)指令中的“ ”占位符會根據(jù)圖像序列進(jìn)行替換。MIGE 展現(xiàn)出高度的編輯靈活性,并在主體保持能力和輸入-輸出一致性方面表現(xiàn)出色。


3)消融實(shí)驗(yàn)

(1)聯(lián)合訓(xùn)練的有效性

為了評估聯(lián)合訓(xùn)練的有效性,我們分別在單個(gè)數(shù)據(jù)集上訓(xùn)練模型(分別標(biāo)記為“only_subject data”,“only_edit data,”和“only_compositional data”),并將其性能與聯(lián)合訓(xùn)練的模型進(jìn)行對比。

表 1 和表 2 的結(jié)果顯示,聯(lián)合訓(xùn)練在所有指標(biāo)上均帶來了持續(xù)的提升,這表明主體驅(qū)動(dòng)的生成與基于指令的編輯能夠相互促進(jìn)。進(jìn)一步地,如表 3 所示,聯(lián)合訓(xùn)練還提升了組合任務(wù)的性能,進(jìn)一步凸顯了其整體優(yōu)勢。這些結(jié)果強(qiáng)調(diào)了聯(lián)合訓(xùn)練的有效性和必要性。

總的來說,在我們的統(tǒng)一框架下進(jìn)行主體驅(qū)動(dòng)生成與基于指令的編輯的聯(lián)合訓(xùn)練,不僅增強(qiáng)了組合能力,還提升了每個(gè)單獨(dú)任務(wù)的性能。

(2)特征融合的有效性

MIGE 在多模態(tài)編碼器中采用特征融合機(jī)制,將 ViT 提取的語義特征與 VAE 提取的視覺特征進(jìn)行融合。如表 1 和表 2 所示,與不使用 VAE 特征的模型(標(biāo)記為“wo_VAE feature”)相比,加入 VAE 特征顯著提升了參考圖像的細(xì)節(jié)保留能力,對主體驅(qū)動(dòng)的圖像生成和基于指令的圖像編輯均有所幫助。

這一點(diǎn)尤其體現(xiàn)在 CLIP-I 和 DINO 評分的提升,以及 L1 和 L2 指標(biāo)的顯著降低,表明額外的視覺特征有助于保持輸入與輸出的一致性。

(3)基于指令的主體驅(qū)動(dòng)圖像編輯數(shù)據(jù)的有效性

在主體驅(qū)動(dòng)的圖像生成和基于指令的圖像編輯任務(wù)上進(jìn)行聯(lián)合訓(xùn)練,使模型能夠泛化到基于指令的主體驅(qū)動(dòng)圖像編輯任務(wù)(標(biāo)記為“subject data + edit data”)。

為了增強(qiáng) MIGE 在這一新任務(wù)中的能力,特別是對空間術(shù)語和尺寸描述的理解,我們構(gòu)建了一個(gè)專門的數(shù)據(jù)集用于聯(lián)合訓(xùn)練。如表 3a 和表 3b 所示,該任務(wù)特定數(shù)據(jù)顯著提升了模型的整體性能。這一結(jié)果證明了我們構(gòu)建的數(shù)據(jù)集的有效性,同時(shí)所提出的數(shù)據(jù)生成流程也可作為未來數(shù)據(jù)集構(gòu)建的重要參考。

(4)多模態(tài)指令的有效性

現(xiàn)有的基于指令的編輯方法通常使用純文本指令作為條件輸入,而我們將其擴(kuò)展為多模態(tài)指令。為了衡量多模態(tài)指令的優(yōu)勢,我們訓(xùn)練了僅使用文本編輯指令的模型進(jìn)行對比。如表 2 所示,相比于僅使用文本指令(標(biāo)記為“wo_multimodal instruction”),采用多模態(tài)指令能夠穩(wěn)定提升模型性能,并增強(qiáng)輸入輸出的一致性及指令遵循能力。

在多任務(wù)訓(xùn)練中,多模態(tài)指令帶來的顯著提升體現(xiàn)在 L1 和 L2 指標(biāo)的降低,表明其對圖像的控制更加精細(xì),編輯更準(zhǔn)確。雖然文本指令能夠提供必要的修改信息,但評分提升以及其他指標(biāo)的降低表明,多模態(tài)指令引入視覺上下文,使修改更加精準(zhǔn)且忠實(shí)于指令要求。


圖 9 主體驅(qū)動(dòng)圖像生成(頂部)、基于指令的圖像編輯(中部)和基于指令的主體驅(qū)動(dòng)圖像編輯(底部)的定性對比結(jié)果。

----- END -----

wisemodel相關(guān):

系統(tǒng)升級:

大賽報(bào)名:

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運(yùn)營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
后備箱小孩后媽嘴臉曝光,一臉兇悍,親爸罵兒子去死,檢察院轉(zhuǎn)發(fā)

后備箱小孩后媽嘴臉曝光,一臉兇悍,親爸罵兒子去死,檢察院轉(zhuǎn)發(fā)

禾寒?dāng)?/span>
2025-07-16 16:59:03
女子稱在上海遭多輛出租車拒載,最后上了一輛被罵一路,還關(guān)空調(diào)

女子稱在上海遭多輛出租車拒載,最后上了一輛被罵一路,還關(guān)空調(diào)

葡萄說娛
2025-07-17 09:32:38
董璇張維伊婚禮伴娘伴郎團(tuán)差別好大,佟麗婭穿新中式,伴郎頭好大

董璇張維伊婚禮伴娘伴郎團(tuán)差別好大,佟麗婭穿新中式,伴郎頭好大

探源歷史
2025-07-17 11:55:37
重要賽事!7月17日下午13:30!中央5套CCTV5、CCTV5+直播節(jié)目表

重要賽事!7月17日下午13:30!中央5套CCTV5、CCTV5+直播節(jié)目表

清游說娛
2025-07-17 10:18:11
中央巡視后,鄒曉東主動(dòng)向組織交代問題,半個(gè)月前還有公開活動(dòng)

中央巡視后,鄒曉東主動(dòng)向組織交代問題,半個(gè)月前還有公開活動(dòng)

政知新媒體
2025-07-17 11:57:03
16歲女孩飛機(jī)上生子,疑攜帶梅毒傳染病,飛機(jī)座椅上仍能看到血跡

16歲女孩飛機(jī)上生子,疑攜帶梅毒傳染病,飛機(jī)座椅上仍能看到血跡

派大星紀(jì)錄片
2025-07-16 15:13:20
當(dāng)汽車駛?cè)氤蓖婺翀觯萝嚢l(fā)布會玩成「甜蜜派對」

當(dāng)汽車駛?cè)氤蓖婺翀觯萝嚢l(fā)布會玩成「甜蜜派對」

樂之汽車
2025-07-16 14:11:58
知情人士:宗慶后,不止這四個(gè)孩子

知情人士:宗慶后,不止這四個(gè)孩子

鳳凰網(wǎng)財(cái)經(jīng)
2025-07-16 22:10:39
零跑汽車創(chuàng)業(yè)十年:不是逆襲,而是專注者的勝利

零跑汽車創(chuàng)業(yè)十年:不是逆襲,而是專注者的勝利

晚點(diǎn)LatePost
2025-07-15 23:16:12
印軍上百架無人機(jī)突襲藏南,殺死一名中將和準(zhǔn)將、一名上校共19人

印軍上百架無人機(jī)突襲藏南,殺死一名中將和準(zhǔn)將、一名上校共19人

頭條爆料007
2025-07-16 19:21:36
曝30歲銀行女高管出軌,兩人運(yùn)動(dòng)畫面曝光,又親又抱,丈夫發(fā)聲

曝30歲銀行女高管出軌,兩人運(yùn)動(dòng)畫面曝光,又親又抱,丈夫發(fā)聲

180視角
2025-07-17 13:04:26
內(nèi)馬爾復(fù)出就絕殺!一頭臟辮跪地慶祝,星二代首秀,親爹入獄9年

內(nèi)馬爾復(fù)出就絕殺!一頭臟辮跪地慶祝,星二代首秀,親爹入獄9年

念洲
2025-07-17 09:17:25
宗馥莉悄然更換電梯廣告!圖片和廣告語,都在向家族詮釋“主權(quán)”

宗馥莉悄然更換電梯廣告!圖片和廣告語,都在向家族詮釋“主權(quán)”

火山詩話
2025-07-17 07:42:52
傳一中國承包商加入俄雇傭軍戰(zhàn)斗11個(gè)月,還清拖欠工人工資,退役前陣亡

傳一中國承包商加入俄雇傭軍戰(zhàn)斗11個(gè)月,還清拖欠工人工資,退役前陣亡

西游日記
2025-07-17 12:44:57
俄羅斯寧愿投降,也不敢先用核武器?一旦用了,最后誰都跑不了!

俄羅斯寧愿投降,也不敢先用核武器?一旦用了,最后誰都跑不了!

墨印齋
2025-07-16 22:10:10
邱會作晚年曾預(yù)言,中國老百姓將面臨新的三座大山,如今一語中的

邱會作晚年曾預(yù)言,中國老百姓將面臨新的三座大山,如今一語中的

z千年歷史老號
2025-07-16 12:50:34
22歲男子被騙緬甸,有民警稱能18萬“撈人”,已被紀(jì)委監(jiān)委帶走

22歲男子被騙緬甸,有民警稱能18萬“撈人”,已被紀(jì)委監(jiān)委帶走

中國新聞周刊
2025-07-16 18:06:24
上海最大原拆原建小區(qū)回搬半月:月租炒到約3000元,房東們開始高價(jià)賣房

上海最大原拆原建小區(qū)回搬半月:月租炒到約3000元,房東們開始高價(jià)賣房

每日經(jīng)濟(jì)新聞
2025-07-17 08:41:32
因健身走紅的26歲女法醫(yī):看《法醫(yī)秦明》入行,3年面對死亡600多次,打算去世后捐獻(xiàn)遺體

因健身走紅的26歲女法醫(yī):看《法醫(yī)秦明》入行,3年面對死亡600多次,打算去世后捐獻(xiàn)遺體

南國今報(bào)
2025-07-17 11:41:56
社保好消息!2025年7月起,不繳、少繳、斷繳社保,將成為過去式

社保好消息!2025年7月起,不繳、少繳、斷繳社保,將成為過去式

社保小達(dá)人
2025-07-16 09:30:08
2025-07-17 14:47:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
308文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

女律師在愛康國賓體檢10年沒預(yù)警 在國外確診癌癥晚期

頭條要聞

女律師在愛康國賓體檢10年沒預(yù)警 在國外確診癌癥晚期

體育要聞

過去一年的頭號贏家,他說偶像永遠(yuǎn)是媽媽

娛樂要聞

黃楊鈿甜星途被毀 戴假貨沒人找她代言

財(cái)經(jīng)要聞

宗氏三兄妹在港起訴宗馥莉文書曝光

汽車要聞

8月初上市 長安第三代UNI-V勁擎型嘗鮮價(jià)11.49萬

態(tài)度原創(chuàng)

時(shí)尚
本地
藝術(shù)
房產(chǎn)
公開課

“渣女上衣”火了?巨洋氣巨顯瘦!誰穿誰好看!

本地新聞

換個(gè)城市過夏天 | 誰打翻了濰坊的調(diào)色盤?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產(chǎn)要聞

三亞又有好地要賣,起拍樓面價(jià)飆到了1.6萬/㎡!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 论坛| 江达县| 息烽县| 沁源县| 云安县| 城固县| 奉节县| 林西县| 武定县| 兰西县| 红河县| 上杭县| 广平县| 禹州市| 兰西县| 申扎县| 晋江市| 中超| 安塞县| 楚雄市| 班玛县| 阳东县| 碌曲县| 平舆县| 江安县| 斗六市| 石楼县| 藁城市| 玉环县| 鱼台县| 长寿区| 武清区| 宕昌县| 房产| 晋城| 阿图什市| 化德县| 蛟河市| 卓资县| 德钦县| 禹州市|