新智元報(bào)道
編輯:定慧
【新智元導(dǎo)讀】BLIP3-o是一個全開源統(tǒng)一多模態(tài)模型,結(jié)合自回歸與擴(kuò)散架構(gòu),采用「先理解后生成」策略,創(chuàng)新地使用CLIP特征與Flow Matching訓(xùn)練,顯著提升生成圖像質(zhì)量與多樣性。BLIP3-o不僅在多個評測中表現(xiàn)領(lǐng)先,也正拓展至圖像編輯和視覺對話等多模態(tài)任務(wù)。
多模態(tài)模型卷到頭了?不,真正的革新才剛開始。
就在最近,來自Salesforce、UMD、VT、NYU、UW等機(jī)構(gòu)的研究人員,發(fā)布了一組完全開源的統(tǒng)一多模態(tài)模型BLIP3-o。
BLIP3-o采用「先理解后生成」訓(xùn)練策略,實(shí)現(xiàn)了圖像理解與生成的有效統(tǒng)一,并基于GPT-4o構(gòu)建了BLIP3o-60k數(shù)據(jù)集。
論文地址:https://arxiv.org/abs/2505.09568
模型鏈接:https://huggingface.co/BLIP3o/BLIP3o-Model
優(yōu)化數(shù)據(jù):https://huggingface.co/datasets/BLIP3o/BLIP3o-60k
BLIP3-o的架構(gòu)包括兩部分,理解部分使用CLIP對圖像進(jìn)行編碼;生成部分,自回歸模型生成中間視覺特征,作為DiT的輸入,采用CLIP+Flow Matching策略生成圖像特征。
結(jié)果顯示,BLIP3-o系列在提示對齊和圖像美學(xué)方面,都有顯著的提升。
BLIP3-o 8B在1024×1024分辨率下的結(jié)果
同時,BLIP3-o的Demo體驗(yàn)網(wǎng)站也已上線。
網(wǎng)站地址:https://blip3o.salesforceresearch.ai
具體到這篇論文中,研究團(tuán)隊(duì)圍繞以下三個關(guān)鍵維度進(jìn)行了深入探討:
·圖像表示方式:將圖像編碼為高層級的語義特征(例如CLIP圖像編碼器),而不是低層級的像素特征(例如基于VAE的編碼器)
·訓(xùn)練目標(biāo)函數(shù):使用Flow Matching代替MSE,提升圖像生成質(zhì)量。
·訓(xùn)練策略:采用順序訓(xùn)練策略效果最佳,先用圖像理解任務(wù)訓(xùn)練自回歸模型,再在圖像生成階段保持其參數(shù)凍結(jié)。
統(tǒng)一多模態(tài)下的圖像生成與理解
OpenAI的GPT-4o最近展示的高質(zhì)量圖像生成和強(qiáng)大的多模態(tài)理解能力,激發(fā)了人們對于多模態(tài)范式的興趣。。
關(guān)于OpenAI的GPT-4o架構(gòu)的猜測中,最有可能的一種是采用了一種混合管道結(jié)構(gòu):
這表明自回歸和擴(kuò)散模型可結(jié)合起來。受這種混合設(shè)計(jì)的啟發(fā),研究團(tuán)隊(duì)在研究中采用了自回歸+擴(kuò)散框架。
在這種框架下,最優(yōu)架構(gòu)方案仍不明確。自回歸模型負(fù)責(zé)生成連續(xù)的中間視覺特征,用以逼近真實(shí)的圖像表示,但這帶來了兩個關(guān)鍵問題:
首先,如何定義「真實(shí)」的圖像嵌入?應(yīng)該選擇VAE還是CLIP來將圖像編碼為連續(xù)特征?
其次,如何建模和對齊這些生成的視覺特征與真實(shí)特征之間的分布?是采用簡單的MSE損失,還是使用更復(fù)雜的擴(kuò)散方法?
為了解決這些問題,研究團(tuán)隊(duì)在后續(xù)部分中對不同的架構(gòu)設(shè)計(jì)、特征表示方式和建模策略進(jìn)行了系統(tǒng)性探索。
研究團(tuán)隊(duì)首先探討如何通過編碼器-解碼器架構(gòu)將圖像表示為連續(xù)嵌入,這在學(xué)習(xí)效率和生成質(zhì)量方面起著基礎(chǔ)性作用。
圖像編碼與重建
圖像生成通常首先使用編碼器將圖像編碼為連續(xù)的潛在嵌入,然后使用解碼器從該潛在嵌入中重建圖像。這種編碼-解碼流程可以有效地降低圖像生成中輸入空間的維度,從而提高訓(xùn)練效率。研究討論了兩種目前廣泛使用的方式:
變分自編碼器(Variational Autoencoders)
變分自編碼器(VAE)是一類生成模型,它們學(xué)習(xí)將圖像編碼到一個結(jié)構(gòu)化的連續(xù)潛在空間中。編碼器近似給定輸入圖像的潛在變量的后驗(yàn)分布,而解碼器從這個潛在分布中抽取樣本重建圖像。
潛在擴(kuò)散模型通過學(xué)習(xí)建模壓縮潛在表示的分布而不是原始圖像像素來構(gòu)建在這個框架上。通過在VAE潛在空間中操作,這些模型顯著降低了輸出空間的維度,從而降低了計(jì)算成本并使訓(xùn)練更加高效。
CLIP編碼器與擴(kuò)散解碼器(CLIP Encoder with Diffusion Decoder)
CLIP模型已成為圖像理解任務(wù)的基礎(chǔ)編碼器,因?yàn)樗ㄟ^大規(guī)模圖像-文本對的對比訓(xùn)練能夠從圖像中提取豐富、高級的語義特征。
然而,利用這些特征進(jìn)行圖像生成仍然是一個不小的挑戰(zhàn),因?yàn)镃LIP最初并不是為重建任務(wù)設(shè)計(jì)的。
針對這個問題,團(tuán)隊(duì)通過將基于CLIP的編碼器與基于擴(kuò)散的解碼器配對,提出使用EVA-CLIP將圖像編碼為連續(xù)的視覺嵌入,并通過從初始化的擴(kuò)散模型進(jìn)行重建。
在訓(xùn)練過程中,擴(kuò)散解碼器被微調(diào)以使用來自EVA-CLIP的視覺嵌入作為條件,從高斯噪聲中恢復(fù)原始圖像,而EVA-CLIP保持凍結(jié)。
這一過程有效地將CLIP和擴(kuò)散模型結(jié)合成一個圖像自編碼器:CLIP編碼器將圖像壓縮為語義豐富的潛在嵌入,而基于擴(kuò)散的解碼器則從這些嵌入中重建圖像。
建模潛在圖像表示
在獲得連續(xù)的圖像嵌入后,研究團(tuán)隊(duì)使用自回歸架構(gòu)對其進(jìn)行建模。
給定用戶提示(比如「一個戴著草帽的年輕雀斑女子」),研究團(tuán)隊(duì)首先使用自回歸模型的輸入嵌入層將提示編碼為嵌入向量序列 ,并將可學(xué)習(xí)的查詢向量附加到 ,其中是隨機(jī)初始化并在訓(xùn)練中優(yōu)化的。
當(dāng)組合序列[;]通過自回歸Transformer處理時, 學(xué)會關(guān)注并從提示中提取相關(guān)的語義信息。
生成的被解釋為由自回歸模型生成的中間視覺特征或潛在表示,并被訓(xùn)練以逼近真實(shí)圖像特征。
接下來,研究團(tuán)隊(duì)介紹兩個訓(xùn)練目標(biāo)并進(jìn)行了對比:均方誤差和流匹配,使與真實(shí)圖像嵌入對齊。
均方誤差(MSE)
均方誤差損失是一個簡單且廣泛使用的連續(xù)圖像嵌入學(xué)習(xí)目標(biāo)。
給定由自回歸模型生成的預(yù)測視覺特征和真實(shí)圖像特征 ,研究團(tuán)隊(duì)首先應(yīng)用一個可學(xué)習(xí)的線性投影來對齊和的維度。然后將MSE損失公式化為:
其中表示可學(xué)習(xí)的投影矩陣。
流匹配(Flow Matching )
僅使用MSE損失只能使預(yù)測的圖像特征與目標(biāo)分布的均值對齊。理想的訓(xùn)練目標(biāo)應(yīng)能建模連續(xù)圖像表示的概率分布。
研究團(tuán)隊(duì)建議使用流匹配FlowMatching,這是一種擴(kuò)散框架,可以通過迭代地從前一個分布(例如高斯分布)中傳輸樣本,從目標(biāo)連續(xù)分布中采樣。
給定一個真實(shí)圖像特征1和由自回歸模型編碼的條件 ,在每個訓(xùn)練步驟中,研究團(tuán)隊(duì)采樣一個時間步 t~?(0,1) 和噪聲 0~?(0,1) 。
DiT學(xué)習(xí)在條件下,在1方向上預(yù)測時間步t處的速度。
研究團(tuán)隊(duì)通過0和1之間的簡單線性插值來計(jì)算t: 。
而t的解析解可以表示為:
最后,訓(xùn)練目標(biāo)定義為:
其中θ是擴(kuò)散變換器的參數(shù),而θ?(t,,t) 表示基于實(shí)例 (1,) 、時間步t和噪聲0預(yù)測的速度。
與離散標(biāo)記不同,離散標(biāo)記天生支持基于采樣的策略來探索多樣的生成路徑,而連續(xù)表示缺乏這一屬性。
具體來說,在基于MSE的訓(xùn)練目標(biāo)下,對于給定的提示,預(yù)測的視覺特征幾乎變得確定性。
因此,無論視覺解碼器是基于VAE還是CLIP+Diffusion架構(gòu),輸出圖像在多次推理運(yùn)行中幾乎保持相同。
這種確定性突顯了MSE的一個關(guān)鍵限制:它限制了模型為每個提示生成單一、固定的輸出,從而限制了生成多樣性。
相比之下,流匹配框架使模型能夠繼承擴(kuò)散過程的隨機(jī)性。這使得模型能夠在相同的提示條件下生成多樣化的圖像樣本,從而有助于更廣泛地探索輸出空間。
然而,這種靈活性是以增加模型復(fù)雜性為代價(jià)的。與MSE相比,流匹配引入了額外的可學(xué)習(xí)參數(shù)。
在研究團(tuán)隊(duì)的實(shí)現(xiàn)過程中,研究團(tuán)隊(duì)使用了擴(kuò)散Transformer(DiT),通過經(jīng)驗(yàn)發(fā)現(xiàn)增加其容量可以顯著提高性能。
設(shè)計(jì)選擇
統(tǒng)一多模態(tài)模型中圖像生成的三種設(shè)計(jì)選擇。
所有設(shè)計(jì)都使用自回歸+擴(kuò)散框架,但其圖像生成組件各不相同。
對于流匹配損失,研究團(tuán)隊(duì)保持自回歸模型凍結(jié),僅微調(diào)圖像生成模塊以保留模型的語言能力。
CLIP+MSE
研究團(tuán)隊(duì)使用CLIP將圖像編碼為64個固定長度的語義豐富的視覺嵌入。如上圖 (a) 所示。在推理過程中,給定文本提示,自回歸模型預(yù)測潛在的視覺特征,隨后將其傳遞給基于擴(kuò)散的視覺解碼器以重建真實(shí)圖像。
CLIP+流匹配
作為一種替代MSE損失的方法,研究團(tuán)隊(duì)使用流匹配損失來訓(xùn)練模型以預(yù)測真實(shí)CLIP嵌入,如上圖 (b)所示。
本質(zhì)上,推理流程包括兩個擴(kuò)散階段:第一階段使用條件視覺特征逐步去噪為CLIP嵌入。
第二階段通過基于擴(kuò)散的視覺解碼器將這些CLIP嵌入轉(zhuǎn)換為真實(shí)圖像。
這種方法允許在第一階段進(jìn)行隨機(jī)采樣,從而在圖像生成中實(shí)現(xiàn)更大的多樣性。
VAE+流匹配
研究團(tuán)隊(duì)使用流匹配損失來預(yù)測上圖 (c)中看到的真實(shí)VAE特征。
在推理時,給定提示 ,自回歸模型生成視覺特征。然后,以為條件并在每一步迭代去除噪聲,真實(shí)圖像由VAE解碼器生成。
VAE+MSE
因?yàn)檠芯繄F(tuán)隊(duì)的重點(diǎn)是自回歸+擴(kuò)散框架,所以研究團(tuán)隊(duì)排除了VAE+MSE方法,因?yàn)樗鼈儧]有包含任何擴(kuò)散模塊。
為了比較各種設(shè)計(jì)選擇,研究團(tuán)隊(duì)使用Llama-3.2-1B-Instruct作為自回歸模型。研究團(tuán)隊(duì)的訓(xùn)練數(shù)據(jù)總計(jì)約2500萬個樣本。
下圖顯示,CLIP+流匹配在GenEval和DPG-Bench上都達(dá)到了最佳的提示對齊得分,而VAE+流匹配產(chǎn)生了最低(最佳)的FID,表明其具有優(yōu)越的美學(xué)質(zhì)量。
總體而言,研究團(tuán)隊(duì)的實(shí)驗(yàn)表明CLIP+流匹配是最有效的設(shè)計(jì)選擇。
統(tǒng)一多模態(tài)下的訓(xùn)練策略
在圖像生成研究基礎(chǔ)上,下一步是開發(fā)一個統(tǒng)一的模型,該模型可以同時執(zhí)行圖像理解和圖像生成。
使用CLIP + Flow Matching進(jìn)行圖像生成模塊的開發(fā)。由于圖像理解也在CLIP的嵌入空間中運(yùn)行,在相同的語義空間內(nèi)對齊這兩個任務(wù),從而實(shí)現(xiàn)它們的統(tǒng)一。
在此背景下,團(tuán)隊(duì)討論了兩種訓(xùn)練策略。
聯(lián)合訓(xùn)練
聯(lián)合訓(xùn)練圖像理解和圖像生成是最為常見做法,這些方法采用了不同的圖像生成架構(gòu),但都通過混合用于圖像生成和理解的數(shù)據(jù)來進(jìn)行多任務(wù)學(xué)習(xí)。
序列訓(xùn)練
與其同時訓(xùn)練圖像理解和生成,研究團(tuán)隊(duì)采用兩階段方法。在第一階段,研究團(tuán)隊(duì)僅訓(xùn)練圖像理解模塊。在第二階段,研究團(tuán)隊(duì)凍結(jié)MLLM主干,并僅訓(xùn)練圖像生成模塊。
在聯(lián)合訓(xùn)練設(shè)置中,盡管圖像理解和生成任務(wù)可能互相受益,但兩個關(guān)鍵因素影響它們的協(xié)同效應(yīng):總數(shù)據(jù)量和圖像理解和生成數(shù)據(jù)之間的數(shù)據(jù)比例。
相比之下,順序訓(xùn)練提供了更大的靈活性:能夠凍結(jié)自回歸主干并保持圖像理解能力。研究團(tuán)隊(duì)可以將所有訓(xùn)練能力專門用于圖像生成,避免聯(lián)合訓(xùn)練中的任何任務(wù)間影響。
研究團(tuán)隊(duì)最終選擇順序訓(xùn)練來構(gòu)建研究團(tuán)隊(duì)的統(tǒng)一多模態(tài)模型。
BLIP3-o:先進(jìn)的統(tǒng)一多模態(tài)模型
基于研究團(tuán)隊(duì)的研究結(jié)果,研究團(tuán)隊(duì)采用CLIP+Flow Matching和順序訓(xùn)練來開發(fā)先進(jìn)的統(tǒng)一多模態(tài)模型BLIP3-o。
模型架構(gòu)
研究團(tuán)隊(duì)開發(fā)了兩種不同大小的模型:一個是在專有數(shù)據(jù)上訓(xùn)練的8B參數(shù)模型,另一個是僅使用開源數(shù)據(jù)的4B參數(shù)模型。
研究團(tuán)隊(duì)跳過了圖像理解訓(xùn)練階段,直接在Qwen 2.5 VL上構(gòu)建研究團(tuán)隊(duì)的圖像生成模塊。
在8B模型中,研究團(tuán)隊(duì)凍結(jié)了Qwen2.5-VL-7B-Instruct主干,并訓(xùn)練DiT,總共 1.4B 可訓(xùn)練參數(shù)。
4B模型采用了相同的圖像生成架構(gòu),但使用Qwen2.5-VL-3B-Instruct作為主干。
研究團(tuán)隊(duì)利用Lumina-Next模型的架構(gòu)來構(gòu)建研究團(tuán)隊(duì)的DiT。Lumina-Next模型基于改進(jìn)的Next-DiT架構(gòu),這是一種可擴(kuò)展且高效的擴(kuò)散Transformer,專為文本到圖像和一般的多模態(tài)生成而設(shè)計(jì)。
階段1:圖像生成的預(yù)訓(xùn)練
對于8B模型,研究團(tuán)隊(duì)將大約2500萬開源數(shù)據(jù)與額外的3000萬專有圖像結(jié)合。 所有圖像標(biāo)題由Qwen2.5-VL-7B-Instruct生成,平均長度為120個標(biāo)記。
為了提高對不同提示長度的泛化能力,研究團(tuán)隊(duì)還包括了大約 10%(600萬)的較短標(biāo)題,每個標(biāo)題大約20個標(biāo)記。
階段2:圖像生成的指令調(diào)優(yōu)
在圖像生成預(yù)訓(xùn)練階段之后,研究團(tuán)隊(duì)觀察到模型在幾個方面存在幾個弱點(diǎn):
? 生成復(fù)雜的人類手勢,例如一個人正在搭箭。
? 生成常見的物體,如各種水果和蔬菜。
? 生成地標(biāo),例如,金門大橋。
? 生成簡單的文本,例如在街道表面上寫著「Salesforce」。
盡管這些類別在預(yù)訓(xùn)練時本應(yīng)被涵蓋,但由于研究團(tuán)隊(duì)的預(yù)訓(xùn)練語料庫規(guī)模有限,它們沒有得到充分處理。
為了解決這個問題,研究團(tuán)隊(duì)專門針對這些領(lǐng)域進(jìn)行指令調(diào)優(yōu)。
對于每個類別,研究團(tuán)隊(duì)提示GPT-4o生成大約10k個提示-圖像對,創(chuàng)建一個有針對性的數(shù)據(jù)集,以提高模型處理這些情況的能力。
在圖像理解任務(wù)中,研究團(tuán)隊(duì)在多個數(shù)據(jù)集上評估基準(zhǔn)性能。如表1所示,研究團(tuán)隊(duì)的BLIP3-o 8B在大多數(shù)基準(zhǔn)測試中達(dá)到了最佳性能。
在圖像生成基準(zhǔn)中,如表2所示,BLIP3-o 8B的GenEval得分為0.84,WISE得分為0.62,但在DPG-Bench上得分較低。
由于基于模型的DPG-Bench評估可能不可靠,研究團(tuán)隊(duì)在下一節(jié)通過繼續(xù)研究補(bǔ)充這些結(jié)果。
研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)人工評估,比較了BLIP3-o 8B和Janus Pro 7B在大約1,000個從DPG-Bench抽取的提示上的表現(xiàn)。
對于每個提示,標(biāo)注者根據(jù)兩個指標(biāo)并排比較圖像對:
視覺質(zhì)量:看圖像是否更清晰、美觀、布局好。
提示對齊:看圖像內(nèi)容與文本描述是否更匹配。
每個維度都進(jìn)行了兩輪評估,共約3,000次判斷。
結(jié)果顯示,BLIP3-o在視覺質(zhì)量和提示對齊上都顯著優(yōu)于Janus Pro,盡管后者在表2的DPG分?jǐn)?shù)更高。
兩個維度的統(tǒng)計(jì)顯著性分別為5.05e-06和1.16e-05,說明BLIP3-o的優(yōu)勢可信度非常高。
目前作為第一步,研究團(tuán)隊(duì)將專注于圖像重建,將圖像輸入到圖像理解視覺編碼器中,然后通過圖像生成模型進(jìn)行重建,以無縫連接圖像理解和生成。
在此能力的基礎(chǔ)上,研究團(tuán)隊(duì)將收集指令調(diào)優(yōu)數(shù)據(jù)集,以使模型適應(yīng)各種下游應(yīng)用。
這篇論文系統(tǒng)性探索了混合自回歸與擴(kuò)散架構(gòu)在統(tǒng)一多模態(tài)建模中的應(yīng)用,重點(diǎn)評估了圖像表示、訓(xùn)練目標(biāo)和訓(xùn)練策略三大核心要素。
實(shí)驗(yàn)顯示,CLIP特征配合Flow Matching損失在訓(xùn)練效率與生成質(zhì)量方面表現(xiàn)最佳。
研究團(tuán)隊(duì)推出了統(tǒng)一模型系列BLIP3-o,并構(gòu)建了包含60k條指令的微調(diào)數(shù)據(jù)集BLIP3o-60k,顯著提升了模型的提示對齊能力和圖像美學(xué)質(zhì)量。
該統(tǒng)一模型也正被拓展應(yīng)用于圖像編輯、視覺對話和逐步視覺推理等任務(wù)中。
參考資料:
https://arxiv.org/html/2505.09568v1
https://huggingface.co/datasets/BLIP3o/BLIP3o-60k
https://blip3o.salesforceresearch.ai/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.