OpenAI 的 GPT-4o 在圖像理解、生成和編輯任務(wù)上展現(xiàn)了頂級性能。流行的架構(gòu)猜想是:
- Tokens → [Autoregressive 模型] → [Diffusion 模型] → 圖像像素
該混合架構(gòu)將自回歸與擴散模型的優(yōu)勢結(jié)合。Salesforce Research、馬里蘭大學(xué)、弗吉尼亞理工、紐約大學(xué)、華盛頓大學(xué)的研究者在最新的研究(統(tǒng)一多模態(tài)模型 BLIP3-o)中也采用了自回歸 + 擴散框架。
- 論文標(biāo)題:BLIP3-o: A Family of Fully Open Unified Multimodal Models—Architecture, Training and Datase
- 論文地址:https://arxiv.org/pdf/2505.09568v1
- GitHub 代碼:https://github.com/JiuhaiChen/BLIP3o
- 模型權(quán)重:https://huggingface.co/BLIP3o/BLIP3o-Model
- 在線演示:https://huggingface.co/spaces/BLIP3o/blip-3o
- 預(yù)訓(xùn)練:https://huggingface.co/datasets/BLIP3o/BLIP3o-Pretrain-Long-Caption
- 指令微調(diào):https://huggingface.co/datasets/BLIP3o/BLIP3o-60k
在這個框架里,自回歸模型先生成連續(xù)的中間視覺特征,用以逼近真實圖像表示,進而引出兩個關(guān)鍵問題:
- 真實特征來源 (Ground-truth features):用 VAE 還是 CLIP 將圖像編碼為連續(xù)特征?
- 特征對齊方式:使用 MSE 損失,還是借助擴散模型(Flow Matching)來對齊預(yù)測與真實特征?
統(tǒng)一多模態(tài)下的圖像生成
研究者考察兩種圖像編碼–解碼范式:
- VAE:將圖像編碼為 low level 像素特征,以獲得更好的重建質(zhì)量。但 VAE 編碼器在處理更高分辨率輸入時,會生成更長的向量序列,從而增加訓(xùn)練過程中的計算負擔(dān)。
- CLIP + Diffusion:先將圖像映射到 high level 語義特征,再通過擴散模型重建真實圖像。在實際操作過程中,會先用 CLIP 得到圖像特征,然后基于 CLIP feature 訓(xùn)練一個擴散模型來重建圖像。該方法好處是無論輸入圖像分辨率如何,每張圖像都可編碼為固定長度的連續(xù)向量 (比如長度為 64 的向量),這種編碼方式能有較好的圖像壓縮率;但需要額外訓(xùn)練來使擴散模型適配不同的 CLIP 編碼器。
針對自回歸模型預(yù)測的視覺特征與 VAE/CLIP 提供的真實特征,有兩類訓(xùn)練目標(biāo):
- MSE:對預(yù)測特征與真實特征計算均方誤差
- Flow Matching:基于自回歸模型生成的預(yù)測特征,通過流匹配損失訓(xùn)練一個 Diffusion Transformer,用 Diffusion Transformer 的輸出值來逼近 CLIP 或 VAE 特征
結(jié)合不同的編碼–解碼架構(gòu)與訓(xùn)練目標(biāo),共有三種設(shè)計選擇:
- CLIP + MSE:最小化預(yù)測表征與 CLIP 真實表征之間的 MSE, 比如 Emu2、SeedX。在生成圖片的時候,自回歸模型生成視覺特征,基于這個視覺特征,使用一個擴散模型來解碼圖片。
- CLIP + Flow Matching:以自回歸模型預(yù)測的視覺特征為條件,使用流匹配損失來訓(xùn)練 Diffusion Transformer,以預(yù)測真實的 CLIP 表征。在生成圖片的時候,自回歸模型生成視覺特征,基于這個視覺特征,Diffusion Transformer 生成一個 CLIP feature,然后再基于這個 CLIP feature,使用一個輕量的擴散模型來解碼圖片。整個過程涉及兩次擴散過程,第一次生成 CLIP feature,第二次生成真實圖片。
- VAE + Flow Matching:以自回歸模型預(yù)測的視覺特征為條件,使用流匹配損失來訓(xùn)練 Diffusion Transformer,以預(yù)測真實的 VAE 表征。在生成圖片的時候,自回歸模型生成視覺特征,基于這個視覺特征,Diffusion Transformer 生成一個 VAE feature, 由 VAE 解碼器來生成真實圖片。
Caption: 在統(tǒng)一多模態(tài)模型中,圖像生成有三種設(shè)計方案。所有方案均采用自回歸 + 擴散框架,但在圖像生成組件上各有不同。對于流匹配損失,保持自回歸模型凍結(jié),僅微調(diào)圖像生成模塊 (Diffusion Transformer),以保留模型的語言能力。
下圖對比了這三種方案在相同設(shè)置下的表現(xiàn),證明CLIP + Flow Matching能在提示對齊、圖像多樣性與視覺質(zhì)量之間取得最佳平衡。
Caption: 不同方案的對比
研究者發(fā)現(xiàn)將圖像生成集成到統(tǒng)一模型時,自回歸模型對語義級特征(CLIP)的學(xué)習(xí)比對像素級特征(VAE)的學(xué)習(xí)更為高效。同時,將流匹配 (Flow Matching)作為訓(xùn)練目標(biāo)能夠更好地捕捉圖像分布,從而帶來更豐富的樣本多樣性和更出色的視覺質(zhì)量。同時有兩個階段的擴散過程,相對于傳統(tǒng)的一個階段的擴散模型,將圖像生成分解成了兩個階段,第一階段自回歸模型和 diffusion transformer 只負責(zé)生成語義特征,第二階段再由一個輕量的擴散模型來補全 low-level 特征,從而大幅減輕訓(xùn)練壓力。
統(tǒng)一圖像理解與生成
通過 CLIP 編碼器,圖像理解與圖像生成共用同一語義空間,實現(xiàn)了兩者的統(tǒng)一。
研究者采用順序訓(xùn)練(late fusion)而非聯(lián)合訓(xùn)練(early fusion),原因在于:
- 可以凍結(jié)自回歸模型,保留其圖像理解能力;
- 把全部訓(xùn)練資源集中在圖像生成模塊,避免多任務(wù)間的相互干擾。
caption:聯(lián)合訓(xùn)練(early fusion)同時更新理解和生成模塊,順序訓(xùn)練 (late fusion)先獨立調(diào)優(yōu)「理解」,再凍結(jié)骨干只訓(xùn)練「生成」。
BLIP3-o:統(tǒng)一多模態(tài)模型
基于上述對比,研究者選定CLIP + Flow Matching與順序訓(xùn)練 (late fusion),構(gòu)建了 4B 和 8B 參數(shù)的 BLIP3-o:
- 預(yù)訓(xùn)練數(shù)據(jù):25M 開源圖文 + 30M 專有圖像
- 圖像字幕 (caption):均由 Qwen-2.5-VL-7B-Instruct 生成,平均 120 token;為增強對短提示的適應(yīng),還額外混入~10%(6M)的短字幕(20 token)
- 4B 參數(shù)開源模型:純 25M 開源圖文對,及~10%(3M)短字幕
- 指令微調(diào):GPT-4o 生成 60K 條高質(zhì)量示例,顯著提升提示對齊和視覺美感
所有代碼、模型、數(shù)據(jù)均陸續(xù)開源中,歡迎試用!
Caption: BLIP3-o 可視化示例
研究者發(fā)現(xiàn):
模型能迅速調(diào)整至 GPT-4o 風(fēng)格,提示對齊 (instruction following) 和視覺質(zhì)量均大幅提升。
caption:圖像理解表現(xiàn)
Caption: 圖像生成的基準(zhǔn)性能與人工評估
結(jié)論
本文首次系統(tǒng)地探索了結(jié)合自回歸與擴散架構(gòu)的統(tǒng)一多模態(tài)建模,評估了三個關(guān)鍵維度:圖像表示(CLIP 特征 vs. VAE 特征)、訓(xùn)練目標(biāo)(流匹配 vs. MSE)和訓(xùn)練策略(early fusion vs. 順 late fusion)。實驗結(jié)果表明,將 CLIP 嵌入與流匹配損失相結(jié)合,不僅加快了訓(xùn)練速度,也提升了生成質(zhì)量。
基于這些發(fā)現(xiàn),本文推出了 BLIP3-o, 一系列先進的統(tǒng)一多模態(tài)模型,并通過 BLIP3o-60k 6 萬條指令微調(diào)數(shù)據(jù)集,大幅改善了提示對齊效果和視覺美感。研究者還正在積極開展該模型的應(yīng)用研究,包括迭代圖像編輯、視覺對話和逐步視覺推理。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.