Salesforce開源統(tǒng)一多模態(tài)模型BLIP3-o，圖像理解與生成全拿下

2025-05-22 17:19:16　來源: 機器之心Pro

天津舉報

分享至

OpenAI 的 GPT-4o 在圖像理解、生成和編輯任務(wù)上展現(xiàn)了頂級性能。流行的架構(gòu)猜想是：

Tokens → [Autoregressive 模型] → [Diffusion 模型] → 圖像像素

該混合架構(gòu)將自回歸與擴散模型的優(yōu)勢結(jié)合。Salesforce Research、馬里蘭大學(xué)、弗吉尼亞理工、紐約大學(xué)、華盛頓大學(xué)的研究者在最新的研究（統(tǒng)一多模態(tài)模型 BLIP3-o）中也采用了自回歸 + 擴散框架。

論文標(biāo)題：BLIP3-o: A Family of Fully Open Unified Multimodal Models—Architecture, Training and Datase
論文地址：https://arxiv.org/pdf/2505.09568v1
GitHub 代碼：https://github.com/JiuhaiChen/BLIP3o
模型權(quán)重：https://huggingface.co/BLIP3o/BLIP3o-Model
在線演示：https://huggingface.co/spaces/BLIP3o/blip-3o
預(yù)訓(xùn)練：https://huggingface.co/datasets/BLIP3o/BLIP3o-Pretrain-Long-Caption
指令微調(diào)：https://huggingface.co/datasets/BLIP3o/BLIP3o-60k

在這個框架里，自回歸模型先生成連續(xù)的中間視覺特征，用以逼近真實圖像表示，進而引出兩個關(guān)鍵問題：

真實特征來源 (Ground-truth features)：用 VAE 還是 CLIP 將圖像編碼為連續(xù)特征？
特征對齊方式：使用 MSE 損失，還是借助擴散模型（Flow Matching）來對齊預(yù)測與真實特征？

統(tǒng)一多模態(tài)下的圖像生成

研究者考察兩種圖像編碼–解碼范式：

VAE：將圖像編碼為 low level 像素特征，以獲得更好的重建質(zhì)量。但 VAE 編碼器在處理更高分辨率輸入時，會生成更長的向量序列，從而增加訓(xùn)練過程中的計算負擔(dān)。
CLIP + Diffusion：先將圖像映射到 high level 語義特征，再通過擴散模型重建真實圖像。在實際操作過程中，會先用 CLIP 得到圖像特征，然后基于 CLIP feature 訓(xùn)練一個擴散模型來重建圖像。該方法好處是無論輸入圖像分辨率如何，每張圖像都可編碼為固定長度的連續(xù)向量（比如長度為 64 的向量），這種編碼方式能有較好的圖像壓縮率；但需要額外訓(xùn)練來使擴散模型適配不同的 CLIP 編碼器。

針對自回歸模型預(yù)測的視覺特征與 VAE/CLIP 提供的真實特征，有兩類訓(xùn)練目標(biāo)：

MSE：對預(yù)測特征與真實特征計算均方誤差
Flow Matching：基于自回歸模型生成的預(yù)測特征，通過流匹配損失訓(xùn)練一個 Diffusion Transformer，用 Diffusion Transformer 的輸出值來逼近 CLIP 或 VAE 特征

結(jié)合不同的編碼–解碼架構(gòu)與訓(xùn)練目標(biāo)，共有三種設(shè)計選擇：

CLIP + MSE：最小化預(yù)測表征與 CLIP 真實表征之間的 MSE，比如 Emu2、SeedX。在生成圖片的時候，自回歸模型生成視覺特征，基于這個視覺特征，使用一個擴散模型來解碼圖片。
CLIP + Flow Matching：以自回歸模型預(yù)測的視覺特征為條件，使用流匹配損失來訓(xùn)練 Diffusion Transformer，以預(yù)測真實的 CLIP 表征。在生成圖片的時候，自回歸模型生成視覺特征，基于這個視覺特征，Diffusion Transformer 生成一個 CLIP feature，然后再基于這個 CLIP feature，使用一個輕量的擴散模型來解碼圖片。整個過程涉及兩次擴散過程，第一次生成 CLIP feature，第二次生成真實圖片。
VAE + Flow Matching：以自回歸模型預(yù)測的視覺特征為條件，使用流匹配損失來訓(xùn)練 Diffusion Transformer，以預(yù)測真實的 VAE 表征。在生成圖片的時候，自回歸模型生成視覺特征，基于這個視覺特征，Diffusion Transformer 生成一個 VAE feature，由 VAE 解碼器來生成真實圖片。

Caption: 在統(tǒng)一多模態(tài)模型中，圖像生成有三種設(shè)計方案。所有方案均采用自回歸 + 擴散框架，但在圖像生成組件上各有不同。對于流匹配損失，保持自回歸模型凍結(jié)，僅微調(diào)圖像生成模塊 (Diffusion Transformer)，以保留模型的語言能力。

下圖對比了這三種方案在相同設(shè)置下的表現(xiàn)，證明CLIP + Flow Matching能在提示對齊、圖像多樣性與視覺質(zhì)量之間取得最佳平衡。

Caption: 不同方案的對比

研究者發(fā)現(xiàn)將圖像生成集成到統(tǒng)一模型時，自回歸模型對語義級特征（CLIP）的學(xué)習(xí)比對像素級特征（VAE）的學(xué)習(xí)更為高效。同時，將流匹配 (Flow Matching)作為訓(xùn)練目標(biāo)能夠更好地捕捉圖像分布，從而帶來更豐富的樣本多樣性和更出色的視覺質(zhì)量。同時有兩個階段的擴散過程，相對于傳統(tǒng)的一個階段的擴散模型，將圖像生成分解成了兩個階段，第一階段自回歸模型和 diffusion transformer 只負責(zé)生成語義特征，第二階段再由一個輕量的擴散模型來補全 low-level 特征，從而大幅減輕訓(xùn)練壓力。

統(tǒng)一圖像理解與生成

通過 CLIP 編碼器，圖像理解與圖像生成共用同一語義空間，實現(xiàn)了兩者的統(tǒng)一。

研究者采用順序訓(xùn)練（late fusion）而非聯(lián)合訓(xùn)練（early fusion），原因在于：

可以凍結(jié)自回歸模型，保留其圖像理解能力；
把全部訓(xùn)練資源集中在圖像生成模塊，避免多任務(wù)間的相互干擾。

caption：聯(lián)合訓(xùn)練（early fusion）同時更新理解和生成模塊，順序訓(xùn)練（late fusion）先獨立調(diào)優(yōu)「理解」，再凍結(jié)骨干只訓(xùn)練「生成」。

BLIP3-o：統(tǒng)一多模態(tài)模型

基于上述對比，研究者選定CLIP + Flow Matching與順序訓(xùn)練 (late fusion)，構(gòu)建了 4B 和 8B 參數(shù)的 BLIP3-o：

預(yù)訓(xùn)練數(shù)據(jù)：25M 開源圖文 + 30M 專有圖像
圖像字幕 (caption)：均由 Qwen-2.5-VL-7B-Instruct 生成，平均 120 token；為增強對短提示的適應(yīng)，還額外混入～10%（6M）的短字幕（20 token）
4B 參數(shù)開源模型：純 25M 開源圖文對，及～10%（3M）短字幕
指令微調(diào)：GPT-4o 生成 60K 條高質(zhì)量示例，顯著提升提示對齊和視覺美感

所有代碼、模型、數(shù)據(jù)均陸續(xù)開源中，歡迎試用！

Caption: BLIP3-o 可視化示例

研究者發(fā)現(xiàn)：

模型能迅速調(diào)整至 GPT-4o 風(fēng)格，提示對齊 (instruction following) 和視覺質(zhì)量均大幅提升。

caption：圖像理解表現(xiàn)

Caption: 圖像生成的基準(zhǔn)性能與人工評估

結(jié)論

本文首次系統(tǒng)地探索了結(jié)合自回歸與擴散架構(gòu)的統(tǒng)一多模態(tài)建模，評估了三個關(guān)鍵維度：圖像表示（CLIP 特征 vs. VAE 特征）、訓(xùn)練目標(biāo)（流匹配 vs. MSE）和訓(xùn)練策略（early fusion vs. 順 late fusion）。實驗結(jié)果表明，將 CLIP 嵌入與流匹配損失相結(jié)合，不僅加快了訓(xùn)練速度，也提升了生成質(zhì)量。

基于這些發(fā)現(xiàn)，本文推出了 BLIP3-o, 一系列先進的統(tǒng)一多模態(tài)模型，并通過 BLIP3o-60k 6 萬條指令微調(diào)數(shù)據(jù)集，大幅改善了提示對齊效果和視覺美感。研究者還正在積極開展該模型的應(yīng)用研究，包括迭代圖像編輯、視覺對話和逐步視覺推理。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.