99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Salesforce開源統(tǒng)一多模態(tài)模型BLIP3-o,圖像理解與生成全拿下

0
分享至



OpenAI 的 GPT-4o 在圖像理解、生成和編輯任務(wù)上展現(xiàn)了頂級性能。流行的架構(gòu)猜想是:

  • Tokens → [Autoregressive 模型] → [Diffusion 模型] → 圖像像素

該混合架構(gòu)將自回歸與擴散模型的優(yōu)勢結(jié)合。Salesforce Research、馬里蘭大學(xué)、弗吉尼亞理工、紐約大學(xué)、華盛頓大學(xué)的研究者在最新的研究(統(tǒng)一多模態(tài)模型 BLIP3-o)中也采用了自回歸 + 擴散框架。



  • 論文標(biāo)題:BLIP3-o: A Family of Fully Open Unified Multimodal Models—Architecture, Training and Datase
  • 論文地址:https://arxiv.org/pdf/2505.09568v1
  • GitHub 代碼:https://github.com/JiuhaiChen/BLIP3o
  • 模型權(quán)重:https://huggingface.co/BLIP3o/BLIP3o-Model
  • 在線演示:https://huggingface.co/spaces/BLIP3o/blip-3o
  • 預(yù)訓(xùn)練:https://huggingface.co/datasets/BLIP3o/BLIP3o-Pretrain-Long-Caption
  • 指令微調(diào):https://huggingface.co/datasets/BLIP3o/BLIP3o-60k

在這個框架里,自回歸模型先生成連續(xù)的中間視覺特征,用以逼近真實圖像表示,進而引出兩個關(guān)鍵問題:

  1. 真實特征來源 (Ground-truth features):用 VAE 還是 CLIP 將圖像編碼為連續(xù)特征?
  2. 特征對齊方式:使用 MSE 損失,還是借助擴散模型(Flow Matching)來對齊預(yù)測與真實特征?

統(tǒng)一多模態(tài)下的圖像生成

研究者考察兩種圖像編碼–解碼范式:

  • VAE:將圖像編碼為 low level 像素特征,以獲得更好的重建質(zhì)量。但 VAE 編碼器在處理更高分辨率輸入時,會生成更長的向量序列,從而增加訓(xùn)練過程中的計算負擔(dān)。
  • CLIP + Diffusion:先將圖像映射到 high level 語義特征,再通過擴散模型重建真實圖像。在實際操作過程中,會先用 CLIP 得到圖像特征,然后基于 CLIP feature 訓(xùn)練一個擴散模型來重建圖像。該方法好處是無論輸入圖像分辨率如何,每張圖像都可編碼為固定長度的連續(xù)向量 (比如長度為 64 的向量),這種編碼方式能有較好的圖像壓縮率;但需要額外訓(xùn)練來使擴散模型適配不同的 CLIP 編碼器。

針對自回歸模型預(yù)測的視覺特征與 VAE/CLIP 提供的真實特征,有兩類訓(xùn)練目標(biāo):

  1. MSE:對預(yù)測特征與真實特征計算均方誤差
  2. Flow Matching:基于自回歸模型生成的預(yù)測特征,通過流匹配損失訓(xùn)練一個 Diffusion Transformer,用 Diffusion Transformer 的輸出值來逼近 CLIP 或 VAE 特征

結(jié)合不同的編碼–解碼架構(gòu)與訓(xùn)練目標(biāo),共有三種設(shè)計選擇:

  • CLIP + MSE:最小化預(yù)測表征與 CLIP 真實表征之間的 MSE, 比如 Emu2、SeedX。在生成圖片的時候,自回歸模型生成視覺特征,基于這個視覺特征,使用一個擴散模型來解碼圖片。
  • CLIP + Flow Matching:以自回歸模型預(yù)測的視覺特征為條件,使用流匹配損失來訓(xùn)練 Diffusion Transformer,以預(yù)測真實的 CLIP 表征。在生成圖片的時候,自回歸模型生成視覺特征,基于這個視覺特征,Diffusion Transformer 生成一個 CLIP feature,然后再基于這個 CLIP feature,使用一個輕量的擴散模型來解碼圖片。整個過程涉及兩次擴散過程,第一次生成 CLIP feature,第二次生成真實圖片。
  • VAE + Flow Matching:以自回歸模型預(yù)測的視覺特征為條件,使用流匹配損失來訓(xùn)練 Diffusion Transformer,以預(yù)測真實的 VAE 表征。在生成圖片的時候,自回歸模型生成視覺特征,基于這個視覺特征,Diffusion Transformer 生成一個 VAE feature, 由 VAE 解碼器來生成真實圖片。



Caption: 在統(tǒng)一多模態(tài)模型中,圖像生成有三種設(shè)計方案。所有方案均采用自回歸 + 擴散框架,但在圖像生成組件上各有不同。對于流匹配損失,保持自回歸模型凍結(jié),僅微調(diào)圖像生成模塊 (Diffusion Transformer),以保留模型的語言能力。

下圖對比了這三種方案在相同設(shè)置下的表現(xiàn),證明CLIP + Flow Matching能在提示對齊、圖像多樣性與視覺質(zhì)量之間取得最佳平衡。



Caption: 不同方案的對比

研究者發(fā)現(xiàn)將圖像生成集成到統(tǒng)一模型時,自回歸模型對語義級特征(CLIP)的學(xué)習(xí)比對像素級特征(VAE)的學(xué)習(xí)更為高效。同時,將流匹配 (Flow Matching)作為訓(xùn)練目標(biāo)能夠更好地捕捉圖像分布,從而帶來更豐富的樣本多樣性和更出色的視覺質(zhì)量。同時有兩個階段的擴散過程,相對于傳統(tǒng)的一個階段的擴散模型,將圖像生成分解成了兩個階段,第一階段自回歸模型和 diffusion transformer 只負責(zé)生成語義特征,第二階段再由一個輕量的擴散模型來補全 low-level 特征,從而大幅減輕訓(xùn)練壓力。

統(tǒng)一圖像理解與生成

通過 CLIP 編碼器,圖像理解與圖像生成共用同一語義空間,實現(xiàn)了兩者的統(tǒng)一。

研究者采用順序訓(xùn)練(late fusion)而非聯(lián)合訓(xùn)練(early fusion),原因在于:

  • 可以凍結(jié)自回歸模型,保留其圖像理解能力;
  • 把全部訓(xùn)練資源集中在圖像生成模塊,避免多任務(wù)間的相互干擾。



caption:聯(lián)合訓(xùn)練(early fusion)同時更新理解和生成模塊,順序訓(xùn)練 (late fusion)先獨立調(diào)優(yōu)「理解」,再凍結(jié)骨干只訓(xùn)練「生成」。

BLIP3-o:統(tǒng)一多模態(tài)模型

基于上述對比,研究者選定CLIP + Flow Matching與順序訓(xùn)練 (late fusion),構(gòu)建了 4B 和 8B 參數(shù)的 BLIP3-o:

  • 預(yù)訓(xùn)練數(shù)據(jù):25M 開源圖文 + 30M 專有圖像
  • 圖像字幕 (caption):均由 Qwen-2.5-VL-7B-Instruct 生成,平均 120 token;為增強對短提示的適應(yīng),還額外混入~10%(6M)的短字幕(20 token)
  • 4B 參數(shù)開源模型:純 25M 開源圖文對,及~10%(3M)短字幕
  • 指令微調(diào):GPT-4o 生成 60K 條高質(zhì)量示例,顯著提升提示對齊和視覺美感

所有代碼、模型、數(shù)據(jù)均陸續(xù)開源中,歡迎試用!



Caption: BLIP3-o 可視化示例

研究者發(fā)現(xiàn):

模型能迅速調(diào)整至 GPT-4o 風(fēng)格,提示對齊 (instruction following) 和視覺質(zhì)量均大幅提升。



caption:圖像理解表現(xiàn)



Caption: 圖像生成的基準(zhǔn)性能與人工評估

結(jié)論

本文首次系統(tǒng)地探索了結(jié)合自回歸與擴散架構(gòu)的統(tǒng)一多模態(tài)建模,評估了三個關(guān)鍵維度:圖像表示(CLIP 特征 vs. VAE 特征)、訓(xùn)練目標(biāo)(流匹配 vs. MSE)和訓(xùn)練策略(early fusion vs. 順 late fusion)。實驗結(jié)果表明,將 CLIP 嵌入與流匹配損失相結(jié)合,不僅加快了訓(xùn)練速度,也提升了生成質(zhì)量。

基于這些發(fā)現(xiàn),本文推出了 BLIP3-o, 一系列先進的統(tǒng)一多模態(tài)模型,并通過 BLIP3o-60k 6 萬條指令微調(diào)數(shù)據(jù)集,大幅改善了提示對齊效果和視覺美感。研究者還正在積極開展該模型的應(yīng)用研究,包括迭代圖像編輯、視覺對話和逐步視覺推理。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
荷蘭公布計劃,要將中國光刻機變廢鐵?難怪半導(dǎo)體巨頭ASML要搬走

荷蘭公布計劃,要將中國光刻機變廢鐵?難怪半導(dǎo)體巨頭ASML要搬走

火星方陣
2025-05-21 17:42:20
雞蛋再次成為關(guān)注對象!醫(yī)生發(fā)現(xiàn):吃雞蛋時,務(wù)必多留意這幾點

雞蛋再次成為關(guān)注對象!醫(yī)生發(fā)現(xiàn):吃雞蛋時,務(wù)必多留意這幾點

DrX說
2025-05-21 12:47:30
讀了芒格我發(fā)現(xiàn):一個人變富,靠的從來不是勤奮,而是死磕這3點

讀了芒格我發(fā)現(xiàn):一個人變富,靠的從來不是勤奮,而是死磕這3點

阿胖讀書
2025-05-19 12:32:59
5月21日,養(yǎng)老金調(diào)整通知公布了?哪些省市定額調(diào)整有望超50元?

5月21日,養(yǎng)老金調(diào)整通知公布了?哪些省市定額調(diào)整有望超50元?

深析古今
2025-05-22 10:51:06
高合汽車重啟:江蘇新公司成立,正式進入復(fù)工倒計時

高合汽車重啟:江蘇新公司成立,正式進入復(fù)工倒計時

三言科技
2025-05-22 18:33:03
多哈世錦賽第六日:單打八強全部產(chǎn)生,國乒迎戰(zhàn)早田希娜等勁敵

多哈世錦賽第六日:單打八強全部產(chǎn)生,國乒迎戰(zhàn)早田希娜等勁敵

晚霧空青
2025-05-22 06:45:34
社保斷繳=賬戶清零?千萬別大意!2025年起,全都這樣處理

社保斷繳=賬戶清零?千萬別大意!2025年起,全都這樣處理

祥順財稅俱樂部
2025-03-03 09:14:39
成吉思汗為何要橫掃亞歐大陸?專家:原因很簡單,只為追殺一個人

成吉思汗為何要橫掃亞歐大陸?專家:原因很簡單,只為追殺一個人

飛云如水
2024-07-07 11:30:04
B費:我愿意去往沙特以解決曼聯(lián)遇到的財政危機

B費:我愿意去往沙特以解決曼聯(lián)遇到的財政危機

雷速體育
2025-05-22 13:32:08
竇驍何超蓮在機場被偶遇,疑似拌過嘴,竇驍自顧自走,心疼超蓮

竇驍何超蓮在機場被偶遇,疑似拌過嘴,竇驍自顧自走,心疼超蓮

科學(xué)發(fā)掘
2025-05-20 14:56:58
廣西壯族自治區(qū)政府:全區(qū)政府系統(tǒng)要各司其職、密切配合,確保日常工作平穩(wěn)有序

廣西壯族自治區(qū)政府:全區(qū)政府系統(tǒng)要各司其職、密切配合,確保日常工作平穩(wěn)有序

澎湃新聞
2025-05-22 11:52:30
時隔34年,全國最該合并的三個城市,終于“合體”了

時隔34年,全國最該合并的三個城市,終于“合體”了

戶外釣魚哥阿勇
2025-05-21 13:29:17
2-0奪冠!中國隊終于贏了,6年,等了整整6年,這一刻等得太久

2-0奪冠!中國隊終于贏了,6年,等了整整6年,這一刻等得太久

夢史
2024-12-17 11:43:11
英媒:列維個人財富超英王查爾斯三世,熱刺資本戰(zhàn)略成新范式

英媒:列維個人財富超英王查爾斯三世,熱刺資本戰(zhàn)略成新范式

雷速體育
2025-05-22 16:51:28
那英和老公孟桐在倫敦牽手逛街,穿著一身名牌貨,看起來歲月靜好

那英和老公孟桐在倫敦牽手逛街,穿著一身名牌貨,看起來歲月靜好

鄭丁嘉話
2025-05-21 14:06:43
那個夜跑卻被塞進火爐的山東23歲準(zhǔn)新郎,已經(jīng)離開9年了

那個夜跑卻被塞進火爐的山東23歲準(zhǔn)新郎,已經(jīng)離開9年了

莉雅細細談
2024-02-09 18:43:29
《亞洲新聲》官宣11位導(dǎo)師六站,超豪華陣容,令人期待無比

《亞洲新聲》官宣11位導(dǎo)師六站,超豪華陣容,令人期待無比

娛樂寡姐
2025-05-21 16:15:54
不到18歲記者:亞馬爾續(xù)約接近達協(xié)議 年薪3000萬+獎金1000萬

不到18歲記者:亞馬爾續(xù)約接近達協(xié)議 年薪3000萬+獎金1000萬

直播吧
2025-05-22 03:24:59
中共中央批準(zhǔn):魏建鋒任湖南省紀(jì)委書記

中共中央批準(zhǔn):魏建鋒任湖南省紀(jì)委書記

大象新聞
2025-05-22 18:15:04
半個月后,將迎來史上最卷的高考!

半個月后,將迎來史上最卷的高考!

山東教育
2025-05-21 18:24:05
2025-05-23 02:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10515文章數(shù) 142318關(guān)注度
往期回顧 全部

科技要聞

小米YU7發(fā)布,雷軍:沒有30萬下不來

頭條要聞

雷軍發(fā)布3nm旗艦芯片 現(xiàn)場安檢空前嚴格連紙都要寄存

頭條要聞

雷軍發(fā)布3nm旗艦芯片 現(xiàn)場安檢空前嚴格連紙都要寄存

體育要聞

孫興慜的圓夢之夜 曼聯(lián)丟最后遮羞布

娛樂要聞

朱媛媛喪事一切從簡,親戚剛知她去世

財經(jīng)要聞

美債、日債都要崩盤?

汽車要聞

吉利銀河M9登陸米蘭 重新定義AI科技大六座旗艦SUV

態(tài)度原創(chuàng)

手機
藝術(shù)
親子
家居
公開課

手機要聞

除了玄戒芯片,還有15S Pro,小米這次發(fā)布會太震撼了!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

河南鄭州:孩子睡不著可能和聞煙味有關(guān)?

家居要聞

木質(zhì)極簡 居家與辦公的現(xiàn)實之境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 张家港市| 洪泽县| 临潭县| 离岛区| 共和县| 赤峰市| 栾川县| 墨竹工卡县| 腾冲县| 兰州市| 鄱阳县| 增城市| 凤凰县| 广南县| 张北县| 马边| 五家渠市| 通渭县| 岐山县| 通许县| 南阳市| 通州市| 汾西县| 怀来县| 隆昌县| 普宁市| 瑞昌市| 盘山县| 乌恰县| 南澳县| 昌黎县| 子长县| 平原县| 张北县| 河南省| 昌吉市| 闽清县| 博湖县| 徐汇区| 敦煌市| 图木舒克市|