網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

字節(jié)把GPT-4o級圖像生成能力開源了！

2025-05-24 15:38:07　來源: 量子位

北京舉報

分享至

一水發(fā)自凹非寺
量子位 | 公眾號 QbitAI

字節(jié)最近真的猛猛開源啊……

這一次，他們直接開源了GPT-4o級別的圖像生成能力。

（輕松拿捏“萬物皆可吉卜力”玩法~）

不止于此，其最新融合的多模態(tài)模型BAGEL主打一個“大一統(tǒng)”，將帶圖推理、圖像編輯、3D生成等功能全都集中到了一個模型。

雖然活躍參數(shù)只有7B（總計14B），但它已經(jīng)實現(xiàn)了圖像理解、生成、編輯等多冠王，實力超越或媲美一眾頂尖開源（如Stable Diffusion 3、FLUX.1）和閉源（如GPT-4o、Gemini 2.0）模型。

模型一經(jīng)發(fā)布，不僅迅速登上Hugging Face趨勢榜，還立即在引發(fā)熱議。

有網(wǎng)友見此連連感慨，“字節(jié)像領(lǐng)先了整整一代人”。

OpenAI研究員也公開贊賞，字節(jié)Seed團隊在他心目中已經(jīng)穩(wěn)居頂級實驗室之列。

Okk，我們直接來看BAGEL模型有哪些玩法。

一個模型實現(xiàn)所有多模態(tài)功能

作為多模態(tài)模型，掌握帶圖推理算是如今的一個入門級挑戰(zhàn)。

扔給它疊放整齊的一塊布料，讓它想象出布料展開后的樣子。

可以看到，生成之前BAGEL模型會自動進行推理，并規(guī)劃出可行方案：

最終生成的圖片如下，一眼看去布料的拼圖和花紋沒有明顯錯誤：

換成其他例子，還能看到BAGEL模型支持無縫多輪對話。

先是按照文字提示生成符合要求的圖片：

然后緊接著生成人物的公仔形象，并推出銷售口號。

當然，除了上面這些，懂推理的BAGEL模型還支持復(fù)雜圖像編輯。

最方便的，當屬一鍵試妝了：

展開其思考過程，不難發(fā)現(xiàn)它是真懂（doge）。

其他我們相對熟悉的技能，如人物表情轉(zhuǎn)換、憑空造物等更是不在話下。

最后，BAGEL模型超越傳統(tǒng)圖像編輯，還具備多視角合成和導(dǎo)航等“世界建模”能力。

360°全自動觀賞裝在盒子里的手辦：

又或者開局一張圖，視角一步步推進，沉浸式走進小巷：

總之，正如字節(jié)團隊所強調(diào)的，BAGEL模型已經(jīng)展現(xiàn)出統(tǒng)一多模態(tài)能力。

那么接下來的問題是——

它怎么做到的？

重新定義“涌現(xiàn)能力”

據(jù)論文介紹，BAGEL模型采用了MoT（Mixture-of-Transformer-Experts）架構(gòu)。

它由兩個Transformer專家組成，一個專注于多模態(tài)理解，另一個專注于多模態(tài)生成。作為對應(yīng)，模型也使用了兩個獨立的視覺編碼器，分別用于捕捉圖像的像素級和語義級特征。

簡單來說，像素級編碼器專注于圖像的底層細節(jié)，如顏色、紋理等；語義級編碼器則關(guān)注圖像的高層語義，如物體的類別、場景的含義等。

整體框架遵循“下一個token組預(yù)測范式”，即模型根據(jù)已有的多模態(tài)輸入，學習預(yù)測后續(xù)的token，從而不斷優(yōu)化自身對多模態(tài)數(shù)據(jù)的理解和生成能力。

順便一提，BAGEL基礎(chǔ)模型是基于Qwen2.5-7B-Instruct和siglip-so400m-14-384-flash-attn2模型進行微調(diào)，并使用了FLUX.1-schnell VAE模型。

基于上述架構(gòu)，團隊在模型訓練中得出了一項重要發(fā)現(xiàn)。

隨著規(guī)模化數(shù)據(jù)與模型參數(shù)的雙重擴展，BAGEL模型表現(xiàn)出了一種“涌現(xiàn)能力（Emerging Properties）”——多模態(tài)理解和生成能力較早出現(xiàn)，隨后是基礎(chǔ)編輯能力，而復(fù)雜的智能編輯能力則在后期顯現(xiàn)。

所謂的涌現(xiàn)能力，其實早已在大型視覺或語言模型中被廣泛探討。不過在論文中，聚焦于統(tǒng)一多模態(tài)基礎(chǔ)模型的背景下，團隊重新定義了涌現(xiàn)能力：

當某種能力在早期訓練階段尚未出現(xiàn)，而在后續(xù)預(yù)訓練中出現(xiàn)時，稱其為涌現(xiàn)能力。

結(jié)合BAGEL模型的表現(xiàn)，團隊認為其揭示了一種新興模式，即高級多模態(tài)推理是在完善的基礎(chǔ)技能之上逐步形成的，而非某種“突變”。

另外論文中提醒，將VAE（變分自編碼器）與ViT（視覺Transformer）特征相結(jié)合，可以顯著提升智能編輯能力。

最后，更多基準測試結(jié)果也展現(xiàn)了BAGEL模型領(lǐng)先的圖像理解、生成、編輯能力。

例如在圖像理解任務(wù)中，在激活參數(shù)規(guī)模相當（7B）的情況下，BAGEL模型優(yōu)于現(xiàn)有的統(tǒng)一模型Janus-Pro。

同時與專用理解模型（如Qwen2.5-VL和InternVL2.5）相比，BAGEL在大多數(shù)基準測試上表現(xiàn)更優(yōu)。

在GenEval和WISE這兩個評估圖像生成能力的測試中，BAGEL實現(xiàn)了88%的整體得分，優(yōu)于專用生成模型（FLUX.1-dev：82%、SD3-Medium：74%）和統(tǒng)一模型（Janus-Pro：80%、MetaQuery-XL：80%）。

在圖片編輯能力測試中，BAGEL的表現(xiàn)可與Step1X-Edit（當前領(lǐng)先的專用圖像編輯模型）相媲美，并且優(yōu)于Gemini 2.0。

當然，也有更直觀的對比：

目前模型已在Hugging Face上架，采用相對寬松的Apache 2.0許可證。

項目主頁：
https://bagel-ai.org/
論文：
https://arxiv.org/abs/2505.14683
開源地址：
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

參考鏈接：
[1]https://x.com/_akhaliq/status/1925021633657401517
[2]https://x.com/giffmana/status/1925194650266354108

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.