99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

字節(jié)把GPT-4o級圖像生成能力開源了!

0
分享至

一水 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

字節(jié)最近真的猛猛開源啊……

這一次,他們直接開源了GPT-4o級別的圖像生成能力。

(輕松拿捏“萬物皆可吉卜力”玩法~)



不止于此,其最新融合的多模態(tài)模型BAGEL主打一個“大一統(tǒng)”, 將帶圖推理、圖像編輯、3D生成等功能全都集中到了一個模型。

雖然活躍參數(shù)只有7B(總計14B),但它已經(jīng)實現(xiàn)了圖像理解、生成、編輯等多冠王,實力超越或媲美一眾頂尖開源(如Stable Diffusion 3、FLUX.1)和閉源(如GPT-4o、Gemini 2.0)模型。

模型一經(jīng)發(fā)布,不僅迅速登上Hugging Face趨勢榜,還立即在引發(fā)熱議。

有網(wǎng)友見此連連感慨,“字節(jié)像領(lǐng)先了整整一代人”。



OpenAI研究員也公開贊賞, 字節(jié)Seed團隊在他心目中已經(jīng)穩(wěn)居頂級實驗室之列。



Okk,我們直接來看BAGEL模型有哪些玩法。

一個模型實現(xiàn)所有多模態(tài)功能

作為多模態(tài)模型,掌握帶圖推理算是如今的一個入門級挑戰(zhàn)。

扔給它疊放整齊的一塊布料,讓它想象出布料展開后的樣子。



可以看到,生成之前BAGEL模型會自動進行推理,并規(guī)劃出可行方案:



最終生成的圖片如下,一眼看去布料的拼圖和花紋沒有明顯錯誤:



換成其他例子,還能看到BAGEL模型支持無縫多輪對話

先是按照文字提示生成符合要求的圖片:



然后緊接著生成人物的公仔形象,并推出銷售口號。



當然,除了上面這些,懂推理的BAGEL模型還支持復(fù)雜圖像編輯

最方便的,當屬一鍵試妝了:



展開其思考過程,不難發(fā)現(xiàn)它是真懂(doge)。



其他我們相對熟悉的技能,如人物表情轉(zhuǎn)換、憑空造物等更是不在話下。



最后,BAGEL模型超越傳統(tǒng)圖像編輯,還具備多視角合成和導(dǎo)航等“世界建模”能力

360°全自動觀賞裝在盒子里的手辦:



又或者開局一張圖,視角一步步推進,沉浸式走進小巷:



總之,正如字節(jié)團隊所強調(diào)的,BAGEL模型已經(jīng)展現(xiàn)出統(tǒng)一多模態(tài)能力。

那么接下來的問題是——

它怎么做到的?

重新定義“涌現(xiàn)能力”

據(jù)論文介紹,BAGEL模型采用了MoT(Mixture-of-Transformer-Experts)架構(gòu)。

它由兩個Transformer專家組成,一個專注于多模態(tài)理解,另一個專注于多模態(tài)生成。作為對應(yīng),模型也使用了兩個獨立的視覺編碼器,分別用于捕捉圖像的像素級和語義級特征。

簡單來說,像素級編碼器專注于圖像的底層細節(jié),如顏色、紋理等;語義級編碼器則關(guān)注圖像的高層語義,如物體的類別、場景的含義等。

整體框架遵循“下一個token組預(yù)測范式”,即模型根據(jù)已有的多模態(tài)輸入,學習預(yù)測后續(xù)的token,從而不斷優(yōu)化自身對多模態(tài)數(shù)據(jù)的理解和生成能力。



順便一提,BAGEL基礎(chǔ)模型是基于Qwen2.5-7B-Instructsiglip-so400m-14-384-flash-attn2模型進行微調(diào),并使用了FLUX.1-schnell VAE模型。

基于上述架構(gòu),團隊在模型訓練中得出了一項重要發(fā)現(xiàn)。

隨著規(guī)模化數(shù)據(jù)與模型參數(shù)的雙重擴展,BAGEL模型表現(xiàn)出了一種“涌現(xiàn)能力(Emerging Properties)”——多模態(tài)理解和生成能力較早出現(xiàn),隨后是基礎(chǔ)編輯能力,而復(fù)雜的智能編輯能力則在后期顯現(xiàn)。

所謂的涌現(xiàn)能力,其實早已在大型視覺或語言模型中被廣泛探討。不過在論文中,聚焦于統(tǒng)一多模態(tài)基礎(chǔ)模型的背景下,團隊重新定義了涌現(xiàn)能力:

  • 當某種能力在早期訓練階段尚未出現(xiàn),而在后續(xù)預(yù)訓練中出現(xiàn)時,稱其為涌現(xiàn)能力。

結(jié)合BAGEL模型的表現(xiàn),團隊認為其揭示了一種新興模式,即高級多模態(tài)推理是在完善的基礎(chǔ)技能之上逐步形成的,而非某種“突變”。

另外論文中提醒,將VAE(變分自編碼器)與ViT(視覺Transformer)特征相結(jié)合,可以顯著提升智能編輯能力。



最后,更多基準測試結(jié)果也展現(xiàn)了BAGEL模型領(lǐng)先的圖像理解、生成、編輯能力

例如在圖像理解任務(wù)中,在激活參數(shù)規(guī)模相當(7B)的情況下,BAGEL模型優(yōu)于現(xiàn)有的統(tǒng)一模型Janus-Pro。

同時與專用理解模型(如Qwen2.5-VL和InternVL2.5)相比,BAGEL在大多數(shù)基準測試上表現(xiàn)更優(yōu)。



在GenEval和WISE這兩個評估圖像生成能力的測試中,BAGEL實現(xiàn)了88%的整體得分,優(yōu)于專用生成模型(FLUX.1-dev:82%、SD3-Medium:74%)和統(tǒng)一模型(Janus-Pro:80%、MetaQuery-XL:80%)



在圖片編輯能力測試中,BAGEL的表現(xiàn)可與Step1X-Edit(當前領(lǐng)先的專用圖像編輯模型)相媲美,并且優(yōu)于Gemini 2.0。



當然,也有更直觀的對比:



目前模型已在Hugging Face上架,采用相對寬松的Apache 2.0許可證。

項目主頁:
https://bagel-ai.org/
論文:
https://arxiv.org/abs/2505.14683
開源地址:
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

參考鏈接:
[1]https://x.com/_akhaliq/status/1925021633657401517
[2]https://x.com/giffmana/status/1925194650266354108

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
羅翔:要么出類拔萃,要么樂知天命,最怕見識打開,努力卻跟不上

羅翔:要么出類拔萃,要么樂知天命,最怕見識打開,努力卻跟不上

清風拂心
2025-03-12 16:15:03
YU7設(shè)計總監(jiān)否認參考其它車型:沒有,沒有,沒有;博主:小米很自信,不怕調(diào)侃

YU7設(shè)計總監(jiān)否認參考其它車型:沒有,沒有,沒有;博主:小米很自信,不怕調(diào)侃

三言科技
2025-05-24 13:44:07
39分5板3助,都說你1.8億太貴,如今打成季后賽戰(zhàn)神,沖擊總冠軍

39分5板3助,都說你1.8億太貴,如今打成季后賽戰(zhàn)神,沖擊總冠軍

大西體育
2025-05-24 12:13:27
河北男孩騎行身亡案告終!涉事司機通過辯護律師發(fā)聲: 已收到檢方不起訴決定書, “我沒有案底,孩子不受影響” ,東拼西湊20萬賠償已退回

河北男孩騎行身亡案告終!涉事司機通過辯護律師發(fā)聲: 已收到檢方不起訴決定書, “我沒有案底,孩子不受影響” ,東拼西湊20萬賠償已退回

東方網(wǎng)
2025-05-23 22:36:17
村里建設(shè)水壩淹沒了蛇窟,等全村遷移新址后,房梁上卻出現(xiàn)20米蛇皮

村里建設(shè)水壩淹沒了蛇窟,等全村遷移新址后,房梁上卻出現(xiàn)20米蛇皮

古怪奇談錄
2025-05-23 14:57:34
8歲男童走失20天,曝仍還活著,搜尋現(xiàn)關(guān)鍵進展,石谷解盼奇跡!

8歲男童走失20天,曝仍還活著,搜尋現(xiàn)關(guān)鍵進展,石谷解盼奇跡!

史書無明
2025-05-24 13:11:21
逆轉(zhuǎn)莫雷加德,對手盤外招,誰注意王楚欽反應(yīng),瑞典教練表情有趣

逆轉(zhuǎn)莫雷加德,對手盤外招,誰注意王楚欽反應(yīng),瑞典教練表情有趣

東球弟
2025-05-24 18:03:43
家庭最大的悲哀不是窮,是父母六七十歲了,還持續(xù)讓別人“借運”

家庭最大的悲哀不是窮,是父母六七十歲了,還持續(xù)讓別人“借運”

詩詞中國
2025-04-14 13:25:34
A股:圖窮匕見,不裝了!不出意外,下周將迎來更大級別回落?

A股:圖窮匕見,不裝了!不出意外,下周將迎來更大級別回落?

虎哥閑聊
2025-05-24 00:00:03
孟曉冰,任上被查

孟曉冰,任上被查

新京報政事兒
2025-05-23 21:08:46
周琦重磅加盟!再見了,遼寧隊!這可是中國男籃第一內(nèi)線……

周琦重磅加盟!再見了,遼寧隊!這可是中國男籃第一內(nèi)線……

籃球?qū)崙?zhàn)寶典
2025-05-23 21:10:33
港澳高校向哈佛大學國際學生伸出橄欖枝

港澳高校向哈佛大學國際學生伸出橄欖枝

參考消息
2025-05-24 14:10:16
掘金雄鹿完成初步交易討論 五首輪簽加戈登換字母哥 穆雷也將送走

掘金雄鹿完成初步交易討論 五首輪簽加戈登換字母哥 穆雷也將送走

籃球話題團
2025-05-24 01:35:03
中國夫婦在澳洲被打后續(xù),被留學生堵到哭,跪地求饒,細節(jié)曝光

中國夫婦在澳洲被打后續(xù),被留學生堵到哭,跪地求饒,細節(jié)曝光

一家說
2025-05-24 11:21:38
李嘉誠突然暴雷!香港廉政公署出手調(diào)查,長子李澤鉅久久不敢露面

李嘉誠突然暴雷!香港廉政公署出手調(diào)查,長子李澤鉅久久不敢露面

涵豆說娛
2025-05-24 14:27:14
A股:周末重磅!國常會最新消息,央行最新通知,證監(jiān)會一日三罰!

A股:周末重磅!國常會最新消息,央行最新通知,證監(jiān)會一日三罰!

曉風說
2025-05-24 08:13:56
大量洋妞涌入相親角,不要彩禮有車有房,國內(nèi)大齡剩女:滾出中國

大量洋妞涌入相親角,不要彩禮有車有房,國內(nèi)大齡剩女:滾出中國

小正說娛樂
2025-04-16 14:38:59
無緣意甲冠軍!未出場的勞塔羅坐在替補席掩面哭泣

無緣意甲冠軍!未出場的勞塔羅坐在替補席掩面哭泣

直播吧
2025-05-24 06:32:14
大跳水!暴跌91%

大跳水!暴跌91%

大象新聞
2025-05-24 13:19:04
媛媛頭七第二天,姚晨再發(fā)文悼念,內(nèi)容讓人淚奔

媛媛頭七第二天,姚晨再發(fā)文悼念,內(nèi)容讓人淚奔

魔都姐姐雜談
2025-05-24 16:29:51
2025-05-24 19:39:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10550文章數(shù) 176151關(guān)注度
往期回顧 全部

科技要聞

不止蘋果?特朗普:三星不在美國造 也加稅

頭條要聞

孫穎莎4比0橫掃伊藤美誠晉級決賽 國乒鎖定女單冠軍

頭條要聞

孫穎莎4比0橫掃伊藤美誠晉級決賽 國乒鎖定女單冠軍

體育要聞

NBA最被高估球隊,“突然”有了冠軍相?

娛樂要聞

歌手2025第二期排名:居然是他淘汰了

財經(jīng)要聞

不得不說,特朗普殺瘋了

汽車要聞

一見傾心!東風全新SUV定妝圖曝光,顏值氣場并存

態(tài)度原創(chuàng)

教育
時尚
親子
本地
軍事航空

教育要聞

新東方探索“銀發(fā)留學”,發(fā)布《中國學生出國留學發(fā)展報告》

入夏后中年女人這樣打扮:裙子過膝,鞋子帶跟,美得高級優(yōu)雅

親子要聞

萌娃知識分享!

本地新聞

巴黎沒有倍兒甜,但天津巧克力腦袋倍兒多

軍事要聞

普京:俄羅斯仍位列五大武器出口國之列

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 仪征市| 平江县| 南平市| 深州市| 横峰县| 华容县| 海阳市| 盐边县| 安福县| 红河县| 容城县| 柘城县| 杭锦旗| 定南县| 彭州市| 永昌县| 沙田区| 汶上县| 安化县| 南乐县| 中方县| 东兴市| 西林县| 连江县| 宁阳县| 邳州市| 福清市| 西青区| 阿图什市| 临汾市| 兴隆县| 花莲市| 峨山| 武功县| 德格县| 汉寿县| 中阳县| 措勤县| 河池市| 北宁市| 乌鲁木齐市|