99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

字節把GPT-4o級圖像生成能力開源了!

0
分享至

一水 發自 凹非寺
量子位 | 公眾號 QbitAI

字節最近真的猛猛開源啊……

這一次,他們直接開源了GPT-4o級別的圖像生成能力。

(輕松拿捏“萬物皆可吉卜力”玩法~)



不止于此,其最新融合的多模態模型BAGEL主打一個“大一統”, 將帶圖推理、圖像編輯、3D生成等功能全都集中到了一個模型。

雖然活躍參數只有7B(總計14B),但它已經實現了圖像理解、生成、編輯等多冠王,實力超越或媲美一眾頂尖開源(如Stable Diffusion 3、FLUX.1)和閉源(如GPT-4o、Gemini 2.0)模型。

模型一經發布,不僅迅速登上Hugging Face趨勢榜,還立即在引發熱議。

有網友見此連連感慨,“字節像領先了整整一代人”。



OpenAI研究員也公開贊賞, 字節Seed團隊在他心目中已經穩居頂級實驗室之列。



Okk,我們直接來看BAGEL模型有哪些玩法。

一個模型實現所有多模態功能

作為多模態模型,掌握帶圖推理算是如今的一個入門級挑戰。

扔給它疊放整齊的一塊布料,讓它想象出布料展開后的樣子。



可以看到,生成之前BAGEL模型會自動進行推理,并規劃出可行方案:



最終生成的圖片如下,一眼看去布料的拼圖和花紋沒有明顯錯誤:



換成其他例子,還能看到BAGEL模型支持無縫多輪對話

先是按照文字提示生成符合要求的圖片:



然后緊接著生成人物的公仔形象,并推出銷售口號。



當然,除了上面這些,懂推理的BAGEL模型還支持復雜圖像編輯

最方便的,當屬一鍵試妝了:



展開其思考過程,不難發現它是真懂(doge)。



其他我們相對熟悉的技能,如人物表情轉換、憑空造物等更是不在話下。



最后,BAGEL模型超越傳統圖像編輯,還具備多視角合成和導航等“世界建模”能力

360°全自動觀賞裝在盒子里的手辦:



又或者開局一張圖,視角一步步推進,沉浸式走進小巷:



總之,正如字節團隊所強調的,BAGEL模型已經展現出統一多模態能力。

那么接下來的問題是——

它怎么做到的?

重新定義“涌現能力”

據論文介紹,BAGEL模型采用了MoT(Mixture-of-Transformer-Experts)架構。

它由兩個Transformer專家組成,一個專注于多模態理解,另一個專注于多模態生成。作為對應,模型也使用了兩個獨立的視覺編碼器,分別用于捕捉圖像的像素級和語義級特征。

簡單來說,像素級編碼器專注于圖像的底層細節,如顏色、紋理等;語義級編碼器則關注圖像的高層語義,如物體的類別、場景的含義等。

整體框架遵循“下一個token組預測范式”,即模型根據已有的多模態輸入,學習預測后續的token,從而不斷優化自身對多模態數據的理解和生成能力。



順便一提,BAGEL基礎模型是基于Qwen2.5-7B-Instructsiglip-so400m-14-384-flash-attn2模型進行微調,并使用了FLUX.1-schnell VAE模型。

基于上述架構,團隊在模型訓練中得出了一項重要發現。

隨著規模化數據與模型參數的雙重擴展,BAGEL模型表現出了一種“涌現能力(Emerging Properties)”——多模態理解和生成能力較早出現,隨后是基礎編輯能力,而復雜的智能編輯能力則在后期顯現。

所謂的涌現能力,其實早已在大型視覺或語言模型中被廣泛探討。不過在論文中,聚焦于統一多模態基礎模型的背景下,團隊重新定義了涌現能力:

  • 當某種能力在早期訓練階段尚未出現,而在后續預訓練中出現時,稱其為涌現能力。

結合BAGEL模型的表現,團隊認為其揭示了一種新興模式,即高級多模態推理是在完善的基礎技能之上逐步形成的,而非某種“突變”。

另外論文中提醒,將VAE(變分自編碼器)與ViT(視覺Transformer)特征相結合,可以顯著提升智能編輯能力。



最后,更多基準測試結果也展現了BAGEL模型領先的圖像理解、生成、編輯能力

例如在圖像理解任務中,在激活參數規模相當(7B)的情況下,BAGEL模型優于現有的統一模型Janus-Pro。

同時與專用理解模型(如Qwen2.5-VL和InternVL2.5)相比,BAGEL在大多數基準測試上表現更優。



在GenEval和WISE這兩個評估圖像生成能力的測試中,BAGEL實現了88%的整體得分,優于專用生成模型(FLUX.1-dev:82%、SD3-Medium:74%)和統一模型(Janus-Pro:80%、MetaQuery-XL:80%)



在圖片編輯能力測試中,BAGEL的表現可與Step1X-Edit(當前領先的專用圖像編輯模型)相媲美,并且優于Gemini 2.0。



當然,也有更直觀的對比:



目前模型已在Hugging Face上架,采用相對寬松的Apache 2.0許可證。

項目主頁:
https://bagel-ai.org/
論文:
https://arxiv.org/abs/2505.14683
開源地址:
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

參考鏈接:
[1]https://x.com/_akhaliq/status/1925021633657401517
[2]https://x.com/giffmana/status/1925194650266354108

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
運行了3年就面臨拆解?白白投入幾十億,這一交通方式缺點眾多

運行了3年就面臨拆解?白白投入幾十億,這一交通方式缺點眾多

涵豆說娛
2025-05-17 17:42:19
迪士尼打架完整視頻曝光 格裙女:罵你就破防?抱娃女被批太軟弱

迪士尼打架完整視頻曝光 格裙女:罵你就破防?抱娃女被批太軟弱

夢史
2025-06-01 22:45:36
南大學生遭施工單位員工偷東西!校方稱從工程款中扣減兩千元

南大學生遭施工單位員工偷東西!校方稱從工程款中扣減兩千元

南方都市報
2025-06-01 22:43:16
17分大勝晉級總決賽!步行者超級大逆襲,總決賽具體賽程公布

17分大勝晉級總決賽!步行者超級大逆襲,總決賽具體賽程公布

體壇小李
2025-06-01 10:38:51
撒貝寧一家端午節千島湖度假游玩,6歲女兒扎著臟辮,兒子帶墨鏡

撒貝寧一家端午節千島湖度假游玩,6歲女兒扎著臟辮,兒子帶墨鏡

阿芒娛樂說
2025-06-01 10:15:19
西卡首獲東決MVP:歷史第4人 系列賽3次30+生涯第2次總決賽

西卡首獲東決MVP:歷史第4人 系列賽3次30+生涯第2次總決賽

醉臥浮生
2025-06-01 10:47:51
別了,皇馬!“億元先生”正式遭出售!1.2億“頂星+空霸”來投

別了,皇馬!“億元先生”正式遭出售!1.2億“頂星+空霸”來投

頭狼追球
2025-06-01 11:29:47
權威人士回應“迪士尼一對情侶和一家三口扭打”:因拍照問題引發

權威人士回應“迪士尼一對情侶和一家三口扭打”:因拍照問題引發

極目新聞
2025-06-01 17:30:10
隨著中國隊5-2澳大利亞,越南2-1沙特,四國賽結束!最終排名確定

隨著中國隊5-2澳大利亞,越南2-1沙特,四國賽結束!最終排名確定

球場沒跑道
2025-06-01 21:31:16
斷眉掛電風波升級!演唱音準0偏差,外國音樂博主:明目張膽修音

斷眉掛電風波升級!演唱音準0偏差,外國音樂博主:明目張膽修音

萌神木木
2025-06-01 16:26:03
F1離譜一幕:4屆世界冠軍怒懟車隊指令 隨即駕車一頭撞向無辜對手

F1離譜一幕:4屆世界冠軍怒懟車隊指令 隨即駕車一頭撞向無辜對手

風過鄉
2025-06-02 07:55:16
越南總理范明政重磅發聲:只要有足夠財力、任何人都可以投資任何領域,包括賭場、高鐵

越南總理范明政重磅發聲:只要有足夠財力、任何人都可以投資任何領域,包括賭場、高鐵

緬甸中文網
2025-06-01 14:55:04
同一案件前后兩天收到相反“判決書” 最新通報:紀委監委介入調查

同一案件前后兩天收到相反“判決書” 最新通報:紀委監委介入調查

閃電新聞
2025-06-01 12:11:02
“三天是男人的極限”,女孩謊稱提前開學去見男友,網友直接舉報

“三天是男人的極限”,女孩謊稱提前開學去見男友,網友直接舉報

妍妍教育日記
2025-02-09 22:58:40
國產榴蓮殺瘋了!600噸價格跳水90%,泰國、菲律賓計劃連夜拋貨

國產榴蓮殺瘋了!600噸價格跳水90%,泰國、菲律賓計劃連夜拋貨

南生今世說
2025-06-01 09:30:08
中央定調,延遲退休實施!71至75年生人,提前退休養老金少多少?

中央定調,延遲退休實施!71至75年生人,提前退休養老金少多少?

王五說說看
2025-05-30 07:21:28
551元,小米剛上架的新品我買了!

551元,小米剛上架的新品我買了!

手機評測室
2025-06-01 11:50:16
維斯塔潘超級駕照被扣3分&近12個月扣11分,距離禁賽只差1分

維斯塔潘超級駕照被扣3分&近12個月扣11分,距離禁賽只差1分

直播吧
2025-06-02 00:23:07
美媒:錫伯杜獲得尼克斯主席支持,布倫森也希望球隊保留核心陣容

美媒:錫伯杜獲得尼克斯主席支持,布倫森也希望球隊保留核心陣容

雷速體育
2025-06-02 09:16:08
李鵬總理的6位家人:3個子女都是國之棟梁,如今都官至何位?

李鵬總理的6位家人:3個子女都是國之棟梁,如今都官至何位?

浩舞默畫
2025-06-02 07:20:09
2025-06-02 09:28:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10599文章數 176159關注度
往期回顧 全部

科技要聞

熱搜!雷軍疑回應余承東

頭條要聞

烏稱摧毀俄41架戰略轟炸機 澤連斯基提出3大核心訴求

頭條要聞

烏稱摧毀俄41架戰略轟炸機 澤連斯基提出3大核心訴求

體育要聞

一邊倒的歐冠決賽,青春無敵的新科冠軍

娛樂要聞

等等小花給鄧超拍雜志 插畫由小花繪制

財經要聞

油價繼續下跌?歐佩克宣布將再度增產

汽車要聞

零跑汽車5月交付量達45,067臺 穩居新勢力前三

態度原創

家居
藝術
數碼
公開課
軍事航空

家居要聞

原木純白 邂逅自然本真

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

一英特爾 W880 主板框圖顯示支持 Arrow Lake-S Refresh 處理器

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美防長在香會大肆渲染中國威脅 中方回應

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 长葛市| 遂川县| 延安市| 雅江县| 双辽市| 会东县| 北碚区| 万全县| 武城县| 通辽市| 平塘县| 荔波县| 凤庆县| 东光县| 舟曲县| 花莲县| 昔阳县| 如皋市| 阿拉善右旗| 邯郸县| 龙海市| 无锡市| 孝感市| 泰州市| 犍为县| 和静县| 鸡泽县| 枣强县| 新巴尔虎左旗| 红河县| 马龙县| 罗定市| 彩票| 葵青区| 九龙城区| 清苑县| 光泽县| 渝中区| 阿克陶县| 和平区| 岐山县|