99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Mogao=Seedream 3.0?霸榜數天,神秘文生圖模型曝光

0
分享至

機器之心報道,編輯:澤南、Panda。

霸榜數天的神秘文生圖模型 Mogao,什么來頭?

這兩天,不少業內人已在詢問「這個魔法般模型」的出處。



有人對模型效果頗為認可,好奇如何體驗。



神秘模型 Mogao 的橫空出世,始于近期它在盲測打分的 Artificial Analysis 文生圖排行榜上迅速躥升,一度排名第一,位列 GPT-4o、Recraft V3、Imagen 3、Midjourney v6.1 等模型之前。

從社交媒體也能看到,網友對該模型近乎一水的好評。



昨晚,Mogao 的神秘面紗終于被揭下。

它背后是圖像生成基礎模型 Seedream 3.0,來自字節跳動 Seed 團隊。



在 Artificial Analysis 文生圖榜單上,除了拿下總榜第一,Seedream 3.0 在真實、圖形設計與數字渲染、動漫、卡通與插圖、復古風、傳統藝術等不同風格,以及文字、商務、人像、自然、幻想等不同維度均表現領先。



圖片從左至右展示了在真實感、動漫、人像這三個細分項上的前 10 名。

尤其海報設計方面,Seedream 3.0 表現尤為突出,不僅小字崩壞率低,輸出圖像的設計感也很強。





眾所周知,Seedream 3.0 已于 4 月初在字節自家的即夢和豆包平臺上線,其在文字生成和排版上的出色能力備受關注。

而就在今天,字節跳動 Seed 團隊也對外發布了 Seedream 3.0 技術報告,詳細披露了模型的性能表現和技術細節。

機器之心帶大家一睹為快。



  • 技術報告:https://team.doubao.com/zh/tech/seedream3_0
  • arXiv:https://arxiv.org/abs/2504.11346

定性定量評估俱佳

文生圖 SOTA 實至名歸

Seedream 3.0 不久前開放使用時,我們已經專門體驗了一番,參閱《實測完 Seedream 3.0,我后悔大學選了設計專業……》。

總結起來,相比于市面上其它同類產品,Seedream 3.0 優勢體現在 —— 速度與質量兼備、文字準且美、原生支持 2K 圖像輸出三個方面。

根據官方披露的技術報告也能發現,模型在結構、指令遵循、美感、人像、文本可用性等多個維度均表現突出。



綜合能力之外,團隊還強調了密集文本渲染和逼真人像生成兩方面能力。

具體來說,在生成結果中,Seedream 3.0 中文和英文字符的文本可用率均達到 94%,基本讓文本渲染不再成為圖像生成的掣肘。



除了可用率的整體提升之外,相比 2.0 版本,Seedream 3.0 渲染密集文本的能力也有重大提升,同時其小字符生成的準確率和文本布局的自然度也顯著明顯進步。



在人像真實感方面,團隊為評估模型表現,專門構建了一個采用 Elo 競賽機制、包含 100 個提示的人像評估新基準,囊括表情、姿勢、角度、發質、膚質、服飾、配飾等人像生成的方方面面。

經過超過 50000 輪的公開評估,Seedream 3.0 與 Midjourney V6.1 同處第一梯隊,相比其他模型優勢明顯。



從示例可以看到,Seedream 3.0 能有效消除人像生成的「AI 感」,可生成帶有皺紋、絨毛和疤痕等真實特征的皮膚質感,逼真度已基本接近專業攝影水平。



機器之心還在實際評測發現,Seedream 3.0 不需要像之前一樣執行超分辨率操作,而是可以一鍵直出 2K 分辨率圖像。





對比其他模型,Seedream 3.0 也展現出極快的生成效率。

根據實測體驗,Seedream 3.0 基本十幾秒左右就能生成 4 張 2K 分辨率待選圖像,生成高清圖像(1K)時長更是短至數秒。相較之下,業界同類模型生成一張高清內容的耗時基本在 10 秒以上,而效果較好的 GPT-4o 生成一張高清圖耗時往往超過 1 分鐘。



從數據過濾到后訓練

大量底層技術升級

Seedream 3.0 究竟是如何煉成的?在技術報告中,我們看到了 Seed 研究團隊在數據、預訓練和后訓練上的多項工作。

數據準備階段

在數據上,因之前偏保守的數據過濾策略會極大限制可用數據集大小,團隊引入了一種全新的缺陷感知型訓練范式。

該范式包含一個專門的缺陷檢測器,可通過邊界框預測精確定位缺陷區域。當檢測到的缺陷總面積小于圖像空間的 20%(可配置閾值)時,就會選擇保留這些樣本(之前會被丟棄),同時使用掩碼隱含空間優化。

團隊認為,這種創新方法的效果很好:在保證模型穩定性的同時,將有效訓練數據集擴展了21.7%。

為了優化數據分布,他們提出了一個雙軸協同數據采樣框架,可從視覺形態和語義分布兩個維度進行聯合優化。

團隊還自主研發了一套跨模態檢索系統,進一步增強數據生態系統的協調性,針對圖像 - 文本對,建立了一個聯合嵌入空間。該系統在所有基準測試中均取得了最佳性能。

預訓練階段

Seedream 3.0 的基本架構設計繼承自 2.0 版,采用 MMDiT 來處理圖像和文本 token ,并捕捉兩種模態之間的關系。不過,在 Seedream 3.0 中,團隊增加了基礎模型的總參數,并引入了多項關鍵改進,提高了模型的可擴展性、泛化能力和視覺語言對齊能力,其中包括:

混合分辨率訓練:每個訓練階段中,不同寬高比和分辨率的圖像會被打包在一起,首先在平均分辨率為 2562 的圖像上預訓練模型,然后在更高分辨率的圖像(從 5122 到 20482)上對其進行微調。Seed 團隊還采用了尺寸嵌入作為另一個條件,使模型能夠感知目標分辨率。

跨模態 RoPE:Seedream 2.0 中的 Scaling RoPE 被擴展成了跨模態 RoPE,從而進一步增強了視覺文本 token 的對齊效果和文本渲染精度。其中,文本 token 被視為形狀為 [1, L] 的二維 token,并對文本 token 應用二維 RoPE。

后訓練階段

Seedream 3.0 后訓練流程則包含以下幾個階段:持續訓練(CT)、監督微調(SFT)、人工反饋對齊(RLHF)和提示工程(PE)。各階段效果對比如下圖所示。



為進一步提升美感,在新模型上,團隊專門訓練了多個版本的描述模型。

這些模型能在審美、風格、排版等專業領域提供精準的描述,確保 Seedream 3.0 能夠更有效地響應相關提示,不僅增強了模型的可控性,也提升了提示工程后模型的性能。

另外在獎勵模型上,Seedream 3.0使用了 VLM 作為獎勵建模框架,而不再是 CLIP,并提升了其參數量。

團隊借鑒語言模型中生成式 RM 經驗,進行獎勵建模,依靠 LLM 原本的 Scaling 能力,提升獎勵準確性與魯棒性;此外,團隊還將獎勵模型參數量從 0.8B 拓展至 20B 以上。

推理加速相關工作

為促使 Seedream 3.0 擁有更高生成效率,團隊專門針對推理加速進行了優化。

框架方面,模型采用了Hyper-SD 和 RayFlow。這使得生成路徑得到了優化,每個數據點會被引導至特定實例的目標分布,從而實現每個樣本的軌跡定制。這可顯著減少路徑碰撞,并提高生成穩定性和樣本多樣性。

該團隊還引入一種重要性采樣機制來提升效率,其可以學習在訓練過程中關注最關鍵的時間步。此外,Seedream 3.0 的框架也支持高效的少步數采樣,且不會影響生成質量。

打榜一時超越 4o

就比它更強?

看到這,相信不少人也會提問,Seedream 3.0 比起 GPT-4o 如何?打榜超過就一定強么?

在技術報告中,我們發現團隊專門對比了 Seedream 3.0 與 GPT-4o 的表現。需要強調的是,GPT-4o 本質上是一款文本 + 圖像的多模態模型,而這里的對比僅限于圖像生成能力。不過,通過一些案例比較,該團隊也找到了這兩個模型各自的優勢和短板。

例如密集文本渲染方面,團隊發現 GPT-4o 在小英文字符的準確性和某些 LaTeX 符號的渲染方面表現出色。然而, GPT-4o 在渲染中文字體方面表現相對不足,相比之下,Seedream 3.0 可以輕松生成密集的中文文本,并且在排版和構圖美感方面優于 GPT-4o。

下圖給出了一些示例,其中上列來自 Seedream 3.0,下列來自 GPT-4o。



此外,團隊還系統性地對比了包括顏色、紋理、清晰度和美觀度在內的生成質量。

下圖展示了多組示例,每組圖像的左圖來自 Seedream 3.0,右圖來自 GPT-4o。

在生成質量方面,Seedream 系列模型色彩更為飽滿,GPT-4o 生成圖像部分伴有噪點。



值得一提的是,在連續性圖片生成(比如:漫畫、流程圖)方面,GPT-4o 的能力依然讓人感到驚艷,這也是 Seedream 3.0 需要進一步提升之處。

文生圖開卷

全面落地時代已來

最近,文生圖模型又開始卷到飛起,字節 Seedream 3.0 正式亮相的同時,僅在國內,就有好幾家 Artificial Analysis 上榜模型同期發布。

從多模態對齊到高分辨率輸出,再到密集文字渲染與人像真實感優化, Seedream 3.0、GPT-4o 等模型在這一波集體躍遷,MJ、Flux 等曾經的明星模型被逐漸淡忘。而背后的技術演進、系統設計哲學與產品化思路,也將越來越多地決定 AI 在真實世界中的落地路徑與生態潛力。

一輪新競賽已經悄然開場,這些新模型在吸引關注的同時,也有望催生出全新的創作范式。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
路易十四活了77年只洗7次澡,他的首席情婦回憶:十米外臭氣熏天

路易十四活了77年只洗7次澡,他的首席情婦回憶:十米外臭氣熏天

南權先生
2025-05-04 09:20:45
道歉了!河南一景區因交通擁堵道歉:兩年內可免費無限次重游景區

道歉了!河南一景區因交通擁堵道歉:兩年內可免費無限次重游景區

振華觀史
2025-05-04 21:44:23
河北小伙五一來北京舅舅家做客,看到舅媽做的菜惱了:下次不來了

河北小伙五一來北京舅舅家做客,看到舅媽做的菜惱了:下次不來了

阿龍美食記
2025-05-04 15:15:46
副高六級教師,個人賬戶10萬元,2025年8月退休,養老金領多少錢?

副高六級教師,個人賬戶10萬元,2025年8月退休,養老金領多少錢?

平湖一柱網易專號
2025-05-04 21:47:02
倒計時5天,19國確認出席俄慶典,中國也在,澤連斯基暗示將襲擊

倒計時5天,19國確認出席俄慶典,中國也在,澤連斯基暗示將襲擊

荊楚寰宇文樞
2025-05-04 20:07:32
反轉了?肖某否認后,當年護士聊天記錄曝光,誰得錯一看便知

反轉了?肖某否認后,當年護士聊天記錄曝光,誰得錯一看便知

辣條小劇場
2025-04-29 03:16:12
23歲朝鮮姑娘遠嫁上海,7年寄回50萬,回家探親時卻傻眼了

23歲朝鮮姑娘遠嫁上海,7年寄回50萬,回家探親時卻傻眼了

五元講堂
2025-04-29 12:11:33
袁心玥無緣獎牌告別瓦基弗!國外球迷表達不舍,本屆歐冠共砍90分

袁心玥無緣獎牌告別瓦基弗!國外球迷表達不舍,本屆歐冠共砍90分

排球黃金眼
2025-05-05 00:17:15
女人出軌一次,還會有第二次嗎?我的經歷說出實話

女人出軌一次,還會有第二次嗎?我的經歷說出實話

楊木林
2024-02-29 15:27:14
無法承受之痛?美悄悄將自行車、吸塵器等日用品從加稅清單中撤出

無法承受之痛?美悄悄將自行車、吸塵器等日用品從加稅清單中撤出

荊楚寰宇文樞
2025-05-04 18:24:29
油價大降1.2元/升,92號汽油跌破地板線后重新下跌,5月19日調價

油價大降1.2元/升,92號汽油跌破地板線后重新下跌,5月19日調價

豬友巴巴
2025-05-03 15:30:03
蘇州買房補貼新政:5月1日-6月30日買新建商品住房,可享受購房合同金額的0.5%的補貼

蘇州買房補貼新政:5月1日-6月30日買新建商品住房,可享受購房合同金額的0.5%的補貼

界面新聞
2025-05-03 10:12:01
美財長要求中國讓步,27國也突然對華加稅,外交部四個字說明一切

美財長要求中國讓步,27國也突然對華加稅,外交部四個字說明一切

悅悅侃歷史
2025-05-04 13:25:07
張雨綺真空大方展示傲人胸部曲線,這才是人間尤物

張雨綺真空大方展示傲人胸部曲線,這才是人間尤物

傲嬌的馬甲線
2025-05-04 18:35:02
曼聯多打一人卡塞米羅仍跑10公里!復蘇秘訣曝光,多練體能不抱怨

曼聯多打一人卡塞米羅仍跑10公里!復蘇秘訣曝光,多練體能不抱怨

羅米的曼聯博客
2025-05-04 10:42:34
為何說中國發展電車絕對正確?因為電車能提供十倍于燃油車的崗位

為何說中國發展電車絕對正確?因為電車能提供十倍于燃油車的崗位

凱撒談兵
2025-05-04 21:32:07
不容易啊!場均2.7分+31%命中率!布朗尼:壓力大,有點吃不消

不容易啊!場均2.7分+31%命中率!布朗尼:壓力大,有點吃不消

球童無忌
2025-05-05 01:45:55
居勒爾以100%成功率完成60次傳球,皇馬上一位做到的中場是克羅斯

居勒爾以100%成功率完成60次傳球,皇馬上一位做到的中場是克羅斯

直播吧
2025-05-04 22:41:25
祝賀,波茲洛娃成首位斯諾克三大賽決賽全部執法過的女裁判

祝賀,波茲洛娃成首位斯諾克三大賽決賽全部執法過的女裁判

懂球帝
2025-05-05 03:15:07
第一季度業績暴漲超1000%的5家龍頭,值得收藏!

第一季度業績暴漲超1000%的5家龍頭,值得收藏!

小語論事
2025-05-04 20:14:01
2025-05-05 03:56:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10436文章數 142301關注度
往期回顧 全部

科技要聞

巴菲特:理性看待AI炒作 耐心是關鍵

頭條要聞

游船側翻游客:要返航大家還有點失望 越到后面越害怕

頭條要聞

游船側翻游客:要返航大家還有點失望 越到后面越害怕

體育要聞

聯盟30隊首發得分后衛,他只能排第29位?

娛樂要聞

55歲王菲跟“李亞鵬時期”完全不同!

財經要聞

一個時代的結束!巴菲特年底將卸任

汽車要聞

小米SU7大優惠!5月限時購車權益送輔助駕駛

態度原創

藝術
教育
家居
手機
游戲

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

如果有100度的水加0度的水,最后等于多少度?

家居要聞

黑白紋理 簡約低調空間

手機要聞

曝蘋果正在開發20周年紀念版iPhone

圣騎士要來了?制作人稱《暗黑4》仍有開發潛力

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 万安县| 南昌县| 许昌市| 渝中区| 安徽省| 雅安市| 靖江市| 韩城市| 蚌埠市| 澜沧| 迭部县| 独山县| 龙井市| 福安市| 丰都县| 连平县| 常德市| 北辰区| 临潭县| 黔西县| 成武县| 莱芜市| 岳普湖县| 澳门| 义马市| 浮山县| 鄂温| 甘谷县| 平果县| 东至县| 遵化市| 罗甸县| 浦城县| 元江| 海门市| 张家川| 重庆市| 西藏| 上虞市| 同仁县| 钟祥市|