網易首頁 > 網易號 > 正文申請入駐

Mogao=Seedream 3.0？霸榜數天，神秘文生圖模型曝光

2025-04-16 16:54:31　來源: 機器之心Pro

北京舉報

分享至

機器之心報道，編輯：澤南、Panda。

霸榜數天的神秘文生圖模型 Mogao，什么來頭？

這兩天，不少業內人已在詢問「這個魔法般模型」的出處。

有人對模型效果頗為認可，好奇如何體驗。

神秘模型 Mogao 的橫空出世，始于近期它在盲測打分的 Artificial Analysis 文生圖排行榜上迅速躥升，一度排名第一，位列 GPT-4o、Recraft V3、Imagen 3、Midjourney v6.1 等模型之前。

從社交媒體也能看到，網友對該模型近乎一水的好評。

昨晚，Mogao 的神秘面紗終于被揭下。

它背后是圖像生成基礎模型 Seedream 3.0，來自字節跳動 Seed 團隊。

在 Artificial Analysis 文生圖榜單上，除了拿下總榜第一，Seedream 3.0 在真實、圖形設計與數字渲染、動漫、卡通與插圖、復古風、傳統藝術等不同風格，以及文字、商務、人像、自然、幻想等不同維度均表現領先。

圖片從左至右展示了在真實感、動漫、人像這三個細分項上的前 10 名。

尤其海報設計方面，Seedream 3.0 表現尤為突出，不僅小字崩壞率低，輸出圖像的設計感也很強。

眾所周知，Seedream 3.0 已于 4 月初在字節自家的即夢和豆包平臺上線，其在文字生成和排版上的出色能力備受關注。

而就在今天，字節跳動 Seed 團隊也對外發布了 Seedream 3.0 技術報告，詳細披露了模型的性能表現和技術細節。

機器之心帶大家一睹為快。

技術報告：https://team.doubao.com/zh/tech/seedream3_0
arXiv：https://arxiv.org/abs/2504.11346

定性定量評估俱佳

文生圖 SOTA 實至名歸

Seedream 3.0 不久前開放使用時，我們已經專門體驗了一番，參閱《實測完 Seedream 3.0，我后悔大學選了設計專業……》。

總結起來，相比于市面上其它同類產品，Seedream 3.0 優勢體現在 —— 速度與質量兼備、文字準且美、原生支持 2K 圖像輸出三個方面。

根據官方披露的技術報告也能發現，模型在結構、指令遵循、美感、人像、文本可用性等多個維度均表現突出。

綜合能力之外，團隊還強調了密集文本渲染和逼真人像生成兩方面能力。

具體來說，在生成結果中，Seedream 3.0 中文和英文字符的文本可用率均達到 94%，基本讓文本渲染不再成為圖像生成的掣肘。

除了可用率的整體提升之外，相比 2.0 版本，Seedream 3.0 渲染密集文本的能力也有重大提升，同時其小字符生成的準確率和文本布局的自然度也顯著明顯進步。

在人像真實感方面，團隊為評估模型表現，專門構建了一個采用 Elo 競賽機制、包含 100 個提示的人像評估新基準，囊括表情、姿勢、角度、發質、膚質、服飾、配飾等人像生成的方方面面。

經過超過 50000 輪的公開評估，Seedream 3.0 與 Midjourney V6.1 同處第一梯隊，相比其他模型優勢明顯。

從示例可以看到，Seedream 3.0 能有效消除人像生成的「AI 感」，可生成帶有皺紋、絨毛和疤痕等真實特征的皮膚質感，逼真度已基本接近專業攝影水平。

機器之心還在實際評測發現，Seedream 3.0 不需要像之前一樣執行超分辨率操作，而是可以一鍵直出 2K 分辨率圖像。

對比其他模型，Seedream 3.0 也展現出極快的生成效率。

根據實測體驗，Seedream 3.0 基本十幾秒左右就能生成 4 張 2K 分辨率待選圖像，生成高清圖像（1K）時長更是短至數秒。相較之下，業界同類模型生成一張高清內容的耗時基本在 10 秒以上，而效果較好的 GPT-4o 生成一張高清圖耗時往往超過 1 分鐘。

從數據過濾到后訓練

大量底層技術升級

Seedream 3.0 究竟是如何煉成的？在技術報告中，我們看到了 Seed 研究團隊在數據、預訓練和后訓練上的多項工作。

數據準備階段

在數據上，因之前偏保守的數據過濾策略會極大限制可用數據集大小，團隊引入了一種全新的缺陷感知型訓練范式。

該范式包含一個專門的缺陷檢測器，可通過邊界框預測精確定位缺陷區域。當檢測到的缺陷總面積小于圖像空間的 20%（可配置閾值）時，就會選擇保留這些樣本（之前會被丟棄），同時使用掩碼隱含空間優化。

團隊認為，這種創新方法的效果很好：在保證模型穩定性的同時，將有效訓練數據集擴展了21.7%。

為了優化數據分布，他們提出了一個雙軸協同數據采樣框架，可從視覺形態和語義分布兩個維度進行聯合優化。

團隊還自主研發了一套跨模態檢索系統，進一步增強數據生態系統的協調性，針對圖像 - 文本對，建立了一個聯合嵌入空間。該系統在所有基準測試中均取得了最佳性能。

預訓練階段

Seedream 3.0 的基本架構設計繼承自 2.0 版，采用 MMDiT 來處理圖像和文本 token ，并捕捉兩種模態之間的關系。不過，在 Seedream 3.0 中，團隊增加了基礎模型的總參數，并引入了多項關鍵改進，提高了模型的可擴展性、泛化能力和視覺語言對齊能力，其中包括：

混合分辨率訓練：每個訓練階段中，不同寬高比和分辨率的圖像會被打包在一起，首先在平均分辨率為 2562 的圖像上預訓練模型，然后在更高分辨率的圖像（從 5122 到 20482）上對其進行微調。Seed 團隊還采用了尺寸嵌入作為另一個條件，使模型能夠感知目標分辨率。

跨模態 RoPE：Seedream 2.0 中的 Scaling RoPE 被擴展成了跨模態 RoPE，從而進一步增強了視覺文本 token 的對齊效果和文本渲染精度。其中，文本 token 被視為形狀為 [1, L] 的二維 token，并對文本 token 應用二維 RoPE。

后訓練階段

Seedream 3.0 后訓練流程則包含以下幾個階段：持續訓練（CT）、監督微調（SFT）、人工反饋對齊（RLHF）和提示工程（PE）。各階段效果對比如下圖所示。

為進一步提升美感，在新模型上，團隊專門訓練了多個版本的描述模型。

這些模型能在審美、風格、排版等專業領域提供精準的描述，確保 Seedream 3.0 能夠更有效地響應相關提示，不僅增強了模型的可控性，也提升了提示工程后模型的性能。

另外在獎勵模型上，Seedream 3.0使用了 VLM 作為獎勵建模框架，而不再是 CLIP，并提升了其參數量。

團隊借鑒語言模型中生成式 RM 經驗，進行獎勵建模，依靠 LLM 原本的 Scaling 能力，提升獎勵準確性與魯棒性；此外，團隊還將獎勵模型參數量從 0.8B 拓展至 20B 以上。

推理加速相關工作

為促使 Seedream 3.0 擁有更高生成效率，團隊專門針對推理加速進行了優化。

框架方面，模型采用了Hyper-SD 和 RayFlow。這使得生成路徑得到了優化，每個數據點會被引導至特定實例的目標分布，從而實現每個樣本的軌跡定制。這可顯著減少路徑碰撞，并提高生成穩定性和樣本多樣性。

該團隊還引入一種重要性采樣機制來提升效率，其可以學習在訓練過程中關注最關鍵的時間步。此外，Seedream 3.0 的框架也支持高效的少步數采樣，且不會影響生成質量。

打榜一時超越 4o

就比它更強？

看到這，相信不少人也會提問，Seedream 3.0 比起 GPT-4o 如何？打榜超過就一定強么？

在技術報告中，我們發現團隊專門對比了 Seedream 3.0 與 GPT-4o 的表現。需要強調的是，GPT-4o 本質上是一款文本 + 圖像的多模態模型，而這里的對比僅限于圖像生成能力。不過，通過一些案例比較，該團隊也找到了這兩個模型各自的優勢和短板。

例如密集文本渲染方面，團隊發現 GPT-4o 在小英文字符的準確性和某些 LaTeX 符號的渲染方面表現出色。然而， GPT-4o 在渲染中文字體方面表現相對不足，相比之下，Seedream 3.0 可以輕松生成密集的中文文本，并且在排版和構圖美感方面優于 GPT-4o。

下圖給出了一些示例，其中上列來自 Seedream 3.0，下列來自 GPT-4o。

此外，團隊還系統性地對比了包括顏色、紋理、清晰度和美觀度在內的生成質量。

下圖展示了多組示例，每組圖像的左圖來自 Seedream 3.0，右圖來自 GPT-4o。

在生成質量方面，Seedream 系列模型色彩更為飽滿，GPT-4o 生成圖像部分伴有噪點。

值得一提的是，在連續性圖片生成（比如：漫畫、流程圖）方面，GPT-4o 的能力依然讓人感到驚艷，這也是 Seedream 3.0 需要進一步提升之處。

文生圖開卷

全面落地時代已來

最近，文生圖模型又開始卷到飛起，字節 Seedream 3.0 正式亮相的同時，僅在國內，就有好幾家 Artificial Analysis 上榜模型同期發布。

從多模態對齊到高分辨率輸出，再到密集文字渲染與人像真實感優化， Seedream 3.0、GPT-4o 等模型在這一波集體躍遷，MJ、Flux 等曾經的明星模型被逐漸淡忘。而背后的技術演進、系統設計哲學與產品化思路，也將越來越多地決定 AI 在真實世界中的落地路徑與生態潛力。

一輪新競賽已經悄然開場，這些新模型在吸引關注的同時，也有望催生出全新的創作范式。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Recraft爆紅，我們和創始人聊了聊

鈦媒體APP 2025-01-08 17:09:32
1 跟貼 1
用多模態LLM超越YOLOv3！強化學習突破多模態感知極限｜開源

量子位 2025-05-03 12:16:33
3 跟貼 3

AI作圖，拯救“職場牛馬”

鈦媒體APP 2025-01-17 13:25:28
1 跟貼 1

9個案例實測谷歌Gemini文生圖，設計行業“快變天了”

虎嗅APP 2025-03-14 05:44:32
322 跟貼 322
兩張圖定位全球，o3碾壓T0級高手！人類「詭計」被看穿，跨模態推理爆表

新智元 2025-05-04 09:26:56
1 跟貼 1

讓GPT-4.1「頭皮發麻的考試」！OpenAI給大模型上強度，AI能贏嗎？

新智元 2025-05-04 13:24:55
2 跟貼 2

8卡32B模型超越o1預覽版、DeepSeek V3等提出層次化RL推理新范式

機器之心Pro 2025-02-12 11:21:55
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0

AGI失控率＞90%！MIT教授算出「康普頓常數」，AI地球「奪權率」已鎖定？

新智元 2025-05-04 15:04:35
0 跟貼 0
3B模型逆襲7B巨頭！Video-XL-Pro突破長視頻理解極限

量子位 2025-05-04 22:44:21
1 跟貼 1
2年就過氣！ChatGPT催生的百萬年薪崗位，大廠不愿意招了

量子位 2025-05-04 19:15:39
1 跟貼 1
AI長身體，直接做實驗！自主通用科學家，科研界的Scaling Law來了

新智元 2025-05-04 13:27:55
2 跟貼 2
差分注意力機制引領變革，DIFF Transformer攻克長序列建模難題

機器之心Pro 2025-04-29 11:03:19
6 跟貼 6
別再卷數據了，LLM也怕「過勞死」！CMU等揭秘災難性過度訓練

新智元 2025-05-03 13:06:33
10 跟貼 10
重構訓練框架，開源新方法：拋棄替代損失函數，僅需優化原始目標

量子位 2025-04-27 12:22:37
4 跟貼 4
男人帶著一個布加迪汽車模型，來到當鋪就要賣500萬美刀，紀錄片

新鮮尋寶 2025-05-02 20:02:53
42 跟貼 42
書上學理論，實踐出經驗，分享出我的方法和實例

城陽電工電路 2025-05-03 08:52:44
2 跟貼 2
男子與8歲兒子走散急得狠扇自己巴掌

大象新聞 2025-05-04 16:14:43
193 跟貼 193
于東來怒刪賬號：不處理柴懟懟，我就關胖東來，徹底退出零售圈！

新語愛八卦 2025-05-04 08:22:55
5316 跟貼 5316
大媽端著臟水倒進電梯縫隙倒完后顯示屏數字顯示消失

大目看點 2025-05-04 17:21:58
7157 跟貼 7157
76歲老人0圖紙0鐵釘造出1200平米木樓數十年屹立不倒

瀟湘晨報 2025-05-04 13:01:57
4527 跟貼 4527
五一假期折多山自駕車集體掀蓋散熱車主靠邊淡定觀景

青夢白話 2025-05-04 16:09:34
3531 跟貼 3531
人民行動黨在新加坡國會選舉中獲勝

央視新聞客戶端 2025-05-03 22:51:23
2147 跟貼 2147
20世界滅絕動物最后珍貴圖像，珍惜動物，愛惜環境

包子和餃子 2025-05-04 10:54:28
0 跟貼 0
超詳細教程：論文圖片要求有哪些，圖片配色怎么調

生物學霸 2025-03-28 18:10:07
0 跟貼 0
阿維塔回應“風阻系數爭議”：將公開測試以正視聽

手機中國 2025-05-04 06:14:06
1936 跟貼 1936
震驚！網傳鄭州一樓盤房價180萬降到120萬，老業主投訴維權被叫停

火山詩話 2025-05-04 09:37:53
3047 跟貼 3047
哈登總結：搶七8中2見證第6次一輪游僅剩一年合同會被交易嗎

醉臥浮生 2025-05-04 09:55:13
1762 跟貼 1762
上千游客深夜滯留張家界大喊退票？當地通報：表示歉意，將切實提升旅游管理和接待服務水平

界面新聞 2025-05-04 17:05:03
2162 跟貼 2162
爸媽打瞌睡，5歲哥哥帶2歲妹妹獨自下高鐵：想叫他們的，但是覺得保護妹妹比較重要

瀟湘晨報 2025-05-04 16:37:09
774 跟貼 774
Meta華人研究員提出輕量級結構Canon層，提升模型推理深度和廣度

DeepTech深科技 2025-05-04 18:46:21
0 跟貼 0
劉濤塑造媽祖形象深入人心成為福建觀眾心中特殊文化符號

樂樂八卦圈 2025-05-03 15:32:05
4 跟貼 4
太震撼了！這才是兵馬俑最初的樣子。博物館復原兵馬俑色彩

文物真有趣 2025-04-30 12:14:08
0 跟貼 0
美國4月關稅收入超170億美元

澎湃新聞 2025-05-04 09:40:02
1634 跟貼 1634
游客爬武功山遇上大雨旅游秒變“渡劫”

薪火視點 2025-05-04 15:38:40
1007 跟貼 1007
涉釣魚島，臺灣網民怒了！

環球時報新聞 2025-05-04 14:36:58
475 跟貼 475
加沙兒童嚴重營養不良：我想吃肉雞蛋水果

看看新聞Knews 2025-05-04 12:53:52
2009 跟貼 2009
為什么打航母這么困難？發現航母之后能否持續定位是最大難點！

凱撒談兵 2025-05-04 21:42:02
1 跟貼 1
最后2天開戰？印軍搖人，巴鐵迎來第三個強敵，衛星圖像發現異常

小雪有話說 2025-05-03 15:20:23
0 跟貼 0
全紅嬋家人在老家建新房哥哥：不是豪宅！村里還沒自己房子

南方都市報 2025-05-04 18:14:02
1082 跟貼 1082

機器之心Pro

專業的人工智能媒體

10436文章數 142301關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

教育

家居

手機

游戲

手機 / 數碼

房產 / 家居

Mogao=Seedream 3.0？霸榜數天，神秘文生圖模型曝光

巴菲特：理性看待AI炒作 耐心是關鍵

游船側翻游客:要返航大家還有點失望 越到后面越害怕

游船側翻游客:要返航大家還有點失望 越到后面越害怕

聯盟30隊首發得分后衛，他只能排第29位？

55歲王菲跟“李亞鵬時期”完全不同！

一個時代的結束！巴菲特年底將卸任

小米SU7大優惠！5月限時購車權益送輔助駕駛

態度原創

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

如果有100度的水加0度的水，最后等于多少度？

黑白紋理 簡約低調空間

曝蘋果正在開發20周年紀念版iPhone

圣騎士要來了？制作人稱《暗黑4》仍有開發潛力

巴菲特：理性看待AI炒作耐心是關鍵

游船側翻游客:要返航大家還有點失望越到后面越害怕

游船側翻游客:要返航大家還有點失望越到后面越害怕

黑白紋理簡約低調空間