GPT-4o 在3月底掀起的“吉卜力”風潮過去還沒多久,字節又加入了圖像生成競賽。
4月15日,字節Seed團隊發布了中英雙語圖像生成基礎模型 Seedream 3.0,主要在文本渲染能力增強、美學質量提升、原生高分辨率輸出、高效推理成本方面進行了優化。
Seedream 3.0支持原生 2K 分辨率圖像生成,無需后處理,同時兼容更高分辨率,適應多種比例輸出。在不使用位置編碼(PE)情況下,生成一張 1K 分辨率圖像僅需約 3 秒,速度遠超當前主流商用模型。
字節還針對 CT(對比學習)和 SFT(監督微調)階段的數據,專門訓練了多個版本的字幕模型。這些描述模型覆蓋了美學、風格、版式等多個專業領域,極大增強了 Seedream 3.0 對提示詞的響應能力。
?
Seedream 3.0 繼續采用 MMDiT 架構來處理圖像和文本的 token。團隊采用混合分辨率訓練策略,在每一階段訓練中,將不同縱橫比和分辨率的圖像打包在一起進行訓練。為提高泛化能力,團隊將 2.0 中的 Scaling RoPE 擴展為“跨模態 RoPE”,進一步增強圖文 token 之間的對齊能力。
?
與2.0 中采用 CLIP 作為獎勵模型不同,Seedream 3.0 使用視覺-語言模型(VLMs)作為獎勵建模框架,將指令明確地構建為查詢(Query),并通過“Yes”響應 token 的歸一化概率來計算獎勵值。獎勵模型的規模也從 10 億參數擴展到了 200 億以上。
字節在論文中表示,在人工智能評測平臺 Artificial Analysis 的公開測試中,Seedream 3.0 在多個維度表現領先,位居圖文生成模型榜首,超越 GPT-4o、Midjourney v6.1、Imagen 3 等主流模型。
?
另外,字節還特地跟GPT-4o進行了對比。
OpenAI 的 GPT-4o 雖具強大多模態能力,但在圖像生成方面仍存在短板。對比顯示,Seedream 3.0 在中文文本渲染、圖像編輯一致性和整體畫質上表現更優。
GPT-4o 擅長英文小字與符號,但中文排版欠佳;圖像編輯功能靈活,卻難保原圖一致性。SeedEdit 則在保留人物 ID 和提示詞遵循上更穩健。畫質方面,Seedream 圖像更清晰自然,而 GPT-4o 常出現偏色和噪點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.