網易首頁 > 網易號 > 正文申請入駐

智源新出OmniGen2開源神器，一鍵解鎖AI繪圖「哆啦 A 夢」任意門

2025-07-03 13:22:42　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

機器之心編輯部

2024 年 9 月，智源研究院發布了統一圖像生成模型 OmniGen。該模型在單一架構內即可支持多種圖像生成任務，包括文本生成圖像（Text-to-Image Generation）、圖像編輯（Image Editing）和主題驅動圖像生成（Subject-driven Image Generation）。用戶僅需使用多模態的自然語言指令，便可靈活實現上述功能，無需依賴額外的上下文提示、插件或預處理模塊。憑借其功能的高度通用性與架構的高度簡潔性，OmniGen 一經發布便獲得社區的廣泛好評。隨后，隨著 Gemini 2.0 Flash 和 GPT-4o 等閉源多模態模型的相繼發布，構建統一圖像生成模型成為當前最受關注的研究與應用方向之一。

在這一背景下，OmniGen 迎來重大技術升級，正式發布OmniGen2。新一代模型在保持簡潔架構的基礎上，顯著增強了上下文理解能力、指令遵循能力和圖像生成質量。同時，OmniGen2 全面繼承了其基座多模態大模型在上下文理解與生成方面的能力，同時支持圖像和文字生成，進一步打通了多模態技術生態。同時，模型權重、訓練代碼及訓練數據將全面開源，為社區開發者提供優化與擴展的基礎。這些特性都將推動統一圖像生成模型從構想向現實的轉變。

1. 分離式架構 + 雙編碼器策略

OmniGen2 采取了分離式架構解耦文本和圖像，同時采用了 ViT 和 VAE 的雙編碼器策略。不同于其他工作，ViT 和 VAE 獨立作用于 MLLM 和 Diffusion Transformer 中，提高圖像一致性的同時保證原有的文字生成能力。

2. 數據生成流程重構

OmniGen2 也在探索解決阻礙領域發展的基礎數據和評估方面的難題。相關的開源數據集大多存在固有的質量缺陷，尤其是在圖像編輯任務中，圖像質量和質量準確度都不高。而對于圖片上下文參考生成任務，社區中缺乏相應的大規模多樣化的訓練數據。這些缺陷極大地導致了開源模型和商業模型之間顯著的性能差距。為了解決這個問題，OmniGen2 開發了一個從視頻數據和圖像數據中生成圖像編輯和上下文參考數據的構造流程。

3. 圖像生成反思機制

受到大型語言模型自我反思能力的啟發，OmniGen2 還探索了將反思能力整合到多模態生成模型中的策略。基于 OmniGen2 的基礎模型構建了面對圖像生成的反思數據。反思數據由文本和圖像的交錯序列組成，首先是一個用戶指令，接著是多模態模型生成的圖像，然后是針對之前生成輸出的逐步反思。

每條反思都涉及兩個關鍵方面：

1）對與原始指令相關的缺陷或未滿足要求的分析，

2）為解決前一幅圖像的局限性而提出的解決方案。

經過訓練的模型具備初步的反思能力，未來目標是進一步使用強化學習進行訓練。

OmniGen2 發布一周 GitHub 星標突破2000，X 上相關話題瀏覽量數十萬

現在科研體驗版已開放，可搶先嘗試圖像編輯、上下文參照的圖像生成等特色能力。

科研體驗版鏈接：https://genai.baai.ac.cn

OmniGen2 的玩法簡單，只需要輸入提示詞，就能解鎖豐富的圖像編輯與生成能力。

1. 基于自然語言指令的圖像編輯

OmniGen2 支持基于自然語言指令的圖片編輯功能，可實現局部修改操作，包括物體增刪、顏色調整、人物表情修改、背景替換等。

2. 多模態上下文參考的圖像生成

OmniGen2 可從輸入圖像中提取指定元素，并基于這些元素生成新圖像。例如，將物品 / 人物置于新的場景中。當前 OmniGen2 更擅長保持物體相似度而不是人臉相似度。

3. 文生圖

OmniGen2 能夠生成任意比例的圖片。

OmniGen2 在已有基準上取得了頗具競爭力的結果，包括文生圖，圖像編輯。然而，對于圖片上下文參考生成（in-context generation) 任務，目前還缺乏完善的公共基準來系統地評估和比較不同模型的關鍵能力。

現有的上下文圖像生成基準在捕獲實際應用場景方面存在不足。它們不考慮具有多個輸入圖像的場景，并且受到上下文類型和任務類型的限制。同時，先前的基準使用 CLIP-I 和 DINO 指標來評估上下文生成的圖像的質量。這些指標依賴于輸入和輸出之間的圖像級相似性，這使得它們不適用于涉及多個主題的場景，并且缺乏可解釋性。

為了解決這一限制，團隊引入了OmniContext 基準，其中包括8 個任務類別，專門用于評估個人、物體和場景的一致性。數據的構建采用多模態大語言模型初篩和人類專家手工標注相結合的混合方法。

OmniGen2 依托智源研究院自研的大模型訓練推理并行框架 FlagScale，開展推理部署優化工作。通過深度重構模型推理鏈路，并融合 TeaCache 緩存加速策略，實現 32% 的推理效率提升，大幅縮短響應時間并強化服務效能。同時，框架支持一鍵式跨機多實例彈性部署，有效提升集群資源整體利用率。團隊將持續推進軟硬協同優化，構建高效推理部署能力體系。

OmniGen2 的模型權重、訓練代碼及訓練數據將全面開源，為開發者提供優化與擴展的新基礎，推動統一圖像生成模型從構想加速邁向現實。

OmniGen2 相關鏈接：

Github: https://github.com/VectorSpaceLab/OmniGen2/
論文：https://arxiv.org/abs/2506.18871
模型：https://huggingface.co/BAAI/OmniGen2
科研體驗版鏈接：https://genai.baai.ac.cn

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.