新智元報道
編輯:Aeneas 桃子
【新智元導讀】智源統一圖像生成模型OmniGen2發布后,立刻在AI圖像生成領域掀起巨響,多模態技術生態進一步打通。才一周,GitHub星標就已經破了2000,X上的話題瀏覽數直接破數十萬。
剛剛,統一圖像生成模型OmniGen2攜重大升級震撼登場。
2024年9月,智源首次放出OmniGen,憑借高度通用性和簡潔架構,深受AI社區廣泛好評。
憑借單一模型,它不僅支持文本生圖像、圖像編輯、主題驅動圖像生成等多種任務,徹底顛覆了傳統多模態模型的復雜設計。
如今,全新4B版OmniGen2在繼承簡潔架構的基礎上,大幅提升了上下文理解與指令遵循能力,在圖像生成質量實現了質的飛躍。
Github:https://github.com/VectorSpaceLab/OmniGen2/
論文:https://arxiv.org/abs/2506.18871
模型:https://huggingface.co/BAAI/OmniGen2
它深度融合基座多模態大模型的強大能力,支持圖像與文字的無縫集成,徹底打破了多模態技術生態。
更令人振奮的是,OmniGen2模型權重、訓練代碼、訓練數據全面開源。
僅發布一周,其在GitHub星標突破2000,X上相關話題瀏覽量數十萬。
OmniGen2將為全球開發者提供無限可能,加速統一圖像生成模型從前沿構想邁向廣泛應用的現實。
在實際測試中,OmniGen2有多驚艷?
一句話解鎖,人人上手可玩
OmniGen2的玩法簡單,只需要輸入提示詞,就能解鎖豐富的圖像編輯與生成能力。
現在,科研體驗版已開放,可搶先嘗試圖像編輯、上下文參照的圖像生成等特色能力。
科研體驗版鏈接:https://genai.baai.ac.cn
「動嘴」編輯圖像
OmniGen2可以通過自然語言指令,實現編輯圖片的功能,以及局部修改操作。
其中包括,物體增刪、顏色調整、人物表情修改、背景替換等等。
它可以給太乙真人上個「揮手」動作,讓黃色裙子變成藍色,甚至,還能為二次元老婆換上教室背景圖。
當你說一句,「移除貓」,貓就消失了。
如下,還有更多的demo示例。
注:圖片僅為科研使用,如有任何問題請與智源研究院聯系
多模態上下文參考
更令人驚艷的是,OmniGen2還可以從輸入圖像中提取指定元素,并基于此生成新圖像。
如下圖所示,提供兩張參考圖,AI可以瞬間將其無縫合成一張,毫無違和感。
再比如,將第一張圖中蘋果,替換成第二張圖片中的貓,OmniGen2瞬間完成。
順便提一句,當前OmniGen2更擅長保持物體相似度,而不是人臉相似度。
注:圖片僅為科研使用,如有任何問題請與智源研究院聯系
此外,OmniGen2還能生成任意比例的圖片,1:1、2:1、3:2等任意比例均可以。
核心技術拆解,全部開源
可以看到,OmniGen2在AI圖像編輯達到了一個全新高度。它能夠取得如此驚艷的表現,離不開背后獨創核心技術架構。
分離式架構與雙編碼器策略
OmniGen2采取了分離式架構解耦文本和圖像,同時采用了ViT和VAE的雙編碼器策略。
不同于其他研究,ViT和VAE獨立作用于MLLM和Diffusion Transformer中,提高圖像一致性的同時保證原有的文字生成能力。
數據生成流程重構
OmniGen2也在探索解決阻礙領域發展的基礎數據和評估方面的難題。
相關的開源數據集大多存在固有的質量缺陷,尤其是在圖像編輯任務中,圖像質量和質量準確度都不高。
而對于圖片上下文參考生成任務,社區中缺乏相應的大規模多樣化的訓練數據。
這些缺陷極大地導致了開源模型和商業模型之間顯著的性能差距。
為了解決這個問題,OmniGen2開發了一個從視頻數據和圖像數據中生成圖像編輯和上下文參考數據的構造流程。
圖像生成反思機制
受到大型語言模型自我反思能力的啟發,OmniGen2還探索了將反思能力整合到多模態生成模型中的策略。
基于OmniGen2的基礎模型構建了面對圖像生成的反思數據。
反思數據由文本和圖像的交錯序列組成,首先是一個用戶指令,接著是多模態模型生成的圖像,然后是針對之前生成輸出的逐步反思。
每條反思都涉及兩個關鍵方面:
1)對與原始指令相關的缺陷或未滿足要求的分析;
2)為解決前一幅圖像的局限性而提出的解決方案。
經過訓練的模型具備初步的反思能力,未來目標是進一步使用強化學習進行訓練。
OmniGen2在已有基準上取得了頗具競爭力的結果,包括文生圖,圖像編輯。
然而,對于圖片上下文參考生成(in-context generation)任務,目前還缺乏完善的公共基準來系統地評估和比較不同模型的關鍵能力。
現有的上下文圖像生成基準在捕獲實際應用場景方面存在不足。
它們不考慮具有多個輸入圖像的場景,并且受到上下文類型和任務類型的限制。同時,先前的基準使用CLIP-I和DINO指標來評估上下文生成的圖像的質量。
這些指標依賴于輸入和輸出之間的圖像級相似性,這使得它們不適用于涉及多個主題的場景,并且缺乏可解釋性。
為了解決這一限制,智源引入了OmniContext基準,其中包括8個任務類別,專門用于評估個人、物體和場景的一致性。
數據的構建采用多模態大語言模型初篩和人類專家手工標注相結合的混合方法。
OmniGen2依托智源研究院自研的大模型訓練推理并行框架FlagScale,開展推理部署優化工作。
通過深度重構模型推理鏈路,并融合TeaCache緩存加速策略,實現32%的推理效率提升,大幅縮短響應時間并強化服務效能。同時,框架支持一鍵式跨機多實例彈性部署,有效提升集群資源整體利用率。
團隊將持續推進軟硬協同優化,構建高效推理部署能力體系。
OmniGen2的模型權重、訓練代碼及訓練數據將全面開源,為開發者提供優化與擴展的新基礎,推動統一圖像生成模型從構想加速邁向現實。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.