99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

智源新出OmniGen2開源神器,一鍵解鎖AI繪圖「哆啦 A 夢」任意門

0
分享至



機器之心發布

機器之心編輯部

2024 年 9 月,智源研究院發布了統一圖像生成模型 OmniGen。該模型在單一架構內即可支持多種圖像生成任務,包括文本生成圖像(Text-to-Image Generation)、圖像編輯(Image Editing)和主題驅動圖像生成(Subject-driven Image Generation)。用戶僅需使用多模態的自然語言指令,便可靈活實現上述功能,無需依賴額外的上下文提示、插件或預處理模塊。憑借其功能的高度通用性與架構的高度簡潔性,OmniGen 一經發布便獲得社區的廣泛好評。隨后,隨著 Gemini 2.0 Flash 和 GPT-4o 等閉源多模態模型的相繼發布,構建統一圖像生成模型成為當前最受關注的研究與應用方向之一。

在這一背景下,OmniGen 迎來重大技術升級,正式發布OmniGen2。新一代模型在保持簡潔架構的基礎上,顯著增強了上下文理解能力、指令遵循能力和圖像生成質量。同時,OmniGen2 全面繼承了其基座多模態大模型在上下文理解與生成方面的能力,同時支持圖像和文字生成,進一步打通了多模態技術生態。同時,模型權重、訓練代碼及訓練數據將全面開源,為社區開發者提供優化與擴展的基礎。這些特性都將推動統一圖像生成模型從構想向現實的轉變。

1. 分離式架構 + 雙編碼器策略

OmniGen2 采取了分離式架構解耦文本和圖像,同時采用了 ViT 和 VAE 的雙編碼器策略。不同于其他工作,ViT 和 VAE 獨立作用于 MLLM 和 Diffusion Transformer 中,提高圖像一致性的同時保證原有的文字生成能力。



2. 數據生成流程重構

OmniGen2 也在探索解決阻礙領域發展的基礎數據和評估方面的難題。相關的開源數據集大多存在固有的質量缺陷,尤其是在圖像編輯任務中,圖像質量和質量準確度都不高。而對于圖片上下文參考生成任務,社區中缺乏相應的大規模多樣化的訓練數據。這些缺陷極大地導致了開源模型和商業模型之間顯著的性能差距。為了解決這個問題,OmniGen2 開發了一個從視頻數據和圖像數據中生成圖像編輯和上下文參考數據的構造流程。



3. 圖像生成反思機制

受到大型語言模型自我反思能力的啟發,OmniGen2 還探索了將反思能力整合到多模態生成模型中的策略。基于 OmniGen2 的基礎模型構建了面對圖像生成的反思數據。反思數據由文本和圖像的交錯序列組成,首先是一個用戶指令,接著是多模態模型生成的圖像,然后是針對之前生成輸出的逐步反思。

每條反思都涉及兩個關鍵方面:

1)對與原始指令相關的缺陷或未滿足要求的分析,

2)為解決前一幅圖像的局限性而提出的解決方案。



經過訓練的模型具備初步的反思能力,未來目標是進一步使用強化學習進行訓練。



OmniGen2 發布一周 GitHub 星標突破2000,X 上相關話題瀏覽量數十萬



現在科研體驗版已開放,可搶先嘗試圖像編輯、上下文參照的圖像生成等特色能力。

科研體驗版鏈接:https://genai.baai.ac.cn

OmniGen2 的玩法簡單,只需要輸入提示詞,就能解鎖豐富的圖像編輯與生成能力。

1. 基于自然語言指令的圖像編輯

OmniGen2 支持基于自然語言指令的圖片編輯功能,可實現局部修改操作,包括物體增刪、顏色調整、人物表情修改、背景替換等。



2. 多模態上下文參考的圖像生成

OmniGen2 可從輸入圖像中提取指定元素,并基于這些元素生成新圖像。例如,將物品 / 人物置于新的場景中。當前 OmniGen2 更擅長保持物體相似度而不是人臉相似度。



3. 文生圖

OmniGen2 能夠生成任意比例的圖片。



OmniGen2 在已有基準上取得了頗具競爭力的結果,包括文生圖,圖像編輯。然而,對于圖片上下文參考生成(in-context generation) 任務,目前還缺乏完善的公共基準來系統地評估和比較不同模型的關鍵能力。

現有的上下文圖像生成基準在捕獲實際應用場景方面存在不足。它們不考慮具有多個輸入圖像的場景,并且受到上下文類型和任務類型的限制。同時,先前的基準使用 CLIP-I 和 DINO 指標來評估上下文生成的圖像的質量。這些指標依賴于輸入和輸出之間的圖像級相似性,這使得它們不適用于涉及多個主題的場景,并且缺乏可解釋性。

為了解決這一限制,團隊引入了OmniContext 基準,其中包括8 個任務類別,專門用于評估個人、物體和場景的一致性。數據的構建采用多模態大語言模型初篩和人類專家手工標注相結合的混合方法。



OmniGen2 依托智源研究院自研的大模型訓練推理并行框架 FlagScale,開展推理部署優化工作。通過深度重構模型推理鏈路,并融合 TeaCache 緩存加速策略,實現 32% 的推理效率提升,大幅縮短響應時間并強化服務效能。同時,框架支持一鍵式跨機多實例彈性部署,有效提升集群資源整體利用率。團隊將持續推進軟硬協同優化,構建高效推理部署能力體系。

OmniGen2 的模型權重、訓練代碼及訓練數據將全面開源,為開發者提供優化與擴展的新基礎,推動統一圖像生成模型從構想加速邁向現實。

OmniGen2 相關鏈接:

  • Github: https://github.com/VectorSpaceLab/OmniGen2/
  • 論文:https://arxiv.org/abs/2506.18871
  • 模型:https://huggingface.co/BAAI/OmniGen2
  • 科研體驗版鏈接:https://genai.baai.ac.cn

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
西媒:亞馬爾在生日派對上所穿戴的服裝及配飾,其總價值超5000歐

西媒:亞馬爾在生日派對上所穿戴的服裝及配飾,其總價值超5000歐

直播吧
2025-07-16 19:16:19
國家衛健委:推薦高齡老年人每月至少測量兩次體重

國家衛健委:推薦高齡老年人每月至少測量兩次體重

人民日報健康客戶端
2025-07-16 16:51:32
現代版“浸豬籠”

現代版“浸豬籠”

燕梳樓頻道
2025-07-14 13:49:23
蒙馬特慘劇:受邀參加國慶閱兵的年輕軍官不幸墜亡,終年32歲

蒙馬特慘劇:受邀參加國慶閱兵的年輕軍官不幸墜亡,終年32歲

新歐洲
2025-07-15 20:09:59
迪馬:國米已與盧克曼達成協議,無論賣人與否都準備投4000萬

迪馬:國米已與盧克曼達成協議,無論賣人與否都準備投4000萬

懂球帝
2025-07-16 23:45:35
紅姐到紅爺再到紅哥 無處不在的影像啊

紅姐到紅爺再到紅哥 無處不在的影像啊

攝影筆記
2025-07-08 13:57:11
美國你做初一,我們就做十五,你賣武器給臺灣,我們就賣給伊朗

美國你做初一,我們就做十五,你賣武器給臺灣,我們就賣給伊朗

大道無形我有型
2025-07-15 15:49:43
智駕車型保有量超100萬輛 比亞迪:將進行“天神之眼”史上最大規模的智駕OTA

智駕車型保有量超100萬輛 比亞迪:將進行“天神之眼”史上最大規模的智駕OTA

每日經濟新聞
2025-07-16 23:34:02
3天后,東莞正式進入!持續30天!

3天后,東莞正式進入!持續30天!

東莞潮事兒
2025-07-16 12:32:41
誰能料到,伊朗內鬼終于找到了!是以色列摩薩德女間諜沙克達姆,

誰能料到,伊朗內鬼終于找到了!是以色列摩薩德女間諜沙克達姆,

大道無形我有型
2025-07-16 12:33:11
這一次,被傳欠債百萬,被何超瓊起訴的向佐,徹底撕碎向家遮羞布

這一次,被傳欠債百萬,被何超瓊起訴的向佐,徹底撕碎向家遮羞布

墨印齋
2025-07-16 13:34:24
陳剛帶隊到北京經濟技術開發區學習調研

陳剛帶隊到北京經濟技術開發區學習調研

政知新媒體
2025-07-16 09:26:12
三浦知良刷最年長出場紀錄被噴:不交駕照高齡者,剝奪年輕人機會

三浦知良刷最年長出場紀錄被噴:不交駕照高齡者,剝奪年輕人機會

雷速體育
2025-07-16 11:34:10
首顆原子彈的生死時速,聶榮臻錢學森激烈討論,聶帥拍桌:就是現在

首顆原子彈的生死時速,聶榮臻錢學森激烈討論,聶帥拍桌:就是現在

燦爛夏天
2025-07-10 12:08:35
一場糾紛牽出的“騙婚”疑云:經發小介紹男子“閃婚”,女方后稱與介紹人系情人

一場糾紛牽出的“騙婚”疑云:經發小介紹男子“閃婚”,女方后稱與介紹人系情人

紅星新聞
2025-07-15 23:07:16
福建誕生今年最大IPO,總市值近3000億元

福建誕生今年最大IPO,總市值近3000億元

華美財經
2025-07-16 23:37:10
俄烏戰爭特別報道:慶祝中的“但是”

俄烏戰爭特別報道:慶祝中的“但是”

西樓飲月
2025-07-16 23:35:43
官方報道宗慶后3個私生子現狀!長子從事金融投資,小兒子已成年

官方報道宗慶后3個私生子現狀!長子從事金融投資,小兒子已成年

180視角
2025-07-16 14:49:17
慘劇!為撿手機,法國喜劇演員不慎滑倒從八樓墜樓離世!

慘劇!為撿手機,法國喜劇演員不慎滑倒從八樓墜樓離世!

手工制作阿殲
2025-07-16 20:36:14
為什么俄羅斯“非死不可”?3個西方“整死”俄羅斯的深層原因

為什么俄羅斯“非死不可”?3個西方“整死”俄羅斯的深層原因

伴史緣
2025-07-11 14:38:05
2025-07-17 07:11:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10881文章數 142381關注度
往期回顧 全部

科技要聞

網易直擊黃仁勛見面會,他說了這28句話

頭條要聞

白宮官員放風“很快解雇鮑威爾” 特朗普回應

頭條要聞

白宮官員放風“很快解雇鮑威爾” 特朗普回應

體育要聞

不給楊瀚森傳球,他有自己的理由

娛樂要聞

都美竹將參加綜藝,單身媽媽發文抵制

財經要聞

探究萬億市場的休閑零食

汽車要聞

理想i8內飾官圖公布 李想回應"被打臉"

態度原創

健康
家居
親子
本地
公開課

呼吸科專家破解呼吸道九大謠言!

家居要聞

浪漫典雅 法式風格別墅

親子要聞

讀寫臺火了,三甲醫院都在擺!花5000元孩子用了卻頭暈,屏幕中心成像凹陷

本地新聞

“別墅里面唱K”怎么就成了臺灣人的跳舞開關

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 德庆县| 张家港市| 白银市| 南木林县| 云浮市| 留坝县| 娱乐| 苏尼特左旗| 中方县| 府谷县| 玉环县| 平度市| 中牟县| 衡阳市| 驻马店市| 射洪县| 广东省| 海林市| 苏尼特右旗| 门头沟区| 天气| 临澧县| 兰考县| 汽车| 合山市| 安乡县| 马公市| 河间市| 横山县| 泗阳县| 剑阁县| 鸡泽县| 武定县| 固始县| 平定县| 青州市| 河曲县| 开封市| 小金县| 肥西县| 石泉县|