99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

國產(chǎn)SOTA新模型精準get“畫(3+6)條命的動物” | 開源

0
分享至

金磊 整理自 凹非寺
量子位 | 公眾號 QbitAI

生成圖像這件事,會推理的AI才是好AI。

舉個例子,以往要是給AI一句這樣的Prompt:

  • (3+6)條命的動物。

我們?nèi)祟惪隙ㄒ谎劬椭朗秦堖洌獳I的思考過程卻是這樣的:



△雖然生成了貓,但思考過程不對

思考的過程還是把“(3+6)”里的數(shù)字分開來處理,并沒有真正get到其背后“九條命的動物=貓”的本意。

以及像ChatGPT,還是執(zhí)著于在圖片里面展示數(shù)字:



究其原因,是因為當前主流的基于文本進行圖像生成的方法往往依賴固定的文本編碼器,僅能處理“純文本”輸入,難以自然接入圖像、音頻等模態(tài)的信息。

同時,這類系統(tǒng)在應(yīng)對“復(fù)雜世界知識”和“多步驟邏輯推理”方面表現(xiàn)乏力。

但就在最近,清華大學、騰訊ARC Lab、香港中文大學和香港大學聯(lián)手提出了一個新大模型——MindOmni,顯著增強了AI的“推理生成能力”



它不僅能理解復(fù)雜指令,還能基于圖文內(nèi)容展開連貫而可信的“思維鏈”(Chain-of-Thought, CoT),生成具備邏輯性與語義一致性的圖像或文本輸出:



△推理圖像生成可視化結(jié)果對比



△對基于多模態(tài)用戶輸入的推理感知圖像生成可視化結(jié)果對比

那么MindOmni又是如何做到的呢?

深挖MindOmni模型架構(gòu)

MindOmni的架構(gòu)設(shè)計的目的比較清晰,就是為了高效融合視覺理解和生成能力。

其大模型部分基于Qwen2.5-VL構(gòu)建,這是一個先進的視覺語言模型,能夠處理圖像和文本輸入。

它通過預(yù)訓(xùn)練的ViT(Vision Transformer)提取圖像特征,并將文本編碼為離散的標記序列。這種設(shè)計使得模型能夠理解圖像內(nèi)容并生成與之相關(guān)的文本描述。

擴散解碼器是MindOmni生成圖像的核心模塊。

它基于OmniGen構(gòu)建,通過去噪過程將潛在的噪聲信號逐步轉(zhuǎn)化為真實的圖像。與傳統(tǒng)的生成模型相比,OmniGen具有更高的靈活性和生成質(zhì)量。

在生成過程中,模型會將視覺和文本特征與噪聲標記在序列維度進行合并,并通過多次去噪循環(huán)生成最終的圖像。

為了將視覺語言模型與生成模塊有效連接,MindOmni使用一個包含兩個標準Transformer層的連接器來連接兩個模塊,并用于對齊VLM輸出的特征與生成模塊的輸入維度。



△推理框架概述:MindOmni在統(tǒng)一的大型模型中完成視覺理解、多模態(tài)推理生成和視覺編輯任務(wù)

三階段訓(xùn)練流程:從理解到生成的飛躍

MindOmni采用了三階段訓(xùn)練策略,以逐步提升模型的性能和推理生成能力。

第一階段:基礎(chǔ)預(yù)訓(xùn)練

在預(yù)訓(xùn)練階段,MindOmni主要利用開源圖像-文本對和X2I數(shù)據(jù)對來訓(xùn)練連接器。這一階段的目標是讓模型初步具備基本的文本到圖像生成能力。

通過擴散損失和基于KL散度的蒸餾損失作為優(yōu)化目標,模型能夠?qū)W習到圖像和文本之間的語義對齊關(guān)系。

具體來說,模型會通過采樣噪聲數(shù)據(jù)并計算擴散損失來優(yōu)化生成過程,同時利用KL散度來保持與教師模型的一致性。





第二階段:CoT監(jiān)督微調(diào)

在第二階段,研究人員收集了不同粒度的描述性文本,構(gòu)建了推理生成指令數(shù)據(jù)。

這些數(shù)據(jù)包括粗粒度的描述作為答案內(nèi)容,以及細粒度的描述作為推理內(nèi)容。

通過監(jiān)督微調(diào),模型能夠?qū)W習到如何根據(jù)指令生成具有邏輯推理的文本內(nèi)容。

這一階段的訓(xùn)練數(shù)據(jù)還包括通過高性能文生圖模型生成的高質(zhì)量圖像,以提升模型的生成質(zhì)量。

第三階段:推理生成策略優(yōu)化(RGPO)

在第三階段,MindOmni引入了推理生成策略優(yōu)化(RGPO)算法。

這一算法的核心思想是通過強化學習,讓模型能夠顯式地生成邏輯推理鏈。研究人員構(gòu)建了一個包含用戶指令、目標提示和對應(yīng)解釋的純文本訓(xùn)練數(shù)據(jù)集,并設(shè)計了一個推理生成導(dǎo)向的系統(tǒng)提示,引導(dǎo)模型生成推理內(nèi)容。

RGPO強化學習算法

受DeepSeek-R1啟發(fā),研究人員提出了RGPO強化學習算法,通過明確生成邏輯思路鏈來增強模型的推理生成能力。

在部署過程中,策略模型 πΘ首先為每個請求q采樣G組結(jié)果{oi}Gi=1 ,每組結(jié)果包含一個推理鏈oiT和一個對應(yīng)的圖像oiI。

為了提高生成推理過程的質(zhì)量,研究者引入了兩種獎勵函數(shù)來引導(dǎo)策略模型生成連貫有效的輸出:

  1. 格式獎勵評估思路鏈是否符合預(yù)期結(jié)構(gòu),如果內(nèi)容包含在對應(yīng)標簽中,則返回1,否則返回0。
  2. 一致性獎勵使用來自CLIP圖像和文本編碼器的余弦相似度來衡量生成圖像與參考真實提示之間的語義對齊情況。然后,通過所有獎勵值計算第i個輸出的優(yōu)勢Ai,公式如下:





△訓(xùn)練流程概述:研究者提出了一個三階段訓(xùn)練框架,包括預(yù)訓(xùn)練、基于指令的監(jiān)督微調(diào)和基于RGPO的強化學習

在強化學習過程中,研究者引入了兩種基于KL散度的蒸餾策略:DTKL用于文本生成,DIKL用于圖像生成,以懲罰參考模型 πref與先前策略之間的較大偏差,從而促進更平滑的策略過渡,并降低遺忘先前學習知識的風險。

研究人員計算了oi的兩個蒸餾函數(shù),如下所示:



最后,通過最小化目標函數(shù) 來優(yōu)化策略模型,如下所示:





△RGPO中不同Metric的曲線:“Completion Length”表示策略模型在部署過程中的輸出長度;研究人員發(fā)現(xiàn)CoT長度和最終性能并不呈現(xiàn)正相關(guān)性

實驗結(jié)果: 各大基準測試全面領(lǐng)先

視覺理解和生成任務(wù)

通過廣泛的實驗,MindOmni在多個多模態(tài)理解和生成基準測試中表現(xiàn)出色。

在圖像理解方面,MindOmni在MMMU、MMBench和RealworldQA等基準測試中取得了優(yōu)異成績。

與之前的統(tǒng)一模型相比,MindOmni在MMMU上比Janus-Pro提升了10.6%,在MMBench上比MetaMorph提升了9.8%。

這些結(jié)果表明,MindOmni在理解圖像內(nèi)容方面具有顯著優(yōu)勢。

在文本到圖像生成方面,MindOmni在GenEval基準測試中取得了83%的總體分數(shù),超越了其他統(tǒng)一模型。

此外,在DPG-Bench測試中,MindOmni也表現(xiàn)出色,證明了其在生成任務(wù)中的強大能力。



△視覺理解基準測試的性能比較:“Und.”和“Gen.”分別表示“理解”和“生成”



△在 GenEval 和 DPG-Bench 上的性能比較

推理生成能力

MindOmni在推理生成任務(wù)中的表現(xiàn)尤為突出。

在WISE基準測試中,MindOmni在文化知識、時空推理和自然科學等多個子類別中均超越了現(xiàn)有方法,取得了0.71的總體分數(shù)。

與生成型模型(如FLUX和PixArt)以及統(tǒng)一模型(如MetaQuery-XL)相比,MindOmni在推理生成任務(wù)中展現(xiàn)了顯著的優(yōu)勢。這主要得益于其聯(lián)合理解-生成訓(xùn)練和基于CoT引導(dǎo)的強化學習。



△與WISE基準上的最新模型進行比較

定性結(jié)果

研究人員通過可視化不同模型的結(jié)果來展現(xiàn)MindOmni在推理生成方面的性能。

例如,在生成“具有(3 + 6)條命的動物”圖像時,MindOmni能夠正確理解數(shù)學表達式,并生成與之相關(guān)的貓的圖像,體現(xiàn)了其推理生成能力。

此外,在生成“悉尼歌劇院在紐約中午時的場景”圖像時,MindOmni能夠考慮到悉尼和紐約的時差,并生成符合場景描述的圖像。

同時MindOmni在圖文多模態(tài)輸入場景下也表現(xiàn)出色。更多可視化結(jié)果請參考論文及附錄。

消融研究

為了驗證訓(xùn)練策略的有效性,研究人員進行了廣泛的消融實驗。

實驗結(jié)果表明,每個訓(xùn)練階段對模型的性能有重要貢獻。

例如,第一階段的預(yù)訓(xùn)練為模型提供了基本的生成能力;第二階段的監(jiān)督微調(diào)顯著提升了模型在WISE基準測試中的表現(xiàn);而第三階段的RGPO算法則進一步優(yōu)化了模型的推理生成能力。

此外,消融實驗還驗證了不同連接器、KL系數(shù)、組數(shù)和獎勵策略對模型性能的影響。詳細結(jié)果請參考研究論文。

論文鏈接:
https://arxiv.org/pdf/2505.13031

代碼鏈接:
https://github.com/TencentARC/MindOmni

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
71歲的成龍吃火鍋,斷崖式衰老認不出來,網(wǎng)友:年輕時候透支太多

71歲的成龍吃火鍋,斷崖式衰老認不出來,網(wǎng)友:年輕時候透支太多

心誠則靈了
2025-06-07 21:31:40
不看不知道羅馬尼亞樓破工資低,女人太直接,卻依然活的體面!

不看不知道羅馬尼亞樓破工資低,女人太直接,卻依然活的體面!

涂霸天下
2025-06-18 10:29:00
強者8大特質(zhì):丟得起面子、耐得住寂寞、扛得住壓力、受得住打擊

強者8大特質(zhì):丟得起面子、耐得住寂寞、扛得住壓力、受得住打擊

第一桶金學派
2025-06-18 09:25:55
這得有多疼紋身師曬出三球的新紋身 胸口印著”天選之子“

這得有多疼紋身師曬出三球的新紋身 胸口印著”天選之子“

直播吧
2025-06-18 04:43:13
救護車800公里收2.8w,家屬「震驚」,衛(wèi)健委“調(diào)查結(jié)果”來了

救護車800公里收2.8w,家屬「震驚」,衛(wèi)健委“調(diào)查結(jié)果”來了

醫(yī)客
2025-06-20 12:14:12
解鎖新成就!梅西生涯當前866球384助,歷史首位達成制造1250球!

解鎖新成就!梅西生涯當前866球384助,歷史首位達成制造1250球!

直播吧
2025-06-20 16:06:08
為什么眼鏡布大多切成鋸齒狀?

為什么眼鏡布大多切成鋸齒狀?

果殼
2025-06-20 16:09:59
越吃陽氣越足的3種食物,夏天常做著吃,生陽氣、健脾胃,強體質(zhì)

越吃陽氣越足的3種食物,夏天常做著吃,生陽氣、健脾胃,強體質(zhì)

秀廚娘
2025-06-18 15:39:36
這家船廠宣布:取消訂單,預(yù)付款不退!

這家船廠宣布:取消訂單,預(yù)付款不退!

龍de船人
2025-06-20 13:02:06
價格崩盤上熱搜,Labubu第一批黃牛破產(chǎn)了……

價格崩盤上熱搜,Labubu第一批黃牛破產(chǎn)了……

柴狗夫斯基
2025-06-20 11:31:40
《長安的荔枝》:五千年的做官之道,不過是簡單的三句話!

《長安的荔枝》:五千年的做官之道,不過是簡單的三句話!

煙花五月下蘇州
2025-06-18 23:48:19
恭喜!快船下死命令:他為何是非賣品?哈登爭冠希望還在!

恭喜!快船下死命令:他為何是非賣品?哈登爭冠希望還在!

運籌帷幄的籃球
2025-06-20 16:46:51
英媒稱:中國飛機已經(jīng)連續(xù)3天往中東方向飛了,不知給伊朗送了啥

英媒稱:中國飛機已經(jīng)連續(xù)3天往中東方向飛了,不知給伊朗送了啥

千里持劍
2025-06-18 12:18:55
美防長認慫:美放棄下一代預(yù)警機,已搞不定殲-20配霹靂-17

美防長認慫:美放棄下一代預(yù)警機,已搞不定殲-20配霹靂-17

阿捤武器裝備科普
2025-06-19 19:46:48
稀土禁令下,誰在幫美國偷中國礦?七部門:圍剿內(nèi)鬼,一查到底!

稀土禁令下,誰在幫美國偷中國礦?七部門:圍剿內(nèi)鬼,一查到底!

百科密碼
2025-06-20 15:14:25
伊朗戰(zhàn)火下的真相:一位在伊朗的中國人發(fā)聲,這些都別信!

伊朗戰(zhàn)火下的真相:一位在伊朗的中國人發(fā)聲,這些都別信!

科學傭人
2025-06-19 06:08:06
聯(lián)播關(guān)鍵詞|中共山東省委組織部干部任前公示公告(2025年第5號)

聯(lián)播關(guān)鍵詞|中共山東省委組織部干部任前公示公告(2025年第5號)

閃電新聞
2025-06-20 19:46:41
汪峰寧靜牽手風波升級!女友森林北評論區(qū)淪陷,兩人疑似已經(jīng)分手

汪峰寧靜牽手風波升級!女友森林北評論區(qū)淪陷,兩人疑似已經(jīng)分手

小seven的囧囧啊
2025-06-20 16:16:59
福建一姑娘把“荔枝核”泡水里,兩周長成“粉盆栽”,太治愈了

福建一姑娘把“荔枝核”泡水里,兩周長成“粉盆栽”,太治愈了

美家指南
2025-06-09 11:08:50
洪森主動曝光錄音,可扳倒佩通坦但扳不倒對手,絕境之下柬更難了

洪森主動曝光錄音,可扳倒佩通坦但扳不倒對手,絕境之下柬更難了

米師傅安裝
2025-06-20 04:54:55
2025-06-21 03:00:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10705文章數(shù) 176170關(guān)注度
往期回顧 全部

科技要聞

余承東:鴻蒙6主打"毫秒級"時延與全面AI

頭條要聞

媒體:佩通坦錄音泄密 一聲"叔叔"恐致其聯(lián)合政府瓦解

頭條要聞

媒體:佩通坦錄音泄密 一聲"叔叔"恐致其聯(lián)合政府瓦解

體育要聞

周通:2年前想過退役,沒想到能踢世俱杯

娛樂要聞

黃曉明落榜原因曝光!葉珂曾秀幸福

財經(jīng)要聞

58同城一邊裁員一邊跨界投資

汽車要聞

五項訂車禮/四款車型 一汽奧迪A5L正式開啟預(yù)售

態(tài)度原創(chuàng)

數(shù)碼
時尚
本地
手機
公開課

數(shù)碼要聞

Meta 推出 Oakley Meta HSTN 智能眼鏡,399 美元起

推廣中獎名單-更新至2025年6月5日推廣

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

手機要聞

首發(fā)麒麟8020芯片!華為nova 14系列上市24天銷量破100萬臺

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 德昌县| 上思县| 千阳县| 芜湖县| 右玉县| 类乌齐县| 茌平县| 苍南县| 邮箱| 长寿区| 志丹县| 军事| 伊金霍洛旗| 林口县| 德昌县| 宜章县| 谢通门县| 垣曲县| 阿拉善右旗| 德钦县| 郴州市| 绍兴县| 青阳县| 辽源市| 财经| 大名县| 肇州县| 潮州市| 莎车县| 花垣县| 绥中县| 平谷区| 昌都县| 尼勒克县| 抚宁县| 彭水| 依安县| 积石山| 陵水| 广州市| 万盛区|