99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

中國(guó)團(tuán)隊(duì)讓AI擁有「視覺(jué)想象力」,像人類(lèi)一樣腦補(bǔ)畫(huà)面來(lái)思考

0
分享至




在人類(lèi)的認(rèn)知過(guò)程中,視覺(jué)思維(Visual Thinking)扮演著不可替代的核心角色,這一現(xiàn)象貫穿于各個(gè)專(zhuān)業(yè)領(lǐng)域和日常生活的方方面面。



圖 1:需要借助「腦補(bǔ)」圖像進(jìn)行思考的真實(shí)世界任務(wù)。這些任務(wù)通常需要視覺(jué)預(yù)見(jiàn)性和想象力,僅憑基于文本的思考無(wú)法完全實(shí)現(xiàn)。

生物化學(xué)家在探索新的治療途徑時(shí),會(huì)在腦海中構(gòu)建蛋白質(zhì)的三維立體結(jié)構(gòu),通過(guò)視覺(jué)化的分子間相互作用來(lái)理解復(fù)雜的生化過(guò)程;法醫(yī)分析師在破解疑難案件時(shí),需要在心中重建犯罪現(xiàn)場(chǎng)的空間布局,通過(guò)視覺(jué)推理來(lái)驗(yàn)證證據(jù)之間的邏輯連接;建筑師在設(shè)計(jì)創(chuàng)新建筑時(shí),會(huì)在腦海中不斷勾勒和修正建筑草圖,通過(guò)視覺(jué)想象來(lái)優(yōu)化空間配置和光照效果;籃球運(yùn)動(dòng)員在制定戰(zhàn)術(shù)策略時(shí),需要在腦海中構(gòu)想隊(duì)友的跑位路線、防守陣型的變化以及關(guān)鍵時(shí)刻的戰(zhàn)術(shù)配合,通過(guò)視覺(jué)化的場(chǎng)景想象來(lái)設(shè)計(jì)最佳的進(jìn)攻方案;在日常決策中,一般人也會(huì)通過(guò)「腦補(bǔ)」各種可能的場(chǎng)景圖像來(lái)輔助判斷和選擇,用腦海中自發(fā)生成的圖像作為認(rèn)知媒介。

這種視覺(jué)思維能力的獨(dú)特之處在于,它能夠創(chuàng)造概念間的獨(dú)特組合和新穎連接,幫助我們發(fā)現(xiàn)僅通過(guò)純文本推理無(wú)法獲得的洞察和創(chuàng)意。而在現(xiàn)代認(rèn)知科學(xué)中,這種「深思熟慮」往往需要多模態(tài)的思維過(guò)程來(lái)支撐。

如今,AI 也邁出了這一步:上海交通大學(xué)、上海創(chuàng)智學(xué)院、復(fù)旦大學(xué)和 Generative AI Research Lab(GAIR)的團(tuán)隊(duì)提出Thinking with Generated Images,讓大模型能夠自發(fā)生成視覺(jué)中間步驟,像人類(lèi)一樣用「腦內(nèi)圖像」進(jìn)行跨模態(tài)推理。



  • 論文鏈接:https://arxiv.org/abs/2505.22525
  • 代碼鏈接:https://github.com/GAIR-NLP/thinking-with-generated-images
  • 模型鏈接 1:https://huggingface.co/GAIR/twgi-critique-anole-7b
  • 模型鏈接 2:https://huggingface.co/GAIR/twgi-subgoal-anole-7b

突破性理念:

從「看圖像」到「腦補(bǔ)圖像」— 視覺(jué)思維的遞進(jìn)進(jìn)化

如何讓模型自發(fā)性地通過(guò)視覺(jué)進(jìn)行「思考」仍屬于早期探索階段。此前的一些工作嘗試通過(guò)空間搜索任務(wù)(如迷宮導(dǎo)航)進(jìn)行早期探索,但這些任務(wù)的局限性在于它們往往可以直接通過(guò)文本思考或「對(duì)著」圖像思考(Thinking with Images)來(lái)解決,而不需要真正的「腦補(bǔ)」圖像思考(Thinking with Generated Images)。

Thinking with Generated Images 系統(tǒng)性地整理并比較了三個(gè)核心概念的本質(zhì)區(qū)別及其適用任務(wù)的差異:

  • 「看」圖像(Seeing with Images):模型僅在單次前向傳播中處理用戶(hù)提供的固定圖像,主要適用于基礎(chǔ)的視覺(jué)識(shí)別任務(wù),如物體檢測(cè)、圖像分類(lèi)等。這種模式下,模型只是被動(dòng)地「觀察」圖像內(nèi)容。在這個(gè)過(guò)程中,整個(gè) AI 的思維過(guò)程完全發(fā)生在文本模態(tài)中,圖像僅僅作為一個(gè)固定的先驗(yàn)條件,無(wú)法參與到動(dòng)態(tài)的推理過(guò)程中。這也是大多數(shù)現(xiàn)有的大型多模態(tài)模型(Large Multimodal Models, LMMs)或視覺(jué)語(yǔ)言模型(Vision-Language Models, VLMs)的預(yù)設(shè)模式。
  • 「對(duì)著」圖像思考(Thinking with Images):模型能夠多次訪問(wèn)或?qū)ΜF(xiàn)有圖像進(jìn)行有限變換(如裁剪、旋轉(zhuǎn)、代碼執(zhí)行器、OCR、圖像處理工具),適用于需要多步視覺(jué)推理的任務(wù),如視覺(jué)問(wèn)答、圖表解讀、空間推理等。「對(duì)著」圖像思考雖然在一定程度上改善了模型的視覺(jué)推理能力,但仍然受到一個(gè)核心約束:它們只能處理用戶(hù)預(yù)先提供的固定圖像或?qū)@些圖像進(jìn)行簡(jiǎn)單變換,被動(dòng)處理用戶(hù)提供的圖像,無(wú)法真正做到從零開(kāi)始構(gòu)建新的視覺(jué)概念。
  • 「腦補(bǔ)」圖像思考(Thinking with Generated Images):模型能夠主動(dòng)生成中間視覺(jué)步驟作為推理過(guò)程的一部分,適用于需要視覺(jué)想象、創(chuàng)造性設(shè)計(jì)、空間規(guī)劃、以及與物理世界環(huán)境交互感知的復(fù)雜任務(wù)。這種模式在需要視覺(jué)預(yù)見(jiàn)性(visual foresight)和創(chuàng)造性想象的任務(wù)上具有最大優(yōu)勢(shì),因?yàn)榧兾谋就评頍o(wú)法充分表達(dá)這些任務(wù)所需的空間和視覺(jué)信息。

研究團(tuán)隊(duì)特別強(qiáng)調(diào),「腦補(bǔ)」圖像思考在需要空間想象、動(dòng)態(tài)規(guī)劃和創(chuàng)造性視覺(jué)構(gòu)建的任務(wù)上相比于純文本推理具有根本性?xún)?yōu)勢(shì),這正是人類(lèi)視覺(jué)思維的核心價(jià)值所在。



圖 2:區(qū)分「看」圖像、「對(duì)著」圖像思考、「腦補(bǔ)」圖像思考的例子。

技術(shù)實(shí)現(xiàn)方案:

自發(fā)原生多模態(tài)長(zhǎng)思維鏈

研究團(tuán)隊(duì)創(chuàng)新性地提出了「原生多模態(tài)長(zhǎng)思維過(guò)程」(the native long-multimodal thought process)這一核心技術(shù)框架實(shí)現(xiàn)「腦補(bǔ)」圖像思考。原生多模態(tài)長(zhǎng)思維過(guò)程由交錯(cuò)的多模態(tài) token 組成:包括文本的詞匯或子詞(words/subwords)、視覺(jué)的圖像塊(patches)等。

未來(lái)有更通用的基座模型后也能推廣到音頻的幀(frames),以及其他模態(tài)領(lǐng)域特定的表示形式(domain-specific representations)。原生多模態(tài)長(zhǎng)思維過(guò)程不僅能夠讓模型在思維過(guò)程中自然地自發(fā)生成圖像,還能夠原生地執(zhí)行測(cè)試時(shí)擴(kuò)展(test-time scaling)以獲得更好的模型能力。透過(guò)原生多模態(tài)長(zhǎng)思維過(guò)程實(shí)現(xiàn) Thinking with Generated Images 有四大主要優(yōu)勢(shì):

  • 跨模態(tài)原生思維能力:通過(guò)單次推理過(guò)程即可「原生」地生成多模態(tài)的 tokens,使模型能夠自然無(wú)縫地跨模態(tài)進(jìn)行「思考」。
  • 統(tǒng)一生成式任務(wù)執(zhí)行:通過(guò)生成式范式原生地執(zhí)行多樣化的多模態(tài)任務(wù)。
  • 自然測(cè)試時(shí)擴(kuò)展機(jī)制:通過(guò)生成的「長(zhǎng)」思維過(guò)程提供自然跨模態(tài)的測(cè)試時(shí)擴(kuò)展,使模型能夠通過(guò)生成更長(zhǎng)、更詳細(xì)的多模態(tài)長(zhǎng)思維過(guò)程,在推理時(shí)投入更多計(jì)算來(lái)提升性能質(zhì)量。
  • 未來(lái)技術(shù)集成兼容性和可擴(kuò)展性:?jiǎn)我荒P图傻募軜?gòu)便于未來(lái)與強(qiáng)化學(xué)習(xí)等訓(xùn)練后擴(kuò)展技術(shù)的集成,簡(jiǎn)化了訓(xùn)練和推理持續(xù)擴(kuò)展的復(fù)雜度。

兩種自發(fā)原生多模態(tài)長(zhǎng)思維鏈模式

研究團(tuán)隊(duì)深入分析人類(lèi)多模態(tài)長(zhǎng)思維的認(rèn)知模式,據(jù)此設(shè)計(jì)并提出了兩種原生多模態(tài)長(zhǎng)思維鏈模式,應(yīng)用于視覺(jué)生成任務(wù)上,最大的體現(xiàn) Thinking with Generated Images 的優(yōu)勢(shì):

  • 視覺(jué)子目標(biāo)分解(Vision Generation with Intermediate Visual Subgoals):視覺(jué)子目標(biāo)分解模擬了人類(lèi)在處理復(fù)雜視覺(jué)任務(wù)時(shí)的分而治之策略。面對(duì)較為復(fù)雜或多物體的視覺(jué)生成任務(wù)(如「一張沙發(fā)和一個(gè)酒杯」),模型首先進(jìn)行整體性的分析,將大的視覺(jué)任務(wù)拆解成小的目標(biāo),分步生成沙發(fā)和酒杯的獨(dú)立圖像,再組合成最終結(jié)果。每個(gè)中間圖像都承載了特定的子目標(biāo)語(yǔ)義,不僅是視覺(jué)內(nèi)容的載體,更是推理過(guò)程中的「思維節(jié)點(diǎn)」。視覺(jué)子目標(biāo)分解允許模型在處理復(fù)雜視覺(jué)生成任務(wù)時(shí)保持對(duì)細(xì)節(jié)的精確控制,避免了直接生成復(fù)雜圖像時(shí)可能出現(xiàn)的元素遺漏、比例失調(diào)或風(fēng)格不一致等問(wèn)題。





圖 3:原生多模態(tài)長(zhǎng)思維鏈在GenEval上的例子。

  • 提出視覺(jué)假設(shè)并自我反思迭代(Vision Generation with Self-Critique):提出視覺(jué)假設(shè)并自我反思迭代體現(xiàn)了人類(lèi)創(chuàng)作過(guò)程中的「草稿-修改-完善」循環(huán)機(jī)制。模型首先基于輸入提示生成一個(gè)初始的視覺(jué)假設(shè)圖像,這個(gè)假設(shè)通常包含了對(duì)任務(wù)的基本理解但可能存在各種不完善之處。模型隨后以文本反思形式對(duì)自己生成的圖像進(jìn)行深入的多角度分析,包括內(nèi)容完整性檢查(如「圖像缺乏雨傘」)、視覺(jué)質(zhì)量評(píng)估(如「更清晰的海景化」)、語(yǔ)義一致性驗(yàn)證(如「更清楚的展示冰淇淋的融化」)、構(gòu)圖合理性判斷(如「增強(qiáng)圖像對(duì)比度」)等等。模型通過(guò)建立視覺(jué)假設(shè)、批判性分析、策略性改進(jìn)的迭代過(guò)程來(lái)逐步優(yōu)化生成結(jié)果,實(shí)現(xiàn)了視覺(jué)和文本模態(tài)之間的深度協(xié)同,形成了一個(gè)有效的自我改進(jìn)反饋循環(huán),顯著提升了生成圖像的質(zhì)量和準(zhǔn)確性。





圖 4:原生多模態(tài)長(zhǎng)思維鏈在DPG-Bench上的例子。

自發(fā)原生多模態(tài)長(zhǎng)思維鏈在多模態(tài)統(tǒng)一理解生成模型的實(shí)現(xiàn)

研究團(tuán)隊(duì)選擇在自回歸 next-token-prediction 的多模態(tài)統(tǒng)一理解生成模型上開(kāi)發(fā)原生多模態(tài)長(zhǎng)思維鏈,這一決策基于幾個(gè)層次的技術(shù)考慮:

  • 自回歸架構(gòu)與人類(lèi)思維過(guò)程的天然契合性。人類(lèi)的思維過(guò)程本質(zhì)上是序列化的——我們?cè)谒伎紡?fù)雜問(wèn)題時(shí),會(huì)逐步構(gòu)建想法,從一個(gè)概念過(guò)渡到另一個(gè)概念,在文本思考和視覺(jué)想象之間自然切換。自回歸模型通過(guò)逐 token 生成的方式,能夠最自然地模擬這種漸進(jìn)式、序列化的思維展開(kāi)過(guò)程。
  • 統(tǒng)一架構(gòu)的簡(jiǎn)潔性和可擴(kuò)展性?xún)?yōu)勢(shì)。相比于需要協(xié)調(diào)多個(gè)獨(dú)立組件的復(fù)雜系統(tǒng)架構(gòu),自回歸統(tǒng)一模型提供了一個(gè)優(yōu)雅的解決方案。在這種架構(gòu)下,文本推理、視覺(jué)生成、自我批判等所有能力都統(tǒng)一在同一個(gè)模型中,避免了多組件系統(tǒng)中常見(jiàn)的信息傳遞損失、同步協(xié)調(diào)復(fù)雜性等問(wèn)題。
  • 與現(xiàn)有技術(shù)生態(tài)的深度兼容性。當(dāng)前大語(yǔ)言模型領(lǐng)域已經(jīng)在自回歸架構(gòu)上積累了豐富的訓(xùn)練技巧、優(yōu)化方法和推理技術(shù)。選擇這一架構(gòu)使得研究團(tuán)隊(duì)能夠直接繼承和利用這些成熟的技術(shù)成果,而不需要從零開(kāi)始構(gòu)建全新的技術(shù)棧。
  • 未來(lái)發(fā)展的技術(shù)路徑一致性。隨著計(jì)算能力的不斷提升和算法的持續(xù)優(yōu)化,自回歸架構(gòu)展現(xiàn)出了強(qiáng)大的擴(kuò)展?jié)摿Α_x擇這一技術(shù)路徑確保了研究成果能夠與未來(lái)的技術(shù)發(fā)展趨勢(shì)保持一致,具備長(zhǎng)期的技術(shù)價(jià)值。

在確定了自回歸架構(gòu)的技術(shù)路線后,團(tuán)隊(duì)選擇 Anole 作為基礎(chǔ)模型。目前大多數(shù)模型都缺乏真正的交錯(cuò)多模態(tài)生成能力,而這正是實(shí)現(xiàn)「原生多模態(tài)長(zhǎng)思維過(guò)程」的關(guān)鍵技術(shù)瓶頸。Anole 相比其他多模態(tài)模型具有兩個(gè)關(guān)鍵優(yōu)勢(shì):

  • 原生交錯(cuò)生成能力:Anole 直接在交錯(cuò)的文本-圖像 token 上進(jìn)行預(yù)訓(xùn)練和后訓(xùn)練,具備了交錯(cuò)生成多模態(tài) token 的固有能力,這是實(shí)現(xiàn)本研究目標(biāo)的基礎(chǔ)前提。
  • 高效的視覺(jué)表示機(jī)制:Anole 采用相對(duì)高效的圖像表示方案,使得基于原生多模態(tài)長(zhǎng)思維過(guò)程的測(cè)試時(shí)擴(kuò)展在合理的推理預(yù)算內(nèi)成為可能。

搭配原生多模態(tài)長(zhǎng)思維過(guò)程解決了視覺(jué)推理的五大局限

研究團(tuán)隊(duì)提出的「原生多模態(tài)長(zhǎng)思維過(guò)程 (the native long-multimodal thought process)」這一核心技術(shù)框架實(shí)現(xiàn)「腦補(bǔ)」圖像思考。與現(xiàn)有方案對(duì)比,該提出方案解決了五大局限:

  • 擺脫用戶(hù)輸入依賴(lài):過(guò)去的方法(如 OpenAI 的 o3 thinking with images)需用戶(hù)提供圖像作為推理起點(diǎn),而原生多模態(tài)長(zhǎng)思維過(guò)程能從零構(gòu)建視覺(jué)上下文,讓模型在無(wú)圖場(chǎng)景下也能自發(fā)地做多模態(tài)思考。
  • 超越靜態(tài)圖像處理:目前的工具增強(qiáng)型模型通常只能裁剪、標(biāo)注或輕度編輯給定圖像;原生多模態(tài)長(zhǎng)思維過(guò)程在推理鏈中動(dòng)態(tài)生成全新的視覺(jué)假設(shè),為創(chuàng)造性規(guī)劃與空間推演打開(kāi)更大搜索空間。
  • 端到端統(tǒng)一架構(gòu):無(wú)需多模型協(xié)作或外部工具鏈,單一模型即可完成「生成-推理-反思-迭代」的全流程,部署與調(diào)用更加輕量。
  • 可擴(kuò)展的測(cè)試時(shí)擴(kuò)展和未來(lái)后訓(xùn)練擴(kuò)展:原生多模態(tài)長(zhǎng)思維過(guò)程天然支持測(cè)試時(shí)擴(kuò)展(test-time scaling),通過(guò)生成更長(zhǎng)、更詳細(xì)的多模態(tài)長(zhǎng)思維序列來(lái)提升性能。此外,該架構(gòu)為未來(lái)與強(qiáng)化學(xué)習(xí)、自我改進(jìn)等后訓(xùn)練技術(shù)的集成預(yù)留了充分空間。
  • 實(shí)際落地的應(yīng)用場(chǎng)景:過(guò)去的相關(guān)研究往往專(zhuān)注于相對(duì)局限任務(wù)場(chǎng)景,如數(shù)學(xué)(幾何)題求解、迷宮導(dǎo)航、簡(jiǎn)單的空間推理等。這些任務(wù)雖然在技術(shù)驗(yàn)證上有一定價(jià)值,但存在一個(gè)根本性問(wèn)題:它們大多可以通過(guò)純文本描述和邏輯推理來(lái)充分表達(dá)和解決。例如,迷宮問(wèn)題可以用坐標(biāo)和路徑描述完全編碼,幾何題可以通過(guò)形式化語(yǔ)言和邏輯步驟來(lái)求解,這些任務(wù)并未真正發(fā)揮視覺(jué)思維的獨(dú)特優(yōu)勢(shì)。研究團(tuán)隊(duì)專(zhuān)注于解決那些無(wú)法通過(guò)純文本充分表達(dá)的復(fù)雜視覺(jué)推理任務(wù),實(shí)現(xiàn)了從「專(zhuān)注于能用文本充分解決的視覺(jué)任務(wù)」到「專(zhuān)注于必須依賴(lài)視覺(jué)想象的復(fù)雜創(chuàng)造性任務(wù)」的認(rèn)知躍升。

Thinking with Generated Images 帶來(lái)的能力屬于全新維度,可與現(xiàn)有技術(shù)疊加協(xié)同。該研究著重提升的是「內(nèi)部想象-反思」的深度推理能力,而檢索增強(qiáng)、外部工具調(diào)用等技術(shù),仍然在引入外部知識(shí)、擴(kuò)展功能等方面具備優(yōu)勢(shì)。

未來(lái),當(dāng)這些能力并行疊加時(shí),既能利用 Thinking with Generated Images 提出的「腦內(nèi)草圖」,也能借助現(xiàn)有檢索增強(qiáng)、外部工具調(diào)用等技術(shù),形成 1+1>2 的整體效果。



圖 5:多模態(tài)認(rèn)知領(lǐng)域相關(guān)工作的對(duì)比

實(shí)驗(yàn)設(shè)計(jì)

為了在多模態(tài)理解生成模型上實(shí)現(xiàn) Thinking with Generated Images 的自發(fā)原生多模態(tài)長(zhǎng)思維鏈,研究團(tuán)隊(duì)在訓(xùn)練數(shù)據(jù)、訓(xùn)練策略、以及推理策略上都有深入的探索。

訓(xùn)練數(shù)據(jù)

研究團(tuán)隊(duì)精心設(shè)計(jì)了一套合成數(shù)據(jù)構(gòu)建流程,專(zhuān)門(mén)用于訓(xùn)練模型生成兩種類(lèi)型的多模態(tài)長(zhǎng)思維鏈。由于目前沒(méi)有現(xiàn)成的 LMM 模型支持多模態(tài)生成的測(cè)試時(shí)擴(kuò)展 (test-time scaling),傳統(tǒng)蒸餾技術(shù)并不適用,團(tuán)隊(duì)創(chuàng)新性地開(kāi)發(fā)了完整的數(shù)據(jù)構(gòu)建管線(如圖 6 所示)。

數(shù)據(jù)收集三大黃金法則:

  • 高質(zhì)量圖像生成提示詞:采用 Deepseek-V3、GPT-4o、Claude3.7-Sonnet 和 Qwen2.5-72B-Instruct 頂尖模型生成復(fù)雜提示詞,通過(guò)規(guī)則過(guò)濾確保質(zhì)量,并借助 Qwen3-32B 將復(fù)雜視覺(jué)任務(wù)拆解成小的目標(biāo)。
  • 高質(zhì)量反思推理鏈:借助 QVQ-72B-Preview 的強(qiáng)大長(zhǎng)鏈推理能力,對(duì)每個(gè)提示-圖像對(duì)進(jìn)行準(zhǔn)確性評(píng)估、差異識(shí)別和改進(jìn)建議,并實(shí)現(xiàn)模型通過(guò)迭代分解獲得最終圖像的過(guò)程。
  • 高質(zhì)量中間視覺(jué)思維:
  • 初始生成:
  • 使用 Anole-7b(自我批判)或 Flux1-dev(子目標(biāo)分解)。
  • 精修階段:
  • Flux1-Redux 結(jié)合原始提示、首輪圖像和批判反饋進(jìn)行優(yōu)化。
  • 最終生成:
  • 基于前幾輪圖像及思考過(guò)程來(lái)生成最終結(jié)果。

最后通過(guò) QVQ-72B-Preview 進(jìn)行嚴(yán)格的質(zhì)量控制,過(guò)濾與提示嚴(yán)重偏離的樣本。

技術(shù)亮點(diǎn)解析:

  • 突破性數(shù)據(jù)架構(gòu):專(zhuān)門(mén)為「視覺(jué)思維」范式優(yōu)化的統(tǒng)一數(shù)據(jù)結(jié)構(gòu)。
  • 多模型協(xié)同:充分發(fā)揮各領(lǐng)域頂尖模型的專(zhuān)長(zhǎng),構(gòu)建訓(xùn)練樣本。
  • 嚴(yán)格質(zhì)量把控:從提示詞到最終圖像的全流程質(zhì)量控制機(jī)制。

這一創(chuàng)新性的訓(xùn)練策略使得 LMM 模型能夠生成端到端的多模態(tài)長(zhǎng)思維鏈,為「Thinking with Generated Images」的實(shí)現(xiàn)奠定了堅(jiān)實(shí)基礎(chǔ)。這套方法論不僅適用于當(dāng)前研究,也將為未來(lái)多模態(tài)推理系統(tǒng)的開(kāi)發(fā)提供重要參考。



圖 6:數(shù)據(jù)收集流水線示例

訓(xùn)練策略

在使用統(tǒng)一多模態(tài)模型進(jìn)行視覺(jué)生成任務(wù)的訓(xùn)練時(shí),大多僅依賴(lài)交叉熵訓(xùn)練沒(méi)有完整的考慮圖像 token 之間的關(guān)系。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)引入了視覺(jué)特征級(jí)別的重建損失,將生成圖像的隱狀態(tài)投影回視覺(jué)特征空間,并計(jì)算與 ground-truth 圖像對(duì)應(yīng)特征之間的均方誤差 (MSE) 損失。這種設(shè)計(jì)鼓勵(lì)模型產(chǎn)生具有更強(qiáng)視覺(jué)連貫性和結(jié)構(gòu)完整性的輸出。基于優(yōu)化后損失函數(shù),研究團(tuán)隊(duì)設(shè)計(jì)了系統(tǒng)性的兩階段訓(xùn)練流程:

  • 基礎(chǔ)能力強(qiáng)化:使用 JourneyDB 圖文對(duì)數(shù)據(jù)集對(duì) Anole-7b 進(jìn)行持續(xù)訓(xùn)練,增強(qiáng)模型的基礎(chǔ)視覺(jué)生成能力。這一階段為后續(xù)的專(zhuān)門(mén)化訓(xùn)練奠定了堅(jiān)實(shí)的多模態(tài)基礎(chǔ)。
  • 專(zhuān)門(mén)化微調(diào):基于上述的合成數(shù)據(jù)集進(jìn)行模型訓(xùn)練,精細(xì)化調(diào)整兩個(gè)專(zhuān)門(mén)化模型:
  • TwGI-Anole-7b-Obj.:使用視覺(jué)子目標(biāo)分解數(shù)據(jù)集進(jìn)行微調(diào),使其具備生成視覺(jué)中間子目標(biāo)的能力。
  • TwGI-Anole-7b-Crit.:使用視覺(jué)自我批判數(shù)據(jù)集進(jìn)行微調(diào),使其具備自我批判視覺(jué)假設(shè)的能力。

這種分階段訓(xùn)練策略確保了模型既具備扎實(shí)的基礎(chǔ)多模態(tài)能力,又能在特定的思維模式上表現(xiàn)出色。

推理策略

與標(biāo)準(zhǔn)的視覺(jué)語(yǔ)言模型或大語(yǔ)言模型不同,統(tǒng)一多模態(tài)模型在進(jìn)行視覺(jué)生成任務(wù)時(shí)面臨著獨(dú)特的推理挑戰(zhàn)。為了充分發(fā)揮模型的性能潛力,無(wú)分類(lèi)器引導(dǎo) (Classifier-Free Guidance, CFG) 技術(shù)成為提升視覺(jué)生成性能的關(guān)鍵。在傳統(tǒng)的完整條件 (full conditions)、無(wú)條件 (unconditions) 和圖像條件 (image conditions) 基礎(chǔ)上,研究團(tuán)隊(duì)增加了:

  • 「原始提示條件」(Original Prompt Conditions):確保生成過(guò)程始終與用戶(hù)的原始意圖保持一致。
  • 「負(fù)面條件」(Negative Conditions):避免生成不當(dāng)或無(wú)關(guān)的視覺(jué)內(nèi)容。

這種多條件設(shè)計(jì)的核心目標(biāo)是促使中間視覺(jué)步驟更加忠實(shí)于原始意圖,同時(shí)避免被生成的長(zhǎng)文本思維過(guò)度干擾。通過(guò)在這些條件之間進(jìn)行精細(xì)化平衡,模型能夠:

  • 充分利用長(zhǎng)文本思維的指導(dǎo)作用:從詳細(xì)的文本推理中獲得有價(jià)值的語(yǔ)義信息和邏輯指導(dǎo)。
  • 有效過(guò)濾思維過(guò)程中的潛在噪聲:避免被長(zhǎng)思維序列中可能存在的無(wú)關(guān)信息或錯(cuò)誤推理分散注意力。
  • 保持視覺(jué)生成的一致性和質(zhì)量:確保最終輸出既符合原始提示要求,又體現(xiàn)了深度推理的成果。

在視覺(jué)生成任務(wù)上的結(jié)果分析

研究團(tuán)隊(duì)在 GenEval 和 DPGBench 兩個(gè)圖像生成基準(zhǔn)上對(duì) TwGI-Anole-7b-Obj. 和 TwGI-Anole-7b-Crit. 進(jìn)行了全面的性能評(píng)估。

  • 視覺(jué)子目標(biāo)分解模式的評(píng)估:視覺(jué)子目標(biāo)分解模擬了人類(lèi)在處理復(fù)雜視覺(jué)任務(wù)時(shí)的分而治之策略。面對(duì)較為復(fù)雜或多物體的視覺(jué)生成任務(wù)(如「一張沙發(fā)和一個(gè)酒杯」),模型首先進(jìn)行整體性的分析,將大的視覺(jué)任務(wù)拆解成小的目標(biāo),分步生成沙發(fā)和酒杯的獨(dú)立圖像,再組合成最終結(jié)果。每個(gè)中間圖像都承載了特定的子目標(biāo)語(yǔ)義,不僅是視覺(jué)內(nèi)容的載體,更是推理過(guò)程中的「思維節(jié)點(diǎn)」。視覺(jué)子目標(biāo)分解允許模型在處理復(fù)雜視覺(jué)生成任務(wù)時(shí)保持對(duì)細(xì)節(jié)的精確控制,避免了直接生成復(fù)雜圖像時(shí)可能出現(xiàn)的元素遺漏、比例失調(diào)或風(fēng)格不一致等問(wèn)題。
  • 視覺(jué)自我批判模式的評(píng)估:測(cè)試 TwGI-Anole-7b-Crit. 模型是否能夠糾正其初始視覺(jué)假設(shè)(圖 7 和圖 8 中的 TwGI-Anole-7b-Crit. (visual hypo.)),并生成更好的圖像生成結(jié)果(圖 7 和圖 8 中的 TwGI-Anole-7b-Crit. (final))。



圖7: 在GenEval上的表現(xiàn)



圖8: 在DPG-Bench上的表現(xiàn)

中間視覺(jué)思維生成對(duì)視覺(jué)生成任務(wù)的顯著效益

實(shí)驗(yàn)結(jié)果表明,TwGI-Anole-7b-Obj 在 GenEval 和 DPGBench 兩個(gè)基準(zhǔn)上都始終優(yōu)于基線模型 Anole-7b。在 GenEval 上,TwGI-Anole-7b-Obj 在「雙對(duì)象」類(lèi)別中取得了顯著提升(0.57 vs. 0.38,相對(duì)提升 50%),表明其在處理涉及多個(gè)實(shí)體的復(fù)雜提示時(shí)具備了更強(qiáng)的能力。在位置和顏色屬性對(duì)齊方面也顯示出顯著改進(jìn),體現(xiàn)了在精確空間和視覺(jué)構(gòu)圖推理方面的更強(qiáng)能力。

在 DPGBench 上,TwGI-Anole-7b-Obj 在「實(shí)體」、「屬性」和「關(guān)系」類(lèi)別中都取得了實(shí)質(zhì)性進(jìn)步,總體分?jǐn)?shù)從 58.32 提升至 68.44(相對(duì)提升 17.3%),反映出其在細(xì)粒度視覺(jué)語(yǔ)義理解方面的增強(qiáng)能力。這些改進(jìn)驗(yàn)證了我們的假設(shè):將視覺(jué)任務(wù)分解為中間子目標(biāo)使得大語(yǔ)言模型能夠更系統(tǒng)地推理并生成更高質(zhì)量的輸出。

原生多模態(tài)長(zhǎng)思維過(guò)程使模型能夠糾正和完善自身的視覺(jué)假設(shè)

視覺(jué)思維自我批判的實(shí)驗(yàn)結(jié)果證明了讓模型反思和修正自身視覺(jué)輸出的有效性。TwGI-Anole-7b-Crit. 模型在自我批判步驟后性能顯著提升:GenEval 總分從 0.45 提升至 0.48,DPGBench 分?jǐn)?shù)從 62.83 提升至 67.14。這表明模型具備了內(nèi)省分析生成圖像的能力——通過(guò)基于視覺(jué)反饋的文本推理鏈,能夠識(shí)別不匹配、幻覺(jué)或遺漏的元素,并隨后進(jìn)行糾正。這種視覺(jué)反饋循環(huán)的有效性反映了一種模態(tài)間協(xié)同效應(yīng),其中視覺(jué)和文本模態(tài)相互迭代指導(dǎo),形成了真正的多模態(tài)智能推理機(jī)制。

這些結(jié)果共同驗(yàn)證:在推理鏈中主動(dòng)「畫(huà)草圖」或「打草稿」,不僅讓模型生成質(zhì)量更高、更可控,也帶來(lái)了深度理解與糾錯(cuò)能力。

未來(lái)展望

Thinking with Generated Images 的能力未來(lái)有望推動(dòng) AI 在需要空間想象和動(dòng)態(tài)規(guī)劃的領(lǐng)域?qū)崿F(xiàn)突破:

  • 創(chuàng)造性設(shè)計(jì):模型可逐步生成并迭代建筑草圖,同時(shí)用文本記錄調(diào)整理由(如「將窗戶(hù)東移以?xún)?yōu)化采光」)。
  • 科學(xué)發(fā)現(xiàn):通過(guò)生成分子結(jié)構(gòu)的中間假設(shè)圖像,輔助生物學(xué)家驗(yàn)證藥物結(jié)合路徑。
  • 戰(zhàn)術(shù)規(guī)劃:讓 AI 籃球員「腦補(bǔ)」生成不同戰(zhàn)術(shù)配合的場(chǎng)上演示圖像,可視化球員跑位路線和防守破解策略。

《孫子兵法》說(shuō):「多算勝,少算不勝,而況于無(wú)算乎?」在文本時(shí)代,深思靠文字組成的思維鏈;在多模態(tài)時(shí)代,深思就需要通過(guò)多模態(tài)內(nèi)容的耦合,不僅要會(huì)觀察、調(diào)用工具,還要學(xué)會(huì)想象、反思、腦補(bǔ)。Thinking with Generated Images正在把這種能力「寫(xiě)進(jìn)」模型本身,讓 AI 獲得人類(lèi)的視覺(jué)想象力。

  • 它不只是性能指標(biāo)的上漲,而是推理范式的突破;
  • 它不只是會(huì)畫(huà)畫(huà),而是把「畫(huà)畫(huà)」變成了思考的肌肉記憶;
  • 它不只是一次概念驗(yàn)證,更是給未來(lái)「多模態(tài) AGI」鋪了條高速公路。

當(dāng)機(jī)器從「看圖說(shuō)話(huà)」升級(jí)到「無(wú)圖腦補(bǔ)」,真正的多模態(tài)推理時(shí)代,已敲響開(kāi)場(chǎng)鑼鼓,讓我們拭目以待。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
3600萬(wàn),再見(jiàn)快船,離隊(duì)倒計(jì)時(shí),休城崛起最離不開(kāi)的人是你

3600萬(wàn),再見(jiàn)快船,離隊(duì)倒計(jì)時(shí),休城崛起最離不開(kāi)的人是你

青山隱隱啊
2025-05-30 10:21:42
新疆女子帶父母吃潮汕1280鵝頭:母親嫌貴賭氣一口不吃,父女猛啃

新疆女子帶父母吃潮汕1280鵝頭:母親嫌貴賭氣一口不吃,父女猛啃

奇思妙想草葉君
2025-05-29 22:54:25
“廣東特產(chǎn)”突然爆火,全國(guó)網(wǎng)友求郵寄,有人崩潰、有人興奮……

“廣東特產(chǎn)”突然爆火,全國(guó)網(wǎng)友求郵寄,有人崩潰、有人興奮……

瀟湘晨報(bào)
2025-05-30 11:36:23
輸?shù)迷綉K賣(mài)得越多,印尼增購(gòu)12架陣風(fēng),殲10C到底“差”在哪?

輸?shù)迷綉K賣(mài)得越多,印尼增購(gòu)12架陣風(fēng),殲10C到底“差”在哪?

聞識(shí)
2025-05-30 16:07:05
看不到他的丁 丁,這可怎么辦啊?

看不到他的丁 丁,這可怎么辦啊?

性學(xué)研究僧
2025-03-25 19:26:27
唯一公開(kāi)報(bào)道的國(guó)安犧牲烈士吳建國(guó):潛伏十年,犧牲時(shí)留下遺憾

唯一公開(kāi)報(bào)道的國(guó)安犧牲烈士吳建國(guó):潛伏十年,犧牲時(shí)留下遺憾

boss外傳
2025-05-29 16:25:03
就在今晚,中國(guó)足球迎來(lái)一場(chǎng)焦點(diǎn)大戰(zhàn),錯(cuò)過(guò)這場(chǎng)精彩,你虧大了!

就在今晚,中國(guó)足球迎來(lái)一場(chǎng)焦點(diǎn)大戰(zhàn),錯(cuò)過(guò)這場(chǎng)精彩,你虧大了!

肖語(yǔ)談
2025-05-30 08:58:14
小球市的悲哀!建隊(duì)21年,好不容易出了三個(gè)球星,卻依然慘遭挖角

小球市的悲哀!建隊(duì)21年,好不容易出了三個(gè)球星,卻依然慘遭挖角

籃球圈里的那些事
2025-05-29 14:08:34
首相親上陣,石破茂為關(guān)稅破局向特朗普放低身段

首相親上陣,石破茂為關(guān)稅破局向特朗普放低身段

陸棄
2025-05-30 16:43:35
發(fā)票和記賬憑證無(wú)法證明業(yè)務(wù)真實(shí)性!稅局明確了!即日起,會(huì)計(jì)憑證附件粘貼,得按這個(gè)來(lái)!

發(fā)票和記賬憑證無(wú)法證明業(yè)務(wù)真實(shí)性!稅局明確了!即日起,會(huì)計(jì)憑證附件粘貼,得按這個(gè)來(lái)!

祥順財(cái)稅俱樂(lè)部
2025-05-27 09:07:22
龍翔,被罷免

龍翔,被罷免

新京報(bào)政事兒
2025-05-30 13:37:35
斯派克·李:我愿用奧斯卡獎(jiǎng)杯換尼克斯奪冠,巴克利:那你留著吧

斯派克·李:我愿用奧斯卡獎(jiǎng)杯換尼克斯奪冠,巴克利:那你留著吧

雷速體育
2025-05-30 13:43:14
蘋(píng)果官網(wǎng)出售 iPhone 原裝電池,但價(jià)格有點(diǎn)夸張

蘋(píng)果官網(wǎng)出售 iPhone 原裝電池,但價(jià)格有點(diǎn)夸張

XCiOS俱樂(lè)部
2025-05-29 14:09:35
美國(guó)開(kāi)始遣返中國(guó)留學(xué)生,我外交部緊急發(fā)話(huà)后,美國(guó)政府急了

美國(guó)開(kāi)始遣返中國(guó)留學(xué)生,我外交部緊急發(fā)話(huà)后,美國(guó)政府急了

DS北風(fēng)
2025-05-30 16:41:06
連續(xù)18年發(fā)錢(qián)!澳門(mén):永久居民每人發(fā)10000澳門(mén)元,非永久居民每人6000,但必須滿(mǎn)足這個(gè)條件→

連續(xù)18年發(fā)錢(qián)!澳門(mén):永久居民每人發(fā)10000澳門(mén)元,非永久居民每人6000,但必須滿(mǎn)足這個(gè)條件→

每日經(jīng)濟(jì)新聞
2025-05-29 13:15:19
單位里40以上的中年人,最好的狀態(tài)不是級(jí)別高權(quán)力大,而是這4種

單位里40以上的中年人,最好的狀態(tài)不是級(jí)別高權(quán)力大,而是這4種

細(xì)說(shuō)職場(chǎng)
2025-05-27 07:39:06
好消息:河南省第四大高鐵站即將開(kāi)工!項(xiàng)目總投資300億元

好消息:河南省第四大高鐵站即將開(kāi)工!項(xiàng)目總投資300億元

南粵橘城
2025-05-30 15:24:23
主線全長(zhǎng)約30公里的華南快速路,為什么對(duì)廣州城區(qū)交通如此重要?

主線全長(zhǎng)約30公里的華南快速路,為什么對(duì)廣州城區(qū)交通如此重要?

椰青美食分享
2025-05-30 13:53:20
悲劇!網(wǎng)傳北京985大學(xué)一保研直博生跳樓身亡

悲劇!網(wǎng)傳北京985大學(xué)一保研直博生跳樓身亡

超級(jí)數(shù)學(xué)建模
2025-05-27 22:30:54
王楚欽回應(yīng)緋聞:希望大家給予理解與空間。

王楚欽回應(yīng)緋聞:希望大家給予理解與空間。

大嘴說(shuō)臺(tái)球
2025-05-29 13:29:43
2025-05-30 17:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
10560文章數(shù) 142329關(guān)注度
往期回顧 全部

科技要聞

榮耀新CEO放話(huà):下半年重返前三,靠譜嗎?

頭條要聞

銷(xiāo)量承壓下寶馬重回"價(jià)格戰(zhàn)" 5系裸車(chē)價(jià)最低跌至26萬(wàn)

頭條要聞

銷(xiāo)量承壓下寶馬重回"價(jià)格戰(zhàn)" 5系裸車(chē)價(jià)最低跌至26萬(wàn)

體育要聞

當(dāng)我終于回國(guó)時(shí),可能已認(rèn)不出我的家

娛樂(lè)要聞

趙麗穎新劇撲街?演技扛劇能力遭質(zhì)疑

財(cái)經(jīng)要聞

美國(guó)政府殺瘋了,全世界目瞪口呆

汽車(chē)要聞

可城能野更智能 猛士M817把硬派SUV玩出花

態(tài)度原創(chuàng)

親子
本地
家居
游戲
公開(kāi)課

親子要聞

9個(gè)月大中美混血萌娃這舞蹈天賦了得,聽(tīng)到音樂(lè)就開(kāi)始跳了,真嗨

本地新聞

云游中國(guó) |來(lái)仰天湖大草原,一起策馬奔騰

家居要聞

原木純白 邂逅自然本真

系列制作人:《真三國(guó)無(wú)雙》在西方仍然不能算成功

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 和龙市| 肥西县| 东乌珠穆沁旗| 饶阳县| 慈利县| 凤庆县| 蒙山县| 重庆市| 南投县| 田林县| 琼结县| 图木舒克市| 东兰县| 旬邑县| 滨海县| 安义县| 濮阳市| 清新县| 凤冈县| 三穗县| 绿春县| 得荣县| 冕宁县| 武平县| 绩溪县| 盐城市| 永春县| 镇赉县| 文安县| 万盛区| 灵宝市| 英超| 库尔勒市| 黄龙县| 武宣县| 高阳县| 汉阴县| 闽清县| 泸西县| 江源县| 靖边县|