99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI未公開的o3用圖思考技術(shù),被小紅書、西安交大嘗試實現(xiàn)了

0
分享至



OpenAI 推出的 o3 推理模型,打破了傳統(tǒng)文字思維鏈的邊界 —— 多模態(tài)模型首次實現(xiàn)將圖像直接融入推理過程。它不僅 “看圖”,還能 “用圖思考”,開啟了視覺與文本推理深度融合的問題求解方式。例如,面對一張物理試卷圖像,o3 能自動聚焦公式區(qū)域,分析變量關(guān)系,并結(jié)合知識庫推導(dǎo)出答案;在解析建筑圖紙時,o3 可在推理過程中旋轉(zhuǎn)或裁剪局部結(jié)構(gòu),判斷承重設(shè)計是否合理。這種 “Thinking with Images” 的能力,使 o3 在視覺推理基準測試 V* Bench 上準確率飆升至 95.7%,刷新了多模態(tài)模型的推理上限。

然而,OpenAI 如何賦予 o3 這一能力,學(xué)界和工業(yè)界仍不得而知。為此,小紅書團隊聯(lián)合西安交通大學(xué),采用端到端強化學(xué)習(xí),在完全不依賴監(jiān)督微調(diào)(SFT)的前提下,激發(fā)了大模型 “以圖深思” 的潛能,構(gòu)建出多模態(tài)深度思考模型 DeepEyes,首次實現(xiàn)了與 o3 類似的用圖像進行思考的能力,并已同步開源相關(guān)技術(shù)細節(jié),讓 “用圖像思考” 不再是 OpenAI 專屬。



  • 論文地址:https://arxiv.org/abs/2505.14362
  • 項目地址:https://visual-agent.github.io/
  • Github 地址:https://github.com/Visual-Agent/DeepEyes

用圖像進行思考

近期,受到 R1 的啟發(fā),出現(xiàn)不少多模態(tài)模型采用以文本為核心的思考方式,即 “先看后想”—— 模型先觀察圖像,再通過純文本推理來解決復(fù)雜的多模態(tài)問題。然而,這種方法存在顯著局限:一旦進入推理階段,模型無法 “回看圖像” 來補充或驗證細節(jié)信息,容易導(dǎo)致理解偏差或信息缺失。

相比較之下,更為有效的多模思考方式應(yīng)是 “邊看邊想”—— 模型在推理過程中能夠動態(tài)地調(diào)用圖像信息,結(jié)合視覺與語言的交替交互,從而增強對細節(jié)的感知與理解。這種把圖像融入思考過程不僅提升了模型應(yīng)對復(fù)雜任務(wù)的靈活性,也顯著增強了其多模態(tài)理解與推理能力。

我們先簡單感受一下 DeepEyes 和 o3 是如何結(jié)合圖像進行推理的!





DeepEyes 與 o3 的推理流程對比

我們使用與 OpenAI o3 官方評測中相同的圖像進行測試。測試用戶提出問題 “What is written on the sign?”(牌子上寫了什么?),DeepEyes 展現(xiàn)出與 o3 類似的 “用圖像思考” 的能力,整個過程可分為三步:

第一步:全局視覺分析

模型快速掃描圖像,利用自身的視覺感知能力精準鎖定畫面中的矩形牌子區(qū)域,并識別其為文字信息載體。

第二步:智能工具調(diào)用

鑒于原圖中文字區(qū)域分辨率較低,模型自主決策調(diào)用圖像縮放工具,生成邊界框并裁剪放大目標區(qū)域,使內(nèi)容清晰可辨。

第三步:細節(jié)推理識別

在清晰圖像的基礎(chǔ)上,模型結(jié)合視覺和文本推理能力,準確識別并輸出牌子上的文字:Ochsner URGENT CARE。

整個流程無需依賴任何外部 OCR 工具,純粹通過模型內(nèi)部的定位、變換和推理完成識別任務(wù),充分展示了 DeepEyes 原生的 “看圖思考” 能力。

DeepEyes:激發(fā)模型原生的用圖像思考能力

一、模型結(jié)構(gòu)



DeepEyes 的架構(gòu)與傳統(tǒng)多模態(tài)推理模型一致,但在推理流程上引入了 “自驅(qū)動視覺聚焦” 機制。推理起始階段,模型首先基于文本內(nèi)容構(gòu)建初步思維鏈。例如,在判斷 “手機與背包的位置關(guān)系” 這一問題時,模型會生成內(nèi)部推理如:“需要確定手機與背包的位置,可能需在圖像中定位相關(guān)物體”。隨后,模型根據(jù)推理進展判斷是否需要圖像輔助信息。若問題涉及小物體、模糊區(qū)域或細節(jié)不清晰的區(qū)域,模型將自主生成邊界框坐標,裁剪圖像中可能包含關(guān)鍵信息的區(qū)域(如手機和背包位置),并聚焦這些區(qū)域進行深入分析。裁剪圖像隨后以自回歸方式重新輸入模型,作為新的視覺證據(jù),與現(xiàn)有文本推理共同作用,驅(qū)動后續(xù)推理過程更加準確、具備視覺上下文感知能力。

二、如何獲得用圖像進行思考的能力?從生物進化的角度進行思考

直觀來看,如果希望模型掌握利用工具進行圖像分析的能力,就應(yīng)提前準備一批調(diào)用工具的思維鏈數(shù)據(jù),并通過監(jiān)督微調(diào)(SFT)逐步訓(xùn)練模型,從模仿過渡到真正掌握這種能力。不少多模態(tài)模型會采用「先監(jiān)督,后強化」的訓(xùn)練路徑:先用推理數(shù)據(jù)進行冷啟動,讓模型 “學(xué)會思考”,再通過強化學(xué)習(xí)(RL)提升其推理上限。

不過,這種能力形成的路徑與生物進化迥異。例如,生活在約 3.75 億年前的提塔利克魚是魚類向陸生脊椎動物演化的關(guān)鍵過渡物種。它并非通過模仿其他生物在陸地上的行為獲得生存能力,而是在水陸環(huán)境差異巨大、舊能力難以應(yīng)對新環(huán)境時,原生出一種全新的適應(yīng)機制 [Nature. 440 (7085): 757–763]。

類比來看,如果將大模型視作一種 “生物”,是否也能在訓(xùn)練環(huán)境和獎勵結(jié)構(gòu)發(fā)生巨大變化時,像提塔利克魚一樣,激發(fā)出原本不具備的新能力?



三、基于 outcome-based 獎勵的端到端強化學(xué)習(xí)策略

受提塔利克魚進化機制的啟發(fā),我們設(shè)計了一套具備難度差異的數(shù)據(jù)集,用于有效激發(fā)大模型的工具使用能力。數(shù)據(jù)篩選和構(gòu)建遵循以下三項原則:(1)剔除過難或過易的問題;(2)優(yōu)先選取通過圖像分析工具可以顯著提升信息增益的樣本;(3)補充傳統(tǒng)推理數(shù)據(jù),以維持圖像領(lǐng)域的推理能力。數(shù)據(jù)集的構(gòu)建細節(jié)可參考原文及代碼實現(xiàn)。

在這套具備難度與獎勵差異的數(shù)據(jù)集上,我們發(fā)現(xiàn),即使不經(jīng)過 SFT 冷啟動,僅依賴端到端的強化學(xué)習(xí),也能有效激發(fā)模型的調(diào)用工具進行圖像推理的能力。具體來說,DeepEyes 使用了如下的 outcome-based 獎勵函數(shù):



獎勵函數(shù)分為準確率獎勵,格式獎勵,以及條件工具獎勵。準確率獎勵和格式獎勵與 R1 的獎勵類似,而條件工具獎勵則是只有當模型正確回答且正確使用工具才會給予額外的獎勵,指導(dǎo)模型在必要時候使用工具。

在上述獎勵函數(shù)的激勵下,DeepEyes 將在學(xué)習(xí)用圖像推理的過程中,從最開始的「盲目嘗試」,再到后期的「有效調(diào)用」,呈現(xiàn)出了與人類類似的學(xué)習(xí)模式。具體而言,學(xué)習(xí)過程可以分為三個階段:



1. 懵懂期(前 20 步):DeepEyes 像新手一樣亂點屏幕,隨便框選區(qū)域,結(jié)果十次有九次「瞄錯地方」,準確率較差;

2. 探索期(20-45 步):DeepEyes 開啟「廣撒網(wǎng)模式」,瘋狂調(diào)用工具縮放各種區(qū)域,雖然準確率提升,但像「多動癥患者」一樣生成冗長響應(yīng);

3. 成熟期(45 步后):DeepEyes 突然「開悟」,學(xué)會先在腦子里「預(yù)判」關(guān)鍵區(qū)域,再精準縮放驗證,工具調(diào)用次數(shù)不斷減少,準確率卻持續(xù)提升。

DeepEyes 性能評估







DeepEyes 在多個測試集上表現(xiàn)出色,尤其在視覺搜索任務(wù)中展現(xiàn)出領(lǐng)先優(yōu)勢。在 V* Bench 上取得了90.1的準確率,在 HR-Bench 上也大幅超越現(xiàn)有的基于工作流的方法。另外,DeepEyes 7B 模型在視覺搜索任務(wù)中顯出高于 Qwen-VL 32B 模型,這也進一步說明了構(gòu)建用圖像思考能力的必要性。

值得一提的是,DeepEyes 在無需調(diào)用任何外部工具的情況下,便具備出色的圖像定位與理解能力,這些能力完全由模型自身學(xué)習(xí)獲得。同時,當需要更高精度時,DeepEyes 也可以選擇調(diào)用工具對圖像細節(jié)進行確認,從而在降低幻覺方面取得改進。

此外,除了視覺感知,DeepEyes 的數(shù)學(xué)推理能力也有明顯提升,展現(xiàn)出多模態(tài)模型在跨任務(wù)能力上的潛力。

DeepEyes 的獨特優(yōu)勢

與傳統(tǒng)的基于工作流或純文本推理的模型相比,DeepEyes 具備以下關(guān)鍵優(yōu)勢:

1. 訓(xùn)練更簡潔:傳統(tǒng)方法依賴大量難以構(gòu)建的 SFT 數(shù)據(jù),而 DeepEyes 僅需問答對即可訓(xùn)練,大幅降低數(shù)據(jù)獲取門檻。

2. 更強泛化能力:基于工作流的模型受限于人工規(guī)則設(shè)計,適用范圍有限。DeepEyes 通過端到端強化學(xué)習(xí),能在不同任務(wù)中動態(tài)選擇推理路徑,展現(xiàn)出跨任務(wù)泛化能力。

3. 端到端聯(lián)合優(yōu)化:工作流方法通常對各子模塊獨立優(yōu)化,容易陷入次優(yōu)。DeepEyes 通過端到端強化學(xué)習(xí)實現(xiàn)全局聯(lián)合優(yōu)化,顯著提升整體性能。

4. 深度多模態(tài)融合:相比純文本推理,DeepEyes 構(gòu)建融合視覺與文本的思維鏈,在推理過程中動態(tài)交織圖像與語言信息,提升感知與決策精度。

5. 原生工具調(diào)用能力:DeepEyes 依靠內(nèi)生視覺定位能力而非外部工具,能原生執(zhí)行 “圖像思考” 流程。工具使用過程可被直接優(yōu)化,實現(xiàn)更高效、更準確的圖像輔助推理,這是傳統(tǒng)外部調(diào)用方法所不具備的能力。

結(jié)語

DeepEyes 展示了多模態(tài)推理模型的新范式:無需依賴復(fù)雜工作流或大規(guī)模監(jiān)督數(shù)據(jù),通過端到端強化學(xué)習(xí),即可實現(xiàn)視覺與文本深度融合、原生工具調(diào)用和動態(tài)推理路徑選擇。它不僅降低了訓(xùn)練門檻,還顯著提升了泛化能力和整體性能。在多個視覺推理任務(wù)中,DeepEyes 已成功展現(xiàn)出與 OpenAI o3 相當?shù)?“圖像思考” 能力,為開放世界的多模態(tài)智能探索提供了切實可行的新路徑。

作者介紹

本文作者來自小紅書和西安交通大學(xué),其中鄭子維、Michael Yang、Jack Hong 和 Chenxiao Zhao 為共同一作,排名不分先后。鄭子維,就讀于西安交通大學(xué),主要研究方向是 VLM Reasoning、Agent 以及視頻理解;Michael Yang 的研究方向是 RL、LLM Reasoning 以及 Agent;Jack Hong 的研究方向為多模態(tài)大模型、LLM Reasoning 以及計算機視覺;Chenxiao Zhao 是小紅書 Hi Lab 算法研究員,主要研究方向是 RL。該工作是鄭子維、Michael Yang 和 Jack Hong 在小紅書實習(xí)期間完成。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
確定缺席總決賽G1G2!步行者差點沒命...

確定缺席總決賽G1G2!步行者差點沒命...

左右為籃
2025-06-04 12:17:15
教授為學(xué)生上解剖課,察覺尸體標本模樣不對勁,下秒趕緊報警求救

教授為學(xué)生上解剖課,察覺尸體標本模樣不對勁,下秒趕緊報警求救

懸案解密檔案
2025-05-26 13:38:33
郭嘉文開美甲店生意火爆,在維港豪宅內(nèi)宴請賓客,李澤楷未現(xiàn)身

郭嘉文開美甲店生意火爆,在維港豪宅內(nèi)宴請賓客,李澤楷未現(xiàn)身

素素娛樂
2025-06-05 07:56:20
2-1!世預(yù)賽亂了:國足爆發(fā),迎生死決戰(zhàn),贏球=爭4,CCTV5不直播

2-1!世預(yù)賽亂了:國足爆發(fā),迎生死決戰(zhàn),贏球=爭4,CCTV5不直播

海闊山遙YAO
2025-06-05 03:52:01
天哪,漂亮的白百何咋變成這樣了呢?

天哪,漂亮的白百何咋變成這樣了呢?

老吳教育課堂
2025-06-03 16:00:56
他們給小白鼠天天喝這種水:心臟壞了、炎癥高了!原來我們也天天喝

他們給小白鼠天天喝這種水:心臟壞了、炎癥高了!原來我們也天天喝

人民日報健康客戶端
2025-06-04 07:35:05
剛剛撲滅!上海閔行一單位發(fā)生火情黑煙滾滾

剛剛撲滅!上海閔行一單位發(fā)生火情黑煙滾滾

看看新聞Knews
2025-06-05 10:20:01
貨幣戰(zhàn)爭打響,資金正在涌入香港!

貨幣戰(zhàn)爭打響,資金正在涌入香港!

大胡子說房
2025-06-04 20:16:22
1死5傷!北京一路口發(fā)生慘烈事故!

1死5傷!北京一路口發(fā)生慘烈事故!

美麗大北京
2025-06-04 19:26:05
罕見!25年來第一次,中國跌至世界第三,釋放不尋常信號

罕見!25年來第一次,中國跌至世界第三,釋放不尋常信號

張嘴說財經(jīng)
2025-06-03 14:02:16
中國女排隊史第一人——張籽萱,她是誰?為什么如此驚艷?

中國女排隊史第一人——張籽萱,她是誰?為什么如此驚艷?

夢史
2025-06-05 09:21:53
新總統(tǒng)夫人金惠景:歲月雕琢的優(yōu)雅

新總統(tǒng)夫人金惠景:歲月雕琢的優(yōu)雅

述家娛記
2025-06-04 17:00:14
誰懂啊?!這部韓劇居然能過審?!

誰懂啊?!這部韓劇居然能過審?!

大眼妹妹
2025-06-05 09:55:47
鹽城各大醫(yī)院門口疑似有人擺攤騙錢,請引起重視!

鹽城各大醫(yī)院門口疑似有人擺攤騙錢,請引起重視!

鹽城市民網(wǎng)
2025-06-05 12:00:34
李在明全家福曝光,有兩個帥氣兒子,老婆金惠景漂亮,比金建希美

李在明全家福曝光,有兩個帥氣兒子,老婆金惠景漂亮,比金建希美

深析古今
2025-06-04 12:35:55
科學(xué)家驚人發(fā)現(xiàn):百病不侵的秘密

科學(xué)家驚人發(fā)現(xiàn):百病不侵的秘密

詩詞中國
2025-04-17 13:07:29
存款降息,理財“吃飽”

存款降息,理財“吃飽”

澎湃新聞
2025-06-05 06:56:03
震驚!榮昌鹵鵝哥的店鋪關(guān)門了?重慶網(wǎng)友稱上午10點該店大門緊閉

震驚!榮昌鹵鵝哥的店鋪關(guān)門了?重慶網(wǎng)友稱上午10點該店大門緊閉

火山詩話
2025-06-04 13:06:24
重磅!22年后重提“藍印戶口” 上海落戶政策或有大突破!

重磅!22年后重提“藍印戶口” 上海落戶政策或有大突破!

地產(chǎn)申度
2025-06-04 16:51:39
財聯(lián)社6月5日電,中國5月財新服務(wù)業(yè)PMI報51.1,預(yù)期為51.1,前值為50.7。

財聯(lián)社6月5日電,中國5月財新服務(wù)業(yè)PMI報51.1,預(yù)期為51.1,前值為50.7。

財聯(lián)社
2025-06-05 09:51:14
2025-06-05 12:56:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10584文章數(shù) 142330關(guān)注度
往期回顧 全部

科技要聞

人形機器人千億投入 年產(chǎn)量不如勞力士一周

頭條要聞

美媒:德法領(lǐng)導(dǎo)人或訪問中國 帶空客簽數(shù)百架飛機大單

頭條要聞

美媒:德法領(lǐng)導(dǎo)人或訪問中國 帶空客簽數(shù)百架飛機大單

體育要聞

從次輪末到樂透邊緣 楊瀚森的試訓(xùn)有什么玄機?

娛樂要聞

陳學(xué)冬消失2年首曬照 車禍后遺癥嚴重?

財經(jīng)要聞

多半袋方便面"多半"是商標 白象致歉

汽車要聞

長安汽車升級為獨立央企 東風(fēng)長安重組按下暫停鍵

態(tài)度原創(chuàng)

旅游
房產(chǎn)
數(shù)碼
本地
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產(chǎn)要聞

再奪荔灣銷冠!誰是主城改善標準制定者,終于有了答案!

數(shù)碼要聞

威剛宣布 Premier Extreme microSD Express 存儲卡支持 Switch 2

本地新聞

《中國匠人——錦繡中國》即日上線:解讀千年絲線的東方美學(xué)密碼

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 垦利县| 葫芦岛市| 安顺市| 南皮县| 抚宁县| 界首市| 涞源县| 社旗县| 青河县| 洛宁县| 西华县| 唐山市| 乌海市| 南京市| 永定县| 吕梁市| 土默特右旗| 洪湖市| 孝感市| 津南区| 万全县| 财经| 天津市| 高尔夫| 沿河| 恭城| 宁蒗| 龙川县| 开平市| 遂溪县| 德惠市| 巧家县| 衡阳市| 赞皇县| 开平市| 临城县| 谢通门县| 偏关县| 潼关县| 泸溪县| 庆元县|