99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

推理越多,幻覺越重?多模態(tài)推理模型的「幻覺悖論」

0
分享至


新智元報道

編輯:LRST

【新智元導讀】多模態(tài)推理模型真的「越想越明白」嗎?研究表明,R1系列模型在推理鏈條加長的過程中,其視覺感知能力出現(xiàn)下降趨勢,生成內容有時會偏離圖像本身,出現(xiàn)「看見」不存在事物的幻覺現(xiàn)象。推理能力的提升,在一定程度伴隨著視覺對齊的弱化,呈現(xiàn)出「越推理越幻覺」的傾向。這一現(xiàn)象引發(fā)了研究者對多模態(tài)推理模型中感知與推理如何動態(tài)平衡的深入思考:當模型不斷追求更強的推理深度,是否也正在喪失對現(xiàn)實世界的視覺錨點?

在多模態(tài)大模型的飛速發(fā)展中,R1 系列多模態(tài)推理模型憑借顯式的長鏈推理機制,在復雜任務中屢屢突破傳統(tǒng)「快思考」范式的性能瓶頸。

然而,研究發(fā)現(xiàn),隨著推理鏈條的加長,這類模型的視覺感知能力卻呈現(xiàn)出明顯下滑的趨勢,逐漸轉而依賴語言先驗進行「腦補」,生成內容也越來越容易脫離圖像本身,甚至出現(xiàn)憑空捏造的幻覺現(xiàn)象。

這一「推理增強—感知削弱」的悖論,凸顯了當前多模態(tài)推理模型在推理能力與感知準確性之間面臨的平衡挑戰(zhàn)。

為進一步驗證這一現(xiàn)象,來自加州大學圣克魯茲分校、圣塔芭芭拉分校和斯坦福大學的研究團隊開展了系統(tǒng)性分析。

通過引入推理長度控制機制與可解釋性注意力可視化方法,研究者發(fā)現(xiàn):隨著推理鏈的延長,模型對圖像內容的關注顯著下降,而對語言提示的依賴不斷增強,凸顯出語言主導下的視覺偏離趨勢。


論文鏈接:https://arxiv.org/pdf/2505.21523

項目鏈接:https://mlrm-halu.github.io

代碼鏈接:https://github.com/MLRM-Halu/MLRM-Halu

在此基礎上,團隊提出了全新的評估指標RH-AUC,并構建了配套的診斷性基準集RH-Bench,首次系統(tǒng)量化了多模態(tài)推理模型在推理能力與視覺感知穩(wěn)定性之間的平衡表現(xiàn)。

該工具不僅提升了模型幻覺風險的可測性,也為未來多模態(tài)系統(tǒng)的穩(wěn)健性評估與改進提供了重要參考。


推理增強帶來的視覺幻覺放大效應


在當前多模態(tài)大模型的演進中,R1 類推理模型因引入顯式的長鏈語言推理過程(Reasoning Chain),在復雜任務上展現(xiàn)出強大的表達能力。



然而,研究人員系統(tǒng)性觀察到一個被廣泛忽視的現(xiàn)象:隨著推理鏈長度的加深,模型在感知任務中的視覺對齊能力顯著下降,幻覺風險隨之放大。

這一趨勢在多組實證對比中被清晰觀察到。

例如,在圖 (b) 中,研究人員對比了多個 7B 規(guī)模的多模態(tài)模型在推理與感知兩類任務中的表現(xiàn):盡管 R1-OneVision-7B 等模型在推理準確率上具備一定優(yōu)勢,但其在感知任務中的準確率卻降至最低,顯著低于同規(guī)模的非推理模型(如Qwen2.5-VL-7B)。

這表明推理鏈的加深并非「無代價」的增強,而是以犧牲圖像感知能力為代價,放大了幻覺。


具體來說,當模型在圖文任務中逐步延展其語言鏈條時,原本應支撐答案的圖像證據(jù)信號卻被悄然邊緣化。

以典型視覺問答任務為例,在推理模型中生成的冗長輸出往往并未真正參考圖像內容,而是依賴語言常識「腦補」出一個聽上去合理、但圖像中并不存在的答案。這種現(xiàn)象在多個感知評測基準(如MMVP、MMHAL)中反復出現(xiàn)。

如圖所示,在多個視覺感知任務的綜合評估中,R1類模型普遍低于同規(guī)模的Base模型,尤其在需要細致圖像對齊能力的MMHAL和MMVP上,差距更為顯著。

這進一步印證了:推理鏈的增強不僅沒有提升感知質量,反而加劇了模型「脫圖而答」的幻覺傾向。

綜上,推理鏈的增強并非無代價,「更聰明」的推理模型在感知類任務上反而可能「看得更少」。

越「聰明」越容易出錯?


為了深入理解多模態(tài)推理模型為何更容易產生幻覺,研究團隊對模型內部的注意力分布進行了系統(tǒng)分析,揭示出一種結構性機制:推理增強并非免費午餐,它以犧牲視覺關注為代價換取語言推理能力的提升

具體來說,相較于非推理模型,R1類推理模型在生成過程中顯著減少了對視覺token的關注,取而代之的是將大量注意力分配給指令token與語言上下文(圖a)。

更為關鍵的是,這種注意力遷移并非固定偏差,而是隨著推理鏈條的延展而逐層加劇——越往后層,模型越傾向于忽略圖像輸入,而完全依賴語言信號進行推理。

如圖 (b) 所示,在視覺聚焦任務中,非推理模型(Qwen2.5-VL)在多層均展現(xiàn)出對圖中關鍵區(qū)域(如奶酪)的穩(wěn)定關注;而R1模型(R1-OneVision)在同樣問題下,其注意力熱圖呈現(xiàn)出明顯的視覺退化,深層幾乎完全失焦。

這種結構性偏移使得模型即使面對明確依賴圖像的問題,也往往「憑語言猜」,最終生成與圖像嚴重脫節(jié)的幻覺答案。


不僅如此,研究發(fā)現(xiàn)這一現(xiàn)象在模型進入「過度思考」(Overthinking)階段時表現(xiàn)得尤為明顯。

隨著推理鏈的延長,模型對視覺token的關注持續(xù)減弱,而對指令等語言token的注意力則顯著增強,導致生成過程越來越依賴語言線索而非圖像內容。


推理鏈「長度悖論」:思考越多,幻覺越大?


模型推理鏈條的長短,真的越長越好嗎?研究團隊對比了三種不同的推理長度控制策略在多個基準測試中(Token Budget Forcing、Test-Time Scaling與Latent State Steering),首次系統(tǒng)揭示了一個關鍵現(xiàn)象:推理鏈條的長度與模型表現(xiàn)之間,呈現(xiàn)出非單調的「倒U型」關系


如圖所示,在以推理為主的任務中(左兩圖),模型準確率先隨推理鏈延長而提升,但當鏈條過長后反而回落,說明「過度思考」并不一定帶來更強的reasoning能力。

而在以感知為主的任務中(右兩圖),隨著推理長度的增加,幻覺率則持續(xù)上升,表明冗余語言生成會系統(tǒng)性干擾視覺對齊。

這一趨勢強調:合理控制推理長度,是提升模型穩(wěn)健性與感知–推理平衡能力的關鍵。

RH-AUC等指標的引入,也為這一非線性關系提供了更具解釋力的定量刻畫。

RH-AUC:推理與幻覺的動態(tài)權衡評估

面對多模態(tài)模型中推理增強與幻覺放大的兩難局面,研究團隊提出了一項全新評估指標:RH-AUC(Reasoning-HallucinationArea Under Curve

不同于傳統(tǒng)指標只在單一推理長度上評估準確率或幻覺率,RH-AUC從整體視角出發(fā),衡量模型在不同推理深度下「思考力」與「看清力」的動態(tài)平衡水平。


具體做法是:在新構建的RH-Bench數(shù)據(jù)集中(包含1000個跨感知與推理的樣本),分別統(tǒng)計模型在不同推理長度下的reasoning accuracy與hallucination risk,然后計算兩者構成曲線下的面積。

RH-AUC越高,說明模型在推理增強的同時,視覺對齊能力保持得越好——既能「想得深」,也能「看得清」。


實驗結果揭示出三個關鍵趨勢:

1. 更大規(guī)模模型更具穩(wěn)健性如圖 (a) 所示,7B 模型在不同思考深度下展現(xiàn)出更平滑的 RH-AUC 曲線,并在峰值處取得更高分數(shù),說明其具備更強的推理–感知整合能力。

2. RL-only 訓練范式優(yōu)于SFT+RL如圖 (b) 所示,在不同訓練策略下,純RL訓練的模型平均 RH-AUC 均高于混合范式,尤其在長推理鏈條件下差距顯著(0.57vs0.50)。

這表明RL-only更傾向于自適應生成高質量的推理路徑,而SFT+RL更容易陷入冗余模仿,從而干擾感知判斷。

3. 數(shù)據(jù)「類型」比規(guī)模更重要實驗發(fā)現(xiàn),與其盲目擴展訓練集規(guī)模,不如引入少量具備領域感知特征的樣本(如數(shù)學推理或圖像感知任務),更有助于引導模型在「看圖」與「思考」之間實現(xiàn)平衡。

RH-AUC不僅填補了評估維度上的空白,也為未來多模態(tài)模型的訓練目標提供了更明確的參考方向:推理不是越多越好,保持在「看見圖像」與「想通問題」之間的張力,才是更優(yōu)范式。

參考資料:

https://arxiv.org/pdf/2505.21523


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
什么是要旅游很多次才知道的?網(wǎng)友的分享太機智了,讓我恍然大悟

什么是要旅游很多次才知道的?網(wǎng)友的分享太機智了,讓我恍然大悟

特約前排觀眾
2025-06-25 00:05:08
坐火車你遇到最離譜的事是什么?網(wǎng)友:遇到那種穿灰絲拖鞋的咋辦

坐火車你遇到最離譜的事是什么?網(wǎng)友:遇到那種穿灰絲拖鞋的咋辦

解讀熱點事件
2025-05-07 01:30:03
著名梅黑羅騰:梅西可能是歷史第一人!沒人配評論他!

著名梅黑羅騰:梅西可能是歷史第一人!沒人配評論他!

氧氣是個地鐵
2025-06-25 20:22:41
瞞不住了!瑞士女足1-7慘敗瑞士超U15男足,足協(xié)封鎖賽果計劃泡湯

瞞不住了!瑞士女足1-7慘敗瑞士超U15男足,足協(xié)封鎖賽果計劃泡湯

雷速體育
2025-06-25 20:57:08
Shams:綠軍不太想交易布朗和懷特,但送上的報價讓他們不得不開啟談判

Shams:綠軍不太想交易布朗和懷特,但送上的報價讓他們不得不開啟談判

懂球帝
2025-06-25 09:12:16
蕭華:門面球員是自己掙來的 詹喬杜庫曾經(jīng)是因為他們都有冠軍

蕭華:門面球員是自己掙來的 詹喬杜庫曾經(jīng)是因為他們都有冠軍

直播吧
2025-06-25 21:17:18
寧靜直播回應與汪峰牽手:不喜歡搖滾的,爆料汪峰常打電話給女友

寧靜直播回應與汪峰牽手:不喜歡搖滾的,爆料汪峰常打電話給女友

聯(lián)友說娛
2025-06-25 16:57:54
突發(fā)!影響百萬人,西安第二條跨市地鐵,即將開工!

突發(fā)!影響百萬人,西安第二條跨市地鐵,即將開工!

木兮聊房
2025-06-25 17:10:15
俄羅斯發(fā)動導彈襲擊

俄羅斯發(fā)動導彈襲擊

魯中晨報
2025-06-25 09:33:02
“18個月內,中國將誕生超百個類似DeepSeek的突破”

“18個月內,中國將誕生超百個類似DeepSeek的突破”

觀察者網(wǎng)
2025-06-24 15:48:23
李月汝引全美熱議:官方連發(fā)兩推 奧貢贊全能戰(zhàn)士  美記高呼太強

李月汝引全美熱議:官方連發(fā)兩推 奧貢贊全能戰(zhàn)士 美記高呼太強

顏小白的籃球夢
2025-06-25 11:25:15
周淑怡被要求玩撈女游戲,當場破防怒噴粉絲:讓你家里人去玩吧

周淑怡被要求玩撈女游戲,當場破防怒噴粉絲:讓你家里人去玩吧

風塵Game
2025-06-25 11:06:57
這個AI能救命!提前6個月發(fā)現(xiàn)胃癌病灶,突破醫(yī)學影像認知

這個AI能救命!提前6個月發(fā)現(xiàn)胃癌病灶,突破醫(yī)學影像認知

量子位
2025-06-25 13:22:41
印度外長狂言“不合作就付代價”!“印度威脅論”遭群嘲…

印度外長狂言“不合作就付代價”!“印度威脅論”遭群嘲…

湊近看世界
2025-06-24 16:39:55
六年前因批評鴻茅藥酒,被跨省追捕的醫(yī)學碩士,今生命進入倒計時

六年前因批評鴻茅藥酒,被跨省追捕的醫(yī)學碩士,今生命進入倒計時

素衣讀史
2024-12-25 11:12:50
2025湖北高考狀元出爐,襄陽五中“再現(xiàn)雙殺”,華師一附顆粒無收

2025湖北高考狀元出爐,襄陽五中“再現(xiàn)雙殺”,華師一附顆粒無收

史書無明
2025-06-25 08:21:41
溫網(wǎng)名單變動!王欣瑜退賽內幕曝光,鄭欽文逆襲鮑里妮狀態(tài)回落?

溫網(wǎng)名單變動!王欣瑜退賽內幕曝光,鄭欽文逆襲鮑里妮狀態(tài)回落?

小鹿跳跳
2025-06-24 13:55:28
拒絕投資“領導宣傳片”,四川功勛警察被捕

拒絕投資“領導宣傳片”,四川功勛警察被捕

有戲
2025-06-23 15:12:31
江蘇考生“太卷了”:文科特控線537分創(chuàng)新高,理科600分近3.5萬人

江蘇考生“太卷了”:文科特控線537分創(chuàng)新高,理科600分近3.5萬人

妍妍教育日記
2025-06-25 17:43:13
我回前妻老家當紀委書記,參加同學聚會,被前妻的局長老公嘲笑

我回前妻老家當紀委書記,參加同學聚會,被前妻的局長老公嘲笑

南山青松
2025-06-17 22:51:00
2025-06-26 00:16:49
新智元 incentive-icons
新智元
AI產業(yè)主平臺領航智能+時代
12950文章數(shù) 66078關注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

廣東一飯店米飯免費老人每天打米飯配醬油吃 店主發(fā)聲

頭條要聞

廣東一飯店米飯免費老人每天打米飯配醬油吃 店主發(fā)聲

體育要聞

驚艷世俱杯的39歲少帥,一個另類的巴西人

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經(jīng)要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

對話王媛:在世界的游樂場,一起龐巴迪

態(tài)度原創(chuàng)

本地
房產
數(shù)碼
旅游
公開課

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

房產要聞

三亞頂豪!內部資料曝光!

數(shù)碼要聞

vivo X Fold5折疊屏手機發(fā)布:6999元起 無縫融入蘋果生態(tài)

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 新蔡县| 巴青县| 中西区| 洪洞县| 长岭县| 会宁县| 武隆县| 四子王旗| 渝中区| 浦县| 林州市| 玛多县| 康定县| 正宁县| 莆田市| 遂平县| 普兰店市| 长宁区| 涟源市| 城口县| 平湖市| 麻江县| 尼木县| 栾城县| 游戏| 商都县| 杭锦后旗| 锡林浩特市| 汶上县| 丰城市| 泰兴市| 湖北省| 泾阳县| 贡觉县| 崇明县| 吕梁市| 安康市| 扶绥县| 商丘市| 怀远县| 保亭|