推理越多，幻覺越重？多模態(tài)推理模型的「幻覺悖論」

2025-06-25 20:06:49　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】多模態(tài)推理模型真的「越想越明白」嗎？研究表明，R1系列模型在推理鏈條加長的過程中，其視覺感知能力出現(xiàn)下降趨勢，生成內容有時會偏離圖像本身，出現(xiàn)「看見」不存在事物的幻覺現(xiàn)象。推理能力的提升，在一定程度伴隨著視覺對齊的弱化，呈現(xiàn)出「越推理越幻覺」的傾向。這一現(xiàn)象引發(fā)了研究者對多模態(tài)推理模型中感知與推理如何動態(tài)平衡的深入思考：當模型不斷追求更強的推理深度，是否也正在喪失對現(xiàn)實世界的視覺錨點？

在多模態(tài)大模型的飛速發(fā)展中，R1 系列多模態(tài)推理模型憑借顯式的長鏈推理機制，在復雜任務中屢屢突破傳統(tǒng)「快思考」范式的性能瓶頸。

然而，研究發(fā)現(xiàn)，隨著推理鏈條的加長，這類模型的視覺感知能力卻呈現(xiàn)出明顯下滑的趨勢，逐漸轉而依賴語言先驗進行「腦補」，生成內容也越來越容易脫離圖像本身，甚至出現(xiàn)憑空捏造的幻覺現(xiàn)象。

這一「推理增強—感知削弱」的悖論，凸顯了當前多模態(tài)推理模型在推理能力與感知準確性之間面臨的平衡挑戰(zhàn)。

為進一步驗證這一現(xiàn)象，來自加州大學圣克魯茲分校、圣塔芭芭拉分校和斯坦福大學的研究團隊開展了系統(tǒng)性分析。

通過引入推理長度控制機制與可解釋性注意力可視化方法，研究者發(fā)現(xiàn)：隨著推理鏈的延長，模型對圖像內容的關注顯著下降，而對語言提示的依賴不斷增強，凸顯出語言主導下的視覺偏離趨勢。

論文鏈接：https://arxiv.org/pdf/2505.21523

項目鏈接：https://mlrm-halu.github.io

代碼鏈接：https://github.com/MLRM-Halu/MLRM-Halu

在此基礎上，團隊提出了全新的評估指標RH-AUC，并構建了配套的診斷性基準集RH-Bench，首次系統(tǒng)量化了多模態(tài)推理模型在推理能力與視覺感知穩(wěn)定性之間的平衡表現(xiàn)。

該工具不僅提升了模型幻覺風險的可測性，也為未來多模態(tài)系統(tǒng)的穩(wěn)健性評估與改進提供了重要參考。

推理增強帶來的視覺幻覺放大效應

在當前多模態(tài)大模型的演進中，R1 類推理模型因引入顯式的長鏈語言推理過程（Reasoning Chain），在復雜任務上展現(xiàn)出強大的表達能力。

然而，研究人員系統(tǒng)性觀察到一個被廣泛忽視的現(xiàn)象：隨著推理鏈長度的加深，模型在感知任務中的視覺對齊能力顯著下降，幻覺風險隨之放大。

這一趨勢在多組實證對比中被清晰觀察到。

例如，在圖 (b) 中，研究人員對比了多個 7B 規(guī)模的多模態(tài)模型在推理與感知兩類任務中的表現(xiàn)：盡管 R1-OneVision-7B 等模型在推理準確率上具備一定優(yōu)勢，但其在感知任務中的準確率卻降至最低，顯著低于同規(guī)模的非推理模型（如Qwen2.5-VL-7B）。

這表明推理鏈的加深并非「無代價」的增強，而是以犧牲圖像感知能力為代價，放大了幻覺。

具體來說，當模型在圖文任務中逐步延展其語言鏈條時，原本應支撐答案的圖像證據(jù)信號卻被悄然邊緣化。

以典型視覺問答任務為例，在推理模型中生成的冗長輸出往往并未真正參考圖像內容，而是依賴語言常識「腦補」出一個聽上去合理、但圖像中并不存在的答案。這種現(xiàn)象在多個感知評測基準（如MMVP、MMHAL）中反復出現(xiàn)。

如圖所示，在多個視覺感知任務的綜合評估中，R1類模型普遍低于同規(guī)模的Base模型，尤其在需要細致圖像對齊能力的MMHAL和MMVP上，差距更為顯著。

這進一步印證了：推理鏈的增強不僅沒有提升感知質量，反而加劇了模型「脫圖而答」的幻覺傾向。

綜上，推理鏈的增強并非無代價，「更聰明」的推理模型在感知類任務上反而可能「看得更少」。

越「聰明」越容易出錯？

為了深入理解多模態(tài)推理模型為何更容易產生幻覺，研究團隊對模型內部的注意力分布進行了系統(tǒng)分析，揭示出一種結構性機制：推理增強并非免費午餐，它以犧牲視覺關注為代價換取語言推理能力的提升。

具體來說，相較于非推理模型，R1類推理模型在生成過程中顯著減少了對視覺token的關注，取而代之的是將大量注意力分配給指令token與語言上下文（圖a）。

更為關鍵的是，這種「注意力遷移」并非固定偏差，而是隨著推理鏈條的延展而逐層加劇——越往后層，模型越傾向于忽略圖像輸入，而完全依賴語言信號進行推理。

如圖 (b) 所示，在視覺聚焦任務中，非推理模型（Qwen2.5-VL）在多層均展現(xiàn)出對圖中關鍵區(qū)域（如奶酪）的穩(wěn)定關注；而R1模型（R1-OneVision）在同樣問題下，其注意力熱圖呈現(xiàn)出明顯的視覺退化，深層幾乎完全失焦。

這種結構性偏移使得模型即使面對明確依賴圖像的問題，也往往「憑語言猜」，最終生成與圖像嚴重脫節(jié)的幻覺答案。

不僅如此，研究發(fā)現(xiàn)這一現(xiàn)象在模型進入「過度思考」（Overthinking）階段時表現(xiàn)得尤為明顯。

隨著推理鏈的延長，模型對視覺token的關注持續(xù)減弱，而對指令等語言token的注意力則顯著增強，導致生成過程越來越依賴語言線索而非圖像內容。

推理鏈「長度悖論」：思考越多，幻覺越大？

模型推理鏈條的長短，真的越長越好嗎？研究團隊對比了三種不同的推理長度控制策略在多個基準測試中（Token Budget Forcing、Test-Time Scaling與Latent State Steering），首次系統(tǒng)揭示了一個關鍵現(xiàn)象：推理鏈條的長度與模型表現(xiàn)之間，呈現(xiàn)出非單調的「倒U型」關系。

如圖所示，在以推理為主的任務中（左兩圖），模型準確率先隨推理鏈延長而提升，但當鏈條過長后反而回落，說明「過度思考」并不一定帶來更強的reasoning能力。

而在以感知為主的任務中（右兩圖），隨著推理長度的增加，幻覺率則持續(xù)上升，表明冗余語言生成會系統(tǒng)性干擾視覺對齊。

這一趨勢強調：合理控制推理長度，是提升模型穩(wěn)健性與感知–推理平衡能力的關鍵。

RH-AUC等指標的引入，也為這一非線性關系提供了更具解釋力的定量刻畫。

RH-AUC：推理與幻覺的動態(tài)權衡評估

面對多模態(tài)模型中推理增強與幻覺放大的兩難局面，研究團隊提出了一項全新評估指標：RH-AUC（Reasoning-HallucinationArea Under Curve）。

不同于傳統(tǒng)指標只在單一推理長度上評估準確率或幻覺率，RH-AUC從整體視角出發(fā)，衡量模型在不同推理深度下「思考力」與「看清力」的動態(tài)平衡水平。

具體做法是：在新構建的RH-Bench數(shù)據(jù)集中（包含1000個跨感知與推理的樣本），分別統(tǒng)計模型在不同推理長度下的reasoning accuracy與hallucination risk，然后計算兩者構成曲線下的面積。

RH-AUC越高，說明模型在推理增強的同時，視覺對齊能力保持得越好——既能「想得深」，也能「看得清」。

實驗結果揭示出三個關鍵趨勢：

1. 更大規(guī)模模型更具穩(wěn)健性：如圖 (a) 所示，7B 模型在不同思考深度下展現(xiàn)出更平滑的 RH-AUC 曲線，并在峰值處取得更高分數(shù)，說明其具備更強的推理–感知整合能力。

2. RL-only 訓練范式優(yōu)于SFT+RL：如圖 (b) 所示，在不同訓練策略下，純RL訓練的模型平均 RH-AUC 均高于混合范式，尤其在長推理鏈條件下差距顯著（0.57vs0.50）。

這表明RL-only更傾向于自適應生成高質量的推理路徑，而SFT+RL更容易陷入冗余模仿，從而干擾感知判斷。

3. 數(shù)據(jù)「類型」比規(guī)模更重要：實驗發(fā)現(xiàn)，與其盲目擴展訓練集規(guī)模，不如引入少量具備領域感知特征的樣本（如數(shù)學推理或圖像感知任務），更有助于引導模型在「看圖」與「思考」之間實現(xiàn)平衡。

RH-AUC不僅填補了評估維度上的空白，也為未來多模態(tài)模型的訓練目標提供了更明確的參考方向：推理不是越多越好，保持在「看見圖像」與「想通問題」之間的張力，才是更優(yōu)范式。

參考資料：

https://arxiv.org/pdf/2505.21523

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.