網易首頁 > 網易號 > 正文申請入駐

大模型推理的天花板在哪里？

2025-06-23 18:01:44　來源: 人工智能學家

北京舉報

分享至

摘要

近期新一代前沿語言模型引入了大型推理模型（Large Reasoning Models，LRMs），這些模型在給出最終答案之前，會先生成詳盡的思考過程。盡管它們在各類推理基準上的表現顯著提升，其基本能力、規模化特性及內在局限性仍未得到充分理解。目前的評估主要聚焦于既有的數學和編碼基準，強調最終答案的準確率；然而，這種評估范式往往受到數據污染的影響，且無法深入剖析推理痕跡（reasoning traces）的結構與質量。在此背景下，本文借助可控謎題環境，系統地填補這些認知空白：該環境既可精確操控組合復雜度，又保持邏輯結構一致，不僅可以評估最終答案，也能追蹤并分析模型內部的推理軌跡，以洞見LRMs的“思考”方式。通過對多種謎題任務進行大規模實驗證明，當前前沿LRMs在超過某一復雜度閾值后會出現準確率的完全崩潰；更令人意外的是，它們的推理努力隨著問題復雜度上升而增加，但在達到臨界點后即便擁有充足的推理token預算也會驟然下降，展現出一種反直覺的規模化極限。我們還將LRMs與標準大型語言模型（LLMs）在相同推理計算預算下進行對比，識別出三種性能區間：（1）在低復雜度任務上，標準模型反而意外地優于LRMs；（2）在中等復雜度任務上，LRMs因額外的思考環節而表現出優勢；（3）在高復雜度任務上，二者皆陷入完全崩潰。此外，我們發現LRMs在精確計算方面存在明顯局限：它們無法可靠地執行顯式算法，在不同謎題任務中的推理表現也極不一致。進一步深入分析推理痕跡時，我們研究了模型探索解空間的模式并剖析了其計算行為，揭示了LRMs的優勢與短板，并最終對其真正的推理能力提出了關鍵質疑。

關鍵詞：Large Reasoning Models (LRMs)、問題復雜度，可控謎題環境 (controllable puzzle environments)、思維痕跡 (reasoning traces)、過度思考 (overthinking)、推理計算預算 (inference compute budget)

來源：啟元洞見

編譯：彭晨

作者：集智編輯部

論文題目：The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity 發表時間：2024年10月22日論文地址：https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

近年來，隨著大型語言模型（LLMs）的飛速發展，一類專門針對推理任務進行優化的“大型推理模型”（Large Reasoning Models, LRMs）應運而生。與傳統僅輸出答案的LLM不同，LRM通過“鏈式思維”（chain‐of‐thought, CoT）或自我反思機制，先生成詳盡的思考過程再給出答案。盡管在諸多數學與編碼基準上表現優異，其真正的推理能力、規模化性能及內在局限尚未得到系統評估。近期蘋果公司發表論文，借助可控謎題環境（經典Tower of Hanoi、Checkers Jumping、River Crossing、Blocks World等），深入剖析LRM在不同復雜度下的表現，并揭示其“推理崩潰”與“過度思考”現象。

LRM的崛起與研究動機

隨著OpenAI o1/o3、Anthropic Claude 3.7 Sonnet Thinking、Google Gemini Thinking等LRM的橫空出世，研究者紛紛將其視作通向更通用人工智能的關鍵一步。早期LLM在推理基準上表現不佳，研究者嘗試通過規模化訓練數據及推理時計算（inference compute budget）來提升性能。思維鏈（CoT）與自我校驗（self‐verification）策略，雖能在一定程度上提高準確率，卻帶來了所謂的“過度思考”（overthinking）——在找到正確思路后仍持續無效探索，浪費推理預算。

在模型的評估測試方面，大多只是聚焦于推理模型最終給出答案的準確率。此外，測試所使用的大量經典數學基準，如MATH-500、AIME系列常存在樣本泄露或缺乏復雜度可控性等問題，難以分辨模型是憑借記憶還是算法推理。因此，本研究在此基礎上，構建可精細控制復雜度且規則明晰的測試環境，同時檢驗模型的答案與思維痕跡，并通過模擬器精確核驗中間解與最終結果，從而揭示LRM的真正“思考”面貌。

可控謎題環境的設計與優勢

為了系統操控問題復雜度并保持邏輯結構一致，研究團隊選取了四類經典謎題：

河內塔（Tower of Hanoi）：通過盤子數量控制組合深度，考察模型的遞歸規劃與狀態管理能力；
跳棋謎題（Checkers Jumping）：在線性布局中交換紅藍棋子位置，檢測模型對局面轉換規則的理解與前瞻能力；
過河問題（River Crossing）：多對“執行者—保護者”在約束條件下渡河，評估多主體協調與約束管理；
積木世界（Blocks World）：在堆棧間轉換塊狀物，考驗模型對依賴關系和臨時重組的規劃思路。

這四種環境均配備專門模擬器，實現對每一步移動合法性與最終目標狀態的精確校驗，為深入分析LRM“思維”提供了可靠工具。

圖 1. 四種謎題環境的圖解。每一列展示了謎題從初始狀態（上）到中間狀態（中）再到目標狀態（下）的過程：河內塔（通過木樁運輸圓盤）、跳棋（交換兩種顏色標記的位置）、渡河（將個體運送過河）和方塊世界（堆棧重新配置）。

實驗設計與方法

研究以Claude 3.7 Sonnet（thinking/no‐thinking）和DeepSeek-R1/V3為代表，允許最大64k推理token預算。對每種謎題、每個復雜度N，均生成25個實例并取平均性能。實驗主要衡量：

答案準確率：模型最終是否正確完成謎題；
推理token使用量（thinking tokens）：LRM在思維過程階段消耗的計算預算；
中間解探索軌跡（reasoning traces）：利用模擬器提取并標記思考中的每個候選解，分析其先后順序及正確性。

圖 2. 上圖：我們的設置可以驗證最終答案和中間推理痕跡，允許對模型思維行為進行詳細分析。左下和中下：在低復雜度下，非思考模型更準確，效率更高。隨著復雜性的增加，推理模型的表現會更好，但需要更多的tokens——直到它們都超過了一個臨界閾值，并且跟蹤時間更短。右下：對于正確解決的案例，Claude 3.7 Thinking傾向于在低復雜性的情況下早期找到答案，在高復雜性的情況下后期找到答案。在失敗的情況下，它通常會關注早期的錯誤答案，浪費剩余的tokens預算。這兩種情況都揭示了推理過程的低效。

復雜度對推理行為的影響：三大階段

實驗結果顯示，隨著問題復雜度的增加，LRM與非思維LLM在謎題環境中呈現三個顯著推理階段：

低復雜度階段：標準LLM表現出色，推理更高效、準確率甚至超過LRM；
中等復雜度階段：引入思維痕跡后，LRM開始在準確率上領先，但其推理token消耗也顯著攀升；
高復雜度階段：無論思維與否，所有模型準確率均驟降，出現“推理崩潰”現象——無法給出任何有效解答。

在高復雜度區域，發現LRM的推理token反而出現下降趨勢——盡管仍有充足預算，模型卻減少思考長度并放棄探索，導致完全失敗；這一“計算規模極限”暗示了模型在面對更深組合鏈條時的固有障礙。此外，即便在中等復雜度，LRM也常在找到正確解后繼續無謂探索，不僅拖慢推理速度，更加重了計算負擔，印證了文獻中所稱的“過度思考”（overthinking）。

圖 3. 思維模型（Claude 3.7 Sonnet with thinking, DeepSeek-R1）與非思維模型（Claude 3.7 Sonnet, DeepSeek-V3）在所有謎題環境和不同問題復雜程度中的準確性。

深入分析思考痕跡：探索與自我校正能力

借助模擬器提取每條思考痕跡中的中間解，本研究將正確與錯誤解在思維過程中的出現位置進行定量對比。結果顯示：

在簡單問題中，正確解往往較早出現，但隨后的錯誤解涌現，分布向思維后段傾斜；
在中等復雜度中，模型初期多探索錯誤路徑，只有在后期才匯聚到正確解；
在復雜度閾值以上，思路全線崩潰，思考痕跡中再無任何正確片段。

這一行為模式揭示了LRM有限的自我校正能力：雖然具備一定糾錯潛力，卻因效率低下或計算預算管理失衡，難以持續收斂至解。

圖 4. 左和中：在四個不同復雜程度的謎題的推理軌跡中，中間解決方案的位置和正確性。?表示正確的解決方案；x 表示不正確的解決方案，用陰影表示分布密度；右圖：河內塔在不同復雜程度下的解決方案準確性與思考位置。簡單問題（N=1-3）表現出早期的準確性隨著時間的推移而下降（過度思考），中等問題（N=4-7）表現出持續推理的準確性略有提高，復雜問題（N≥8）表現出持續接近零的準確性，表明完全推理失敗。

意外發現與未解之謎

為驗證模型的符號執行能力，研究團隊在提示中直接提供了河內塔（Tower of Hanoi）的解決算法，結果卻未見性能提升，崩潰閾值與默認場景基本一致，凸顯LRM在精確執行給定邏輯步驟時的局限。此外，不同謎題環境中，模型的首個錯誤移動所處位置相差甚遠：在河內塔中可保持數百步無失誤，而在過河問題（River Crossing）中第一錯僅出現在第四步，或許與訓練數據中例子稀缺度有關，提示LRM仍在一定程度上依賴記憶而非純粹算法推理。

圖 5. (a)和(b)盡管在提示符中提供了求解算法，但執行失敗發生在相似的點，突出了邏輯步驟執行中的推理模型局限性。(c)和(d)值得注意的是，Claude 3.7 Sonnet模型在河內塔的無錯誤序列比在過河情景中的早期錯誤長得多。

結論、展望與思考

通過可控謎題環境的系統評估，研究首次揭示了當前LRM在問題復雜度維度上的三大推理階段與計算規模極限，深入剖析了“過度思考”與自我校正的不穩定性，并通過思考痕跡量化了模型的探索策略。研究挑戰了對LRM推理能力的諸多假設，表明其在泛化與符號操作上仍面臨重大瓶頸。

盡管謎題環境提供了優越的復雜度可控性與精確驗證，但畢竟狹窄地聚焦于結構化規劃問題，難以全面代表真實世界中知識密集型與開放式推理場景。此外，實驗依賴閉源API，限制了對模型內部架構與權重的深入剖析。最后，模擬器的精確性在高度非結構化領域或難以復制，提示未來需拓展至自然語言理解、常識推理等更富挑戰性的任務域。

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.