摘要
近期新一代前沿語言模型引入了大型推理模型(Large Reasoning Models,LRMs),這些模型在給出最終答案之前,會先生成詳盡的思考過程。盡管它們在各類推理基準上的表現顯著提升,其基本能力、規模化特性及內在局限性仍未得到充分理解。目前的評估主要聚焦于既有的數學和編碼基準,強調最終答案的準確率;然而,這種評估范式往往受到數據污染的影響,且無法深入剖析推理痕跡(reasoning traces)的結構與質量。在此背景下,本文借助可控謎題環境,系統地填補這些認知空白:該環境既可精確操控組合復雜度,又保持邏輯結構一致,不僅可以評估最終答案,也能追蹤并分析模型內部的推理軌跡,以洞見LRMs的“思考”方式。通過對多種謎題任務進行大規模實驗證明,當前前沿LRMs在超過某一復雜度閾值后會出現準確率的完全崩潰;更令人意外的是,它們的推理努力隨著問題復雜度上升而增加,但在達到臨界點后即便擁有充足的推理token預算也會驟然下降,展現出一種反直覺的規模化極限。我們還將LRMs與標準大型語言模型(LLMs)在相同推理計算預算下進行對比,識別出三種性能區間:(1)在低復雜度任務上,標準模型反而意外地優于LRMs;(2)在中等復雜度任務上,LRMs因額外的思考環節而表現出優勢;(3)在高復雜度任務上,二者皆陷入完全崩潰。此外,我們發現LRMs在精確計算方面存在明顯局限:它們無法可靠地執行顯式算法,在不同謎題任務中的推理表現也極不一致。進一步深入分析推理痕跡時,我們研究了模型探索解空間的模式并剖析了其計算行為,揭示了LRMs的優勢與短板,并最終對其真正的推理能力提出了關鍵質疑。
關鍵詞:Large Reasoning Models (LRMs)、問題復雜度 ,可控謎題環境 (controllable puzzle environments)、思維痕跡 (reasoning traces)、過度思考 (overthinking)、推理計算預算 (inference compute budget)
集智編輯部丨作者
論文題目:The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity 發表時間:2024年10月22日 論文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
近年來,隨著大型語言模型(LLMs)的飛速發展,一類專門針對推理任務進行優化的“大型推理模型”(Large Reasoning Models, LRMs)應運而生。與傳統僅輸出答案的LLM不同,LRM通過“鏈式思維”(chain‐of‐thought, CoT)或自我反思機制,先生成詳盡的思考過程再給出答案。盡管在諸多數學與編碼基準上表現優異,其真正的推理能力、規模化性能及內在局限尚未得到系統評估。近期蘋果公司發表論文,借助可控謎題環境(經典Tower of Hanoi、Checkers Jumping、River Crossing、Blocks World等),深入剖析LRM在不同復雜度下的表現,并揭示其“推理崩潰”與“過度思考”現象。
讀書會推薦
集智俱樂部也聯合上海交通大學副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學家肖達、北京師范大學碩士生楊明哲和浙江大學博士生姚云志共同發起 ,一起拆解大模型的推理能力的可解釋性,邀請你加入:
LRM的崛起與研究動機
隨著OpenAI o1/o3、Anthropic Claude 3.7 Sonnet Thinking、Google Gemini Thinking等LRM的橫空出世,研究者紛紛將其視作通向更通用人工智能的關鍵一步。早期LLM在推理基準上表現不佳,研究者嘗試通過規模化訓練數據及推理時計算(inference compute budget)來提升性能。思維鏈(CoT)與自我校驗(self‐verification)策略,雖能在一定程度上提高準確率,卻帶來了所謂的“過度思考”(overthinking)——在找到正確思路后仍持續無效探索,浪費推理預算。
在模型的評估測試方面,大多只是聚焦于推理模型最終給出答案的準確率。此外,測試所使用的大量經典數學基準,如MATH-500、AIME系列常存在樣本泄露或缺乏復雜度可控性等問題,難以分辨模型是憑借記憶還是算法推理。因此,本研究在此基礎上,構建可精細控制復雜度且規則明晰的測試環境,同時檢驗模型的答案與思維痕跡,并通過模擬器精確核驗中間解與最終結果,從而揭示LRM的真正“思考”面貌。
可控謎題環境的設計與優勢
為了系統操控問題復雜度并保持邏輯結構一致,研究團隊選取了四類經典謎題:
河內塔(Tower of Hanoi):通過盤子數量控制組合深度,考察模型的遞歸規劃與狀態管理能力;
跳棋謎題(Checkers Jumping):在線性布局中交換紅藍棋子位置,檢測模型對局面轉換規則的理解與前瞻能力;
過河問題(River Crossing):多對“執行者—保護者”在約束條件下渡河,評估多主體協調與約束管理;
積木世界(Blocks World):在堆棧間轉換塊狀物,考驗模型對依賴關系和臨時重組的規劃思路。
這四種環境均配備專門模擬器,實現對每一步移動合法性與最終目標狀態的精確校驗,為深入分析LRM“思維”提供了可靠工具。
圖 1. 四種謎題環境的圖解。每一列展示了謎題從初始狀態(上)到中間狀態(中)再到目標狀態(下)的過程:河內塔(通過木樁運輸圓盤)、跳棋(交換兩種顏色標記的位置)、渡河(將個體運送過河)和方塊世界(堆棧重新配置)。
實驗設計與方法
研究以Claude 3.7 Sonnet(thinking/no‐thinking)和DeepSeek-R1/V3為代表,允許最大64k推理token預算。對每種謎題、每個復雜度N,均生成25個實例并取平均性能。實驗主要衡量:
答案準確率:模型最終是否正確完成謎題;
推理token使用量(thinking tokens):LRM在思維過程階段消耗的計算預算;
中間解探索軌跡(reasoning traces):利用模擬器提取并標記思考中的每個候選解,分析其先后順序及正確性。
圖 2. 上圖:我們的設置可以驗證最終答案和中間推理痕跡,允許對模型思維行為進行詳細分析。左下和中下:在低復雜度下,非思考模型更準確,效率更高。隨著復雜性的增加,推理模型的表現會更好,但需要更多的tokens——直到它們都超過了一個臨界閾值,并且跟蹤時間更短。右下:對于正確解決的案例,Claude 3.7 Thinking傾向于在低復雜性的情況下早期找到答案,在高復雜性的情況下后期找到答案。在失敗的情況下,它通常會關注早期的錯誤答案,浪費剩余的tokens預算。這兩種情況都揭示了推理過程的低效。
復雜度對推理行為的影響:三大階段
實驗結果顯示,隨著問題復雜度的增加,LRM與非思維LLM在謎題環境中呈現三個顯著推理階段:
低復雜度階段:標準LLM表現出色,推理更高效、準確率甚至超過LRM;
中等復雜度階段:引入思維痕跡后,LRM開始在準確率上領先,但其推理token消耗也顯著攀升;
高復雜度階段:無論思維與否,所有模型準確率均驟降,出現“推理崩潰”現象——無法給出任何有效解答。
在高復雜度區域,發現LRM的推理token反而出現下降趨勢——盡管仍有充足預算,模型卻減少思考長度并放棄探索,導致完全失敗;這一“計算規模極限”暗示了模型在面對更深組合鏈條時的固有障礙。此外,即便在中等復雜度,LRM也常在找到正確解后繼續無謂探索,不僅拖慢推理速度,更加重了計算負擔,印證了文獻中所稱的“過度思考”(overthinking)。
圖 3. 思維模型(Claude 3.7 Sonnet with thinking, DeepSeek-R1)與非思維模型(Claude 3.7 Sonnet, DeepSeek-V3)在所有謎題環境和不同問題復雜程度中的準確性。
深入分析思考痕跡:探索與自我校正能力
借助模擬器提取每條思考痕跡中的中間解,本研究將正確與錯誤解在思維過程中的出現位置進行定量對比。結果顯示:
在簡單問題中,正確解往往較早出現,但隨后的錯誤解涌現,分布向思維后段傾斜;
在中等復雜度中,模型初期多探索錯誤路徑,只有在后期才匯聚到正確解;
在復雜度閾值以上,思路全線崩潰,思考痕跡中再無任何正確片段。
這一行為模式揭示了LRM有限的自我校正能力:雖然具備一定糾錯潛力,卻因效率低下或計算預算管理失衡,難以持續收斂至解。
圖 4. 左和中:在四個不同復雜程度的謎題的推理軌跡中,中間解決方案的位置和正確性。?表示正確的解決方案;x 表示不正確的解決方案,用陰影表示分布密度;右圖:河內塔在不同復雜程度下的解決方案準確性與思考位置。簡單問題(N=1-3)表現出早期的準確性隨著時間的推移而下降(過度思考),中等問題(N=4-7)表現出持續推理的準確性略有提高,復雜問題(N≥8)表現出持續接近零的準確性,表明完全推理失敗。
意外發現與未解之謎
為驗證模型的符號執行能力,研究團隊在提示中直接提供了河內塔(Tower of Hanoi)的解決算法,結果卻未見性能提升,崩潰閾值與默認場景基本一致,凸顯LRM在精確執行給定邏輯步驟時的局限。此外,不同謎題環境中,模型的首個錯誤移動所處位置相差甚遠:在河內塔中可保持數百步無失誤,而在過河問題(River Crossing)中第一錯僅出現在第四步,或許與訓練數據中例子稀缺度有關,提示LRM仍在一定程度上依賴記憶而非純粹算法推理。
圖 5. (a)和(b)盡管在提示符中提供了求解算法,但執行失敗發生在相似的點,突出了邏輯步驟執行中的推理模型局限性。(c)和(d)值得注意的是,Claude 3.7 Sonnet模型在河內塔的無錯誤序列比在過河情景中的早期錯誤長得多。
結論、展望與思考
通過可控謎題環境的系統評估,研究首次揭示了當前LRM在問題復雜度維度上的三大推理階段與計算規模極限,深入剖析了“過度思考”與自我校正的不穩定性,并通過思考痕跡量化了模型的探索策略。研究挑戰了對LRM推理能力的諸多假設,表明其在泛化與符號操作上仍面臨重大瓶頸。
盡管謎題環境提供了優越的復雜度可控性與精確驗證,但畢竟狹窄地聚焦于結構化規劃問題,難以全面代表真實世界中知識密集型與開放式推理場景。此外,實驗依賴閉源API,限制了對模型內部架構與權重的深入剖析。最后,模擬器的精確性在高度非結構化領域或難以復制,提示未來需拓展至自然語言理解、常識推理等更富挑戰性的任務域。
彭晨| 編譯
大模型可解釋性讀書會讀書會
集智俱樂部聯合上海交通大學副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學家肖達、北京師范大學碩士生楊明哲和浙江大學博士生姚云志共同發起。本讀書會旨在突破大模型“黑箱”困境,嘗試從以下四個視角梳理大語言模型可解釋性的科學方法論:
自下而上:Transformer circuit 為什么有效?
自上而下:神經網絡的精細決策邏輯和性能根因是否可以被嚴謹、清晰地解釋清楚?
復雜科學:滲流相變、涌現、自組織等復雜科學理論如何理解大模型的推理與學習能力?
系統工程:如何擁抱不確定性,在具體的業界實踐中創造價值?
五位發起人老師會帶領大家研讀領域前沿論文,現誠邀對此話題感興趣的朋友,一起共創、共建、共享「大模型可解釋性」主題社區,通過互相的交流與碰撞,促進我們更深入的理解以上問題。無論您是致力于突破AI可解釋性理論瓶頸的研究者,探索復雜系統與智能本質的交叉學科探索者,還是追求模型安全可信的工程實踐者,誠邀您共同參與這場揭開大模型“黑箱”的思想盛宴。
讀書會計劃于2025年6月19日啟動,每周四晚19:30-21:30,預計持續分享10周左右。
詳情請見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.