新智元報道
編輯:定慧
【新智元導讀】蘋果最新研究揭示大推理模型(LRM)在高復雜度任務中普遍「推理崩潰」:思考路徑雖長,卻常在關鍵時刻放棄。即便給予明確算法提示,模型亦無法穩定執行,暴露推理機制的局限性。
AI「思考」只是假象?
剛剛,一項來自蘋果的重磅研究揭示了「大推理模型(LRM)」背后的驚人真相——這些看似聰明的模型,在面對稍復雜點的題目時,準確率居然會全面崩潰!
隨著問題變難,推理模型初始會延長思考,但隨后思考深度反而下降,盡管仍有充足token預算——它們恰在最需要深入思考時選擇了放棄!
這太違背直覺了,似乎Scaling Law在推理時完全失效了。
值得一提的是,論文作者中還有Samy Bengio,他也是圖靈三巨頭Yoshua Bengio的兄弟。
論文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
LRM模型因能「寫出思考過程」而備受期待,被認為是AI推理能力躍升的關鍵。
DeepSeek-R1 模式的開源開啟了LLM進化到LRM的進程
但研究人員通過可控游戲環境的系統實驗證明:現有LRMs不僅在高復雜度任務上力不從心,甚至還展現出一種「反常的推理崩潰曲線」——題目越難,它們反而越不「努力」。
研究還通過在相同計算token預算下對比思考模型與普通模型,發現:
簡單題目,反而是傳統大模型(LLMs)更強;
中等復雜度,LRMs憑借「思考路徑」勝出;
一旦太復雜,兩類模型準確率同時坍塌至0%
不同于大多數僅衡量最終性能的研究,這項最新研究分析了它們實際的推理軌跡——深入觀察其冗長的「思考」過程。
三種不同的性能區間
與以往主要依賴數學問題來評估語言模型推理能力的研究不同,本研究引入了可控的解謎環境。
這種環境可以精確調節問題的復雜度,同時保持邏輯過程的一致性,從而更嚴謹地分析模型的推理模式和局限性。
頂部的「LLM Response」部分表示研究設置了可以驗證模型的最終答案和中間推理過程,從而能夠更細致地分析模型的思維行為。
左下準確率和中間的回答長度表示:在任務復雜度較低時,不進行推理的模型表現得更準確,也更節省Token。
隨著復雜度提升,具備推理能力的模型開始表現更好,但也消耗更多Token——直到復雜度超過某個臨界點后,兩類模型的表現都會迅速下降,同時推理過程變得更簡短。
右下表示在成功解題的情況下,Claude 3.7 Thinking 通常會在任務復雜度低時較早找到正確答案,而在復雜度高時則更晚得出答案。
而在失敗案例中,它往往會在一開始就陷入錯誤答案,之后繼續浪費剩余的 Token 預算。這兩種情況都暴露了推理過程中存在的效率問題。
數學和謎題環境
對思考型與非思考型模型在數學基準測試中的對比分析顯示出模型的性能表現并不一致。
在MATH-500數據集上,兩類模型的表現相近;但在AIME24和AIME25基準上,思考模型的表現明顯更優。
此外,從AIME24到AIME25的性能下降也揭示出這些基準數據易受到數據污染問題的影響。
研究設置了四種謎題環境。
每列展示一個謎題從初始狀態(頂部)、中間狀態(中部)到目標狀態(底部)的變化過程。
四個謎題分別是:漢諾塔(將圓盤在柱子間移動)、跳跳棋(交換不同顏色棋子的位置信息)、過河(將多個對象安全運送過河)、積木世界(重新排列積木的堆疊結構)。
在所有謎題環境中,不同復雜度問題下,思考型模型(Claude 3.7 Sonnet with thinking、DeepSeek-R1)與其非思考型對應模型(Claude 3.7 Sonnet、DeepSeek-V3)的準確率對比。
最明顯的依然是,當問題復雜度突破一定閾值后,所有模型的準確率同時坍塌至0%!
實驗和結果
上圖為在tokens預算相同的情況下,思考型模型與非思考型模型在低、中、高三種復雜度謎題環境中的 pass@k表現對比。
結果顯示:
非思考型模型在簡單問題上表現更佳;
思考型模型在中等復雜度問題中展現出優勢;
而在高復雜度問題中,無論計算資源分配如何,兩個模型的表現都未能取得明顯突破。
推理模型的崩潰
上圖表示推理模型在不同謎題環境中,準確率與思考token使用量隨問題復雜度變化的趨勢圖。
隨著復雜度上升,模型在一開始會投入更多思考token,準確率則逐漸下降;
但當復雜度達到某個臨界點時,模型的推理能力開始崩潰——表現急劇下降,同時思考token的使用量也隨之減少。
深入「思考模型內部」
左圖與中圖展示了在不同復雜度下,四種謎題中推理過程中間解的出現位置及其正確性。? 表示中間解正確,? 表示錯誤,陰影表示分布密度。
右圖則顯示了在不同復雜度下,漢諾塔謎題中解決方案的準確率隨思考過程位置的變化情況。
結果顯示:
對于簡單問題(N=1-3),準確率在思考初期較高,但隨著推理繼續反而下降,出現「過度思考」的現象;
對于中等難度問題(N=4-7),推理的持續略微提升了準確率;
對于復雜問題(N≥8),準確率始終接近于零,表明模型在這類問題上推理完全失敗。
未解之謎:推理模型的異常行為
如上圖a和b所示,在漢諾塔游戲環境中,即便在提示中直接提供了解法算法,讓模型只需按步驟執行,模型的表現仍未改善,推理崩潰的現象依然出現在大致相同的位置。
這一點非常值得注意,因為設計并找到一個解法通常比僅僅執行一個已知算法需要更多的計算(比如搜索與驗證)。這一現象進一步突顯了推理模型在「驗證」以及按邏輯步驟解決問題方面的能力局限。
如圖c和d所示,觀察到Claude 3.7 Sonnet思考模型在不同環境中表現出明顯不同的行為。
在漢諾塔環境中,當N=10時,模型通常直到大約第100步才會出現第一處錯誤;
而在過河環境中,同一個模型卻只能正確地完成前4步,之后便無法繼續生成有效解。
這種差異非常顯著。
值得注意的是,當 N=5(即需要31步解)時,模型幾乎可以完美解決漢諾塔問題;但在 N=3(僅需11步解)的過河謎題中,模型卻完全失敗。
這一現象很可能說明:在網絡數據中,N>2 的過河問題案例非常稀少,因此大語言模型(LRMs)在訓練中幾乎沒有見過或記住這類實例。
這項研究系統性地評估了大推理模型(LRMs),低復雜度下,標準LLM反而更穩;中等復雜度時,LRM暫時領先;可一旦問題變得復雜到一定程度——兩者雙雙崩盤。
分析推理軌跡后,研究者發現模型在簡單問題上「過度思考」,在復雜問題上則徹底罷工。
甚至連直接提供解題算法都救不了它們——比如漢諾塔問題,算法提示給到位了,模型卻依然原地打轉。
模型在漢諾塔中可連續操作100步不出錯,到了過河問題里,卻五步都撐不過去!
這背后的原因成謎,但無疑為后續探索AI推理極限打開了一個新的突破口。
眼下的LRM,距離「通用推理」這座大山,顯然還有不少路要走。
參考資料:
https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.