網易首頁 > 網易號 > 正文申請入駐

天塌了！蘋果剛剛證明：DeepSeek，o3，Claude等“推理”模型根本沒有推理能力

2025-06-08 06:44:01　來源: AI寒武紀

江蘇舉報

分享至

最新重磅研究：蘋果并不認為推理模型比標準 LLM有重大突破

最新研究《思考的幻覺：通過問題復雜性視角理解推理模型的優勢與局限》中，蘋果對“大型語言模型已經具備真正的邏輯思維能力——即真正的“推理能力”——這一普遍存在的假設提出了質疑。蘋果公司的研究人員看到的并非認知領域的突破，而是一種幻覺：這些模型僅僅創造了思考的印象，而實際上并沒有穩定、可理解的思維過程

這篇研究批評的核心點是：當前最前沿的推理模型，在面對真正復雜的問題時，其推理能力會“斷崖式”崩潰，并且暴露出一種反直覺的“思考退化”現象，甚至連“照著算法抄作業”都做不好

現有評測方法的“陷阱”：為何需要新的實驗場？

目前，評估AI推理能力主要依賴于數學（如MATH、AIME）和編程等基準測試。然而，研究人員指出，這種方法存在兩大弊端：

數據污染（Data Contamination）：這些基準測試的題目和答案很可能已經大量存在于模型的訓練數據中。模型可能只是“記住”了答案，而非真正“推理”出答案。論文中的數據顯示，模型在更新的AIME25數據集上的表現反而不如更早的AIME24，這與人類表現恰恰相反，強烈暗示了數據污染對評測結果的干擾

缺乏對“思考過程”的洞察：最終答案的正確與否，無法告訴我們模型是如何思考的，其思維鏈是高效、嚴謹還是充滿了冗余和錯誤

為了擺脫這些“陷阱”，蘋果的研究團隊轉向了一個更“純凈”的實驗場——可控的解謎環境

精巧的實驗設計：在“謎題”中量化AI的思考能力

研究團隊選取了四個經典的、邏輯結構穩定但復雜度可控的謎題：

漢諾塔（Tower of Hanoi）：測試遞歸和規劃能力

跳棋（Checker Jumping）：測試序列規劃

過河問題（River Crossing）：測試約束滿足和規劃能力

積木世界（Blocks World）：測試規劃和狀態管理

通過改變謎題的參數（如漢諾塔的盤子數量、過河問題的人數），研究人員可以精確地控制問題的組合復雜度，同時利用模擬器驗證模型生成的每一步操作是否合規，從而深入剖析其完整的“思考軌跡”

如圖示意：研究人員不僅評估最終答案，還提取并分析模型在標簽內的中間步驟，以洞察其思維過程

核心發現

通過對一系列前沿模型（包括Claude 3.7 Sonnet、DeepSeek-R1及其對應的非思考版本）的詳盡測試，研究得到了幾個顛覆性的發現：

發現一：性能的三種“境界”——“思考”并非總是更優

當比較“思考”模型（LRM）和其標準LLM版本時，研究人員發現了三個截然不同的性能區間：

低復雜度區：對于簡單問題，標準模型反而更準確、更高效。LRM的“思考”顯得多余和累贅

中等復雜度區：隨著問題變難，LRM生成長思維鏈的優勢開始顯現，其性能超越標準模型

高復雜度區：當問題復雜度超過某個臨界點，兩種模型雙雙“崩潰”，準確率降至零。這表明，“思考”機制只是延緩了失敗的到來，并未解決根本性的能力瓶頸

如圖5所示：在低、中、高三種復雜度下，思考模型與非思考模型的性能對比，清晰地展示了三個不同區間的表現

發現二：“思考”的崩潰點與反直覺的“努力退化”

這是整篇論文最令人震驚的發現之一。研究顯示：

準確率斷崖式下跌：所有受測的LRM，在問題復雜度達到某個閾值后，準確率都會急劇下降至零

反直覺的“思考退化”：更奇怪的是，在接近這個“崩潰點”時，模型用于思考的計算量（即生成的思考token數量）非但沒有因問題變難而增加，反而開始顯著減少

如圖示意：隨著復雜度增加（橫軸），模型準確率（上排）最終歸零。與此同時，其思考長度（下排，以token計）在達到峰值后不增反降，仿佛在難題面前主動“放棄思考”

這表明，模型似乎存在一個內在的“縮放限制”。當它“預感到”問題過于困難無法解決時，即便有充足的計算預算（token limit），它也會選擇“躺平”，減少思考的努力

發現三：思維軌跡揭示的低效與掙扎

通過分析模型生成的“思考過程”，研究人員發現了其思維模式的深層問題：

簡單問題“過度思考”（Overthinking）：在解決簡單謎題時，模型常常在很早的步驟就找到了正確答案，但之后仍會繼續生成大量冗余甚至錯誤的探索，浪費了大量計算資源

復雜問題“早期固執”（Early Fixation）：在面對難題時，如果模型在早期犯了一個錯誤，它往往會固執地沿著錯誤的路徑繼續探索，很難自我糾正，最終導致失敗。

發現四：令人困惑的“執行”無能

研究人員還進行了一項關鍵實驗，其結果進一步暴露了模型推理能力的脆弱性

“抄作業”都不會：在漢諾塔任務中，研究人員直接在提示（prompt）中提供了完整的、一步不錯的解題算法，要求模型僅僅是“執行”這個算法。結果顯示，模型的表現沒有任何改善，依然在相同的復雜度點上崩潰。這表明，模型的瓶頸不僅在于“規劃”和“尋找”解決方案，更在于基礎的、符號化的邏輯步驟執行與驗證能力的缺失

能力極度不均衡：Claude 3.7 Sonnet模型能正確解決需要上百步的漢諾塔問題，但在一個僅需11步的過河問題上卻早早失敗。這強烈暗示，模型的“推理能力”可能嚴重依賴于訓練數據中的常見模式（漢諾塔是教科書級的經典問題），而非通用的、可泛化的邏輯推理能力

蘋果的這項研究很明顯是潑冷水

當前LRM的“思考”機制，更像是一種復雜的啟發式搜索或模式匹配，而非人類意義上的、可泛化的邏輯推理，這些模型在處理高組合復雜度問題時，會遭遇性能和“思考努力”的雙重崩潰，這可能源于其架構的根本限制，

最后蘋果強烈建議：

當前大模型的評估范式亟待革新：我們必須超越依賴于可能被污染的基準測試和最終答案準確率的評估方法，轉向更可控、更深入的過程分析，才能真正理解AI的能力邊界

大家怎么看這篇研究？

參考：

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

?星標AI寒武紀，好內容不錯過?

用你的贊和在看告訴我～

求贊

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.