炸裂！Claude以第一作者寫論文反駁蘋果「推理模型根本沒有推理能力」：蘋果有三大錯誤

2025-06-14 17:22:26　來源: AI寒武紀(jì)

江蘇舉報

分享至

　　前幾天蘋果寫了一篇名為《The Illusion of Thinking:
Understanding the Strengths and Limitations of Reasoning Models
via the Lens of Problem Complexity》論文，在這篇paper中蘋果試圖證明：DeepSeek R1，OpenAI o3, Anthropic Claude 等推理模型根本沒有推理能力

　　論文原文：

　　https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

　　這篇論文一經(jīng)上線就在全網(wǎng)引起了很多爭議，有的人認(rèn)為蘋果是因為AI落后了，才寫出了這篇文章，現(xiàn)在更精彩的的來了，這次反擊蘋果的不是人類，而是Anthropic最新的模型 Claude Opus，Claude Opus作為第一作者寫了一篇反駁論文《思維幻覺的幻覺（The Illusion of the Illusion of Thinking）》

　　論文地址：

　　https://arxiv.org/pdf/2506.09250
https://arxiv.org/pdf/2506.09250

　　這篇發(fā)表在科研預(yù)印本網(wǎng)站 arXiv 上Claude Opus寫的論文，逐一駁斥了蘋果論文的核心論點，指出其所謂的“推理崩潰”更多是源于實驗設(shè)計的局限性，而非AI本身存在根本性的推理缺陷

　　蘋果的論點：AI存在“推理崩潰”的硬上限

　　在蘋果的《思維的幻覺》論文中，研究人員通過一系列規(guī)劃類謎題（如漢諾塔、過河問題）對大語言模型（LRMs）進(jìn)行測試。他們發(fā)現(xiàn)，當(dāng)問題的復(fù)雜度超過某個閾值后，模型的準(zhǔn)確率會“斷崖式”地跌至零。由此，他們得出結(jié)論：AI的推理能力存在一個根本性的上限，這是一種“思維的幻覺”。

　　Claude的反擊：不是推理崩潰，而是實驗設(shè)計的“幻覺”**

　　由Claude Opus撰寫的《思維幻覺的幻覺》一文，像一位嚴(yán)謹(jǐn)?shù)目蒲腥藛T一樣，指出了蘋果研究中的三大關(guān)鍵問題：

　　1. 混淆了“推理失敗”與“輸出截斷”

　　蘋果在測試“漢諾塔”問題時，要求模型完整輸出所有移動步驟。漢諾塔問題的步驟數(shù)隨盤片數(shù)量（N）呈指數(shù)級增長（2^N - 1），很快就會產(chǎn)生極長的答案

　　C. Opus的論文指出，模型并非在推理上失敗，而是觸發(fā)了輸出token（字符）的數(shù)量上限。更有力的證據(jù)是，在一些復(fù)現(xiàn)實驗中，模型會明確表示：“模式還在繼續(xù)，但為了避免內(nèi)容過長，我將在此停止。”

　　這表明，模型完全理解解題的遞歸模式，只是因為實際的輸出限制而選擇截斷。蘋果的自動化評估系統(tǒng)無法區(qū)分“我不會解”和“我選擇不完整列出”，從而錯誤地將其判定為“推理崩潰”。

　　2. 用“無解題”來測試并判定模型失敗

　　這篇反駁論文最尖銳的批評，直指蘋果在“過河問題”實驗中的一個致命錯誤

　　論文指出，蘋果測試了當(dāng)參與者數(shù)量 N≥6 且船容量 b=3 的情況。然而，根據(jù)早已被證明的數(shù)學(xué)結(jié)論，這種設(shè)定下的過河問題是無解的。

　　蘋果的研究人員讓AI去解決一個數(shù)學(xué)上不可能解決的問題，然后因為AI沒能給出解決方案，就給它打了零分。C. Opus犀利地評論道：“這相當(dāng)于因為一個SAT求解器在面對一個無解的公式時返回‘無法滿足’，就懲罰這個求解器。”

　　3. 對“問題復(fù)雜度”的衡量標(biāo)準(zhǔn)存在偏差

　　蘋果的論文主要使用“解題步驟的長度”（即 compositional depth）來衡量問題的復(fù)雜度，但這并不能完全反映解決問題所需的“智力”水平

　　C. Opus的論文對此進(jìn)行了澄清：

　　漢諾塔：雖然解題步驟非常多（呈指數(shù)級增長），但每一步的決策邏輯極其簡單（O(1)的復(fù)雜度），幾乎不需要搜索

　　過河問題與積木世界：解題步驟相對少得多，但每一步都需要進(jìn)行復(fù)雜的約束滿足和搜索，屬于NP-hard或PSPACE級別的難題

　　因此，模型能解決上百步的漢諾塔，卻在幾步的過河問題上失敗，這恰恰反映了不同問題在計算復(fù)雜度上的本質(zhì)差異，而非一個統(tǒng)一的“推理能力上限”

　　換個問法，AI的能力瞬間“恢復(fù)”

　　為了進(jìn)一步證明其觀點，C. Opus進(jìn)行了一項關(guān)鍵的補(bǔ)充實驗。不再要求模型輸出漢諾塔N=15時的所有步驟（這需要海量的token），而是改變了提問方式：

“請解決15個盤片的漢諾塔問題。輸出一個Lua程序，當(dāng)調(diào)用該程序時，它會打印出解決方案。”

　　結(jié)果，包括Claude、GPT-4o、Gemini在內(nèi)的多個模型，都輕松地生成了正確的遞歸算法程序，并且只用了不到5000個token。這有力地證明了，模型完全理解問題的核心邏輯，只是被最初那種“必須窮舉輸出”的死板評估方式所束縛。

　　結(jié)論：我們需要更聰明的評估方法

　　《思維幻覺的幻覺》在結(jié)論中寫道，蘋果的研究所揭示的，并非AI基礎(chǔ)推理能力的局限，而是現(xiàn)有評估方法的一些工程性問題：模型無法輸出超過其上下文長度的內(nèi)容、自動評估腳本可能存在漏洞、解題步驟的長度并不能準(zhǔn)確衡量智力難度

　　如果用一句話總結(jié)Claude Opus的反駁就是：

　　“問題的關(guān)鍵不在于大模型能否推理，而在于我們的評估方法能否將真正的‘推理能力’與簡單的‘打字輸出’區(qū)分開來。”

　　參考：

　　https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

　　https://arxiv.org/pdf/2506.09250

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.