前幾天蘋果寫了一篇名為《The Illusion of Thinking:
Understanding the Strengths and Limitations of Reasoning Models
via the Lens of Problem Complexity》論文,在這篇paper中蘋果試圖證明:DeepSeek R1,OpenAI o3, Anthropic Claude 等推理模型根本沒有推理能力
論文原文:
https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
這篇論文一經(jīng)上線就在全網(wǎng)引起了很多爭議,有的人認(rèn)為蘋果是因為AI落后了,才寫出了這篇文章,現(xiàn)在更精彩的的來了,這次反擊蘋果的不是人類,而是Anthropic最新的模型 Claude Opus,Claude Opus作為第一作者寫了一篇反駁論文《思維幻覺的幻覺(The Illusion of the Illusion of Thinking)》
論文地址:
https://arxiv.org/pdf/2506.09250
https://arxiv.org/pdf/2506.09250
這篇發(fā)表在科研預(yù)印本網(wǎng)站 arXiv 上Claude Opus寫的論文,逐一駁斥了蘋果論文的核心論點,指出其所謂的“推理崩潰”更多是源于實驗設(shè)計的局限性,而非AI本身存在根本性的推理缺陷
蘋果的論點:AI存在“推理崩潰”的硬上限
在蘋果的《思維的幻覺》論文中,研究人員通過一系列規(guī)劃類謎題(如漢諾塔、過河問題)對大語言模型(LRMs)進(jìn)行測試。他們發(fā)現(xiàn),當(dāng)問題的復(fù)雜度超過某個閾值后,模型的準(zhǔn)確率會“斷崖式”地跌至零。由此,他們得出結(jié)論:AI的推理能力存在一個根本性的上限,這是一種“思維的幻覺”。
Claude的反擊:不是推理崩潰,而是實驗設(shè)計的“幻覺”**
由Claude Opus撰寫的《思維幻覺的幻覺》一文,像一位嚴(yán)謹(jǐn)?shù)目蒲腥藛T一樣,指出了蘋果研究中的三大關(guān)鍵問題:
1. 混淆了“推理失敗”與“輸出截斷”
蘋果在測試“漢諾塔”問題時,要求模型完整輸出所有移動步驟。漢諾塔問題的步驟數(shù)隨盤片數(shù)量(N)呈指數(shù)級增長(2^N - 1),很快就會產(chǎn)生極長的答案
C. Opus的論文指出,模型并非在推理上失敗,而是觸發(fā)了輸出token(字符)的數(shù)量上限。更有力的證據(jù)是,在一些復(fù)現(xiàn)實驗中,模型會明確表示:“模式還在繼續(xù),但為了避免內(nèi)容過長,我將在此停止。”
這表明,模型完全理解解題的遞歸模式,只是因為實際的輸出限制而選擇截斷。蘋果的自動化評估系統(tǒng)無法區(qū)分“我不會解”和“我選擇不完整列出”,從而錯誤地將其判定為“推理崩潰”。
2. 用“無解題”來測試并判定模型失敗
這篇反駁論文最尖銳的批評,直指蘋果在“過河問題”實驗中的一個致命錯誤
論文指出,蘋果測試了當(dāng)參與者數(shù)量 N≥6 且船容量 b=3 的情況。然而,根據(jù)早已被證明的數(shù)學(xué)結(jié)論,這種設(shè)定下的過河問題是無解的。
蘋果的研究人員讓AI去解決一個數(shù)學(xué)上不可能解決的問題,然后因為AI沒能給出解決方案,就給它打了零分。C. Opus犀利地評論道:“這相當(dāng)于因為一個SAT求解器在面對一個無解的公式時返回‘無法滿足’,就懲罰這個求解器。”
3. 對“問題復(fù)雜度”的衡量標(biāo)準(zhǔn)存在偏差
蘋果的論文主要使用“解題步驟的長度”(即 compositional depth)來衡量問題的復(fù)雜度,但這并不能完全反映解決問題所需的“智力”水平
C. Opus的論文對此進(jìn)行了澄清:
漢諾塔:雖然解題步驟非常多(呈指數(shù)級增長),但每一步的決策邏輯極其簡單(O(1)的復(fù)雜度),幾乎不需要搜索
過河問題與積木世界:解題步驟相對少得多,但每一步都需要進(jìn)行復(fù)雜的約束滿足和搜索,屬于NP-hard或PSPACE級別的難題
因此,模型能解決上百步的漢諾塔,卻在幾步的過河問題上失敗,這恰恰反映了不同問題在計算復(fù)雜度上的本質(zhì)差異,而非一個統(tǒng)一的“推理能力上限”
換個問法,AI的能力瞬間“恢復(fù)”
為了進(jìn)一步證明其觀點,C. Opus進(jìn)行了一項關(guān)鍵的補(bǔ)充實驗。不再要求模型輸出漢諾塔N=15時的所有步驟(這需要海量的token),而是改變了提問方式:
“請解決15個盤片的漢諾塔問題。輸出一個Lua程序,當(dāng)調(diào)用該程序時,它會打印出解決方案。”
結(jié)果,包括Claude、GPT-4o、Gemini在內(nèi)的多個模型,都輕松地生成了正確的遞歸算法程序,并且只用了不到5000個token。這有力地證明了,模型完全理解問題的核心邏輯,只是被最初那種“必須窮舉輸出”的死板評估方式所束縛。
結(jié)論:我們需要更聰明的評估方法
《思維幻覺的幻覺》在結(jié)論中寫道,蘋果的研究所揭示的,并非AI基礎(chǔ)推理能力的局限,而是現(xiàn)有評估方法的一些工程性問題:模型無法輸出超過其上下文長度的內(nèi)容、自動評估腳本可能存在漏洞、解題步驟的長度并不能準(zhǔn)確衡量智力難度
如果用一句話總結(jié)Claude Opus的反駁就是:
“問題的關(guān)鍵不在于大模型能否推理,而在于我們的評估方法能否將真正的‘推理能力’與簡單的‘打字輸出’區(qū)分開來。”
參考:
https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
https://arxiv.org/pdf/2506.09250
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.