網易首頁 > 網易號 > 正文申請入駐

反轉！AI 推理能力遭蘋果質疑后，Claude 合著論文反擊：不是不會推理，是輸給 Token

2025-06-17 14:54:12　來源: 大數據文摘

北京舉報

分享至

大數據文摘出品

近日，Apple 機器學習研究團隊發布了一篇名為《思考的幻覺（The Illusion of Thinking）》的論文。

這篇 53 頁的技術報告并非普通評測，而是一記質疑當下主流 LLM 推理能力的重錘。

研究者們指出，OpenAI 的“o”系列、Google 的 Gemini 2.5、以及 DeepSeek-R 等所謂“推理型大模型”，本質上并沒有從訓練數據中學習到可泛化的第一性原理。

他們用了四個經典問題來證明這一觀點：漢諾塔（Tower of Hanoi）、積木世界（Blocks World）、過河問題（River Crossing）和跳棋（Checkers Jumping）。

圖注：四類經典問題的示意圖。

這些任務的特點是，可以通過增加步驟和限制條件，讓難度指數級飆升，極其考驗模型的長鏈條邏輯規劃能力。

蘋果的要求也很苛刻：不僅要給出正確答案，還得用“思維鏈”的方式，把解題的每一步都寫出來。

結果呢？

正如蘋果所料，隨著謎題越來越難，所有頂尖推理模型的準確率都直線下滑。在最復雜的任務面前，性能直接崩盤，準確率歸零。

圖注：在所有謎題環境和不同難度級別下，思維模型（Claude 3.7 Sonnet with thinking、DeepSeek-R1）與其非思維對應模型（Claude 3.7 Sonnet、DeepSeek-V3）在準確率方面的對比。

更有意思的，是蘋果研究員發現的一個現象：模型用于“思考”的篇幅（也就是輸出的token數量）也開始縮水。

作者將此視為模型主動減少推理嘗試的跡象。

也就是說：推理，是幻象。

這篇論文在X（推特）上被瘋狂轉發，很多人上來就直接宣判：“蘋果已經證明了，像Claude、DeepSeek這類模型根本不會推理，它們只是記性特別好的復讀機罷了！”

反轉來了：“思考幻覺”本身的幻覺

爭議的火苗很快被一篇名為《The Illusion ofThe Illusionof Thinking》的反駁論文點燃，作者是一位名叫Alex Lawsen的獨立研究員——以及，他的合作伙伴：大語言模型Claude Opus 4。

是的，一篇論文，合著者是AI。

他們認為，蘋果所謂的“推理崩潰”，根本不是AI能力的上限到了，而是實驗設計本身存在致命缺陷。

槽點一：混淆了“推理失敗”和“作文本不夠長”

這是最核心的一個反駁點。

批評者指出，像漢諾塔這類問題，解決步驟是隨著盤子數量指數級增長的。比如，要解開15個盤子的漢諾塔，需要輸出超過32000個步驟。

而大模型的上下文窗口和單次輸出Token都是有上限的。

模型很可能在內部已經得出了正確的算法和策略，但因為輸出篇幅的限制，導致答案被截斷，結果被蘋果的評估腳本直接判了零分。

也就是說，這不是邏輯的極限，這是Token的極限。

槽點二：“考卷”本身就有問題

這是對蘋果研究嚴謹性的最后一擊。反駁論文指出，不僅僅是評估方法有問題，蘋果用來測試的“考卷”本身，都存在設計缺陷。

論文作者發現，在蘋果使用的基準測試中，一些“過河問題”的題目，根據其給出的限制條件，在數學上是根本無解的。

一個無解的題，AI當然給不出“正確答案”。

但最離譜的是，蘋果的評估系統，依然對模型在這些無解題上的輸出進行了評分，并以此作為模型“失敗”的證據。

槽點三：換個“考法”，AI原地復活

他們做了一個簡單的實驗：他們不再要求模型一步一步地寫出漢諾塔的完整解法，而是讓模型直接輸出一個能解決這個問題的“程序代碼”（比如一個Lua函數）。

結果如何？

模型在之前被判定為“徹底失敗”的、更復雜的任務上，輕松給出了正確的程序。

這個反轉極具說服力。它證明了AI不是不懂解題的邏輯，它只是無法遵循那種“默寫全文”式的、極其冗長又低效的輸出要求。

AI 的腦子里已經有了算法，但你非要它把每一步計算都口述出來。

此外，還有其他研究者在推特（X）指出了第四個槽點：缺乏人類基準的“單方面宣布”

即，蘋果在整個實驗中，從未將模型的表現與人類在相同任務下的表現進行對比。

別說AI了，就是一個正常人，在沒有任何紙筆輔助的情況下，去心算一個需要幾百步規劃的邏輯謎題，大腦一樣會“宕機”。

沒有這個最基本的參照系，怎么能斷言AI的“性能衰減”是一種根本性的“思考缺陷”，而不是所有智能體（包括人類）面對超限復雜任務時的正常表現呢？

——完

作者長期關注 AI 產業與學術，歡迎對這些方向感興趣的朋友添加微信Q1yezi，共同交流行業動態與技術趨勢！

GPU算力按需租用

A100/H100 GPU算力按需租用，

秒級計費，平均節省開支30%以上！

掃碼了解詳情?

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

阿里一口氣開源32款Qwen3模型！全系適配蘋果MLX，國行版蘋果智能近了？

智東西 2025-06-17 13:40:13
1 跟貼 1
逐個token太慢！大模型原生并行出token，CMU、英偉達Multiverse

機器之心Pro 2025-06-17 17:22:06
0 跟貼 0

200億AI獨角獸反擊，MiniMax首款推理模型對標DeepSeeK，算力成本僅53萬美元

華爾街見聞官方 2025-06-17 19:57:10
1 跟貼 1

沉迷貪吃蛇，7B小模型竟變身「數學天才」！幾何推理碾壓GPT-4o

新智元 2025-06-17 13:43:02
1 跟貼 1
原來AI真的心里沒數？研究表明GPT等主流大模型缺乏類人工作記憶

DeepTech深科技 2025-06-17 16:08:21
0 跟貼 0

一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0

騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
1 跟貼 1
老板想本地跑AI，只給10萬還想體驗滿血DS，我該咋辦？

量子位 2025-04-14 15:31:01
0 跟貼 0

科大訊飛：AI孫悟空用日語回答日本老爺爺的提問

智東西 2025-04-18 23:31:04
0 跟貼 0
谷歌I/O大會放狠招，終極AI助手已來

機器之心Pro 2025-05-21 13:09:12
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
周訪問量達5300萬，比Grok還火，這個AI應用成假消息克星

智東西 2025-06-18 09:44:22
0 跟貼 0
Sam Altman最新訪談：AI將發現新科學，未來AI伴侶無處不在，人形機器人街頭漫步

華爾街見聞官方 2025-06-18 12:15:49
0 跟貼 0
全球首個AI眼鏡支付技術落地，Rokid稱明年量產目標100萬臺

鈦媒體APP 2025-06-18 11:34:17
0 跟貼 0
Claude與人類共著論文，蘋果再遭打臉！實驗黑幕曝光

新智元 2025-06-16 14:04:32
1 跟貼 1
小米要做中國家電前三，和美的相互學習

每日經濟新聞 2025-05-19 23:45:08
415 跟貼 415
蘋果20周年紀念版iPhone曝光：全玻璃機身設計結合無開孔全面屏

環球網資訊 2025-06-17 11:31:10
2101 跟貼 2101
蘋果發布全新 CarPlay，能主導車載信息娛樂屏幕嗎？

鄭誼 2025-06-17 11:13:48
2 跟貼 2
逼迫蘋果轉移產能？特朗普宣布造手機，土豪金配色、售價499美元

鈦媒體APP 2025-06-17 11:29:17
6 跟貼 6
小鵬絕地翻盤，頭號功臣是她！

華商韜略 2025-03-28 14:19:16
0 跟貼 0
10% KV無損數學推理！開源方法解決推理大模型「記憶過載」難題

量子位 2025-06-16 16:27:36
6 跟貼 6
F1 賽車上居然有個 iPhone 攝像頭？我們在 Apple Park 里體驗一輛 F1 賽車，

凰家評測 2025-06-17 06:23:21
0 跟貼 0
比亞迪李云飛：要忙在正道上，拒絕陰陽

每日經濟新聞 2025-06-06 17:55:12
158 跟貼 158
高考后，很多孩子買4000價位手機，一家長：孩子就要蘋果16，頭疼

銀幕密語 2025-06-17 05:37:55
0 跟貼 0
谷歌最強大模型終于問世！最快輕量版狂卷性價比，價格殺到0.7元/百萬token，技術報告解讀

智東西 2025-06-18 09:55:25
0 跟貼 0
S11芯片＋5G加持！Apple Watch Ultra 3今年登場？

雷科技 2025-06-17 16:10:22
17 跟貼 17
印度戰機吃完敗仗，客機又出大事，還和波音有關？莫迪這回咋收場

風干迷茫人 2025-06-18 02:07:43
0 跟貼 0
美國拒絕停飛波音，莫迪一籌莫展，關鍵時刻，收到了普京的電報

史海無崖 2025-06-16 15:08:06
0 跟貼 0
國家安全與反間諜策略：伊朗與中國處理方式的對比與啟示

時光會帶走回憶 2025-06-17 05:48:41
30 跟貼 30
蘋果充電器起火，給床頭柜燒出一個洞

探山城 2025-06-16 10:56:09
1 跟貼 1
蔡崇信∶很幸運能為蘋果提供AI服務

財聯社 2025-02-13 16:19:09
1 跟貼 1
臺當局連夜掀桌，華為遭斷供，解放軍4面進逼，對臺戰略只有8個字

路路觀察官方號 2025-06-17 15:35:12
0 跟貼 0
賴清德配合美國制裁華為，別忘大陸還有王牌，做好被反擊的準備吧

軍情五局 2025-06-16 12:16:39
0 跟貼 0
蘋果手機的logo制作，沒想到如此高科技，機器的確比人工強！

喜歡細說生活 2025-06-18 08:37:33
0 跟貼 0
美國前特工稱，小心蘋果手機，它將威脅幾億人生安全！

藍精靈愛搞笑 2025-06-17 22:45:48
1 跟貼 1
央視記者：德黑蘭已經沒有安全的地方了

央視新聞 2025-06-17 18:28:27
59153 跟貼 59153
美國干脆挑明，拒絕停飛波音，關鍵時刻，莫迪收到中方一份大禮？

史海無崖 2025-06-16 15:08:05
0 跟貼 0
Web3出圈的“穩定幣”和AI有啥關系？

虎嗅APP 2025-06-18 05:01:08
1 跟貼 1
印度再次傳來噩耗，機上人全部遇難，特朗普不許停飛波音

先鋒蒼穹 2025-06-17 16:02:18
0 跟貼 0
787印度墜機后！波音會死嗎？

翔說航天 2025-06-14 20:12:32
0 跟貼 0

手機 / 數碼

房產 / 家居

反轉！AI 推理能力遭蘋果質疑后，Claude 合著論文反擊：不是不會推理，是輸給 Token

別叫我互聯網公司，京東的野心藏不住了

受賄數額特別巨大 教育部原副部長杜玉波被公訴

受賄數額特別巨大 教育部原副部長杜玉波被公訴

從春晚秧歌到拳擊擂臺，中國機器人打服老外

S媽曬慈善照 疑似躲避大S遺產風波

"高端國貨"林清軒IPO:虛假宣傳成"慣犯"

六色可選!秦L EV發布限定改色車膜 1999元包安裝

態度原創

馬里奧原配音解釋為何不愿使用角色聲音即興表演

最近的打工人，都在熬夜看這劇逐幀學習職場小技巧

硬核補貨！海口主城買入低密洋房的機會，終于等到了！

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

受賄數額特別巨大教育部原副部長杜玉波被公訴

受賄數額特別巨大教育部原副部長杜玉波被公訴

S媽曬慈善照疑似躲避大S遺產風波