99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

炸裂!Claude以第一作者寫論文反駁蘋果「推理模型根本沒有推理能力」:蘋果有三大錯誤

0
分享至

  

  前幾天蘋果寫了一篇名為《The Illusion of Thinking:
Understanding the Strengths and Limitations of Reasoning Models
via the Lens of Problem Complexity》論文,在這篇paper中蘋果試圖證明:DeepSeek R1,OpenAI o3, Anthropic Claude 等推理模型根本沒有推理能力

  

  論文原文:

  https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

  這篇論文一經(jīng)上線就在全網(wǎng)引起了很多爭議,有的人認(rèn)為蘋果是因為AI落后了,才寫出了這篇文章,現(xiàn)在更精彩的的來了,這次反擊蘋果的不是人類,而是Anthropic最新的模型 Claude Opus,Claude Opus作為第一作者寫了一篇反駁論文《思維幻覺的幻覺(The Illusion of the Illusion of Thinking)》

  

  論文地址:

  https://arxiv.org/pdf/2506.09250
https://arxiv.org/pdf/2506.09250

  這篇發(fā)表在科研預(yù)印本網(wǎng)站 arXiv 上Claude Opus寫的論文,逐一駁斥了蘋果論文的核心論點,指出其所謂的“推理崩潰”更多是源于實驗設(shè)計的局限性,而非AI本身存在根本性的推理缺陷

  蘋果的論點:AI存在“推理崩潰”的硬上限

  在蘋果的《思維的幻覺》論文中,研究人員通過一系列規(guī)劃類謎題(如漢諾塔、過河問題)對大語言模型(LRMs)進(jìn)行測試。他們發(fā)現(xiàn),當(dāng)問題的復(fù)雜度超過某個閾值后,模型的準(zhǔn)確率會“斷崖式”地跌至零。由此,他們得出結(jié)論:AI的推理能力存在一個根本性的上限,這是一種“思維的幻覺”。

  Claude的反擊:不是推理崩潰,而是實驗設(shè)計的“幻覺”**

  由Claude Opus撰寫的《思維幻覺的幻覺》一文,像一位嚴(yán)謹(jǐn)?shù)目蒲腥藛T一樣,指出了蘋果研究中的三大關(guān)鍵問題:

  1. 混淆了“推理失敗”與“輸出截斷”

  蘋果在測試“漢諾塔”問題時,要求模型完整輸出所有移動步驟。漢諾塔問題的步驟數(shù)隨盤片數(shù)量(N)呈指數(shù)級增長(2^N - 1),很快就會產(chǎn)生極長的答案

  C. Opus的論文指出,模型并非在推理上失敗,而是觸發(fā)了輸出token(字符)的數(shù)量上限。更有力的證據(jù)是,在一些復(fù)現(xiàn)實驗中,模型會明確表示:“模式還在繼續(xù),但為了避免內(nèi)容過長,我將在此停止。”

  這表明,模型完全理解解題的遞歸模式,只是因為實際的輸出限制而選擇截斷。蘋果的自動化評估系統(tǒng)無法區(qū)分“我不會解”和“我選擇不完整列出”,從而錯誤地將其判定為“推理崩潰”。

  2. 用“無解題”來測試并判定模型失敗

  這篇反駁論文最尖銳的批評,直指蘋果在“過河問題”實驗中的一個致命錯誤

  論文指出,蘋果測試了當(dāng)參與者數(shù)量 N≥6 且船容量 b=3 的情況。然而,根據(jù)早已被證明的數(shù)學(xué)結(jié)論,這種設(shè)定下的過河問題是無解的。

  蘋果的研究人員讓AI去解決一個數(shù)學(xué)上不可能解決的問題,然后因為AI沒能給出解決方案,就給它打了零分。C. Opus犀利地評論道:“這相當(dāng)于因為一個SAT求解器在面對一個無解的公式時返回‘無法滿足’,就懲罰這個求解器。”

  3. 對“問題復(fù)雜度”的衡量標(biāo)準(zhǔn)存在偏差

  蘋果的論文主要使用“解題步驟的長度”(即 compositional depth)來衡量問題的復(fù)雜度,但這并不能完全反映解決問題所需的“智力”水平

  C. Opus的論文對此進(jìn)行了澄清:

  漢諾塔:雖然解題步驟非常多(呈指數(shù)級增長),但每一步的決策邏輯極其簡單(O(1)的復(fù)雜度),幾乎不需要搜索

  過河問題積木世界:解題步驟相對少得多,但每一步都需要進(jìn)行復(fù)雜的約束滿足和搜索,屬于NP-hard或PSPACE級別的難題

  因此,模型能解決上百步的漢諾塔,卻在幾步的過河問題上失敗,這恰恰反映了不同問題在計算復(fù)雜度上的本質(zhì)差異,而非一個統(tǒng)一的“推理能力上限”

  換個問法,AI的能力瞬間“恢復(fù)”

  為了進(jìn)一步證明其觀點,C. Opus進(jìn)行了一項關(guān)鍵的補(bǔ)充實驗。不再要求模型輸出漢諾塔N=15時的所有步驟(這需要海量的token),而是改變了提問方式:

“請解決15個盤片的漢諾塔問題。輸出一個Lua程序,當(dāng)調(diào)用該程序時,它會打印出解決方案。”

  結(jié)果,包括Claude、GPT-4o、Gemini在內(nèi)的多個模型,都輕松地生成了正確的遞歸算法程序,并且只用了不到5000個token。這有力地證明了,模型完全理解問題的核心邏輯,只是被最初那種“必須窮舉輸出”的死板評估方式所束縛。

  結(jié)論:我們需要更聰明的評估方法

  《思維幻覺的幻覺》在結(jié)論中寫道,蘋果的研究所揭示的,并非AI基礎(chǔ)推理能力的局限,而是現(xiàn)有評估方法的一些工程性問題:模型無法輸出超過其上下文長度的內(nèi)容、自動評估腳本可能存在漏洞、解題步驟的長度并不能準(zhǔn)確衡量智力難度

  如果用一句話總結(jié)Claude Opus的反駁就是:

  “問題的關(guān)鍵不在于大模型能否推理,而在于我們的評估方法能否將真正的‘推理能力’與簡單的‘打字輸出’區(qū)分開來。”

  參考:

  https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

  https://arxiv.org/pdf/2506.09250

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
天津高考分?jǐn)?shù)線出爐:4.7萬余人過本科線,600分以上近1.3萬人

天津高考分?jǐn)?shù)線出爐:4.7萬余人過本科線,600分以上近1.3萬人

深析古今
2025-06-23 20:40:49
中紀(jì)委再劃紅線!公務(wù)員下班后吃飯,這4種行為將被嚴(yán)肅追責(zé)!

中紀(jì)委再劃紅線!公務(wù)員下班后吃飯,這4種行為將被嚴(yán)肅追責(zé)!

鬼菜生活
2025-06-17 12:39:27
6月24日,養(yǎng)老金調(diào)整通知下周發(fā)布?月入3500元能補(bǔ)發(fā)700元嗎?

6月24日,養(yǎng)老金調(diào)整通知下周發(fā)布?月入3500元能補(bǔ)發(fā)700元嗎?

王五說說看
2025-06-24 09:13:44
以伊大戰(zhàn),讓世界更加認(rèn)清了一個現(xiàn)實,如今的中國解放軍惹不起!

以伊大戰(zhàn),讓世界更加認(rèn)清了一個現(xiàn)實,如今的中國解放軍惹不起!

小企鵝侃世界
2025-06-24 09:44:37
2025年報銷!皇馬頭牌隕落!肩膀手術(shù),拖延一年,阿隆索緊急引援

2025年報銷!皇馬頭牌隕落!肩膀手術(shù),拖延一年,阿隆索緊急引援

阿泰希特
2025-06-24 11:25:10
熱搜第一!交易得到杜蘭特后,火箭還將目標(biāo)鎖定另一巨星!

熱搜第一!交易得到杜蘭特后,火箭還將目標(biāo)鎖定另一巨星!

小哆說體育
2025-06-23 13:11:49
特朗普:我堅信中國不會在伊以沖突中援助伊朗

特朗普:我堅信中國不會在伊以沖突中援助伊朗

雪中風(fēng)車
2025-06-21 20:14:17
1.2億!離開快船加盟火箭,全聯(lián)盟球迷歡呼雷霆三少休城重聚

1.2億!離開快船加盟火箭,全聯(lián)盟球迷歡呼雷霆三少休城重聚

老韓談體育
2025-06-24 09:55:46
國際油價大幅走低,布油收跌8.37%

國際油價大幅走低,布油收跌8.37%

每日經(jīng)濟(jì)新聞
2025-06-24 06:04:19
伊朗剛剛傳來大消息!伊朗證實已同意特朗普的停火提議 金價暴跌逾35美元

伊朗剛剛傳來大消息!伊朗證實已同意特朗普的停火提議 金價暴跌逾35美元

FX168財經(jīng)官方賬號
2025-06-24 08:31:15
佩通坦有救了?75歲他信再闖江湖,泰軍放棄政變,國內(nèi)爆發(fā)退黨潮

佩通坦有救了?75歲他信再闖江湖,泰軍放棄政變,國內(nèi)爆發(fā)退黨潮

虎哥閑聊
2025-06-24 11:19:16
2025年養(yǎng)老金上調(diào)確定了!企退漲幅能超3%嗎?事退又能漲多少?

2025年養(yǎng)老金上調(diào)確定了!企退漲幅能超3%嗎?事退又能漲多少?

阿萊美食匯
2025-06-24 10:53:20
伊朗警告美國:若再次發(fā)動攻擊 將遭更猛烈回?fù)?>
    </a>
        <h3>
      <a href=財聯(lián)社
2025-06-24 09:10:12
受權(quán)發(fā)布|中華人民共和國國務(wù)院令  第810號

受權(quán)發(fā)布|中華人民共和國國務(wù)院令  第810號

新華社
2025-06-23 17:03:33
或年內(nèi)開放!深中通道最新進(jìn)展

或年內(nèi)開放!深中通道最新進(jìn)展

粵見世界
2025-06-24 12:32:48
尼日爾:砸了中國飯碗后,又捧著空碗上門求中國

尼日爾:砸了中國飯碗后,又捧著空碗上門求中國

大道微言
2025-06-22 07:28:58
央視八套《長安的荔枝》演員表刪除那爾那茜

央視八套《長安的荔枝》演員表刪除那爾那茜

現(xiàn)代快報
2025-06-22 22:55:06
88歲著名武術(shù)指導(dǎo)唐佳墜樓身亡,疑因妻子重病住院過度悲傷輕生

88歲著名武術(shù)指導(dǎo)唐佳墜樓身亡,疑因妻子重病住院過度悲傷輕生

叨嘮
2025-06-24 01:02:02
九三勝利日大閱兵:這次閱兵將邀請國民黨抗日老兵到現(xiàn)場觀禮

九三勝利日大閱兵:這次閱兵將邀請國民黨抗日老兵到現(xiàn)場觀禮

環(huán)球網(wǎng)資訊
2025-06-24 11:41:04
北京女子嫁非洲15年,母親退休后去看望,見到女婿后卻走不動道

北京女子嫁非洲15年,母親退休后去看望,見到女婿后卻走不動道

牛魔王與芭蕉扇
2025-06-21 05:10:03
2025-06-24 17:39:00
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
731文章數(shù) 320關(guān)注度
往期回顧 全部

科技要聞

從十輛到幾百萬輛,中間隔著什么?

頭條要聞

媒體:伊朗是最大受損方 中東權(quán)力格局正發(fā)生根本轉(zhuǎn)變

頭條要聞

媒體:伊朗是最大受損方 中東權(quán)力格局正發(fā)生根本轉(zhuǎn)變

體育要聞

如果你喜歡籃球,你沒理由不喜歡步行者

娛樂要聞

范瑋琪淘汰!全網(wǎng)熱議她的演唱失誤

財經(jīng)要聞

6部門:支持居民就業(yè)增收 增強(qiáng)消費信心

汽車要聞

7.98萬起 firefly螢火蟲推出電池租用購車方案

態(tài)度原創(chuàng)

手機(jī)
教育
親子
旅游
游戲

手機(jī)要聞

蘋果官網(wǎng)首次支持國補(bǔ)!iPhone、iPad、Mac等全支持

教育要聞

河北2025年高考分?jǐn)?shù)線公布!

親子要聞

非洲萌娃第一次喝牛奶,反應(yīng)讓人意外,動作熟練的讓人心疼

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

DNF開發(fā)商首次搞罷工!工會控訴:錢又少事還多!

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 曲松县| 马龙县| 大连市| 遂宁市| 宁海县| 抚宁县| 东乡县| 邹平县| 阿巴嘎旗| 崇仁县| 来安县| 南康市| 明光市| 太仆寺旗| 荃湾区| 浮山县| 永济市| 三江| 佛学| 乐都县| 罗江县| 庆云县| 舒兰市| 图木舒克市| 马山县| 广昌县| 久治县| 长宁县| 茌平县| 屏边| 噶尔县| 渑池县| 土默特右旗| 闽清县| 新绛县| 长沙县| 霍林郭勒市| 蓬安县| 松阳县| 伽师县| 吉水县|