99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

反轉!AI 推理能力遭蘋果質疑后,Claude 合著論文反擊:不是不會推理,是輸給 Token

0
分享至


大數據文摘出品

近日,Apple 機器學習研究團隊發布了一篇名為《思考的幻覺(The Illusion of Thinking)》的論文。


這篇 53 頁的技術報告并非普通評測,而是一記質疑當下主流 LLM 推理能力的重錘。

研究者們指出,OpenAI 的“o”系列、Google 的 Gemini 2.5、以及 DeepSeek-R 等所謂“推理型大模型”,本質上并沒有從訓練數據中學習到可泛化的第一性原理。

他們用了四個經典問題來證明這一觀點:漢諾塔(Tower of Hanoi)、積木世界(Blocks World)、過河問題(River Crossing)和跳棋(Checkers Jumping)


圖注:四類經典問題的示意圖。

這些任務的特點是,可以通過增加步驟和限制條件,讓難度指數級飆升,極其考驗模型的長鏈條邏輯規劃能力。

蘋果的要求也很苛刻:不僅要給出正確答案,還得用“思維鏈”的方式,把解題的每一步都寫出來。

結果呢?

正如蘋果所料,隨著謎題越來越難,所有頂尖推理模型的準確率都直線下滑。在最復雜的任務面前,性能直接崩盤,準確率歸零


圖注:在所有謎題環境和不同難度級別下,思維模型(Claude 3.7 Sonnet with thinking、DeepSeek-R1)與其非思維對應模型(Claude 3.7 Sonnet、DeepSeek-V3)在準確率方面的對比。

更有意思的,是蘋果研究員發現的一個現象:模型用于“思考”的篇幅(也就是輸出的token數量)也開始縮水。

作者將此視為模型主動減少推理嘗試的跡象。

也就是說:推理,是幻象。


這篇論文在X(推特)上被瘋狂轉發,很多人上來就直接宣判:“蘋果已經證明了,像Claude、DeepSeek這類模型根本不會推理,它們只是記性特別好的復讀機罷了!”

反轉來了:“思考幻覺”本身的幻覺


爭議的火苗很快被一篇名為《The Illusion ofThe Illusionof Thinking》的反駁論文點燃,作者是一位名叫Alex Lawsen的獨立研究員——以及,他的合作伙伴:大語言模型Claude Opus 4。

是的,一篇論文,合著者是AI。

他們認為,蘋果所謂的“推理崩潰”,根本不是AI能力的上限到了,而是實驗設計本身存在致命缺陷

槽點一:混淆了“推理失敗”和“作文本不夠長”

這是最核心的一個反駁點。

批評者指出,像漢諾塔這類問題,解決步驟是隨著盤子數量指數級增長的。比如,要解開15個盤子的漢諾塔,需要輸出超過32000個步驟。

而大模型的上下文窗口和單次輸出Token都是有上限的。

模型很可能在內部已經得出了正確的算法和策略,但因為輸出篇幅的限制,導致答案被截斷,結果被蘋果的評估腳本直接判了零分。

也就是說,這不是邏輯的極限,這是Token的極限。

槽點二:“考卷”本身就有問題

這是對蘋果研究嚴謹性的最后一擊。反駁論文指出,不僅僅是評估方法有問題,蘋果用來測試的“考卷”本身,都存在設計缺陷。

論文作者發現,在蘋果使用的基準測試中,一些“過河問題”的題目,根據其給出的限制條件,在數學上是根本無解的

一個無解的題,AI當然給不出“正確答案”。

但最離譜的是,蘋果的評估系統,依然對模型在這些無解題上的輸出進行了評分,并以此作為模型“失敗”的證據。

槽點三:換個“考法”,AI原地復活

他們做了一個簡單的實驗:他們不再要求模型一步一步地寫出漢諾塔的完整解法,而是讓模型直接輸出一個能解決這個問題的“程序代碼”(比如一個Lua函數)

結果如何?

模型在之前被判定為“徹底失敗”的、更復雜的任務上,輕松給出了正確的程序。

這個反轉極具說服力。它證明了AI不是不懂解題的邏輯,它只是無法遵循那種“默寫全文”式的、極其冗長又低效的輸出要求。

AI 的腦子里已經有了算法,但你非要它把每一步計算都口述出來。

此外,還有其他研究者在推特(X)指出了第四個槽點:缺乏人類基準的“單方面宣布”

即,蘋果在整個實驗中,從未將模型的表現與人類在相同任務下的表現進行對比。

別說AI了,就是一個正常人,在沒有任何紙筆輔助的情況下,去心算一個需要幾百步規劃的邏輯謎題,大腦一樣會“宕機”。

沒有這個最基本的參照系,怎么能斷言AI的“性能衰減”是一種根本性的“思考缺陷”,而不是所有智能體(包括人類)面對超限復雜任務時的正常表現呢?

——完

作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計費,平均節省開支30%以上!

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
南昌市東湖區城市管理和綜合執法局黨組成員黃德銘主動向組織交代問題

南昌市東湖區城市管理和綜合執法局黨組成員黃德銘主動向組織交代問題

魯中晨報
2025-07-23 18:29:49
大S和保姆小楊阿姨親密合照流出,原來她才是陪小玥兒最久的人

大S和保姆小楊阿姨親密合照流出,原來她才是陪小玥兒最久的人

可樂談情感
2025-07-24 00:16:10
大摩、小摩、貝萊德等9大外資公募持倉出爐!重倉股紛紛創新高!

大摩、小摩、貝萊德等9大外資公募持倉出爐!重倉股紛紛創新高!

私募排排網
2025-07-23 19:29:04
一家工程公司拍下泰禾集團上海總部大廈,成交價比評估價低近3億

一家工程公司拍下泰禾集團上海總部大廈,成交價比評估價低近3億

澎湃新聞
2025-07-23 13:38:30
喬治·克魯尼招16位富豪敞開科莫湖別墅共處4天,一人16萬歐元!

喬治·克魯尼招16位富豪敞開科莫湖別墅共處4天,一人16萬歐元!

意大利華人網0039
2025-07-24 00:07:50
4歲男童拔乳牙死亡!家屬:12點進手術室,18點告知孩子身亡,官方通報:涉事醫生已停崗

4歲男童拔乳牙死亡!家屬:12點進手術室,18點告知孩子身亡,官方通報:涉事醫生已停崗

每日經濟新聞
2025-07-23 22:23:03
搶在特朗普之前,馮德萊恩訪華,中方回應沒有歡迎,而是當頭一棒

搶在特朗普之前,馮德萊恩訪華,中方回應沒有歡迎,而是當頭一棒

天氣觀察站
2025-07-24 03:40:30
麻了,威少徹底麻了!NBA自由市場最后一個大牌

麻了,威少徹底麻了!NBA自由市場最后一個大牌

籃球實戰寶典
2025-07-23 00:04:37
票房開畫預測來啦!陳佩斯的《戲臺》大火特火,沖擊十億沒毛病!

票房開畫預測來啦!陳佩斯的《戲臺》大火特火,沖擊十億沒毛病!

草莓解說體育
2025-07-24 04:47:56
涉及核武,克宮:正密切關注!罕見公開,俄羅斯“最大”攻擊無人機工廠曝光!回應歐盟制裁,俄方決定……

涉及核武,克宮:正密切關注!罕見公開,俄羅斯“最大”攻擊無人機工廠曝光!回應歐盟制裁,俄方決定……

每日經濟新聞
2025-07-23 08:02:07
3天過去,印度沒有表態,法媒坐不住,不許中國建雅魯藏布江電站

3天過去,印度沒有表態,法媒坐不住,不許中國建雅魯藏布江電站

顧史
2025-07-23 18:48:40
“京圈惡少”王爍:睡遍娛樂圈女星,毆打繼母王艷,槍指劉濤老公

“京圈惡少”王爍:睡遍娛樂圈女星,毆打繼母王艷,槍指劉濤老公

東方不敗然多多
2025-07-24 04:05:25
父親被撤銷市委書記職務后,女友拋棄了我,三個月后父親官復原職

父親被撤銷市委書記職務后,女友拋棄了我,三個月后父親官復原職

喬生桂
2025-07-20 15:46:11
小伙未讓座被斥責,老人猝死,家屬竟索賠192萬 ,判決令人欣慰

小伙未讓座被斥責,老人猝死,家屬竟索賠192萬 ,判決令人欣慰

第四思維
2025-07-18 18:28:25
陳佩斯哭了,《戲臺》從血本無歸的預期,僅幾天就精彩逆轉

陳佩斯哭了,《戲臺》從血本無歸的預期,僅幾天就精彩逆轉

通鑒史智
2025-07-22 07:22:33
未來30天,把綠豆湯換成它!連喝2周,濕氣少了、脾胃也舒服了!

未來30天,把綠豆湯換成它!連喝2周,濕氣少了、脾胃也舒服了!

秀廚娘
2025-07-21 16:19:14
錯付車費輕生后續,哥哥曝案發細節,司機身份泄露,警方惹爭議

錯付車費輕生后續,哥哥曝案發細節,司機身份泄露,警方惹爭議

一家說
2025-07-23 09:42:03
難怪美國對我們下死手,德國媒體曝光:中國都干了什么事情?

難怪美國對我們下死手,德國媒體曝光:中國都干了什么事情?

瓜哥的動物日記
2025-07-24 04:07:26
阿森納1-0米蘭收獲季前賽開門紅 薩卡制勝15歲道曼、薩爾蒙登場

阿森納1-0米蘭收獲季前賽開門紅 薩卡制勝15歲道曼、薩爾蒙登場

直播吧
2025-07-23 21:35:22
我婚前財產500萬,公婆問我有多少,我說6千,小舅子:我怎么買車

我婚前財產500萬,公婆問我有多少,我說6千,小舅子:我怎么買車

朝暮書屋
2025-07-21 11:11:37
2025-07-24 06:35:04
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6707文章數 94446關注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

宗馥莉被質疑讀的是“野雞大學” 校方回應

頭條要聞

宗馥莉被質疑讀的是“野雞大學” 校方回應

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經要聞

律師解析娃哈哈遺產案:遺囑是最大變數

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

家居
親子
時尚
教育
數碼

家居要聞

晨曦生活 明媚而放松

親子要聞

想讓孩子長高,這兩種飯千萬不要喂!

搶戲《醬園弄》、尬演《長安荔枝》,雷佳音的舒適圈正在反噬

教育要聞

光宗耀祖!女生收到錄取通知書,送的不是快遞員,而是兩位飛行員

數碼要聞

AppleCare+ 為 iPad 和 Apple Watch 帶來防盜和丟失選項

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 收藏| 龙南县| 石首市| 靖州| 海南省| 鹤峰县| 兴义市| 江津市| 平潭县| 尚义县| 株洲市| 黄骅市| 报价| 宁海县| 潞城市| 石家庄市| 崇仁县| 交口县| 永城市| 胶南市| 新建县| 灵丘县| 洪雅县| 额济纳旗| 社旗县| 武山县| 云梦县| 镇沅| 本溪市| 府谷县| 龙里县| 桃源县| 浦东新区| 甘南县| 龙游县| 会同县| 界首市| 永嘉县| 昭通市| 江达县| 札达县|