99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

反轉!AI 推理能力遭蘋果質疑后,Claude 合著論文反擊:不是不會推理,是輸給 Token

0
分享至


來源:大數據文摘

近日,Apple 機器學習研究團隊發布了一篇名為《思考的幻覺(The Illusion of Thinking)》的論文。


這篇 53 頁的技術報告并非普通評測,而是一記質疑當下主流 LLM 推理能力的重錘。

研究者們指出,OpenAI 的“o”系列、Google 的 Gemini 2.5、以及 DeepSeek-R 等所謂“推理型大模型”,本質上并沒有從訓練數據中學習到可泛化的第一性原理。

他們用了四個經典問題來證明這一觀點:漢諾塔(Tower of Hanoi)、積木世界(Blocks World)、過河問題(River Crossing)和跳棋(Checkers Jumping)。


圖注:四類經典問題的示意圖。

這些任務的特點是,可以通過增加步驟和限制條件,讓難度指數級飆升,極其考驗模型的長鏈條邏輯規劃能力。

蘋果的要求也很苛刻:不僅要給出正確答案,還得用“思維鏈”的方式,把解題的每一步都寫出來。

結果呢?

正如蘋果所料,隨著謎題越來越難,所有頂尖推理模型的準確率都直線下滑。在最復雜的任務面前,性能直接崩盤,準確率歸零。


圖注:在所有謎題環境和不同難度級別下,思維模型(Claude 3.7 Sonnet with thinking、DeepSeek-R1)與其非思維對應模型(Claude 3.7 Sonnet、DeepSeek-V3)在準確率方面的對比。

更有意思的,是蘋果研究員發現的一個現象:模型用于“思考”的篇幅(也就是輸出的token數量)也開始縮水。

作者將此視為模型主動減少推理嘗試的跡象。

也就是說:推理,是幻象。


這篇論文在X(推特)上被瘋狂轉發,很多人上來就直接宣判:“蘋果已經證明了,像Claude、DeepSeek這類模型根本不會推理,它們只是記性特別好的復讀機罷了!”

反轉來了:“思考幻覺”本身的幻覺


爭議的火苗很快被一篇名為《The Illusion ofThe Illusionof Thinking》的反駁論文點燃,作者是一位名叫Alex Lawsen的獨立研究員——以及,他的合作伙伴:大語言模型Claude Opus 4。

是的,一篇論文,合著者是AI。

他們認為,蘋果所謂的“推理崩潰”,根本不是AI能力的上限到了,而是實驗設計本身存在致命缺陷。

槽點一:混淆了“推理失敗”和“作文本不夠長”

這是最核心的一個反駁點。

批評者指出,像漢諾塔這類問題,解決步驟是隨著盤子數量指數級增長的。比如,要解開15個盤子的漢諾塔,需要輸出超過32000個步驟。

而大模型的上下文窗口和單次輸出Token都是有上限的。

模型很可能在內部已經得出了正確的算法和策略,但因為輸出篇幅的限制,導致答案被截斷,結果被蘋果的評估腳本直接判了零分。

也就是說,這不是邏輯的極限,這是Token的極限。

槽點二:“考卷”本身就有問題

這是對蘋果研究嚴謹性的最后一擊。反駁論文指出,不僅僅是評估方法有問題,蘋果用來測試的“考卷”本身,都存在設計缺陷。

論文作者發現,在蘋果使用的基準測試中,一些“過河問題”的題目,根據其給出的限制條件,在數學上是根本無解的。

一個無解的題,AI當然給不出“正確答案”。

但最離譜的是,蘋果的評估系統,依然對模型在這些無解題上的輸出進行了評分,并以此作為模型“失敗”的證據。

槽點三:換個“考法”,AI原地復活

他們做了一個簡單的實驗:他們不再要求模型一步一步地寫出漢諾塔的完整解法,而是讓模型直接輸出一個能解決這個問題的“程序代碼”(比如一個Lua函數)。

結果如何?

模型在之前被判定為“徹底失敗”的、更復雜的任務上,輕松給出了正確的程序。

這個反轉極具說服力。它證明了AI不是不懂解題的邏輯,它只是無法遵循那種“默寫全文”式的、極其冗長又低效的輸出要求。

AI 的腦子里已經有了算法,但你非要它把每一步計算都口述出來。

此外,還有其他研究者在推特(X)指出了第四個槽點:缺乏人類基準的“單方面宣布”

即,蘋果在整個實驗中,從未將模型的表現與人類在相同任務下的表現進行對比。

別說AI了,就是一個正常人,在沒有任何紙筆輔助的情況下,去心算一個需要幾百步規劃的邏輯謎題,大腦一樣會“宕機”。

沒有這個最基本的參照系,怎么能斷言AI的“性能衰減”是一種根本性的“思考缺陷”,而不是所有智能體(包括人類)面對超限復雜任務時的正常表現呢?

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
戶口博弈:男子拿到北京戶口就跳槽,戶口被公司直接遷到湖北宜昌

戶口博弈:男子拿到北京戶口就跳槽,戶口被公司直接遷到湖北宜昌

阿傖說事
2025-07-18 09:09:24
朱時茂戳穿了陳佩斯被“排擠”的真相,票房逆襲他讓多少資方臉紅

朱時茂戳穿了陳佩斯被“排擠”的真相,票房逆襲他讓多少資方臉紅

洲洲影視娛評
2025-07-23 15:16:30
表哥出國前把摩托7600賣我,這天換電瓶掀開座椅,看到里面我愣了

表哥出國前把摩托7600賣我,這天換電瓶掀開座椅,看到里面我愣了

蘭姐說故事
2025-07-23 05:05:03
又一房地產大佬要跑路!集團負債干億,前掌門套現跑路在機場被抓

又一房地產大佬要跑路!集團負債干億,前掌門套現跑路在機場被抓

顧史
2025-07-24 19:19:54
80萬美軍進入最高戰備,目標是中國,如果開戰,解放軍能否打贏

80萬美軍進入最高戰備,目標是中國,如果開戰,解放軍能否打贏

文雅筆墨
2025-07-18 07:40:46
男單“全軍覆沒”!人民日報11字發文,王楚欽的失敗早就有跡可循

男單“全軍覆沒”!人民日報11字發文,王楚欽的失敗早就有跡可循

凡知
2025-04-22 15:26:14
算命說:8 月橫財運勢好,3 生肖日子紅艷艷,財庫豐盈!

算命說:8 月橫財運勢好,3 生肖日子紅艷艷,財庫豐盈!

人閒情事
2025-07-25 14:48:40
破產的二代和跳樓的機長,租二代碰上飛二代

破產的二代和跳樓的機長,租二代碰上飛二代

美第奇效應
2025-07-04 21:11:48
湖南一鎮原黨委書記,被開除黨籍和公職

湖南一鎮原黨委書記,被開除黨籍和公職

大愛三湘
2025-07-25 21:00:36
韓媒:中國球迷掀起抵制運動,認為贊助商是助長國足享樂的幫兇

韓媒:中國球迷掀起抵制運動,認為贊助商是助長國足享樂的幫兇

塵語者
2025-07-25 12:32:33
山東大學大一學生張敬雯去世,20歲長得漂亮,生前5個月沒吃沒喝

山東大學大一學生張敬雯去世,20歲長得漂亮,生前5個月沒吃沒喝

180視角
2025-07-25 14:19:10
建議中年女人:穿襯衫多配“半裙和闊腿褲”,遮肉顯瘦又時髦

建議中年女人:穿襯衫多配“半裙和闊腿褲”,遮肉顯瘦又時髦

八分搭配
2025-07-26 00:41:13
英國首相:承認巴勒斯坦國是加沙?;鸩襟E之一

英國首相:承認巴勒斯坦國是加沙停火步驟之一

財聯社
2025-07-26 01:29:06
新一輪貿易協商,中方隨行人員變了?

新一輪貿易協商,中方隨行人員變了?

針砭天下事
2025-07-25 13:37:05
穆克什陪兒子兒媳去英國一家寺院求子,穆克什比阿南特拜的還虔誠

穆克什陪兒子兒媳去英國一家寺院求子,穆克什比阿南特拜的還虔誠

梁獼愛玩車
2025-07-24 22:03:43
在設計院,性能力才是第一生產力

在設計院,性能力才是第一生產力

黯泉
2025-07-06 21:54:56
驚爆!中國造孟加拉戰機墜入校園,造成19死百余傷慘??!

國際情爆猿
2025-07-21 19:06:35

被中央通報搞形式主義的縣委書記,官宣落馬

被中央通報搞形式主義的縣委書記,官宣落馬

揚子晚報
2025-07-25 20:32:26
福建省這條高速公路預計2026年全線開工?線路長150.5公里

福建省這條高速公路預計2026年全線開工?線路長150.5公里

交建動態
2025-07-24 20:32:54
46億游輪在手又添十億籌碼生三胎,她的肚皮憑什么這么值錢?

46億游輪在手又添十億籌碼生三胎,她的肚皮憑什么這么值錢?

BenSir本色說
2025-06-20 22:17:41
2025-07-26 03:07:00
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4046文章數 37239關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

手機
親子
時尚
本地
公開課

手機要聞

真把天璣 9400+ 裝在「充電寶」上了?

親子要聞

小宸哥歷險記之門外有人:不要給陌生人開門

今年夏天一定要有這件衣服,好看又復古!

本地新聞

換個城市過夏天|風拂鹽湖,躲進格爾木的盛夏清涼

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 平武县| 建水县| 兴文县| 应用必备| 垦利县| 阳山县| 扬州市| 上杭县| 名山县| 黔西县| 延川县| 交口县| 蛟河市| 桓台县| 建宁县| 德安县| 山东省| 房产| 闽清县| 利辛县| 普宁市| 周口市| 石嘴山市| 花垣县| 内江市| 恩施市| 襄樊市| 进贤县| 额尔古纳市| 木里| 山西省| 元氏县| 泾源县| 西和县| 弋阳县| 富裕县| 德惠市| 汶川县| 夏津县| 宝清县| 同仁县|