99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

反轉!AI 推理能力遭蘋果質疑后,Claude 合著論文反擊:不是不會推理,是輸給 Token

0
分享至


大數據文摘出品

近日,Apple 機器學習研究團隊發布了一篇名為《思考的幻覺(The Illusion of Thinking)》的論文。


這篇 53 頁的技術報告并非普通評測,而是一記質疑當下主流 LLM 推理能力的重錘。

研究者們指出,OpenAI 的“o”系列、Google 的 Gemini 2.5、以及 DeepSeek-R 等所謂“推理型大模型”,本質上并沒有從訓練數據中學習到可泛化的第一性原理。

他們用了四個經典問題來證明這一觀點:漢諾塔(Tower of Hanoi)、積木世界(Blocks World)、過河問題(River Crossing)和跳棋(Checkers Jumping)


圖注:四類經典問題的示意圖。

這些任務的特點是,可以通過增加步驟和限制條件,讓難度指數級飆升,極其考驗模型的長鏈條邏輯規劃能力。

蘋果的要求也很苛刻:不僅要給出正確答案,還得用“思維鏈”的方式,把解題的每一步都寫出來。

結果呢?

正如蘋果所料,隨著謎題越來越難,所有頂尖推理模型的準確率都直線下滑。在最復雜的任務面前,性能直接崩盤,準確率歸零


圖注:在所有謎題環境和不同難度級別下,思維模型(Claude 3.7 Sonnet with thinking、DeepSeek-R1)與其非思維對應模型(Claude 3.7 Sonnet、DeepSeek-V3)在準確率方面的對比。

更有意思的,是蘋果研究員發現的一個現象:模型用于“思考”的篇幅(也就是輸出的token數量)也開始縮水。

作者將此視為模型主動減少推理嘗試的跡象。

也就是說:推理,是幻象。


這篇論文在X(推特)上被瘋狂轉發,很多人上來就直接宣判:“蘋果已經證明了,像Claude、DeepSeek這類模型根本不會推理,它們只是記性特別好的復讀機罷了!”

反轉來了:“思考幻覺”本身的幻覺


爭議的火苗很快被一篇名為《The Illusion ofThe Illusionof Thinking》的反駁論文點燃,作者是一位名叫Alex Lawsen的獨立研究員——以及,他的合作伙伴:大語言模型Claude Opus 4。

是的,一篇論文,合著者是AI。

他們認為,蘋果所謂的“推理崩潰”,根本不是AI能力的上限到了,而是實驗設計本身存在致命缺陷

槽點一:混淆了“推理失敗”和“作文本不夠長”

這是最核心的一個反駁點。

批評者指出,像漢諾塔這類問題,解決步驟是隨著盤子數量指數級增長的。比如,要解開15個盤子的漢諾塔,需要輸出超過32000個步驟。

而大模型的上下文窗口和單次輸出Token都是有上限的。

模型很可能在內部已經得出了正確的算法和策略,但因為輸出篇幅的限制,導致答案被截斷,結果被蘋果的評估腳本直接判了零分。

也就是說,這不是邏輯的極限,這是Token的極限。

槽點二:“考卷”本身就有問題

這是對蘋果研究嚴謹性的最后一擊。反駁論文指出,不僅僅是評估方法有問題,蘋果用來測試的“考卷”本身,都存在設計缺陷。

論文作者發現,在蘋果使用的基準測試中,一些“過河問題”的題目,根據其給出的限制條件,在數學上是根本無解的

一個無解的題,AI當然給不出“正確答案”。

但最離譜的是,蘋果的評估系統,依然對模型在這些無解題上的輸出進行了評分,并以此作為模型“失敗”的證據。

槽點三:換個“考法”,AI原地復活

他們做了一個簡單的實驗:他們不再要求模型一步一步地寫出漢諾塔的完整解法,而是讓模型直接輸出一個能解決這個問題的“程序代碼”(比如一個Lua函數)

結果如何?

模型在之前被判定為“徹底失敗”的、更復雜的任務上,輕松給出了正確的程序。

這個反轉極具說服力。它證明了AI不是不懂解題的邏輯,它只是無法遵循那種“默寫全文”式的、極其冗長又低效的輸出要求。

AI 的腦子里已經有了算法,但你非要它把每一步計算都口述出來。

此外,還有其他研究者在推特(X)指出了第四個槽點:缺乏人類基準的“單方面宣布”

即,蘋果在整個實驗中,從未將模型的表現與人類在相同任務下的表現進行對比。

別說AI了,就是一個正常人,在沒有任何紙筆輔助的情況下,去心算一個需要幾百步規劃的邏輯謎題,大腦一樣會“宕機”。

沒有這個最基本的參照系,怎么能斷言AI的“性能衰減”是一種根本性的“思考缺陷”,而不是所有智能體(包括人類)面對超限復雜任務時的正常表現呢?

——完

作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計費,平均節省開支30%以上!

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
碎三觀!一女子發帖給3個月胎兒找親爹,稱上海和青島的都有可能

碎三觀!一女子發帖給3個月胎兒找親爹,稱上海和青島的都有可能

火山詩話
2025-06-18 05:34:32
人口雪崩!教育年報:全國幼兒園一年關掉2萬所,在園幼兒下降超500萬人

人口雪崩!教育年報:全國幼兒園一年關掉2萬所,在園幼兒下降超500萬人

前瞻網
2025-06-16 11:31:14
刺記:文班亞馬已完成少林修行之旅乘車離開 將前往紐約參加活動

刺記:文班亞馬已完成少林修行之旅乘車離開 將前往紐約參加活動

直播吧
2025-06-18 12:13:03
以色列拒絕伊朗“投降”請求,德黑蘭中央監獄被炸塌囚犯大量逃亡

以色列拒絕伊朗“投降”請求,德黑蘭中央監獄被炸塌囚犯大量逃亡

史政先鋒
2025-06-17 14:50:17
宮魯鳴為何非要清洗李夢?化妝一事有大分歧,47歲張隆有責任

宮魯鳴為何非要清洗李夢?化妝一事有大分歧,47歲張隆有責任

振華觀史
2025-06-18 08:54:46
伊朗的天快亮了

伊朗的天快亮了

戰爭研究所
2025-06-17 23:53:53
球迷吐槽世俱杯:又熱又擠還沒水,明年世界杯不敢來看了

球迷吐槽世俱杯:又熱又擠還沒水,明年世界杯不敢來看了

直播吧
2025-06-18 08:51:18
一觸即發!美國已決定參戰,伊朗很可能已擁有核彈

一觸即發!美國已決定參戰,伊朗很可能已擁有核彈

史政先鋒
2025-06-18 09:56:57
保潔變“打劫”?貴陽小伙請家政阿姨打掃新家,下班回家直接傻眼:是真的“一干二凈”!

保潔變“打劫”?貴陽小伙請家政阿姨打掃新家,下班回家直接傻眼:是真的“一干二凈”!

極目新聞
2025-06-18 00:02:20
跨省履新,秦揚遠任泰州市副市長

跨省履新,秦揚遠任泰州市副市長

揚子晚報
2025-06-18 11:59:53
笑出來了!王師傅曬進貨單,東星斑每斤360,錢老板又開始耍賴了

笑出來了!王師傅曬進貨單,東星斑每斤360,錢老板又開始耍賴了

小嵩
2025-06-18 07:57:53
被中國“送”給金日成的四野朝鮮族部隊的悲劇命運

被中國“送”給金日成的四野朝鮮族部隊的悲劇命運

小院之觀
2025-06-18 05:30:03
游客發帖提建議遭上海外灘美術館回懟:請你不要再來

游客發帖提建議遭上海外灘美術館回懟:請你不要再來

現代快報
2025-06-17 18:54:12
蒙古最強悍皇后,背7歲丈夫征戰四方,丈夫長大后與其生下8個孩子

蒙古最強悍皇后,背7歲丈夫征戰四方,丈夫長大后與其生下8個孩子

文史道
2025-06-02 17:18:48
小米YU7被質疑輪胎太窄影響安全性,雷軍連夜發文解釋

小米YU7被質疑輪胎太窄影響安全性,雷軍連夜發文解釋

金融界
2025-06-17 18:05:33
39歲79天!拉莫斯又創世俱杯神紀錄,7戰轟4球,復刻C羅SIU

39歲79天!拉莫斯又創世俱杯神紀錄,7戰轟4球,復刻C羅SIU

奧拜爾
2025-06-18 09:35:18
邵佳一排面拉滿!賽后繞場一周鞠躬致謝,塞蒂恩:他是偉大主帥

邵佳一排面拉滿!賽后繞場一周鞠躬致謝,塞蒂恩:他是偉大主帥

奧拜爾
2025-06-17 22:20:24
以色列上當,被伊朗打下來3架F-35,內塔尼亞胡政府或將走到盡頭

以色列上當,被伊朗打下來3架F-35,內塔尼亞胡政府或將走到盡頭

大道無形我有型
2025-06-16 11:43:38
哈梅內伊強硬發聲:永不妥協!特朗普警告:我知道他身在何處,我們的耐心正在耗盡!美國要空襲?美股全線殺跌,油價大漲

哈梅內伊強硬發聲:永不妥協!特朗普警告:我知道他身在何處,我們的耐心正在耗盡!美國要空襲?美股全線殺跌,油價大漲

每日經濟新聞
2025-06-18 08:17:07
詹姆斯:若小兒子布萊斯26年進入NBA,我不排除屆時繼續征戰

詹姆斯:若小兒子布萊斯26年進入NBA,我不排除屆時繼續征戰

懂球帝
2025-06-18 09:23:55
2025-06-18 12:51:00
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6666文章數 94425關注度
往期回顧 全部

科技要聞

別叫我互聯網公司,京東的野心藏不住了

頭條要聞

受賄數額特別巨大 教育部原副部長杜玉波被公訴

頭條要聞

受賄數額特別巨大 教育部原副部長杜玉波被公訴

體育要聞

從春晚秧歌到拳擊擂臺,中國機器人打服老外

娛樂要聞

S媽曬慈善照 疑似躲避大S遺產風波

財經要聞

"高端國貨"林清軒IPO:虛假宣傳成"慣犯"

汽車要聞

六色可選!秦L EV發布限定改色車膜 1999元包安裝

態度原創

游戲
本地
房產
藝術
公開課

馬里奧原配音解釋為何不愿使用角色聲音即興表演

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

房產要聞

硬核補貨!海口主城買入低密洋房的機會,終于等到了!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 神木县| 临颍县| 牡丹江市| 镇安县| 建宁县| 禄丰县| 阿图什市| 屏东县| 健康| 泾阳县| 府谷县| 北海市| 罗源县| 天镇县| 平阳县| 寿阳县| 本溪| 山阳县| 宾阳县| 石狮市| 道真| 定襄县| 延安市| 大埔县| 全椒县| 巴林左旗| 塘沽区| 六枝特区| 恩施市| 永济市| 宝丰县| 诸暨市| 广南县| 响水县| 嘉义市| 新绛县| 漯河市| 西和县| 平邑县| 江油市| 交口县|