99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<style id="8qvsc"><kbd id="8qvsc"></kbd></style>

<sub id="8qvsc"></sub>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

蘋果拆解AI大腦，推理模型全是「裝」的？Bengio兄弟合著

2025-06-06 13:16:46　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：定慧

【新智元導讀】蘋果最新研究揭示大推理模型（LRM）在高復雜度任務中普遍「推理崩潰」：思考路徑雖長，卻常在關鍵時刻放棄。即便給予明確算法提示，模型亦無法穩定執行，暴露推理機制的局限性。

AI「思考」只是假象？

剛剛，一項來自蘋果的重磅研究揭示了「大推理模型（LRM）」背后的驚人真相——這些看似聰明的模型，在面對稍復雜點的題目時，準確率居然會全面崩潰！

隨著問題變難，推理模型初始會延長思考，但隨后思考深度反而下降，盡管仍有充足token預算——它們恰在最需要深入思考時選擇了放棄！

這太違背直覺了，似乎Scaling Law在推理時完全失效了。

值得一提的是，論文作者中還有Samy Bengio，他也是圖靈三巨頭Yoshua Bengio的兄弟。

論文地址：https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

LRM模型因能「寫出思考過程」而備受期待，被認為是AI推理能力躍升的關鍵。

DeepSeek-R1 模式的開源開啟了LLM進化到LRM的進程

但研究人員通過可控游戲環境的系統實驗證明：現有LRMs不僅在高復雜度任務上力不從心，甚至還展現出一種「反常的推理崩潰曲線」——題目越難，它們反而越不「努力」。

研究還通過在相同計算token預算下對比思考模型與普通模型，發現：

簡單題目，反而是傳統大模型（LLMs）更強；
中等復雜度，LRMs憑借「思考路徑」勝出；
一旦太復雜，兩類模型準確率同時坍塌至0%

不同于大多數僅衡量最終性能的研究，這項最新研究分析了它們實際的推理軌跡——深入觀察其冗長的「思考」過程。

三種不同的性能區間

與以往主要依賴數學問題來評估語言模型推理能力的研究不同，本研究引入了可控的解謎環境。

這種環境可以精確調節問題的復雜度，同時保持邏輯過程的一致性，從而更嚴謹地分析模型的推理模式和局限性。

頂部的「LLM Response」部分表示研究設置了可以驗證模型的最終答案和中間推理過程，從而能夠更細致地分析模型的思維行為。

左下準確率和中間的回答長度表示：在任務復雜度較低時，不進行推理的模型表現得更準確，也更節省Token。

隨著復雜度提升，具備推理能力的模型開始表現更好，但也消耗更多Token——直到復雜度超過某個臨界點后，兩類模型的表現都會迅速下降，同時推理過程變得更簡短。

右下表示在成功解題的情況下，Claude 3.7 Thinking 通常會在任務復雜度低時較早找到正確答案，而在復雜度高時則更晚得出答案。

而在失敗案例中，它往往會在一開始就陷入錯誤答案，之后繼續浪費剩余的 Token 預算。這兩種情況都暴露了推理過程中存在的效率問題。

數學和謎題環境

對思考型與非思考型模型在數學基準測試中的對比分析顯示出模型的性能表現并不一致。

在MATH-500數據集上，兩類模型的表現相近；但在AIME24和AIME25基準上，思考模型的表現明顯更優。

此外，從AIME24到AIME25的性能下降也揭示出這些基準數據易受到數據污染問題的影響。

研究設置了四種謎題環境。

每列展示一個謎題從初始狀態（頂部）、中間狀態（中部）到目標狀態（底部）的變化過程。

四個謎題分別是：漢諾塔（將圓盤在柱子間移動）、跳跳棋（交換不同顏色棋子的位置信息）、過河（將多個對象安全運送過河）、積木世界（重新排列積木的堆疊結構）。

在所有謎題環境中，不同復雜度問題下，思考型模型（Claude 3.7 Sonnet with thinking、DeepSeek-R1）與其非思考型對應模型（Claude 3.7 Sonnet、DeepSeek-V3）的準確率對比。

最明顯的依然是，當問題復雜度突破一定閾值后，所有模型的準確率同時坍塌至0%！

實驗和結果

上圖為在tokens預算相同的情況下，思考型模型與非思考型模型在低、中、高三種復雜度謎題環境中的 pass@k表現對比。

結果顯示：

非思考型模型在簡單問題上表現更佳；
思考型模型在中等復雜度問題中展現出優勢；
而在高復雜度問題中，無論計算資源分配如何，兩個模型的表現都未能取得明顯突破。

推理模型的崩潰

上圖表示推理模型在不同謎題環境中，準確率與思考token使用量隨問題復雜度變化的趨勢圖。

隨著復雜度上升，模型在一開始會投入更多思考token，準確率則逐漸下降；

但當復雜度達到某個臨界點時，模型的推理能力開始崩潰——表現急劇下降，同時思考token的使用量也隨之減少。

深入「思考模型內部」

左圖與中圖展示了在不同復雜度下，四種謎題中推理過程中間解的出現位置及其正確性。? 表示中間解正確，? 表示錯誤，陰影表示分布密度。

右圖則顯示了在不同復雜度下，漢諾塔謎題中解決方案的準確率隨思考過程位置的變化情況。

結果顯示：

對于簡單問題（N=1-3），準確率在思考初期較高，但隨著推理繼續反而下降，出現「過度思考」的現象；
對于中等難度問題（N=4-7），推理的持續略微提升了準確率；
對于復雜問題（N≥8），準確率始終接近于零，表明模型在這類問題上推理完全失敗。

未解之謎：推理模型的異常行為

如上圖a和b所示，在漢諾塔游戲環境中，即便在提示中直接提供了解法算法，讓模型只需按步驟執行，模型的表現仍未改善，推理崩潰的現象依然出現在大致相同的位置。

這一點非常值得注意，因為設計并找到一個解法通常比僅僅執行一個已知算法需要更多的計算（比如搜索與驗證）。這一現象進一步突顯了推理模型在「驗證」以及按邏輯步驟解決問題方面的能力局限。

如圖c和d所示，觀察到Claude 3.7 Sonnet思考模型在不同環境中表現出明顯不同的行為。

在漢諾塔環境中，當N=10時，模型通常直到大約第100步才會出現第一處錯誤；

而在過河環境中，同一個模型卻只能正確地完成前4步，之后便無法繼續生成有效解。

這種差異非常顯著。

值得注意的是，當 N=5（即需要31步解）時，模型幾乎可以完美解決漢諾塔問題；但在 N=3（僅需11步解）的過河謎題中，模型卻完全失敗。

這一現象很可能說明：在網絡數據中，N>2 的過河問題案例非常稀少，因此大語言模型（LRMs）在訓練中幾乎沒有見過或記住這類實例。

這項研究系統性地評估了大推理模型（LRMs），低復雜度下，標準LLM反而更穩；中等復雜度時，LRM暫時領先；可一旦問題變得復雜到一定程度——兩者雙雙崩盤。

分析推理軌跡后，研究者發現模型在簡單問題上「過度思考」，在復雜問題上則徹底罷工。

甚至連直接提供解題算法都救不了它們——比如漢諾塔問題，算法提示給到位了，模型卻依然原地打轉。

模型在漢諾塔中可連續操作100步不出錯，到了過河問題里，卻五步都撐不過去！

這背后的原因成謎，但無疑為后續探索AI推理極限打開了一個新的突破口。

眼下的LRM，距離「通用推理」這座大山，顯然還有不少路要走。

參考資料：

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

質疑DeepSeek-R1、Claude Thinking不會推理！蘋果爭議論文翻車？

機器之心Pro 2025-06-09 15:10:27
36 跟貼 36
WWDC前夕，蘋果論文“炮轟”AI推理模型“假思考”，測試方法遭質疑

每日經濟新聞 2025-06-09 19:11:09
8 跟貼 8

蘋果WWDC25：AI不夠力，就用改名和換設計來頂上

36氪 2025-06-10 06:30:10
0 跟貼 0

給大模型裝上「思維分段引擎」：浙大InftyThink解鎖無限深度推理

量子位 2025-06-09 23:15:37
0 跟貼 0
算力終結者來了！華人天團「降維打擊」注意力瓶頸，AI狂飆進對數時代

新智元 2025-06-08 12:51:58
30 跟貼 30

首創像素空間推理，7B模型領先GPT-4o，讓AI能像人一樣眼腦并用

量子位 2025-06-09 17:51:27
9 跟貼 9

o3不聽指令拒絕關機，7次破壞關機腳本！AI正在學會「自我保護」

量子位 2025-05-27 15:11:47
1294 跟貼 1294
中國團隊提出SRDA，一種專為AI大模型訓推設計的下一代計算架構

量子位 2025-06-09 17:50:16
9 跟貼 9

一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
1 跟貼 1
AdaCM2：首個面向超長視頻理解的跨模態自適應記憶壓縮框架

機器之心Pro 2025-06-09 19:39:27
1 跟貼 1
科大訊飛：AI孫悟空用日語回答日本老爺爺的提問

智東西 2025-04-18 23:31:04
0 跟貼 0
百度智能云智慧就醫智能體，武漢協和AI導診應用

智東西 2025-06-07 14:01:10
1 跟貼 1
老板想本地跑AI，只給10萬還想體驗滿血DS，我該咋辦？

量子位 2025-04-14 15:31:01
0 跟貼 0
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
我國科研團隊成功研制“全手觸覺機器人仿生手”

上觀新聞 2025-06-10 06:48:06
0 跟貼 0
蘋果分析R1遇到復雜度閾值后準確率崩潰問題，Gary Marcus聲援

DeepTech深科技 2025-06-09 21:03:18
1 跟貼 1
小米要做中國家電前三，和美的相互學習

每日經濟新聞 2025-05-19 23:45:08
349 跟貼 349
數學老師體驗高考預估能考140 考題區分度較大，考滿分不太容易

橙薪視頻 2025-06-07 18:41:06
235 跟貼 235
中方釋放善意：解禁稀土，接收波音，不到24小時，特朗普又翻臉了

谷火平 2025-06-09 15:54:24
1 跟貼 1
蘋果發布全新 CarPlay！體驗全面革新，還有一個 Ultra 版本

愛范兒 2025-06-10 02:48:22
8 跟貼 8
同學你的老年機下崗了，最新款蘋果手機在向你招手

江西都市現場 2025-06-09 18:28:21
0 跟貼 0
Siri沒來！蘋果AI終于不畫大餅了，中國區依然遙遙無期

雷科技 2025-06-10 05:01:41
0 跟貼 0
為什么要學數學呢？

樸素知道 2025-06-09 22:56:24
0 跟貼 0
蘋果革新與務實下的新思考：UI更透明，AI更具象 | WWDC 25

鈦媒體APP 2025-06-10 06:30:23
0 跟貼 0
Aqara妙控場景屏S100，一屏搞定Apple Home智能家居

閑侃數碼 2025-06-07 16:49:34
6 跟貼 6
畢業換機福利爆炸，綠廠這波性價比不比蘋果香？

數科先驅 2025-06-09 16:00:07
0 跟貼 0
蘋果汽車亮相美國街頭！

蘭世立 2025-06-07 17:34:47
0 跟貼 0
娃她姨一個不注意外甥女把新蘋果手機“藏”水桶里

河南都市頻道 2025-06-08 13:11:46
0 跟貼 0
速覽蘋果WWDC：系統視覺風格大升級，更多功能加入AI元素

財聯社 2025-06-10 05:11:33
0 跟貼 0
蘋果爛了一點到底能不能吃？顯微鏡放大1000倍，讓人無法想象！

曉欣講故事 2025-06-08 07:22:44
1 跟貼 1
小鵬絕地翻盤，頭號功臣是她！

華商韜略 2025-03-28 14:19:16
0 跟貼 0
蘋果OS26發布，界面煥新，功能沒創意

極果酷玩 2025-06-10 05:39:39
0 跟貼 0
郭正亮：印度就是海底撈，算計太多，沒有真正的朋友

熱綜優鮮看 2025-06-08 10:54:56
1 跟貼 1
比亞迪李云飛：要忙在正道上，拒絕陰陽

每日經濟新聞 2025-06-06 17:55:12
80 跟貼 80
海底降龍一場空，大師卻有神技，沒有中路照樣海底撈

妙師象棋 2025-06-09 07:00:00
0 跟貼 0
白宮突襲對12國發出這訊號波音重啟對中國飛機交付

阿幸妹侃世界 2025-06-09 00:10:34
0 跟貼 0
靜悄悄的餓了么，戰斗力到底有多強？

華商韜略 2025-04-30 14:18:35
0 跟貼 0
牛彈琴：美國爆發激烈"內戰" 警察當街向抗議人群開槍

上觀新聞 2025-06-09 07:59:26
19977 跟貼 19977
以后iPhone再也不用猜版本了！蘋果治好了我的強迫癥！

網易科技態度見聞 2025-06-10 04:33:46
0 跟貼 0

國青慘敗埃及U23！僅劉李能看，其余各將狂鐵，進攻無戰術！

國青慘敗埃及U23！僅劉李能看，其余各將狂鐵，進攻無戰術！

籃球資訊達人

2025-06-09 21:13:59

1死2傷！一沃爾沃司機驅車撞向早餐店，車輛被動安全配置被質疑…

1死2傷！一沃爾沃司機驅車撞向早餐店，車輛被動安全配置被質疑…

火山詩話

2025-06-10 05:14:44

青海黃河源有重大發現

新民周刊

2025-06-09 09:06:24

“遺體交換”鬧劇真相；烏克蘭搞了個“蜘蛛網”行動2.0版

“遺體交換”鬧劇真相；烏克蘭搞了個“蜘蛛網”行動2.0版

近距離

2025-06-09 09:49:30

幼兒園園長涉貪千萬一審被判11年：是否“國家工作人員”引爭議，其已上訴

幼兒園園長涉貪千萬一審被判11年：是否“國家工作人員”引爭議，其已上訴

澎湃新聞

2025-06-09 20:58:28

日本最年長AV女優—現年90歲的小笠原祐子的曲折一生

日本最年長AV女優—現年90歲的小笠原祐子的曲折一生

隨波蕩漾的漂流瓶

2025-06-09 17:23:48

八段錦“毒害”了多少中國女人，還有很多人不知道……

八段錦“毒害”了多少中國女人，還有很多人不知道……

傳達室

2025-06-09 15:32:10

美日韓11國舉報，俄火速派人抵達，朝鮮政壇大變

美日韓11國舉報，俄火速派人抵達，朝鮮政壇大變

木曉普照

2025-06-09 10:57:01

徐州隊領隊李鋒：正在聯系孫可、石柯等人，球員們的反饋積極

徐州隊領隊李鋒：正在聯系孫可、石柯等人，球員們的反饋積極

懂球帝

2025-06-09 13:00:07

中辦、國辦：積極推動將利用率高的中小型體育場館、全民健身中心向社會免費或低收費開放

中辦、國辦：積極推動將利用率高的中小型體育場館、全民健身中心向社會免費或低收費開放

澎湃新聞

2025-06-09 17:41:29

洛杉磯抗議民眾與警察爆發沖突，當地華人：華人居住區比較平靜，擔心公司被“打砸搶”

洛杉磯抗議民眾與警察爆發沖突，當地華人：華人居住區比較平靜，擔心公司被“打砸搶”

瀟湘晨報

2025-06-09 18:39:10

終于有人把“換手率”說清楚：“換手率10%-15%”意味著什么？

終于有人把“換手率”說清楚：“換手率10%-15%”意味著什么？

可可可樂樂

2025-06-09 17:10:51

令人驚訝，歐爾班180度轉向了……

令人驚訝，歐爾班180度轉向了……

山河路口

2025-06-09 19:43:30

黃健翔：葡萄牙明年世界杯必須帶C羅努諾-門德斯世界最佳左后衛

黃健翔：葡萄牙明年世界杯必須帶C羅努諾-門德斯世界最佳左后衛

直播吧

2025-06-09 16:32:10

金靖在節目中說到孩子爸不想結婚，婆婆也不滿意她

金靖在節目中說到孩子爸不想結婚，婆婆也不滿意她

西樓知趣雜談

2025-06-09 13:32:45

跌停開漲！安東尼身價暴漲1500萬歐在曼聯從7500萬7連跌到2000萬

跌停開漲！安東尼身價暴漲1500萬歐在曼聯從7500萬7連跌到2000萬

直播吧

2025-06-09 21:08:14

北大正面回應：韋東奕每年都體檢，牙科已會診，派生活助理無先例

北大正面回應：韋東奕每年都體檢，牙科已會診，派生活助理無先例

育學筆談

2025-06-09 14:55:59

中美倫敦談判，白宮稱將芯片換稀土，A股上3400牛市重歸

中美倫敦談判，白宮稱將芯片換稀土，A股上3400牛市重歸

丁辰靈

2025-06-09 22:24:58

越來越多的人出門選擇遮擋面部社恐或羞于見人？

越來越多的人出門選擇遮擋面部社恐或羞于見人？

品川知道

2025-04-12 15:32:33

馬伊琍曾說的那個女人就是奚夢瑤

馬伊琍曾說的那個女人就是奚夢瑤

觀察鑒娛

2025-06-09 12:31:22

AI產業主平臺領航智能+時代

12849文章數 66061關注度

往期回顧全部

科技要聞

一文看懂WWDC:蘋果發布"十年一遇"設計革命

頭條要聞

特朗普：不清楚馬斯克是否在白宮使用過毒品

頭條要聞

特朗普：不清楚馬斯克是否在白宮使用過毒品

體育要聞

雷霆55號秀，NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣崴腳時被照顧打動

財經要聞

重磅級民生文件公布如何改變你我生活？

汽車要聞

首次搭載奧特能2.0平臺新別克E5即將煥新上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

家居

親子

數碼

公開課

手機要聞

迄今規模最大設計更新！蘋果WWDC25一文匯總

家居要聞

簡約輕奢現代實用私宅

現代風格意式奢華空間
潔白奶油簡約舒適之家
空間維度通透復式結構

親子要聞

新手媽媽的自責：如何走出“完美母親”的誤區？

數碼要聞

watchOS 26發布：新增輕翻手腕手勢，可關閉通知并返回表盤

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：龙游县| 铁力市| 句容市| 乐清市| 盐亭县| 衢州市| 南通市| 镇康县| 塔城市| 葫芦岛市| 囊谦县| 大城县| 晋城| 嵊州市| 宜昌市| 连云港市| 阿拉善右旗| 沙湾县| 甘孜县| 蓬安县| 崇州市| 含山县| 福州市| 华池县| 班戈县| 普安县| 浙江省| 思茅市| 东海县| 呈贡县| 新田县| 建德市| 昭觉县| 永和县| 且末县| 恩平市| 乐平市| 米林县| 沈阳市| 南召县| 旬邑县|

<cite id="zof4p"></cite>

<sub id="zof4p"><p id="zof4p"></p></sub>

<style id="zof4p"></style>

<cite id="zof4p"><track id="zof4p"></track></cite>

<blockquote id="zof4p"><p id="zof4p"></p></blockquote>

<blockquote id="zof4p"></blockquote>

<s id="zof4p"></s>