99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

蘋果拆解AI大腦,推理模型全是「裝」的?Bengio兄弟合著

0
分享至


新智元報道

編輯:定慧

【新智元導讀】蘋果最新研究揭示大推理模型(LRM)在高復雜度任務中普遍「推理崩潰」:思考路徑雖長,卻常在關鍵時刻放棄。即便給予明確算法提示,模型亦無法穩定執行,暴露推理機制的局限性。

AI「思考」只是假象?

剛剛,一項來自蘋果的重磅研究揭示了「大推理模型(LRM)」背后的驚人真相——這些看似聰明的模型,在面對稍復雜點的題目時,準確率居然會全面崩潰!

隨著問題變難,推理模型初始會延長思考,但隨后思考深度反而下降,盡管仍有充足token預算——它們恰在最需要深入思考時選擇了放棄!

這太違背直覺了,似乎Scaling Law在推理時完全失效了。

值得一提的是,論文作者中還有Samy Bengio,他也是圖靈三巨頭Yoshua Bengio的兄弟。


論文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

LRM模型因能「寫出思考過程」而備受期待,被認為是AI推理能力躍升的關鍵。


DeepSeek-R1 模式的開源開啟了LLM進化到LRM的進程

但研究人員通過可控游戲環境的系統實驗證明:現有LRMs不僅在高復雜度任務上力不從心,甚至還展現出一種「反常的推理崩潰曲線」——題目越難,它們反而越不「努力」。

研究還通過在相同計算token預算下對比思考模型與普通模型,發現:

  • 簡單題目,反而是傳統大模型(LLMs)更強;

  • 中等復雜度,LRMs憑借「思考路徑」勝出;

  • 一旦太復雜,兩類模型準確率同時坍塌至0%

不同于大多數僅衡量最終性能的研究,這項最新研究分析了它們實際的推理軌跡——深入觀察其冗長的「思考」過程。

三種不同的性能區間

與以往主要依賴數學問題來評估語言模型推理能力的研究不同,本研究引入了可控的解謎環境。

這種環境可以精確調節問題的復雜度,同時保持邏輯過程的一致性,從而更嚴謹地分析模型的推理模式和局限性。


頂部的「LLM Response」部分表示研究設置了可以驗證模型的最終答案和中間推理過程,從而能夠更細致地分析模型的思維行為。

左下準確率和中間的回答長度表示:在任務復雜度較低時,不進行推理的模型表現得更準確,也更節省Token。

隨著復雜度提升,具備推理能力的模型開始表現更好,但也消耗更多Token——直到復雜度超過某個臨界點后,兩類模型的表現都會迅速下降,同時推理過程變得更簡短。

右下表示在成功解題的情況下,Claude 3.7 Thinking 通常會在任務復雜度低時較早找到正確答案,而在復雜度高時則更晚得出答案。

而在失敗案例中,它往往會在一開始就陷入錯誤答案,之后繼續浪費剩余的 Token 預算。這兩種情況都暴露了推理過程中存在的效率問題。

數學和謎題環境


對思考型與非思考型模型在數學基準測試中的對比分析顯示出模型的性能表現并不一致。

在MATH-500數據集上,兩類模型的表現相近;但在AIME24和AIME25基準上,思考模型的表現明顯更優。

此外,從AIME24到AIME25的性能下降也揭示出這些基準數據易受到數據污染問題的影響。


研究設置了四種謎題環境。

每列展示一個謎題從初始狀態(頂部)、中間狀態(中部)到目標狀態(底部)的變化過程。

四個謎題分別是:漢諾塔(將圓盤在柱子間移動)、跳跳棋(交換不同顏色棋子的位置信息)、過河(將多個對象安全運送過河)、積木世界(重新排列積木的堆疊結構)。


在所有謎題環境中,不同復雜度問題下,思考型模型(Claude 3.7 Sonnet with thinking、DeepSeek-R1)與其非思考型對應模型(Claude 3.7 Sonnet、DeepSeek-V3)的準確率對比。

最明顯的依然是,當問題復雜度突破一定閾值后,所有模型的準確率同時坍塌至0%!

實驗和結果


上圖為在tokens預算相同的情況下,思考型模型與非思考型模型在低、中、高三種復雜度謎題環境中的 pass@k表現對比。

結果顯示:

  • 非思考型模型在簡單問題上表現更佳;

  • 思考型模型在中等復雜度問題中展現出優勢;

  • 而在高復雜度問題中,無論計算資源分配如何,兩個模型的表現都未能取得明顯突破。


推理模型的崩潰


上圖表示推理模型在不同謎題環境中,準確率與思考token使用量隨問題復雜度變化的趨勢圖。

隨著復雜度上升,模型在一開始會投入更多思考token,準確率則逐漸下降;

但當復雜度達到某個臨界點時,模型的推理能力開始崩潰——表現急劇下降,同時思考token的使用量也隨之減少。

深入「思考模型內部」


左圖與中圖展示了在不同復雜度下,四種謎題中推理過程中間解的出現位置及其正確性。? 表示中間解正確,? 表示錯誤,陰影表示分布密度。

右圖則顯示了在不同復雜度下,漢諾塔謎題中解決方案的準確率隨思考過程位置的變化情況。

結果顯示:

  • 對于簡單問題(N=1-3),準確率在思考初期較高,但隨著推理繼續反而下降,出現「過度思考」的現象;

  • 對于中等難度問題(N=4-7),推理的持續略微提升了準確率;

  • 對于復雜問題(N≥8),準確率始終接近于零,表明模型在這類問題上推理完全失敗。


未解之謎:推理模型的異常行為


如上圖a和b所示,在漢諾塔游戲環境中,即便在提示中直接提供了解法算法,讓模型只需按步驟執行,模型的表現仍未改善,推理崩潰的現象依然出現在大致相同的位置。

這一點非常值得注意,因為設計并找到一個解法通常比僅僅執行一個已知算法需要更多的計算(比如搜索與驗證)。這一現象進一步突顯了推理模型在「驗證」以及按邏輯步驟解決問題方面的能力局限。

如圖c和d所示,觀察到Claude 3.7 Sonnet思考模型在不同環境中表現出明顯不同的行為。

在漢諾塔環境中,當N=10時,模型通常直到大約第100步才會出現第一處錯誤;

而在過河環境中,同一個模型卻只能正確地完成前4步,之后便無法繼續生成有效解。

這種差異非常顯著。

值得注意的是,當 N=5(即需要31步解)時,模型幾乎可以完美解決漢諾塔問題;但在 N=3(僅需11步解)的過河謎題中,模型卻完全失敗。

這一現象很可能說明:在網絡數據中,N>2 的過河問題案例非常稀少,因此大語言模型(LRMs)在訓練中幾乎沒有見過或記住這類實例。

這項研究系統性地評估了大推理模型(LRMs),低復雜度下,標準LLM反而更穩;中等復雜度時,LRM暫時領先;可一旦問題變得復雜到一定程度——兩者雙雙崩盤。

分析推理軌跡后,研究者發現模型在簡單問題上「過度思考」,在復雜問題上則徹底罷工。

甚至連直接提供解題算法都救不了它們——比如漢諾塔問題,算法提示給到位了,模型卻依然原地打轉。

模型在漢諾塔中可連續操作100步不出錯,到了過河問題里,卻五步都撐不過去!

這背后的原因成謎,但無疑為后續探索AI推理極限打開了一個新的突破口。

眼下的LRM,距離「通用推理」這座大山,顯然還有不少路要走。

參考資料:

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國青慘敗埃及U23!僅劉李能看,其余各將狂鐵,進攻無戰術!

國青慘敗埃及U23!僅劉李能看,其余各將狂鐵,進攻無戰術!

籃球資訊達人
2025-06-09 21:13:59
1死2傷!一沃爾沃司機驅車撞向早餐店,車輛被動安全配置被質疑…

1死2傷!一沃爾沃司機驅車撞向早餐店,車輛被動安全配置被質疑…

火山詩話
2025-06-10 05:14:44
青海黃河源有重大發現

青海黃河源有重大發現

新民周刊
2025-06-09 09:06:24
“遺體交換”鬧劇真相;烏克蘭搞了個“蜘蛛網”行動2.0版

“遺體交換”鬧劇真相;烏克蘭搞了個“蜘蛛網”行動2.0版

近距離
2025-06-09 09:49:30
幼兒園園長涉貪千萬一審被判11年:是否“國家工作人員”引爭議,其已上訴

幼兒園園長涉貪千萬一審被判11年:是否“國家工作人員”引爭議,其已上訴

澎湃新聞
2025-06-09 20:58:28
日本最年長AV女優—現年90歲的小笠原祐子的曲折一生

日本最年長AV女優—現年90歲的小笠原祐子的曲折一生

隨波蕩漾的漂流瓶
2025-06-09 17:23:48
八段錦“毒害”了多少中國女人,還有很多人不知道……

八段錦“毒害”了多少中國女人,還有很多人不知道……

傳達室
2025-06-09 15:32:10
美日韓11國舉報,俄火速派人抵達,朝鮮政壇大變

美日韓11國舉報,俄火速派人抵達,朝鮮政壇大變

木曉普照
2025-06-09 10:57:01
徐州隊領隊李鋒:正在聯系孫可、石柯等人,球員們的反饋積極

徐州隊領隊李鋒:正在聯系孫可、石柯等人,球員們的反饋積極

懂球帝
2025-06-09 13:00:07
中辦、國辦:積極推動將利用率高的中小型體育場館、全民健身中心向社會免費或低收費開放

中辦、國辦:積極推動將利用率高的中小型體育場館、全民健身中心向社會免費或低收費開放

澎湃新聞
2025-06-09 17:41:29
洛杉磯抗議民眾與警察爆發沖突,當地華人:華人居住區比較平靜,擔心公司被“打砸搶”

洛杉磯抗議民眾與警察爆發沖突,當地華人:華人居住區比較平靜,擔心公司被“打砸搶”

瀟湘晨報
2025-06-09 18:39:10
終于有人把“換手率”說清楚:“換手率10%-15%”意味著什么?

終于有人把“換手率”說清楚:“換手率10%-15%”意味著什么?

可可可樂樂
2025-06-09 17:10:51
令人驚訝,歐爾班180度轉向了……

令人驚訝,歐爾班180度轉向了……

山河路口
2025-06-09 19:43:30
黃健翔:葡萄牙明年世界杯必須帶C羅 努諾-門德斯世界最佳左后衛

黃健翔:葡萄牙明年世界杯必須帶C羅 努諾-門德斯世界最佳左后衛

直播吧
2025-06-09 16:32:10
金靖在節目中說到孩子爸不想結婚,婆婆也不滿意她

金靖在節目中說到孩子爸不想結婚,婆婆也不滿意她

西樓知趣雜談
2025-06-09 13:32:45
跌停開漲!安東尼身價暴漲1500萬歐 在曼聯從7500萬7連跌到2000萬

跌停開漲!安東尼身價暴漲1500萬歐 在曼聯從7500萬7連跌到2000萬

直播吧
2025-06-09 21:08:14
北大正面回應:韋東奕每年都體檢,牙科已會診,派生活助理無先例

北大正面回應:韋東奕每年都體檢,牙科已會診,派生活助理無先例

育學筆談
2025-06-09 14:55:59
中美倫敦談判,白宮稱將芯片換稀土,A股上3400牛市重歸

中美倫敦談判,白宮稱將芯片換稀土,A股上3400牛市重歸

丁辰靈
2025-06-09 22:24:58
越來越多的人出門選擇遮擋面部   社恐或羞于見人?

越來越多的人出門選擇遮擋面部 社恐或羞于見人?

品川知道
2025-04-12 15:32:33
馬伊琍曾說的那個女人就是奚夢瑤

馬伊琍曾說的那個女人就是奚夢瑤

觀察鑒娛
2025-06-09 12:31:22
2025-06-10 07:39:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12849文章數 66061關注度
往期回顧 全部

科技要聞

一文看懂WWDC:蘋果發布"十年一遇"設計革命

頭條要聞

特朗普:不清楚馬斯克是否在白宮使用過毒品

頭條要聞

特朗普:不清楚馬斯克是否在白宮使用過毒品

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經要聞

重磅級民生文件公布 如何改變你我生活?

汽車要聞

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態度原創

手機
家居
親子
數碼
公開課

手機要聞

迄今規模最大設計更新!蘋果WWDC25一文匯總

家居要聞

簡約輕奢 現代實用私宅

親子要聞

新手媽媽的自責:如何走出“完美母親”的誤區?

數碼要聞

watchOS 26發布:新增輕翻手腕手勢,可關閉通知并返回表盤

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 麻阳| 天水市| 乌海市| 娄底市| 文山县| 古交市| 芮城县| 乌拉特前旗| 嘉善县| 囊谦县| 曲水县| 甘孜| 屏东市| 崇左市| 乌兰察布市| 漳州市| 健康| 左权县| 廊坊市| 蓝山县| 上林县| 宁陵县| 高唐县| 江西省| 磐安县| 天全县| 马龙县| 合川市| 镇原县| 延川县| 拉孜县| 纳雍县| 淮阳县| 托里县| 南木林县| 昆明市| 清丰县| 九台市| 和田市| 德江县| 衡山县|