聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
蘋果團隊一篇論文,現已升級成AI圈“論文連續劇”。
《思維的錯覺》:大模型推理會崩潰。
《思維的錯覺的錯覺》:大模型崩潰是錯覺。
《思維的錯覺的錯覺的錯覺》:大模型還是會崩潰。
起初,蘋果團隊發了一篇論文炮轟所有大模型推理都是假象,遇到高復雜度長推理問題時都會崩潰,即使給他們足夠的時間和計算資源。
這篇文章引起了廣泛關注,有人支持也有人質疑。
在質疑的人中,有一位網友與Claude Opus“合作”寫了一篇長達5頁的文章,來說明大模型這種明顯的崩潰是人為因素造成的。
沒多久,第三篇文章也來了,這篇綜合了前兩篇的觀點,贊同大模型崩潰是實驗設計不合理這一人為因素造成的,但也強調模型在非常長的逐步執行中仍然會出錯,盡管方法有所改進,但脆弱性依然存在。
也就是說,大模型在推理過程中還是會崩潰。
基于上次的經驗,網友猜測第三篇文章的第一作者或許是Gemini Pro~
讓我們來看看這部“連續劇”到底在“演”什么。
大模型推理到底會不會崩潰
最新的這篇文章對前兩篇內容進行了雙重審視,得出的結論是:你倆說的都有道理。
認同第二篇的三個關鍵修正
原研究的觀點是:當題目難度超過臨界點時,大模型推理會崩潰。
蘋果的原研究是通過設計4類謎題環境(漢諾塔、跳棋交換、過河問題、積木世界),系統觀察模型在不同復雜度下的行為變化。
他們進行了大量實驗,對比“會思考”和“不思考”的模型組合。
發現在低復雜度任務中,那些“不思考”標準語言模型實際上表現得更好。
隨著任務難度進入中等水平,“會思考”的推理模型開始顯現優勢。
當問題復雜度繼續增加并超過某個臨界點時,無論是推理模型還是標準模型都會經歷完全的性能崩潰,準確率直線下降至零,甚至會減少思考token。
比如漢諾塔問題,在超過大約8個盤后,標準模型和推理模型都崩潰到0%,推理模型的輸出token甚至更少,這表明當前的思維鏈擴展在較小深度之外就失效了。
第二篇認為這里面有三個測試瑕疵,token預算限制、評估誤判、以及謎題設計的數學不可解性。
于是,作者進行了模型重新驗證。
- 替代表示法的有效性:當要求模型以Lua函數等緊湊形式輸出漢諾塔解法時(而非枚舉所有步驟),測試模型(如Claude-3.7-Sonnet、Gemini 2.5)在N=15時仍能保持高準確率,且token消耗遠低于上下文限制(<5000token),證明模型具備遞歸算法理解能力,失敗源于格式約束而非推理缺陷。
- 復雜度指標的誤用:原研究以 “組合深度”(最小移動步數)衡量復雜度,但漢諾塔雖需指數級步數,每步決策復雜度僅為O(1),而積木世界因涉及最優解搜索(NP難問題),實際難度更高。模型在長序列漢諾塔問題中的表現優于短序列積木問題,印證了 “解長度≠計算復雜度” 的觀點。
結論就是,原研究的 “崩潰” 本質上是實驗設計對模型輸出限制、謎題不可解性和復雜度誤判的綜合結果,而非LRMs(推理模型)的根本性推理局限。
最新的第三篇認同了第二篇的三個關鍵修正。
大模型在面對高復雜度長推理時還是避免不了“崩潰”
雖然認為第二篇的反駁有道理,但該作者又指出:
第二篇的實驗測試的是算法知識檢索與代碼生成,而非原實驗的 “連續執行與狀態追蹤”。
模型可能因訓練數據包含漢諾塔算法而成功生成函數,但無法證明其能無錯執行3萬余步(如N=15的32767步)。
也就是說,雖然漢諾塔每步規則很簡單,但模型仍可能因中間步驟誤差累積導致失敗。
原研究中,即使向模型提供算法提示,它仍表現為崩潰,暗示瓶頸在于執行保真度而非解法發現。
簡單來說就是,雖然token限制是直接原因,但模型在長序列任務中的失敗反映了 “持續高保真執行” 的內在缺陷。
并且,模型在接近 “崩潰點” 時會提前減少推理投入(如推理token數下降),這一現象無法僅用token限制解釋。
也就是說,即使修正了測試設計并提供了足夠的輸出空間,模型一旦將逐步計劃擴展到數千步,仍然會開始失去對計劃的追蹤。
因此,這位作者認為大模型在維持非常長的推理鏈方面仍然存在真正的弱點。
這或許需要后續的研究跟進。
One More Thing
目前,這部“連續劇”已經發展到了第三集,有些網友看熱鬧不嫌事兒大,表示想快進到第四集!
你認為第四集會是什么劇情呢?
參考鏈接:
[1]https://x.com/rohanpaul_ai/status/1930968053027578199
[2]https://x.com/rohanpaul_ai/status/1933296859730301353
[3]https://x.com/rohanpaul_ai/status/1935746720144544157
— 完 —
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.