99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型推理的天花板在哪里?

0
分享至


摘要

近期新一代前沿語言模型引入了大型推理模型(Large Reasoning Models,LRMs),這些模型在給出最終答案之前,會先生成詳盡的思考過程。盡管它們在各類推理基準上的表現顯著提升,其基本能力、規模化特性及內在局限性仍未得到充分理解。目前的評估主要聚焦于既有的數學和編碼基準,強調最終答案的準確率;然而,這種評估范式往往受到數據污染的影響,且無法深入剖析推理痕跡(reasoning traces)的結構與質量。在此背景下,本文借助可控謎題環境,系統地填補這些認知空白:該環境既可精確操控組合復雜度,又保持邏輯結構一致,不僅可以評估最終答案,也能追蹤并分析模型內部的推理軌跡,以洞見LRMs的“思考”方式。通過對多種謎題任務進行大規模實驗證明,當前前沿LRMs在超過某一復雜度閾值后會出現準確率的完全崩潰;更令人意外的是,它們的推理努力隨著問題復雜度上升而增加,但在達到臨界點后即便擁有充足的推理token預算也會驟然下降,展現出一種反直覺的規模化極限。我們還將LRMs與標準大型語言模型(LLMs)在相同推理計算預算下進行對比,識別出三種性能區間:(1)在低復雜度任務上,標準模型反而意外地優于LRMs;(2)在中等復雜度任務上,LRMs因額外的思考環節而表現出優勢;(3)在高復雜度任務上,二者皆陷入完全崩潰。此外,我們發現LRMs在精確計算方面存在明顯局限:它們無法可靠地執行顯式算法,在不同謎題任務中的推理表現也極不一致。進一步深入分析推理痕跡時,我們研究了模型探索解空間的模式并剖析了其計算行為,揭示了LRMs的優勢與短板,并最終對其真正的推理能力提出了關鍵質疑。

關鍵詞:Large Reasoning Models (LRMs)、問題復雜度 ,可控謎題環境 (controllable puzzle environments)、思維痕跡 (reasoning traces)、過度思考 (overthinking)、推理計算預算 (inference compute budget)

來源:啟元洞見

編譯:彭晨

作者:集智編輯部


論文題目:The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity 發表時間:2024年10月22日 論文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

近年來,隨著大型語言模型(LLMs)的飛速發展,一類專門針對推理任務進行優化的“大型推理模型”(Large Reasoning Models, LRMs)應運而生。與傳統僅輸出答案的LLM不同,LRM通過“鏈式思維”(chain‐of‐thought, CoT)或自我反思機制,先生成詳盡的思考過程再給出答案。盡管在諸多數學與編碼基準上表現優異,其真正的推理能力、規模化性能及內在局限尚未得到系統評估。近期蘋果公司發表論文,借助可控謎題環境(經典Tower of Hanoi、Checkers Jumping、River Crossing、Blocks World等),深入剖析LRM在不同復雜度下的表現,并揭示其“推理崩潰”與“過度思考”現象。

LRM的崛起與研究動機

隨著OpenAI o1/o3、Anthropic Claude 3.7 Sonnet Thinking、Google Gemini Thinking等LRM的橫空出世,研究者紛紛將其視作通向更通用人工智能的關鍵一步。早期LLM在推理基準上表現不佳,研究者嘗試通過規模化訓練數據及推理時計算(inference compute budget)來提升性能。思維鏈(CoT)與自我校驗(self‐verification)策略,雖能在一定程度上提高準確率,卻帶來了所謂的“過度思考”(overthinking)——在找到正確思路后仍持續無效探索,浪費推理預算。

在模型的評估測試方面,大多只是聚焦于推理模型最終給出答案的準確率。此外,測試所使用的大量經典數學基準,如MATH-500、AIME系列常存在樣本泄露或缺乏復雜度可控性等問題,難以分辨模型是憑借記憶還是算法推理。因此,本研究在此基礎上,構建可精細控制復雜度且規則明晰的測試環境,同時檢驗模型的答案與思維痕跡,并通過模擬器精確核驗中間解與最終結果,從而揭示LRM的真正“思考”面貌。

可控謎題環境的設計與優勢

為了系統操控問題復雜度并保持邏輯結構一致,研究團隊選取了四類經典謎題:

  • 河內塔(Tower of Hanoi):通過盤子數量控制組合深度,考察模型的遞歸規劃與狀態管理能力;

  • 跳棋謎題(Checkers Jumping):在線性布局中交換紅藍棋子位置,檢測模型對局面轉換規則的理解與前瞻能力;

  • 過河問題(River Crossing):多對“執行者—保護者”在約束條件下渡河,評估多主體協調與約束管理;

  • 積木世界(Blocks World):在堆棧間轉換塊狀物,考驗模型對依賴關系和臨時重組的規劃思路。

這四種環境均配備專門模擬器,實現對每一步移動合法性與最終目標狀態的精確校驗,為深入分析LRM“思維”提供了可靠工具。


圖 1. 四種謎題環境的圖解。每一列展示了謎題從初始狀態(上)到中間狀態(中)再到目標狀態(下)的過程:河內塔(通過木樁運輸圓盤)、跳棋(交換兩種顏色標記的位置)、渡河(將個體運送過河)和方塊世界(堆棧重新配置)。



實驗設計與方法

研究以Claude 3.7 Sonnet(thinking/no‐thinking)和DeepSeek-R1/V3為代表,允許最大64k推理token預算。對每種謎題、每個復雜度N,均生成25個實例并取平均性能。實驗主要衡量:

  • 答案準確率:模型最終是否正確完成謎題;

  • 推理token使用量(thinking tokens):LRM在思維過程階段消耗的計算預算;

  • 中間解探索軌跡(reasoning traces)利用模擬器提取并標記思考中的每個候選解,分析其先后順序及正確性。


圖 2. 上圖:我們的設置可以驗證最終答案和中間推理痕跡,允許對模型思維行為進行詳細分析。左下和中下:在低復雜度下,非思考模型更準確,效率更高。隨著復雜性的增加,推理模型的表現會更好,但需要更多的tokens——直到它們都超過了一個臨界閾值,并且跟蹤時間更短。右下:對于正確解決的案例,Claude 3.7 Thinking傾向于在低復雜性的情況下早期找到答案,在高復雜性的情況下后期找到答案。在失敗的情況下,它通常會關注早期的錯誤答案,浪費剩余的tokens預算。這兩種情況都揭示了推理過程的低效。



復雜度對推理行為的影響:三大階段

實驗結果顯示,隨著問題復雜度的增加,LRM與非思維LLM在謎題環境中呈現三個顯著推理階段:

  1. 低復雜度階段:標準LLM表現出色,推理更高效、準確率甚至超過LRM;

  2. 中等復雜度階段:引入思維痕跡后,LRM開始在準確率上領先,但其推理token消耗也顯著攀升;

  3. 高復雜度階段:無論思維與否,所有模型準確率均驟降,出現“推理崩潰”現象——無法給出任何有效解答。

在高復雜度區域,發現LRM的推理token反而出現下降趨勢——盡管仍有充足預算,模型卻減少思考長度并放棄探索,導致完全失敗;這一“計算規模極限”暗示了模型在面對更深組合鏈條時的固有障礙。此外,即便在中等復雜度,LRM也常在找到正確解后繼續無謂探索,不僅拖慢推理速度,更加重了計算負擔,印證了文獻中所稱的“過度思考”(overthinking)。


圖 3. 思維模型(Claude 3.7 Sonnet with thinking, DeepSeek-R1)與非思維模型(Claude 3.7 Sonnet, DeepSeek-V3)在所有謎題環境和不同問題復雜程度中的準確性。

深入分析思考痕跡:探索與自我校正能力

借助模擬器提取每條思考痕跡中的中間解,本研究將正確與錯誤解在思維過程中的出現位置進行定量對比。結果顯示:

  • 在簡單問題中,正確解往往較早出現,但隨后的錯誤解涌現,分布向思維后段傾斜;

  • 在中等復雜度中,模型初期多探索錯誤路徑,只有在后期才匯聚到正確解;

  • 在復雜度閾值以上,思路全線崩潰,思考痕跡中再無任何正確片段。

這一行為模式揭示了LRM有限的自我校正能力:雖然具備一定糾錯潛力,卻因效率低下或計算預算管理失衡,難以持續收斂至解。


圖 4. 左和中:在四個不同復雜程度的謎題的推理軌跡中,中間解決方案的位置和正確性。?表示正確的解決方案;x 表示不正確的解決方案,用陰影表示分布密度;右圖:河內塔在不同復雜程度下的解決方案準確性與思考位置。簡單問題(N=1-3)表現出早期的準確性隨著時間的推移而下降(過度思考),中等問題(N=4-7)表現出持續推理的準確性略有提高,復雜問題(N≥8)表現出持續接近零的準確性,表明完全推理失敗。



意外發現與未解之謎

為驗證模型的符號執行能力,研究團隊在提示中直接提供了河內塔(Tower of Hanoi)的解決算法,結果卻未見性能提升,崩潰閾值與默認場景基本一致,凸顯LRM在精確執行給定邏輯步驟時的局限。此外,不同謎題環境中,模型的首個錯誤移動所處位置相差甚遠:在河內塔中可保持數百步無失誤,而在過河問題(River Crossing)中第一錯僅出現在第四步,或許與訓練數據中例子稀缺度有關,提示LRM仍在一定程度上依賴記憶而非純粹算法推理。


圖 5. (a)和(b)盡管在提示符中提供了求解算法,但執行失敗發生在相似的點,突出了邏輯步驟執行中的推理模型局限性。(c)和(d)值得注意的是,Claude 3.7 Sonnet模型在河內塔的無錯誤序列比在過河情景中的早期錯誤長得多。



結論、展望與思考

通過可控謎題環境的系統評估,研究首次揭示了當前LRM在問題復雜度維度上的三大推理階段與計算規模極限,深入剖析了“過度思考”與自我校正的不穩定性,并通過思考痕跡量化了模型的探索策略。研究挑戰了對LRM推理能力的諸多假設,表明其在泛化與符號操作上仍面臨重大瓶頸。

盡管謎題環境提供了優越的復雜度可控性與精確驗證,但畢竟狹窄地聚焦于結構化規劃問題,難以全面代表真實世界中知識密集型與開放式推理場景。此外,實驗依賴閉源API,限制了對模型內部架構與權重的深入剖析。最后,模擬器的精確性在高度非結構化領域或難以復制,提示未來需拓展至自然語言理解、常識推理等更富挑戰性的任務域。

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美司法部調查奧巴馬是否“叛國”,已成立專門調查組,遭民主黨猛烈抨擊

美司法部調查奧巴馬是否“叛國”,已成立專門調查組,遭民主黨猛烈抨擊

環球網資訊
2025-07-25 07:00:52
泰國F-16出動,柬埔寨扛不住!柬埔寨沒臉找中國,只能求助聯合國

泰國F-16出動,柬埔寨扛不住!柬埔寨沒臉找中國,只能求助聯合國

大道無形我有型
2025-07-24 17:05:39
獨女身份坐實,宗馥莉王炸證據公開!

獨女身份坐實,宗馥莉王炸證據公開!

品牌頭版
2025-07-25 17:55:51
馬斯克發文:特斯拉在中國取得了最高成績!懂車帝回應:未做過官方排名

馬斯克發文:特斯拉在中國取得了最高成績!懂車帝回應:未做過官方排名

紅星資本局
2025-07-25 18:48:24
泰國陸軍司令:希望洪森保重身體。。。

泰國陸軍司令:希望洪森保重身體。。。

西樓飲月
2025-07-25 19:46:51
貓叼住老鼠后,為什么老鼠不回頭咬貓嘴?

貓叼住老鼠后,為什么老鼠不回頭咬貓嘴?

詩意世界
2025-07-24 23:12:52
熱身賽:中國男籃大勝雙殺委內瑞拉 王俊杰16分程帥澎13分

熱身賽:中國男籃大勝雙殺委內瑞拉 王俊杰16分程帥澎13分

醉臥浮生
2025-07-25 21:24:18
美媒聚焦:射程800公里的中國霹靂-S導彈讓美軍壓力山大

美媒聚焦:射程800公里的中國霹靂-S導彈讓美軍壓力山大

楊風
2025-07-25 18:52:51
關于佛山的新型疫情,網友們有了這樣一個聯想

關于佛山的新型疫情,網友們有了這樣一個聯想

清暉有墨
2025-07-25 14:11:25
最認真的大學生成為壓垮格柵板的最后那根稻草

最認真的大學生成為壓垮格柵板的最后那根稻草

關爾東
2025-07-25 13:01:43
墜入浮選槽后為何1小時才救出第一人?專業人員:需穿戴防護裝備,徒手打撈幾乎不可能

墜入浮選槽后為何1小時才救出第一人?專業人員:需穿戴防護裝備,徒手打撈幾乎不可能

紅星新聞
2025-07-25 19:31:38
偷雞不成蝕把米!這一次,張碧晨被汪蘇瀧光速打臉,體面碎了一地

偷雞不成蝕把米!這一次,張碧晨被汪蘇瀧光速打臉,體面碎了一地

林輕吟
2025-07-25 19:47:47
害死6名大學生的公司安全問題很大!連新華社現場采訪視頻里都全是安全問題!

害死6名大學生的公司安全問題很大!連新華社現場采訪視頻里都全是安全問題!

小星球探索
2025-07-25 11:38:09
美國總統時隔近20年首次正式造訪美聯儲,特朗普和鮑威爾說了些什么?

美國總統時隔近20年首次正式造訪美聯儲,特朗普和鮑威爾說了些什么?

澎湃新聞
2025-07-25 08:42:32
“裙子”上面盡量少配緊身衣,瞧街拍博主這樣穿,洋氣遮肉顯瘦

“裙子”上面盡量少配緊身衣,瞧街拍博主這樣穿,洋氣遮肉顯瘦

何有強
2025-07-24 23:41:15
世體:巴薩將剝奪特獅隊長職務,教練組&俱樂部已作出決定

世體:巴薩將剝奪特獅隊長職務,教練組&俱樂部已作出決定

直播吧
2025-07-25 20:06:10
泰國軍隊攻入柬埔寨,兩國地緣紛爭后的秘密

泰國軍隊攻入柬埔寨,兩國地緣紛爭后的秘密

史政先鋒
2025-07-25 10:18:25
觸目驚心!境外論壇偷拍大量中國女性!妻子女兒母親全成意淫對象

觸目驚心!境外論壇偷拍大量中國女性!妻子女兒母親全成意淫對象

派大星紀錄片
2025-07-25 10:26:14
禁播視頻,被以色列播出……

禁播視頻,被以色列播出……

環球時報新聞
2025-07-25 13:40:47
理想汽車高級副總裁鄒良軍減持:套現千萬 CTO謝炎套現1194萬

理想汽車高級副總裁鄒良軍減持:套現千萬 CTO謝炎套現1194萬

雷遞
2025-07-25 20:25:42
2025-07-26 01:44:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4046文章數 37238關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

本地
教育
親子
公開課
軍事航空

本地新聞

換個城市過夏天|風拂鹽湖,躲進格爾木的盛夏清涼

教育要聞

再獲國際物理奧賽金牌,南師附中學子勇登世界之巔!

親子要聞

小宸哥歷險記之門外有人:不要給陌生人開門

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

吳謙少將任中國駐埃及使館國防武官

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 鄱阳县| 长顺县| 瑞金市| 鹤庆县| 中牟县| 修文县| 永春县| 兰溪市| 汝城县| 班戈县| 佛学| 漠河县| 莱阳市| 香格里拉县| 宾阳县| 华蓥市| 禄丰县| 汉川市| 临沭县| 高青县| 手游| 铜梁县| 垦利县| 大丰市| 泾源县| 瑞丽市| 溆浦县| 德安县| 松江区| 荃湾区| 团风县| 福州市| 临邑县| 靖西县| 巴彦县| 海口市| 虹口区| 汽车| 太康县| 湟源县| 会昌县|