99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型推理的天花板在哪里?

0
分享至


摘要

近期新一代前沿語言模型引入了大型推理模型(Large Reasoning Models,LRMs),這些模型在給出最終答案之前,會先生成詳盡的思考過程。盡管它們在各類推理基準上的表現顯著提升,其基本能力、規模化特性及內在局限性仍未得到充分理解。目前的評估主要聚焦于既有的數學和編碼基準,強調最終答案的準確率;然而,這種評估范式往往受到數據污染的影響,且無法深入剖析推理痕跡(reasoning traces)的結構與質量。在此背景下,本文借助可控謎題環境,系統地填補這些認知空白:該環境既可精確操控組合復雜度,又保持邏輯結構一致,不僅可以評估最終答案,也能追蹤并分析模型內部的推理軌跡,以洞見LRMs的“思考”方式。通過對多種謎題任務進行大規模實驗證明,當前前沿LRMs在超過某一復雜度閾值后會出現準確率的完全崩潰;更令人意外的是,它們的推理努力隨著問題復雜度上升而增加,但在達到臨界點后即便擁有充足的推理token預算也會驟然下降,展現出一種反直覺的規模化極限。我們還將LRMs與標準大型語言模型(LLMs)在相同推理計算預算下進行對比,識別出三種性能區間:(1)在低復雜度任務上,標準模型反而意外地優于LRMs;(2)在中等復雜度任務上,LRMs因額外的思考環節而表現出優勢;(3)在高復雜度任務上,二者皆陷入完全崩潰。此外,我們發現LRMs在精確計算方面存在明顯局限:它們無法可靠地執行顯式算法,在不同謎題任務中的推理表現也極不一致。進一步深入分析推理痕跡時,我們研究了模型探索解空間的模式并剖析了其計算行為,揭示了LRMs的優勢與短板,并最終對其真正的推理能力提出了關鍵質疑。

關鍵詞:Large Reasoning Models (LRMs)、問題復雜度 ,可控謎題環境 (controllable puzzle environments)、思維痕跡 (reasoning traces)、過度思考 (overthinking)、推理計算預算 (inference compute budget)

集智編輯部丨作者


論文題目:The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity 發表時間:2024年10月22日 論文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

近年來,隨著大型語言模型(LLMs)的飛速發展,一類專門針對推理任務進行優化的“大型推理模型”(Large Reasoning Models, LRMs)應運而生。與傳統僅輸出答案的LLM不同,LRM通過“鏈式思維”(chain‐of‐thought, CoT)或自我反思機制,先生成詳盡的思考過程再給出答案。盡管在諸多數學與編碼基準上表現優異,其真正的推理能力、規模化性能及內在局限尚未得到系統評估。近期蘋果公司發表論文,借助可控謎題環境(經典Tower of Hanoi、Checkers Jumping、River Crossing、Blocks World等),深入剖析LRM在不同復雜度下的表現,并揭示其“推理崩潰”與“過度思考”現象。

讀書會推薦

集智俱樂部也聯合上海交通大學副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學家肖達、北京師范大學碩士生楊明哲和浙江大學博士生姚云志共同發起 ,一起拆解大模型的推理能力的可解釋性,邀請你加入:

LRM的崛起與研究動機

隨著OpenAI o1/o3、Anthropic Claude 3.7 Sonnet Thinking、Google Gemini Thinking等LRM的橫空出世,研究者紛紛將其視作通向更通用人工智能的關鍵一步。早期LLM在推理基準上表現不佳,研究者嘗試通過規模化訓練數據及推理時計算(inference compute budget)來提升性能。思維鏈(CoT)與自我校驗(self‐verification)策略,雖能在一定程度上提高準確率,卻帶來了所謂的“過度思考”(overthinking)——在找到正確思路后仍持續無效探索,浪費推理預算。

在模型的評估測試方面,大多只是聚焦于推理模型最終給出答案的準確率。此外,測試所使用的大量經典數學基準,如MATH-500、AIME系列常存在樣本泄露或缺乏復雜度可控性等問題,難以分辨模型是憑借記憶還是算法推理。因此,本研究在此基礎上,構建可精細控制復雜度且規則明晰的測試環境,同時檢驗模型的答案與思維痕跡,并通過模擬器精確核驗中間解與最終結果,從而揭示LRM的真正“思考”面貌。

可控謎題環境的設計與優勢

為了系統操控問題復雜度并保持邏輯結構一致,研究團隊選取了四類經典謎題:

  • 河內塔(Tower of Hanoi):通過盤子數量控制組合深度,考察模型的遞歸規劃與狀態管理能力;

  • 跳棋謎題(Checkers Jumping):在線性布局中交換紅藍棋子位置,檢測模型對局面轉換規則的理解與前瞻能力;

  • 過河問題(River Crossing):多對“執行者—保護者”在約束條件下渡河,評估多主體協調與約束管理;

  • 積木世界(Blocks World):在堆棧間轉換塊狀物,考驗模型對依賴關系和臨時重組的規劃思路。

這四種環境均配備專門模擬器,實現對每一步移動合法性與最終目標狀態的精確校驗,為深入分析LRM“思維”提供了可靠工具。


圖 1. 四種謎題環境的圖解。每一列展示了謎題從初始狀態(上)到中間狀態(中)再到目標狀態(下)的過程:河內塔(通過木樁運輸圓盤)、跳棋(交換兩種顏色標記的位置)、渡河(將個體運送過河)和方塊世界(堆棧重新配置)。



實驗設計與方法

研究以Claude 3.7 Sonnet(thinking/no‐thinking)和DeepSeek-R1/V3為代表,允許最大64k推理token預算。對每種謎題、每個復雜度N,均生成25個實例并取平均性能。實驗主要衡量:

  • 答案準確率:模型最終是否正確完成謎題;

  • 推理token使用量(thinking tokens):LRM在思維過程階段消耗的計算預算;

  • 中間解探索軌跡(reasoning traces)利用模擬器提取并標記思考中的每個候選解,分析其先后順序及正確性。


圖 2. 上圖:我們的設置可以驗證最終答案和中間推理痕跡,允許對模型思維行為進行詳細分析。左下和中下:在低復雜度下,非思考模型更準確,效率更高。隨著復雜性的增加,推理模型的表現會更好,但需要更多的tokens——直到它們都超過了一個臨界閾值,并且跟蹤時間更短。右下:對于正確解決的案例,Claude 3.7 Thinking傾向于在低復雜性的情況下早期找到答案,在高復雜性的情況下后期找到答案。在失敗的情況下,它通常會關注早期的錯誤答案,浪費剩余的tokens預算。這兩種情況都揭示了推理過程的低效。



復雜度對推理行為的影響:三大階段

實驗結果顯示,隨著問題復雜度的增加,LRM與非思維LLM在謎題環境中呈現三個顯著推理階段:

  1. 低復雜度階段:標準LLM表現出色,推理更高效、準確率甚至超過LRM;

  2. 中等復雜度階段:引入思維痕跡后,LRM開始在準確率上領先,但其推理token消耗也顯著攀升;

  3. 高復雜度階段:無論思維與否,所有模型準確率均驟降,出現“推理崩潰”現象——無法給出任何有效解答。

在高復雜度區域,發現LRM的推理token反而出現下降趨勢——盡管仍有充足預算,模型卻減少思考長度并放棄探索,導致完全失敗;這一“計算規模極限”暗示了模型在面對更深組合鏈條時的固有障礙。此外,即便在中等復雜度,LRM也常在找到正確解后繼續無謂探索,不僅拖慢推理速度,更加重了計算負擔,印證了文獻中所稱的“過度思考”(overthinking)。


圖 3. 思維模型(Claude 3.7 Sonnet with thinking, DeepSeek-R1)與非思維模型(Claude 3.7 Sonnet, DeepSeek-V3)在所有謎題環境和不同問題復雜程度中的準確性。

深入分析思考痕跡:探索與自我校正能力

借助模擬器提取每條思考痕跡中的中間解,本研究將正確與錯誤解在思維過程中的出現位置進行定量對比。結果顯示:

  • 在簡單問題中,正確解往往較早出現,但隨后的錯誤解涌現,分布向思維后段傾斜;

  • 在中等復雜度中,模型初期多探索錯誤路徑,只有在后期才匯聚到正確解;

  • 在復雜度閾值以上,思路全線崩潰,思考痕跡中再無任何正確片段。

這一行為模式揭示了LRM有限的自我校正能力:雖然具備一定糾錯潛力,卻因效率低下或計算預算管理失衡,難以持續收斂至解。


圖 4. 左和中:在四個不同復雜程度的謎題的推理軌跡中,中間解決方案的位置和正確性。?表示正確的解決方案;x 表示不正確的解決方案,用陰影表示分布密度;右圖:河內塔在不同復雜程度下的解決方案準確性與思考位置。簡單問題(N=1-3)表現出早期的準確性隨著時間的推移而下降(過度思考),中等問題(N=4-7)表現出持續推理的準確性略有提高,復雜問題(N≥8)表現出持續接近零的準確性,表明完全推理失敗。



意外發現與未解之謎

為驗證模型的符號執行能力,研究團隊在提示中直接提供了河內塔(Tower of Hanoi)的解決算法,結果卻未見性能提升,崩潰閾值與默認場景基本一致,凸顯LRM在精確執行給定邏輯步驟時的局限。此外,不同謎題環境中,模型的首個錯誤移動所處位置相差甚遠:在河內塔中可保持數百步無失誤,而在過河問題(River Crossing)中第一錯僅出現在第四步,或許與訓練數據中例子稀缺度有關,提示LRM仍在一定程度上依賴記憶而非純粹算法推理。


圖 5. (a)和(b)盡管在提示符中提供了求解算法,但執行失敗發生在相似的點,突出了邏輯步驟執行中的推理模型局限性。(c)和(d)值得注意的是,Claude 3.7 Sonnet模型在河內塔的無錯誤序列比在過河情景中的早期錯誤長得多。



結論、展望與思考

通過可控謎題環境的系統評估,研究首次揭示了當前LRM在問題復雜度維度上的三大推理階段與計算規模極限,深入剖析了“過度思考”與自我校正的不穩定性,并通過思考痕跡量化了模型的探索策略。研究挑戰了對LRM推理能力的諸多假設,表明其在泛化與符號操作上仍面臨重大瓶頸。

盡管謎題環境提供了優越的復雜度可控性與精確驗證,但畢竟狹窄地聚焦于結構化規劃問題,難以全面代表真實世界中知識密集型與開放式推理場景。此外,實驗依賴閉源API,限制了對模型內部架構與權重的深入剖析。最后,模擬器的精確性在高度非結構化領域或難以復制,提示未來需拓展至自然語言理解、常識推理等更富挑戰性的任務域。

彭晨| 編譯

大模型可解釋性讀書會讀書會

集智俱樂部聯合上海交通大學副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學家肖達、北京師范大學碩士生楊明哲和浙江大學博士生姚云志共同發起。本讀書會旨在突破大模型“黑箱”困境,嘗試從以下四個視角梳理大語言模型可解釋性的科學方法論:

自下而上:Transformer circuit 為什么有效?

自上而下:神經網絡的精細決策邏輯和性能根因是否可以被嚴謹、清晰地解釋清楚?

復雜科學:滲流相變、涌現、自組織等復雜科學理論如何理解大模型的推理與學習能力?

系統工程:如何擁抱不確定性,在具體的業界實踐中創造價值?

五位發起人老師會帶領大家研讀領域前沿論文,現誠邀對此話題感興趣的朋友,一起共創、共建、共享「大模型可解釋性」主題社區,通過互相的交流與碰撞,促進我們更深入的理解以上問題。無論您是致力于突破AI可解釋性理論瓶頸的研究者,探索復雜系統與智能本質的交叉學科探索者,還是追求模型安全可信的工程實踐者,誠邀您共同參與這場揭開大模型“黑箱”的思想盛宴。

讀書會計劃于2025年6月19日啟動,每周四晚19:30-21:30,預計持續分享10周左右。

詳情請見:

1.

2.

3.

4.

5.

6.

7.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
北京軍區司令空缺,林彪趁機點將,毛主席反問:是你四野的人吧?

北京軍區司令空缺,林彪趁機點將,毛主席反問:是你四野的人吧?

南書房
2025-07-11 15:50:03
共贏!1換2交易方案!太陽如愿得到庫明加,理查茲馳援庫里沖冠

共贏!1換2交易方案!太陽如愿得到庫明加,理查茲馳援庫里沖冠

鬼魅突破上籃
2025-07-20 12:19:44
突然崩了!很多人以為手機壞了!官方緊急回應

突然崩了!很多人以為手機壞了!官方緊急回應

浙江之聲
2025-07-21 11:06:07
宗澤后對親侄女各種背刺,不過有句話他還真說中了!宗馥莉危險了

宗澤后對親侄女各種背刺,不過有句話他還真說中了!宗馥莉危險了

美美談情感
2025-07-18 23:41:01
楊瀚森:不在乎別人看法,有時我看起來沮喪只因為我想睡覺

楊瀚森:不在乎別人看法,有時我看起來沮喪只因為我想睡覺

懂球帝
2025-07-21 10:53:50
歐盟向我國出手后,德財長:中國“垃圾產品”,誓言清零中國制造

歐盟向我國出手后,德財長:中國“垃圾產品”,誓言清零中國制造

游古史
2025-07-21 11:13:05
衛生間男女標識亂象叢生,抽象粗俗、不良暗示,人民日報下場怒批

衛生間男女標識亂象叢生,抽象粗俗、不良暗示,人民日報下場怒批

大魚簡科
2025-07-20 11:37:40
王偉忠還是沒忍住,看s媽一直走不出悲傷,終于松口為s家公開講話

王偉忠還是沒忍住,看s媽一直走不出悲傷,終于松口為s家公開講話

小娛樂悠悠
2025-07-21 09:39:48
LV近42萬香港客戶資料外泄,香港隱私公署展開調查

LV近42萬香港客戶資料外泄,香港隱私公署展開調查

界面新聞
2025-07-21 08:16:52
驚了!于文文一組“不雅照”流出,竟揭開娛樂圈“不堪”另一面

驚了!于文文一組“不雅照”流出,竟揭開娛樂圈“不堪”另一面

智凌縱橫
2025-07-20 14:24:26
湖南省養老金將迎調整,歷年定額調整金額分析,3176元能漲多少?

湖南省養老金將迎調整,歷年定額調整金額分析,3176元能漲多少?

興史興談
2025-07-20 17:51:15
湖人裁掉古德溫!連續放棄兩人為斯馬特騰空間 隊記列新援優缺點

湖人裁掉古德溫!連續放棄兩人為斯馬特騰空間 隊記列新援優缺點

羅說NBA
2025-07-21 10:10:45
45歲母親霧天開車買菜失蹤,10年后女兒打車上班,發現是媽媽的愛車

45歲母親霧天開車買菜失蹤,10年后女兒打車上班,發現是媽媽的愛車

今天說故事
2025-07-02 17:31:55
終于離隊了!布倫森:我感覺每一年步行者都在賣特納

終于離隊了!布倫森:我感覺每一年步行者都在賣特納

直播吧
2025-07-20 18:56:08
患者心跳未停就被開胸取器官,55名醫生曝行業潛規則

患者心跳未停就被開胸取器官,55名醫生曝行業潛規則

中產生活指南針
2025-07-21 12:51:22
1962年對印反擊前夕,各元帥仍在爭論打不打,毛主席一錘定音:打

1962年對印反擊前夕,各元帥仍在爭論打不打,毛主席一錘定音:打

天夢見證
2025-07-14 22:02:22
25歲男子在登山時凍死,父母直言:不收尸,就讓她留在雪山吧

25歲男子在登山時凍死,父母直言:不收尸,就讓她留在雪山吧

無名講堂
2025-07-18 18:44:40
明日開播!三部新劇同天定檔,懸疑or復仇or商戰,你打算追哪部?

明日開播!三部新劇同天定檔,懸疑or復仇or商戰,你打算追哪部?

影視快通車
2025-07-21 11:52:56
王鷗又曝猛料!驚人程度不輸夜光劇本,爆料對象竟是相聲演員

王鷗又曝猛料!驚人程度不輸夜光劇本,爆料對象竟是相聲演員

策略剖析
2025-07-21 09:46:47
房產證上的人去世了,家人一直住著,不辦過戶行不行?

房產證上的人去世了,家人一直住著,不辦過戶行不行?

巢客HOME
2025-07-17 10:00:03
2025-07-21 15:15:00
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關知識技能
5234文章數 4646關注度
往期回顧 全部

科技要聞

OpenAI自嗨“IMO金牌”遭官方怒斥

頭條要聞

中國男子在菲律賓被連開七槍射殺 兇手還涉另一綁架案

頭條要聞

中國男子在菲律賓被連開七槍射殺 兇手還涉另一綁架案

體育要聞

中國女籃輸日本,天賦完敗給努力和戰術

娛樂要聞

周渝民談大S離開,F4會努力再合體

財經要聞

宗馥莉為何要對"小媽"杜建英虎視眈眈?

汽車要聞

勞斯萊斯前設計師全新力作 榮威M7正式亮相

態度原創

本地
時尚
親子
旅游
游戲

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調色盤?

微胖女生夏天別碰這5件衣服!顯胖10斤,土到掉渣!

親子要聞

天水幼兒園鉛中毒大結局!央視通報調查結果,這次終于真相大白了

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

外媒點名10款被微交易毀掉的神作:第1曾是現象級作品

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 洞头县| 吴川市| 乌拉特中旗| 富蕴县| 德庆县| 精河县| 西乌珠穆沁旗| 牙克石市| 马山县| 乌海市| 玉田县| 新平| 永泰县| 陆川县| 辰溪县| 芜湖县| 丹棱县| 竹山县| 沧州市| 威信县| 浦北县| 湟源县| 龙南县| 富川| 綦江县| 桑植县| 莱西市| 留坝县| 永宁县| 石家庄市| 南昌县| 永安市| 洛阳市| 濮阳县| 天长市| 南充市| 巩留县| 监利县| 黄石市| 竹溪县| 南乐县|