本文系統回顧了長思維鏈在推理大模型中的核心作用,梳理其發展脈絡并構建了貫穿理論與實踐的系統框架。通過分析900篇文獻,首次明確區分長短思維鏈在結構、能力與反饋機制上的本質差異,提出“深度推理、廣泛探索、可行反思”三大核心能力模型,進而解析六類關鍵推理現象及其底層機制。更進一步,本文總結了當前主流的長思維鏈優化策略,涵蓋格式設計、自我學習、反饋細化與外部引導等路徑,并展望其在多模態、跨語言、智能體互動及安全保障等方向的未來潛力。
論文標題: Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models 論文主頁: https://long-cot.github.io/ 論文地址: https://arxiv.org/pdf/2503.09567 Github 倉庫: https://github.com/LightChen233/Awesome-Long-Chain-of-Thought-Reasoning一、邁向推理時代
近年來,大模型(Large Language Models, LLMs)在數學、編程等復雜任務上取得突破,OpenAI-o1、DeepSeek-R1 等推理大模型(Reasoning Large Language Models,RLLMs)表現尤為亮眼。但它們為何如此強大呢?核心在于長鏈思維(Long Chain-of-Thought, Long CoT)—— 通過更深入的推理、更廣泛的探索,以及更強的自我反思,使大模型能夠高效解決復雜問題。
然而,長思維鏈仍然缺乏系統性研究,甚至面臨諸多未解之謎:
長鏈思維究竟如何提升模型能力?與短鏈思維(Short CoT)的核心區別是什么?
“推理擴展性”(Test-Time Scaling)是關鍵突破,還是帶來了 “過度思考”(Overthinking)?
長思維鏈有哪些未來的研究方向?
填補研究空白,建立統一視角:最全長思維鏈綜述,來了!
在這篇綜述中,該論文首先厘清長思維鏈(Long CoT)與短思維鏈(Short CoT)的本質區別,提出新的推理范式分類框架,明確它們在推理深度、探索范圍和反饋機制上的差異,并為不同任務的推理需求提供系統性認知。
隨后,該論文深入拆解 長思維鏈的三大關鍵特性,即深度推理、廣泛探索和可行性反思,揭示其如何在提升推理能力的同時,也帶來了計算開銷、冗余推理等挑戰。
該論文進一步探討 長思維鏈相關的核心推理現象,如過度思考(Overthinking)、推理擴展性(Test-Time Scaling)以及 AI 的 “頓悟時刻”(Aha Moment),分析這些現象如何影響模型的推理效率和答案質量,并討論其可能的優化方案。
最后,該論文展望長思維鏈的未來發展方向,包括多模態推理的融合、推理效率的優化以及知識增強技術等多個未來研究方向展望,以進一步提升推理大模型的推理能力和實際應用價值。通過這篇綜述,該論文希望建立統一的研究視角,推動長思維鏈研究走向更深入的理論探索與更高效的實踐落地。
圖 2:長思維鏈和思維鏈之間的差異具有三個關鍵特征:深度的推理,適當的反思和廣泛的探索。此外,長思維鏈整合了所有這些特征以實現更好的邏輯效果。
在大模型推理演化的過程中,如圖 2 所示,長思維鏈(Long CoT)與短思維鏈(Short CoT)代表了兩種截然不同的推理范式。短思維鏈以淺層、線性的推理方式快速得出結論,邏輯路徑短,探索性低,適用于結構清晰、解答明確的問題。而長思維鏈則強調深度推理、廣泛探索和可行性反思,允許模型在更復雜的邏輯網絡中展開深入分析,發現隱藏關系,并優化推理路徑。
短思維鏈的推理方式邏輯節點數量有限,主要依賴順序推理,且幾乎不會回溯或檢驗先前的推理路徑。在數學、編程等需要邏輯推導的任務中,短思維鏈往往難以應對復雜問題,而長思維鏈則可以通過擴展推理深度和增加探索空間,提高解題能力。形式上,長思維鏈放寬了傳統 短思維鏈在推理節點數量、并行探索能力以及回溯調整方面的限制,使得模型能夠在更大的問題空間中尋找最佳解。
三、長思維鏈具備三大核心特性使其推理能力遠超短思維鏈
深度推理(Deep Reasoning):短思維鏈只能處理有限數量的邏輯節點,適用于較簡單的問題,而 長思維鏈允許推理路徑大幅擴展,涵蓋更多層次的邏輯關系,從而解決復雜的多步推理問題。數學推理、符號邏輯推導等領域對這一能力有極高需求。
廣泛探索(Extensive Exploration):短思維鏈僅限于固定的邏輯路徑,往往導致推理過于單一,而 長思維鏈通過拓展邏輯分支、并行探索多個可能解,能夠大幅提高推理的穩健性和準確度。這種能力在具有多種可能解或需要跨領域推理的任務中尤為重要。
可行性反思(Feasible Reflection):短思維鏈的推理過程不可回溯,一旦出錯很難修正,而 長思維鏈能夠在推理過程中反思、校驗先前的邏輯步驟,結合反饋機制優化推理路徑,減少推理錯誤,提升整體推理質量。
四、長思維鏈現象分析六大推理現象
圖 3:對長思維鏈外部行為六個經典現象的分析:(a)當前推理大模型為何會產生長思維鏈;(b)當前長思維鏈系統的推理邊界及其局限性;(c)當超出推理大模型的推理邊界時,過度思考可能導致的性能衰退;(d)測試階段擴展方法的應用及其擴展規律與局限性;(e)使用過程中的獎勵模型與結果獎勵模型效果對比;(f)“頓悟” 時刻的探索及其潛在原因。
研究表明,長思維鏈通過多種方式增強了推理大模型的推理能力,主要表現為六大核心推理現象:
長思維鏈涌現現象:研究發現,長思維鏈在模型預訓練階段已被潛在編碼,可通過上下文示例(contextual examples)或特定提示詞進行激活。進一步地,一些工作發現大模型能夠直接通過強化學習(RL)直接高效的激發出長思維鏈的能力。
推理邊界(Reasoning Boundary)現象:推理大模型的推理能力并非無限擴展,而是在超出一定復雜度閾值后迅速下降,稱之為 “推理邊界”,并發現突破推理邊界會導致推理錯誤累積,從而降低整體性能。
過度思考(Overthinking)現象:隨著推理鏈的增加,模型性能在某個點之前持續提高,但超過該點后,錯誤率反而上升。例如,過長的推理鏈可能導致 “雪球效應”(snowball errors),即前期推理錯誤不斷累積,最終影響結果可靠性。而一些研究者認為過度思考是由于推理長度超過了其推理邊界導致的。
推理擴展性(Inference Test-Time Scaling)現象:推理路徑的擴展可分為垂直擴展(Vertical Scaling)和并行擴展(Parallel Scaling),但兩者均存在上限。例如,并行擴展雖然可以增加答案的多樣性,但并不能超過最優驗證策略的限制。-過程獎勵 vs. 結果獎勵的訓練差異現象:強化學習優化推理路徑時,過程獎勵模型(PRM)能提供更精細的獎勵反饋,而結果獎勵模型(ORM)依賴最終答案進行優化,雖然收斂更快,但難以提供中間推理的細粒度優化信息。但二者在數據質量接近的情況下,理論上沒有較大的性能差異。
頓悟時刻(Aha Moment)現象:某些情況下,模型在推理過程中會經歷突如其來的認知突破。研究表明,基于規則的強化學習(rule-based RL)可以有效觸發這一現象,使得大模型在無監督的情況下進行自我反思和推理優化。
深度推理(Deep Reasoning)是長思維鏈的核心能力,它決定了推理大模型在處理復雜推理任務時的表現。然而,缺乏足夠的推理深度會導致模型在高難度任務上的性能下降。當前的研究主要從推理格式(Deep Reasoning Format)和推理學習(Deep Reasoning Learning)兩方面入手,通過優化推理結構和訓練方法,使推理大模型能夠更高效地執行深度推理。
5.1 深度推理格式:優化推理結構的多種路徑
長思維鏈的推理能力依賴于三種主要的推理格式:
圖 4:深度推理格式主要分為三類:自然語言、結構化語言與潛在空間推理(進一步細分為基于 token、向量和管理器驅動的潛在推理)
自然語言推理(Natural Language Reasoning):自然語言推理是最直觀的推理方式,允許模型自由組織邏輯鏈,提高推理的可解釋性。
結構化語言推理(Structured Language Reasoning):結構化語言推理主要依賴代碼或符號邏輯進行更精準的邏輯推理。
潛在空間推理(Latent Space Reasoning):潛在空間推理通過在隱空間執行推理計算,提高推理效率和連貫性,主要包括三種方法:(1)基于 Token 的潛在推理:使用 “推理 Token” 或 “思維 Token” 引導大模型進行隱式推理。(2)基于向量的潛在推理:使用 “思維向量(Thought Vectors)” 在不同層次間傳播推理狀態,使推理更加動態和穩健。(3)基于管理器的潛在推理:通過 “推理管理器(Reasoning Manager)” 優化推理鏈的動態控制,提高推理效率。
提升推理大模型的深度推理能力,需要結合模仿學習(Imitation Learning)和自學習(Self-Learning)兩種方法,使模型能夠在復雜推理任務中更好地泛化和優化。
圖 5:深度推理學習的不同策略,包括:(a) 深度推理模仿學習,即模仿來自高級深度推理系統(如高級推理大模型、MCTS 等)產生的數據,通過監督微調訓練推理模型;(b) 深度推理自我學習,即通過隱式獎勵驅動的基于偏好的強化學習,實現推理模型的自我改進與優化。 5.2.1 深度推理模仿(Imitation Learning)
模仿學習通過監督微調(SFT),讓模型從人類、先進推理大模型或擴展采樣策略中學習推理模式:
模仿人類推理:使用高質量的人工標注數據訓練 推理大模型,直接模仿人類行為進行深度推理。
模仿先進推理大模型推理:利用先進的推理大模型作為教師模型訓練不會深度推理的學生小模型,更加快速地升數學推理能力。
模仿擴展采樣:結合擴展搜索策略優化推理路徑,例如采用 MCTS 或者大量結果采樣搜索優化推理,使模型更好地適應面向深度推理的長思維鏈任務。
自學習允許模型自主優化推理過程,主要采用強化學習(RL)和樹搜索(MCTS)方法:
直接采樣自學習:采用直接對大模型自身進行采樣,從而進行自我學習。
樹搜索采樣自學習:通過 MCTS 等方法對大模型進行有指導的樹搜索采樣,提高推理的深度,優化 長思維鏈生成過程。
在 長思維鏈推理中,可行性反思(Feasible Reflection)是確保邏輯鏈條準確性的重要機制,它涉及對推理過程的反饋(Feedback)和改進(Refinement)。反饋機制提供評估,幫助模型識別和修正錯誤,而改進機制則允許模型基于反饋進行調整,以提高推理質量。
圖 6:可行反思的反饋能力框架包括總體反饋與過程反饋兩種形式。總體反饋包括:結果獎勵模型(以數值形式進行反饋、基于規則的正確性判斷機制,以及基于推理大模型的總體評價模型。過程反饋則包含:以數值形式提供反饋的過程獎勵模型,以及基于推理大模型的逐步評價模型。此外,過程反饋還可結合操作系統環境、真實環境或圖形界面環境等進行交互式評估。 6.1 反饋(Feedback):從整體到過程的優化
反饋是長思維鏈推理優化的關鍵環節,它可以用于驗證邏輯正確性、提高模型穩定性,并減少錯誤累積。
6.1.1 整體反饋(Overall Feedback):全局優化推理質量
整體反饋關注推理鏈條的最終結果,而非每一步的細節。它常用于強化學習(RL)中的獎勵建模,以提升推理大模型的推理能力,主要包括:
結果獎勵模型(ORM):采用獎勵模型評估推理結果,或者通過自一致性優化獎勵反饋,獲得數值化的結果獎勵分數。
規則提取(Rule Extraction):規則反饋可提供高準確度的結果校正,例如 STaR、ReST 和 ReFT 框架表明,數學問題中基于規則的反饋比 ORM 更有效。
批判性反饋模型(Critic Models):這類方法利用大模型自我反思(Self-Reflection)機制進行自我批判,提供文本化結果獎勵,提高推理效率。
過程反饋關注推理的中間步驟,通常可以增強強化學習(RL)或蒙特卡洛樹搜索(MCTS)的優化,主要包括:
過程獎勵模型(PRM):PRM 通過 SFT 或者 DPO 訓練一個面向過程的獎勵打分器,提供基于步驟的數值化獎勵信號。
批判性反饋模型(Critic Models):允許 LLM 在推理過程中對推理過程與結果進行動態評估與調整,優化推理路徑,提供更通用的步驟級文本化反饋信號。
由于整體反饋和過程反饋各具優勢,研究者提出了結合兩者的混合方法,進行雙重反饋優化,提高推理連貫性。
6.2 改進(Refinement):優化推理路徑的關鍵手段
在反饋機制的基礎上,改進(Refinement)進一步幫助推理大模型糾正錯誤、優化推理路徑,從而提升推理能力。現有研究主要采用三種方法:
圖 7:細化方法主要分為三類:(a) 基于提示的改進生成,通過構造合適的提示策略,引導模型進行可行的反思過程并產出修正答案;(b) 基于監督微調的改進模仿,利用來自高級推理大模型的細化示例,通過監督學習對模型進行微調;(c) 基于強化學習的改進學習,模型根據反饋信號(如獎勵)對自身生成的修正進行優化,逐步學會自我改進推理與輸出。
基于提示的改進(Prompt-Based Refinement):該方法通過 LLM 生成初始推理,再利用自身的反饋迭代優化。
基于監督微調的改進(SFT-Based Refinement):SFT 方法通過從先進 LLMs 或人工標注數據中學習推理改進方式,提升推理大模型反思能力。
基于強化學習的改進(RL-Based Refinement):RL 方法允許推理大模型在推理過程中自適應調整推理路徑,減少對人工標注數據的依賴。
探索能力是 長思維鏈推理的關鍵,使推理大模型能夠在復雜問題空間中進行策略性分支和迭代優化。研究表明,假設分支和基于反思的錯誤回溯是突破線性推理路徑局限的重要方法。當前研究主要關注探索規模化、內部探索、外部探索,以提高模型的推理質量和適應性。
圖 8:推理測試階段的兩種常見擴展策略示意圖,包括:(a) 縱向擴展:通過延長模型的長鏈式思維過程以增強推理能力,但受限于大語言模型的推理邊界,最終可能難以突破性能瓶頸。(b) 橫向擴展:通過增加采樣次數生成多個推理結果,并結合自一致性、自驗證等機制進行結果驗證與整合,從而提升輸出的整體質量,但其性能上限仍不超過 Pass@k 指標所代表的理論最優水平。7.1 探索規模化(Exploration Scaling):優化推理長度與廣度
探索規模化旨在擴展推理大模型的推理能力,提高任務求解效率。
7.1.1 垂直擴展(Vertical Scaling)
通過延長推理路徑增加推理深度,如推理時擴展(Test-time Scaling)優化計算資源以提升推理效果。此外,隱空間擴展(Latent Space Scaling)在注意力跨度限制下,利用遞歸計算增強推理深度。
7.1.2 并行擴展(Parallel Scaling)
采用多次推理采樣結合驗證機制,以篩選最優推理路徑。
探索驗證優化方面,最早地,自一致性(Self-Consistency)方法就可通過多輪推理采樣及多數投票機制優化答案選擇,而一些工作通過進一步引入細粒度自一致性(Fine-grained Self-Consistency)結合逐步驗證機制(Step-wise Verification),有效減少推理驗證錯誤的累積。
探索路徑優化方面,短路徑多樣化采樣(Diverse Short-path Sampling)方法通過優化采樣溫度和跨語言推理拓展,提高探索的多樣性和泛化能力。
圖 9:用于優化內部探索的兩類主要方法:(a) 強化學習策略:通過參考模型與價值模型輔助,結合獎勵模型進行優勢聚合,從而提升策略模型的輸出質量,實現策略優化。(b) 獎勵策略:根據模型輸出設計獎勵機制,包括規則驅動獎勵,例如使用正則匹配或測試用例打分;以及模型驅動獎勵,基于如和 PRM 等評價模型生成獎勵,以提升強化學習性能。7.2 內部自主探索(Internal Exploration):強化學習驅動的推理優化
內部自主探索強調通過強化學習(Reinforcement Learning, RL)和獎勵策略(Reward Strategies),使推理大模型能夠自主優化推理策略,提高泛化能力和探索深度。
7.2.1 強化學習策略
主要分為:
基于獎勵模型的 RL:如 Proximal Policy Optimization(PPO)和 Group Relative Policy Optimization(GRPO)基于獎勵模型或獎勵策略從而完成策略優化,提升推理能力;
無獎勵模型 RL:采用 DPO 風格或者規則抽取的獎勵計算方案,通過明確的規則獎勵反饋,提高策略學習的穩定性。
獎勵策略的優化是強化學習中的關鍵,包括正確性獎勵(Correctness Rewarding)、格式獎勵(Format Rewarding)和規模獎勵(Scaling Rewarding)。正確性獎勵通過提高答案準確性引導模型優化推理路徑,格式獎勵確保推理過程符合規范,而規模獎勵則鼓勵更長的推理鏈條,但研究表明過度擴展可能導致低效推理。
為了展示當前主流獎勵策略在各類基準測試中的表現,表 5 總結了不同方法在 GSM8K、AIME 2024、MATH500 等數據集上的性能對比,能夠直觀體現策略設計對推理能力的影響。
表 5:不同內部探索方法在多個基準測試上的性能表現,主要按 AIME 2024 排序。“-” 表示論文未報告該得分。7.3 外部引導探索(External Exploration):結合外部系統增強推理能力
外部引導探索結合人類或外部系統,提高推理大模型的探索能力和推理質量。
7.3.1 人類驅動探索(Human-driven Exploration)
依賴于預設的推理結構,如 Tree-of-Thought(ToT)采用樹狀推理結構增強復雜任務求解能力,而 Forest-of-Thought(FoT)結合多棵推理樹提高探索的全面性。
7.3.2 模型驅動探索(Model-driven Exploration)
通過自適應搜索結構和反饋機制進行優化,探索路徑優化方法包括束搜索(Beam Search)、A* 搜索(A* Search)和蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS),提升搜索效率和推理質量。
圖 11:外部探索策略根據過程管理角色的不同可分為兩類:(a) 人類驅動的探索:由人工設定的提示詞與固定流程控制推理過程,探索結構通常為線性、樹狀或圖狀,但路徑固定、缺乏適應性。(b) 模型驅動的探索:由模型主導進行探索,具備反思與自適應搜索能力,采用動態結構并結合 Beam、A*、MCTS 等搜索邏輯與多種反饋機制(如 PRM、Critic、Advantage、Q-Value、Verifier)來實現更靈活且高效的深度推理。八、前沿研究與未來方向
長思維鏈正在不斷拓展其應用邊界,推動多模態、跨語言、智能體、效率優化、知識增強及安全性方面的研究發展。未來的探索方向主要涵蓋以下六個關鍵領域:
圖 11:長思維鏈的未來發展方向包括:(a) 多模態長思維鏈:融合多種模態的輸入與輸出(如圖像、文字、公式等),增強推理表現力與適應性;(b) 多語言長思維鏈:支持跨語言推理與應用,提升模型的多語種通用性;(c) 具身智能與代理型長思維鏈:通過引入具身交互機制,提升模型在真實環境中的推理與行動能力;(d) 高效長思維鏈:優化推理路徑與效率,加快思維鏈生成速度;(e) 知識增強型長思維鏈:引入外部知識庫豐富推理過程,提高準確性與解釋性;(f) 安全性保障的長思維鏈:強化推理過程中的可靠性,避免產生有害或誤導性的輸出,確保倫理合規。
8.1 多模態長思維鏈(Multimodal Long CoT)
多模態推理的研究聚焦于將長思維鏈擴展至圖像、視頻、音頻等多種數據模態,以提升模型對復雜任務的理解和推理能力。研究方向主要包括:
多模態提示(Prompting):改進視覺 LLMs 的上下文描述能力,并結合自反饋優化推理長度與準確性。
多模態蒸餾(Imitation):利用數據蒸餾策略訓練模型,使其能夠模仿長思維鏈過程,提高復雜問題求解能力。
基于獎勵模型的推理探索(Reward Model-Based Exploration):通過獎勵模型優化推理過程,在探索和訓練階段提升多模態推理能力。
主要挑戰包括如何有效融合視覺信息輔助邏輯推理,以及如何優化長思維鏈的推理長度和測試時擴展能力。
8.2 多語言長思維鏈(Multilingual Long CoT)
盡管推理大模型在英語領域取得了顯著進展,但要實現真正的通用智能,多語言推理能力仍需進一步增強。當前研究主要集中在:
跨語言提示(Multilingual Prompting):使用通用模板提示,促進不同語言間的邏輯推理能力對齊。
多語言訓練(Multilingual Training):采用監督微調(SFT)或強化學習(RL)訓練,提升低資源語言的推理一致性。
測試時擴展(Test-Time Scaling):利用多語言樹搜索(Tree Search)等方法,在推理過程中動態選擇最佳語言,提升泛化能力。
未來挑戰包括跨語言知識遷移及低資源語言的推理能力優化,以確保多語言推理在不同文化背景下的一致性。
8.3 長思維鏈助力智能體與具身智能(Long CoT for Agentic & Embodied AI)
智能體與具身智能系統不僅僅需要通過長思維鏈進行任務推理,還需要在動態環境中通過不斷與環境交互,逐步調整和優化長思維鏈,修正推理路徑并實現有效的目標導向行為。當前的研究方向主要集中在以下幾個方面:
基于樹搜索的推理增強:通過引入樹搜索算法(如 MCTS),對推理過程進行優化,智能體和具身機器人能夠結合長思維鏈,更加高效地探索狀態空間,逐步逼近最優解。
環境交互優化:智能體和具身機器人通過與環境的互動,不斷更新歷史記憶,并根據動態變化的環境進行自適應調整長思維鏈的推理內容。
多智能體協作:為了應對更復雜的任務,一些研究正在探索多個能夠進行長思維鏈推理的高級智能體和具身機器人協同工作以提高工作效率。通過多智能體之間的信息共享與長思維鏈推理協作,共同解決單一智能體難以應對的挑戰。
主要挑戰包括在不確定環境中保持決策穩健性,以及在多智能體協作過程中優化推理效率。
8.4 高效長思維鏈(Efficient Long CoT)
長思維鏈的深度、探索性和反思機制往往導致推理過程冗長,因此優化推理速度成為關鍵問題。當前研究方向包括:
推理鏈壓縮(Direct Compression):通過剪枝、跳步或直接預測減少冗余推理過程,提高推理效率。
隱藏空間推理(Hidden Space Reasoning):在潛空間中執行推理,避免顯式解碼,以減少計算資源消耗。
未來挑戰包括如何構建自適應推理策略,使模型能夠根據任務復雜性動態調整推理深度,并探索更高效的推理格式,如多模態或隱變量推理。
8.5 知識增強長思維鏈(Knowledge-Augmented Long CoT)
盡管推理大模型具有強大的推理能力,但在某些專業領域仍然存在知識空白,因此結合外部知識庫成為關鍵研究方向:
檢索增強生成(Retrieval-Augmented Generation, RAG):動態結合知識檢索與文檔推理,以提升復雜任務的求解能力。
模型知識注入(Model Knowledge Injection):在 SFT 或 RL 訓練過程中引入外部知識,以提升專業領域的推理表現,如醫學推理任務。
主要挑戰在于如何有效地將更多外部知識融入到長思維鏈的推理過程,并開發可擴展的知識存儲與檢索機制,以確保實時更新和知識一致性。
8.6 長思維鏈的安全性(Safety in Long CoT)
長思維鏈雖然提升了模型的推理能力,但也增加了潛在的安全風險,例如誤導性信息和有害內容的生成。當前研究主要關注:
推理攻擊(長思維鏈 Attack):研究發現長思維鏈可能使模型更易受到錯誤推理或不安全輸出的影響,例如 "OverThink 攻擊" 和 "迭代混亂攻擊"。
安全優化(長思維鏈 Safety Improvement):引入動態安全提示、偏見檢測、強化學習等方法,以減少有害輸出的概率,提高模型的可靠性。
未來挑戰包括如何平衡推理能力與安全性,防止長思維鏈導致的認知過載,同時確保推理的可解釋性和可控性,以應對潛在的對抗性攻擊。
九、總結
本文系統回顧了長思維鏈在推理大模型中的核心作用,梳理了其從提出到發展的關鍵脈絡。該論文通過 900 篇參考文獻,構建了一個貫穿理論與實踐的系統性框架,首次清晰地區分長思維鏈與短思維鏈在推理結構、思維能力與反饋機制上的本質差異,提出 “深度推理、廣泛探索、可行反思” 三大核心能力模型,并據此解析了六大關鍵推理現象(如推理邊界、過度思考、頓悟時刻等),闡釋其底層機制與行為表現。
更重要的是,該論文不僅僅停留在現象描述,而是進一步展開了方法論總結,全面整理了當前主流的長思維鏈優化策略,包括基于格式設計的深度推理、基于模仿與自學習的能力提升、基于反饋與獎勵的過程細化、基于強化學習與外部引導的探索機制等,并展望了多模態、跨語言、智能體交互、效率優化、知識增強與安全保障等未來研究方向。
來源: 公眾號【機器之心】
llustration From IconScout By IconScout Store
-The End-
本周上新!
掃碼觀看!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線500+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數智核心科技領域的新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.