網易首頁 > 網易號 > 正文申請入駐

大模型不再"想"得太多：字節跳動AdaCoT通過學習實現自適應思維鏈

2025-05-22 17:26:07　來源: 科技行者

北京舉報

分享至

近日，字節跳動Seed團隊發表了一項重要研究，提出了名為AdaCoT的創新框架，旨在解決大型語言模型(LLM)在使用思維鏈(Chain-of-Thought, CoT)推理時的效率問題。這項研究由字節跳動Seed團隊的婁晨偉、孫澤威、梁信年等研究人員共同完成，發表于2025年5月20日，論文標題為《AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning》，可通過www.volcengine.com查閱完整內容。

大模型的思考困境：為何需要"按需思考"？

想象一下，如果你每次回答問題，無論簡單還是復雜，都要詳細寫下你的思考過程，那會是多么低效。例如，當有人問你"1+1等于幾"時，你可能會直接回答"2"，而不會寫下"我先拿1個蘋果，再拿1個蘋果，然后數一數總共有幾個蘋果"這樣的思考過程。但如果有人問你"342×78等于多少"，你可能就需要列出計算步驟了。

大型語言模型(LLM)面臨著類似的困境。雖然思維鏈提示(CoT prompting)技術大大提高了模型的推理能力，讓它們能夠像"寫出思考過程"一樣，分步驟解決復雜問題，但這種方法存在明顯缺點：模型會對所有問題都生成詳細的推理步驟，即使是簡單的問題也不例外。這不僅浪費計算資源，還降低了模型的響應速度。

字節跳動Seed團隊的研究人員在論文中指出，理想情況下，模型應該能夠自行判斷何時需要詳細思考，何時可以直接回答。例如，對于"1+1等于幾"這樣的簡單問題，模型應該能夠直接給出答案；而對于需要多步驟推理的復雜問題，再使用詳細的思維鏈分析。這就是AdaCoT（Adaptive Chain-of-Thought，自適應思維鏈）框架的核心思想——讓模型能夠根據問題的復雜性自適應地決定是否使用思維鏈。

AdaCoT：兼顧效率與性能的帕累托最優解

AdaCoT框架的核心在于將自適應推理問題設計為一個帕累托優化問題。什么是帕累托優化？打個比方，這就像你在選擇手機時，既想要電池續航長，又想要價格便宜。這兩個目標通常難以同時達到最優，需要在它們之間做出權衡。在AdaCoT中，研究團隊需要在推理性能和計算成本這兩個相互競爭的目標之間找到最佳平衡點。

具體來說，AdaCoT的優化目標可以表示為：

1. 最大化模型性能（讓回答盡可能準確） 2. 最小化思維鏈的使用率（避免不必要的計算開銷）

研究團隊提出了基于強化學習的方法，特別是使用近端策略優化(PPO)算法，通過調整懲罰系數動態控制思維鏈觸發的決策邊界。這使得模型能夠根據查詢的隱含復雜性判斷是否需要使用思維鏈。

想象一下這個過程：模型就像一個學習判斷問題難度的學生。剛開始，它通過監督學習（SFT）獲得基本判斷能力。然后，通過強化學習（RL），它不斷調整自己的判斷標準。當它對簡單問題使用了不必要的思維鏈時，會受到"浪費時間"的懲罰；當它對復雜問題沒有使用思維鏈而導致回答錯誤時，又會受到"回答質量差"的懲罰。通過這樣的訓練，模型逐漸學會了何時該"深思熟慮"，何時可以"直接作答"。

技術挑戰：決策邊界崩潰問題

在實現AdaCoT的過程中，研究團隊面臨一個重要技術挑戰：決策邊界崩潰問題。

這個問題是什么呢？設想有一個學生正在學習判斷什么題目需要列出解題步驟，什么題目可以直接寫答案。如果他只接觸到數學競賽題這樣的難題，可能會養成"所有題目都要列步驟"的習慣；相反，如果他只遇到簡單的加減法，可能會傾向于"從不列步驟"。這就是決策邊界崩潰——模型在某些訓練數據分布下，可能會失去判斷能力，要么總是觸發思維鏈，要么完全不使用思維鏈。

為了解決這個問題，研究團隊提出了一種名為"選擇性損失掩蔽"(Selective Loss Masking, SLM)的技術。簡單來說，這個方法在容易導致決策邊界崩潰的訓練階段（如數學專注的RL階段），通過選擇性地屏蔽對"決策令牌"的損失貢獻，保持先前學習到的自適應觸發能力。

這就像教導那個學生："即使你現在遇到的都是難題，也不要忘記之前學到的判斷標準，不是所有題目都需要列步驟的。"這樣，模型就能在面對各種不同偏向的訓練數據時，保持健康的判斷能力。

實驗與結果：顯著降低計算成本的帕累托前沿

研究團隊對AdaCoT進行了廣泛的實驗評估，結果令人印象深刻。他們使用了15個廣泛采用的基準測試集來評估模型的整體性能，并創建了一個包含1000個提示的高質量平衡測試集，專門評估CoT觸發決策。

主要實驗結果包括：

1. AdaCoT RL模型有效地追蹤帕累托前沿，實現了性能與CoT使用率之間的最佳權衡。例如，AdaCoT RL Exp2模型以53.3%的CoT觸發率實現了62.8%的平均得分，接近全CoT RL基線的65.0%分數，但CoT使用率減少了近一半。

2. 在生產環境測試集中，AdaCoT展現出了更顯著的效率提升。AdaCoT RL Exp2模型在移動端的CoT觸發率低至3.18%，平均響應令牌數減少了69.1%；在PC端的CoT觸發率為12.5%，平均響應令牌數減少了70.6%。

3. 通過"始終使用CoT"系統提示控制，AdaCoT RL模型能夠實現與專用全CoT RL基線相當甚至略高的性能，證明適應性訓練不會限制模型的峰值推理能力。

這些結果就像表明，一個聰明的學生不僅學會了何時需要列出解題步驟，何時可以直接給出答案，而且在需要時，他展示步驟的質量絲毫不遜于那些總是列出步驟的同學。更重要的是，通過減少不必要的步驟展示，他能夠更快完成更多題目，效率大大提高。

元推理：為決策增加思考層

研究團隊還探索了一種名為"元推理"(meta-reasoning)的創新方法，進一步提升AdaCoT的CoT觸發決策能力。

這種方法是什么呢？想象一個學生在解題前先簡短評估題目難度："這道題目看起來很簡單，我可以直接回答"或"這道題目比較復雜，我需要仔細思考"。這就是元推理的核心思想——模型首先生成對輸入查詢復雜性的簡短內部評估，然后再決定是否進行完整的CoT推理。

在日常使用測試集上，添加元推理的AdaCoT SFT模型的F1分數從0.750提高到0.840，表明元推理顯著提升了模型的判斷準確性。

有趣的是，研究人員還發現元推理使模型獲得了對CoT的用戶提示控制能力。用戶可以在他們的提示中包含明確的暗示，如"請逐步思考"來鼓勵CoT，或"給出直接答案"來避免使用CoT。雖然這種控制能力并不完美，但它為開發更具交互性和用戶引導的推理系統開辟了一條有希望的道路。

然而，元推理也有缺點。每次查詢都增加了額外的令牌生成，考慮到實際生產環境中AdaCoT模型非常低的CoT觸發率，這些額外的元推理步驟會造成可觀的累積令牌成本。因此，研究團隊在隨后的RL實驗中沒有采用這種方法，但它仍然是一個值得未來研究的方向。

研究意義與未來方向

AdaCoT研究的意義遠超單純的計算效率。通過讓大型語言模型能夠根據問題復雜性"按需思考"，研究團隊不僅降低了部署成本，還提升了模型響應速度，這對于交互式應用尤為重要。

想象一下，一個虛擬助手可以在回答簡單問題時立即給出答案，而在面對復雜問題時會深入思考。這種能力不僅提高了用戶體驗，也使AI系統在資源受限的環境中更具實用性。

同時，研究人員也坦誠地指出了AdaCoT框架的一些局限性。例如，最佳的CoT觸發策略與基礎模型的能力相關，需要為不同的LLM重新校準；當前的二元CoT觸發（開/關）簡化了連續的推理深度和風格光譜，可能限制了細微差別；領域泛化性仍然是一個挑戰，因為CoT必要性在知識領域之間可能有很大差異；此外，框架目前缺乏用戶個性化偏好。

未來研究方向包括更細粒度的推理控制，如自適應推理長度（模型動態調整詳細程度），或更加細致的觸發機制，超越簡單的二元決策。研究團隊相信，這些努力對于開發更加復雜和高效的推理策略至關重要。

AdaCoT的設計考量與實現細節

AdaCoT的訓練流程由三個主要階段組成：

首先是數據準備和監督微調(SFT)作為熱身階段。研究團隊利用一個輔助模型，根據預定義的原則（如查詢復雜性、預期推理深度、領域等）標記查詢為"可能從CoT受益"或"可能適合直接回答"。在他們的實現中，使用了一個內部15B參數模型生成這些注釋，但該框架與模型無關。對于標記為受益于CoT的查詢，響應保留完整的推理過程：reasoning_stepsanswer。對于標記為不需要CoT的查詢，響應省略顯式推理但保持結構一致性：answer。SFT階段使模型具備了區分這兩種響應風格的基礎能力。

第二階段是強化學習(RL)階段，關鍵在于調整AdaCoT的自適應推理能力。研究團隊設計了一個獎勵函數：R(x, r) = Rbase(x, r) - α1·Pmiss(x, r) - α2·Pover(x, r) - γ·Pfmt(r)，其中Rbase(x, r)是反映響應質量的基礎獎勵，Pmiss(x, r)是推理遺漏的二元懲罰，Pover(x, r)是推理過度使用的二元懲罰，Pfmt(r)是格式錯誤的二元懲罰，α1、α2、γ是非負懲罰系數。通過調整α1和α2，研究者可以引導AdaCoT走向帕累托前沿上的不同點，探索性能與效率的不同平衡。

AdaCoT的RL過程分為兩個階段：首先是數學專注的RL階段(RL-Math)，集中于復雜、規則可驗證的問題；其次是通用領域RL階段(RL-General)，結合更廣泛的數據和訓練獎勵模型。為了防止在數學專注階段出現決策邊界崩潰，研究團隊應用了選擇性損失掩蔽(SLM)。在通用領域階段，他們系統地改變懲罰系數，訓練了四個不同的模型變體(Exp1-Exp4)，代表帕累托前沿上的不同點。

研究結果的深入分析

AdaCoT的實驗結果不僅證明了其在效率和性能之間取得了良好平衡，還揭示了一些有趣的見解。

在日常使用測試集上的CoT觸發性能評估中，AdaCoT SFT模型本身就表現出強大的自適應觸發能力。RL-Math階段不使用SLM的結果明顯表明決策邊界崩潰的嚴重性：模型默認觸發CoT(召回率=1.0)但精度低(0.503)，導致整體準確率低(0.506)。應用SLM后，模型有效保持了在SFT期間學到的自適應能力，維持高精度(0.938)并實現顯著更好的準確率(0.813)。

最終的AdaCoT RL模型(Exp1-4)展示了如何通過調整RL懲罰系數微調決策邊界。例如，AdaCoT RL Model Exp2在日常使用測試集上實現平衡的F1分數0.814，在15個基準測試集上取得62.8%的平均分數，僅使用53.3%的CoT觸發率。

特別令人印象深刻的是，在系統提示控制下使用"始終推理"模式時，AdaCoT RL模型實現了與全CoT RL基線相當甚至略高的性能。這證明了一個重要優勢：AdaCoT的自適應訓練，雖然旨在優化性能成本帕累托前沿，但并不限制模型的峰值推理能力。當需要全面推理時，模型仍然保持高水平的性能。

另一個有趣的觀察來自SFT階段，關于長形式生成（高達32,000個令牌）。在"始終推理"系統提示的指導下，AdaCoT SFT模型比標準全CoT SFT基線表現出更少的提前輸出截斷，對不良生成循環的抵抗力也更強。研究團隊推測，這種改進源于AdaCoT的多樣化SFT數據，其中包含許多非CoT示例，導致平均訓練樣本長度更短，可能為結束序列(EOS)令牌提供更強的學習信號。

總結：思考需要成本，高效思考創造價值

回顧AdaCoT研究，我們可以看到它很好地解決了大型語言模型在推理過程中的一個根本效率問題。通過讓模型能夠自適應地決定何時進行詳細推理，AdaCoT不僅大幅降低了計算成本和響應時間，還保持了高質量的推理能力。

這項研究讓我們想起艾薩克·阿西莫夫的一句話："思考本身是一種活動，需要花費能量和資源。"在人工智能日益融入我們日常生活的時代，像AdaCoT這樣的技術創新對于構建既智能又高效的AI系統至關重要。

特別是在資源受限或對響應時間要求嚴格的場景，如移動設備上的AI助手或實時交互系統，AdaCoT的自適應推理能力可能帶來顯著的用戶體驗改善。同時，通過將算法決策框架化為帕累托優化問題，研究團隊為類似的AI效率挑戰提供了一個有價值的方法論模板。

展望未來，AdaCoT開辟的自適應推理領域還有廣闊的探索空間。更細致的推理控制、更深入的用戶個性化、更廣泛的應用場景，都是值得期待的發展方向。對于希望深入了解這項研究的讀者，論文全文可以在www.volcengine.com上找到。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.