不圓 發自 凹非寺
量子位 | 公眾號 QbitAI
DeepSeek推理要詳細還是要迅速,現在可以自己選了?
來自特拉維夫大學的研究團隊開發出了一種新方法,可以監控和控制LLM中的思考路徑長度。
給LLM的推理任務裝上進度條,還能控制推理的深度、調整推理速度。
加速后的模型和原模型相比,使用的token數減少了近6倍,且都得出了正確答案。
LLMs在顯示結構化推理時,會隱式跟蹤其在思考階段的相對位置,并通過隱藏狀態編碼這一信息。
而論文提出了一種“思維進度向量”(Thinking Progress Vector,TPV),可用于實時預測模型在推理階段的相對位置,并通過可視化進度條展示模型的推理動態。
通過干預TPV,可以加速或減速模型的推理過程,實現“超頻”(overclocking)和“降頻”(downclocking)。
超頻能夠減少不必要的推理步驟,使模型更快地得出結論,同時避免因過度推理導致的性能下降。
該模型已在gitHub上開源。
方法:實時監控并控制推理深度
在有效推理學習過程中,模型必須隱式地學習跟蹤其思考階段進度,并保持對例如距離最終答案有多近的估計。
由于進度跟蹤依賴于輸入,這類信息不能存儲在模型的靜態權重中,而必須動態編碼在層間傳遞的隱藏表示中。
為此,論文的研究團隊選擇從最終隱藏層提取信息。
研究團隊專注于執行顯式結構化推理的模型,這種模型的特點是具有一個由標記明確界定且連續的推理階段,如DeepSeek-R1。
由此可以通過根據每個標記的相對位置精確地用介于零和一之間的插值值進行標記,來量化模型在推理階段的進展。
形式上,通過以下方式構建數據集:
其中
是第k個思考軌跡中第j個詞的隱藏表示,
是該詞在其思考序列中的相對位置 。K表示采樣軌跡的數量,
中的總樣本數為
在此基礎上優化一個進度提取函數
,將隱藏表示映射為其相對位置,形式為一個回歸任務
使用參數為
的線性回歸器作為函數
來進行擬合進度屬性
,將參數向量稱為“思考進度向量”(TPV)。
為了提高預測效果,利用模型的自回歸特性,并對預測歷史應用指數平滑以減少噪聲。在Math-500測試集中進行TPV預測,結果如下圖所示:
其中圖(a)展示了多個思考軌跡的數據點的匯總視圖,圖 (b, c)則展示了Math-500測試集中單個問題的思考軌跡上的TPV預測和平滑預測。
可以看到,兩種方法都成功預測了相對位置,而后者產生了更精確的結果,可用于創建更清晰、更易于解釋的進度條。
受此啟發,為了更好地利用進度條預測任務的時序結構,使用可訓練的序列模型替換指數平滑,即使用與相同的訓練樣本,只是將相對位置序列作為輸入,而不是進行單步預測:
通過這種方法,就可以實現推理進度的可視化。
一個關鍵問題是,TPVs是否反映了模型用來跟蹤其推理進度的基本機制,或者它們是否僅僅是與進度相關但不起因果作用計算的殘余物?
為解決這一疑惑,對TPY進行干預:通過投影向量的方向將隱藏表示移動量α,即
,修改后的表示具有新的預測值
通過在所有注意力層執行此干預,就可以干預下一個詞的預測,并避免編輯在連續解碼步驟中緩存和使用的表示值。
在實驗中,將α視為決定干預強度的超參數。設置α=0會導致沒有干預,保留原始計算。 α的正值會導致超頻。
實驗證明,超頻將加速模型的推理階段,使其更短、更果斷:
上圖比較了DeepSeek-R1-Distill-Qwen-32B模型生成的兩種思考序列——干預前和干預后。
原始序列表現出猶豫和冗長,而TPV加速版本則顯著更簡潔,使用的token數量減少了近6倍。
并且,兩條軌跡最終都得到了正確的答案。
效果:最高提速近6倍,準確率不降反升
在DeepSeek-R1-Qwen-32B和DeepSeek-R1-LLaMA-8B上測量TPV的有效性,結果如下所示:
實驗結果揭示了四個顯著趨勢:
1、α 的影響:增加α從5到100,無論是否使用基于指令的加速,都會增加模型生成的完成、結束和正確答案的數量,證明TPV的干預方法影響了思考長度。
2、將加速基線與基礎模型進行比較:基線(ii)和(iii)通過提示響應和基于溫度的集成來加速基礎模型。在大多數情況下,這兩種方法都提高了所有三個指標,證明它們是評估TPV超頻方法的強基線。
3、與基線方法的比較:盡管基線方法表現優異,且基于溫度的基線方法需要大約五倍的計算資源,但TPV的方法通過產生更多正確答案和更明確的響應,在性能上超越了它們。
在計算預算較低(如256或512個token)的情況下,TPV的方法增加了80%的正確答案,并且這些正確答案的增加并未以增加錯誤率為代價,錯誤率保持不變。這表明,TPV方法縮短了推理過程而不增加錯誤,促進了更明確的思考。
對于大于512的計算預算,通常遵循相同趨勢,在大多數情況下正確答案數量有所提升,而錯誤率并未增加。
4、互補性貢獻:盡管實證研究結果證實TPV方法比基線方法更有效,但仍有該方法落后于基于提示的方法(記為“指令”)的情況。一個突出的例子是在 Math 500 上使用 2048個token 預算的機制,其中指令基線正確回答的比例比TPV方法高出10%。
這一觀察引發了這樣的問題:這些改進是正交的還是相互競爭的?
將基于指令的提示技術與TPV的干預方法相結合,并與每種方法單獨進行比較。結果如表中最后兩行所示:這種混合方法在大多數情況下始終表現出最佳性能,平均提高了66% ,最高提高了285% ;相對于基礎模型平均提高了223% ,最高提高了1416% 。
這些發現表明TPV方法與提示策略相輔相成,可以有效地與其他加速技術相結合。
對Math-500和GSM8K數據集進行一系列干預實驗,通過改變干預參數α來超頻模型的思考階段。
結果顯示,增加α可以持續縮短思考階段的長度,使推理過程更加高效。
這些發現支持TPV在模型內部計算中充當一種主動控制的信號,而不是被動相關。
當使用提示策略(基線 iii)在GSM8K數據集上對 DeepSeek-R1 LLaMA模型應用TPV方法時,平均 token 數量從大約500減少到不到350,計算量減少了30%。
此外,所有α的正值都相對于基線( α=0 )持續加速思考階段,并提高了其有效性。
為進一步評估TPVs在估計模型在其推理過程中位置時的可靠性,研究團隊還在兩種附加條件下測試了它們的性能:
- (i) 不同的提示策略
- (ii) 不同的推理序列長度
圖(a-d) 顯示TPVs在各種指令中仍然有效,這與訓練期間使用的原始提示不同。
圖(e) 顯示在不同思考序列長度分箱中測試損失始終較低,表明對推理深度的變化具有魯棒性。
更多內容可見論文詳細。
參考鏈接:https://royeisen.github.io/OverclockingLLMReasoning-paper/
代碼:https://github.com/royeisen/reasoning_loading_bar
論文:https://arxiv.org/abs/2506.07240
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.