網易首頁 > 網易號 > 正文申請入駐

ACL 2025 | 基于Token預算感知的大模型高效推理技術

2025-06-05 10:33:22　來源: 機器之心Pro

北京舉報

分享至

本位作者分別來自南京大學，羅格斯大學和馬薩諸塞大學阿默斯特分校。第一作者韓廷旭與共同第一作者王震霆是分別來自南京大學和羅格斯大學的博士生，研究方向聚焦于大模型推理以及安全負責任的生成式人工智能。通訊作者為南京大學房春榮教授。

隨著大型語言模型（LLM）技術的不斷發展，Chain-of-Thought（CoT）等推理增強方法被提出，以期提升模型在數學題解、邏輯問答等復雜任務中的表現，并通過引導模型逐步思考，有效提高了模型準確率。

然而，這類方法也帶來了新的挑戰：模型生成的中間推理過程往往冗長，產生了大量冗余Token，這顯著增加了推理階段的計算成本和資源消耗。在 LLM 日益走向實際部署的背景下，如何在保證推理能力的同時控制成本，已成為制約其大規模應用的核心問題。

為解決這一矛盾，近日來自南京大學、羅格斯大學和馬薩諸塞大學阿默斯特分校的研究團隊提出了一種基于Token 預算感知的 LLM 推理新框架TALE，旨在保證推理準確率的同時，顯著壓縮輸出長度、降低計算開銷。

TALE 的核心理念是在推理過程中引入「Token 預算」這一約束機制，引導模型在限定的 Token 預算范圍內完成有效推理。這種機制不僅可以提升模型對資源約束的適應性，也能促使其生成更加簡潔、高效的推理路徑。

該成果近日被自然語言處理頂級會議ACL 2025正式接收為Findings。

論文標題：Token-Budget-Aware LLM Reasoning
論文地址：https://arxiv.org/pdf/2412.18547
GitHub：https://github.com/GeniusHTX/TALE

背景與動機：CoT Token 冗余與 Token 彈性現象

圖 1：關于 Token 預算的直觀示例。

以 CoT 為代表的推理增強技術，已被廣泛集成至 GPT-4o、Yi 系列等主流模型中。但研究者發現，模型生成的中間推理過程往往冗長重復，輸出 Token 數量成倍增長，帶來了顯著的計算與經濟成本。

特別是在資源受限的邊緣端推理任務部署場景（如教育答題、金融問詢、代碼理解）中，如何在「準確率」與「資源效率」之間取得平衡，成為當前急需解決的關鍵問題。該工作的研究者通過引入顯式的 Token 預算信息，引導或訓練模型在滿足任務正確性的同時壓縮推理過程，實現推理效率與性能之間的最優折中。

研究者首先通過不斷降低問題的 Token 預算來探究模型思維鏈壓縮的極限，并在系統性實驗中觀察到一個普遍存在的現象——Token Elasticity（Token 彈性）。即：當提示中施加過小的 Token 預算約束時，模型不僅難以遵守預算，反而可能耗費更多的 Token，導致總成本進一步上升。

這種「壓縮失敗反彈」的現象表明，當前 LLM 的推理行為在預算限制下存在一定的不穩定性和非線性響應，提示我們不能簡單地通過減小預算來壓縮推理，而是需要設計一套機制，引導模型在合理預算范圍內產生最優推理路徑。

為了實現這一目標，研究者提出了TALE（Token-Budget-Aware LLM Reasoning）框架，以實現推理質量與生成效率的協同優化。研究者給出了兩種不同的具體實現方式：基于預算估計與提示工程的TALE-EP（Estimation and Prompting）以及基于后訓練內化 Token 預算感知的TALE-PT（Post-Training）

圖 2：關于 Token 彈性現象的直觀示例。

基于預算估計與提示工程的 TALE-EP（Estimation and Prompting）

圖 3：TALE-EP 的框架圖。

TALE-EP 是一種輕量級、即插即用的基于零樣本提示的推理增強方法。TALE-EP 首先讓模型自我估計對每個具體問題所需的合理 Token 預算，并在推理過程中將該預算信息融入輸入提示中，引導模型在不超過預算的前提下生成推理過程。這種方法無需修改模型參數，僅通過提示工程即可實現對 Token 生成的動態控制，兼具靈活性與實用性。實驗結果顯示，TALE-EP 在多個數學推理數據集上顯著降低了 Token 使用量，平均節省超過60%的推理開銷，且保持了與傳統 CoT 方法相當甚至更優的準確率。

圖 4：TALE-EP 的實驗性能展示。

基于后訓練內化 Token 預算感知的 TALE-PT（Post-Training）

圖 5：TALE-PT 的框架圖

TALE-PT 則通過監督微調（SFT）偏好優化（DPO）的訓練方式將 Token 預算感知內化為模型本身的推理能力。TALE-PT 首先通過搜索算法為每個問題尋找最優 Token 預算，并使用該預算生成精煉的推理路徑作為「目標輸出」，引導其在未來推理中主動生成更符合預算約束的輸出。

實驗結果顯示，無論是采用 SFT 還是 DPO 方法進行后訓練，TALE-PT 均可在維持推理準確率的同時，將平均推理所需的 Token 數量降低40%以上，顯著優于原始的思維鏈推理方式。

圖 6：TALE-PT 的實驗性能展示。

結語

本研究圍繞大型語言模型推理過程中的 Token 冗余問題，提出了具有前瞻性的解決方案——TALE 框架，通過引入「Token 預算感知」機制，實現了推理準確性與生成效率之間的有效平衡。值得一提的是，本文所提出的 Token 預算思想已開始在行業中獲得響應，包括Qwen3Claude 3.7等最新發布的大模型也引入了類似的預算控制機制（圖 7 和圖 8 所示），用于優化推理效率與輸出質量。

圖 7：截取自 Qwen3 技術報告。

圖 8：截取自 Claude Developer Guide。

實驗結果表明，TALE 在多個主流數據集和模型上均表現出顯著的壓縮效果和良好的兼容性，進一步拓展了大型語言模型在資源受限場景下的應用邊界。未來，該框架有望推廣至更多任務類型和多模態場景中，推動大型模型推理走向更加可控、高效與可落地。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.