99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

ACL 2025 | 基于Token預算感知的大模型高效推理技術

0
分享至



本位作者分別來自南京大學,羅格斯大學和馬薩諸塞大學阿默斯特分校。第一作者韓廷旭與共同第一作者王震霆是分別來自南京大學和羅格斯大學的博士生,研究方向聚焦于大模型推理以及安全負責任的生成式人工智能。通訊作者為南京大學房春榮教授。

隨著大型語言模型(LLM)技術的不斷發展,Chain-of-Thought(CoT)等推理增強方法被提出,以期提升模型在數學題解、邏輯問答等復雜任務中的表現,并通過引導模型逐步思考,有效提高了模型準確率。

然而,這類方法也帶來了新的挑戰:模型生成的中間推理過程往往冗長,產生了大量冗余Token,這顯著增加了推理階段的計算成本和資源消耗。在 LLM 日益走向實際部署的背景下,如何在保證推理能力的同時控制成本,已成為制約其大規模應用的核心問題。

為解決這一矛盾,近日來自南京大學、羅格斯大學和馬薩諸塞大學阿默斯特分校的研究團隊提出了一種基于Token 預算感知的 LLM 推理新框架TALE,旨在保證推理準確率的同時,顯著壓縮輸出長度、降低計算開銷。

TALE 的核心理念是在推理過程中引入「Token 預算」這一約束機制,引導模型在限定的 Token 預算范圍內完成有效推理。這種機制不僅可以提升模型對資源約束的適應性,也能促使其生成更加簡潔、高效的推理路徑。

該成果近日被自然語言處理頂級會議ACL 2025正式接收為Findings。



  • 論文標題:Token-Budget-Aware LLM Reasoning
  • 論文地址:https://arxiv.org/pdf/2412.18547
  • GitHub:https://github.com/GeniusHTX/TALE

背景與動機:CoT Token 冗余與 Token 彈性現象



圖 1:關于 Token 預算的直觀示例。

以 CoT 為代表的推理增強技術,已被廣泛集成至 GPT-4o、Yi 系列等主流模型中。但研究者發現,模型生成的中間推理過程往往冗長重復,輸出 Token 數量成倍增長,帶來了顯著的計算與經濟成本。

特別是在資源受限的邊緣端推理任務部署場景(如教育答題、金融問詢、代碼理解)中,如何在「準確率」與「資源效率」之間取得平衡,成為當前急需解決的關鍵問題。該工作的研究者通過引入顯式的 Token 預算信息,引導或訓練模型在滿足任務正確性的同時壓縮推理過程,實現推理效率與性能之間的最優折中。

研究者首先通過不斷降低問題的 Token 預算來探究模型思維鏈壓縮的極限,并在系統性實驗中觀察到一個普遍存在的現象——Token Elasticity(Token 彈性)。即:當提示中施加過小的 Token 預算約束時,模型不僅難以遵守預算,反而可能耗費更多的 Token,導致總成本進一步上升。

這種「壓縮失敗反彈」的現象表明,當前 LLM 的推理行為在預算限制下存在一定的不穩定性和非線性響應,提示我們不能簡單地通過減小預算來壓縮推理,而是需要設計一套機制,引導模型在合理預算范圍內產生最優推理路徑。

為了實現這一目標,研究者提出了TALE(Token-Budget-Aware LLM Reasoning)框架,以實現推理質量與生成效率的協同優化。研究者給出了兩種不同的具體實現方式:基于預算估計與提示工程的TALE-EP(Estimation and Prompting)以及基于后訓練內化 Token 預算感知的TALE-PT(Post-Training)



圖 2:關于 Token 彈性現象的直觀示例。

基于預算估計與提示工程的 TALE-EP(Estimation and Prompting)



圖 3:TALE-EP 的框架圖。

TALE-EP 是一種輕量級、即插即用的基于零樣本提示的推理增強方法。TALE-EP 首先讓模型自我估計對每個具體問題所需的合理 Token 預算,并在推理過程中將該預算信息融入輸入提示中,引導模型在不超過預算的前提下生成推理過程。這種方法無需修改模型參數,僅通過提示工程即可實現對 Token 生成的動態控制,兼具靈活性與實用性。實驗結果顯示,TALE-EP 在多個數學推理數據集上顯著降低了 Token 使用量,平均節省超過60%的推理開銷,且保持了與傳統 CoT 方法相當甚至更優的準確率。



圖 4:TALE-EP 的實驗性能展示。

基于后訓練內化 Token 預算感知的 TALE-PT(Post-Training)



圖 5:TALE-PT 的框架圖

TALE-PT 則通過監督微調(SFT)偏好優化(DPO)的訓練方式將 Token 預算感知內化為模型本身的推理能力。TALE-PT 首先通過搜索算法為每個問題尋找最優 Token 預算,并使用該預算生成精煉的推理路徑作為「目標輸出」,引導其在未來推理中主動生成更符合預算約束的輸出。

實驗結果顯示,無論是采用 SFT 還是 DPO 方法進行后訓練,TALE-PT 均可在維持推理準確率的同時,將平均推理所需的 Token 數量降低40%以上,顯著優于原始的思維鏈推理方式。



圖 6:TALE-PT 的實驗性能展示。

結語

本研究圍繞大型語言模型推理過程中的 Token 冗余問題,提出了具有前瞻性的解決方案——TALE 框架,通過引入「Token 預算感知」機制,實現了推理準確性與生成效率之間的有效平衡。值得一提的是,本文所提出的 Token 預算思想已開始在行業中獲得響應,包括Qwen3Claude 3.7等最新發布的大模型也引入了類似的預算控制機制(圖 7 和 圖 8 所示),用于優化推理效率與輸出質量。



圖 7:截取自 Qwen3 技術報告。



圖 8:截取自 Claude Developer Guide。

實驗結果表明,TALE 在多個主流數據集和模型上均表現出顯著的壓縮效果和良好的兼容性,進一步拓展了大型語言模型在資源受限場景下的應用邊界。未來,該框架有望推廣至更多任務類型和多模態場景中,推動大型模型推理走向更加可控、高效與可落地。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
知名女星發文感謝大英博物館,要是文物放在中國,早就被摧毀了

知名女星發文感謝大英博物館,要是文物放在中國,早就被摧毀了

博覽歷史
2025-06-08 18:37:20
中國的高考作文,毫無邏輯和真實,只會在牢籠里抒情

中國的高考作文,毫無邏輯和真實,只會在牢籠里抒情

風向觀察
2025-06-09 17:19:17
曝韋東奕恐離開北大,6年無成果非升即走?業內曝其真實職位反轉

曝韋東奕恐離開北大,6年無成果非升即走?業內曝其真實職位反轉

古希臘掌管松餅的神
2025-06-09 15:09:36
俄烏戰爭導致兩國黑幫決裂,烏克蘭黑幫選擇“精忠報國”

俄烏戰爭導致兩國黑幫決裂,烏克蘭黑幫選擇“精忠報國”

史政先鋒
2025-06-09 21:16:30
特朗普受邀訪華,不到24小時,法國致電中方,主動送出兩大承諾

特朗普受邀訪華,不到24小時,法國致電中方,主動送出兩大承諾

獵火照狼山
2025-06-08 19:55:52
特朗普受邀訪華僅1天,中國暫停千萬桶原油采購,美政府隨即報復

特朗普受邀訪華僅1天,中國暫停千萬桶原油采購,美政府隨即報復

觀星賞月
2025-06-09 14:15:06
43歲的蔣欣醫美了?和以前相比判若兩人,一臉苦相

43歲的蔣欣醫美了?和以前相比判若兩人,一臉苦相

楊哥歷史
2025-06-09 09:23:18
北電杜英哲強奸上百名學生后續!律師曝新進展,多數都是未成年人

北電杜英哲強奸上百名學生后續!律師曝新進展,多數都是未成年人

我娛有約
2025-06-09 21:56:23
北大數院同學透露韋神的另一面,稱他私下心智很正常情商也高!

北大數院同學透露韋神的另一面,稱他私下心智很正常情商也高!

史書無明
2025-06-08 17:26:55
中方正式確認,三個月后舉行大閱兵,兩國收到請帖,日本被點名

中方正式確認,三個月后舉行大閱兵,兩國收到請帖,日本被點名

蘇浩
2025-06-09 14:50:22
廣東一公職人員出軌女下屬,不雅照流出:女下屬顏值爆表

廣東一公職人員出軌女下屬,不雅照流出:女下屬顏值爆表

農村情感故事
2025-06-09 17:43:44
特殊信號!菲總統強調菲中“持久友誼”

特殊信號!菲總統強調菲中“持久友誼”

環球時報國際
2025-06-09 19:39:14
毛新宇夫人出席活動,48歲劉濱戴珍珠耳環好端莊,任扇子學會會長

毛新宇夫人出席活動,48歲劉濱戴珍珠耳環好端莊,任扇子學會會長

古希臘掌管松餅的神
2025-06-09 16:50:25
成吉思汗死因曝光!被西夏王妃咬斷器官?康熙:比較可信

成吉思汗死因曝光!被西夏王妃咬斷器官?康熙:比較可信

談史論天地
2025-06-09 14:45:07
最高可判死刑!邯鄲麥田插鋼筋后續,警方通報:全面排查,零容忍

最高可判死刑!邯鄲麥田插鋼筋后續,警方通報:全面排查,零容忍

蕭鑟科普解說
2025-06-08 19:04:39
乒超聯賽第一階段:樊振東3-1戰勝林高遠,今日四戰全勝

乒超聯賽第一階段:樊振東3-1戰勝林高遠,今日四戰全勝

懂球帝
2025-06-09 21:19:12
韋神“出關”才三天,風向卻變了,同學實名喊北大書記,對他好點

韋神“出關”才三天,風向卻變了,同學實名喊北大書記,對他好點

深析古今
2025-06-08 16:25:03
女基金經理已在泡泡瑪特上賺翻了 ,在重倉泡泡瑪特比重較高的基金經理中,女性占比近半

女基金經理已在泡泡瑪特上賺翻了 ,在重倉泡泡瑪特比重較高的基金經理中,女性占比近半

每日經濟新聞
2025-06-09 16:46:38
婚檢結果保密,致男方患HIV,醫生被停職!婚檢坑的全是醫生?

婚檢結果保密,致男方患HIV,醫生被停職!婚檢坑的全是醫生?

醫眼觀察
2025-06-09 16:11:57
2米26的NBA球星文班亞馬剃發修行10天?少林寺最新回應

2米26的NBA球星文班亞馬剃發修行10天?少林寺最新回應

新京報
2025-06-09 21:55:13
2025-06-09 23:43:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10607文章數 142336關注度
往期回顧 全部

科技要聞

今年618平臺集體想通了,主打一個簡單粗暴

頭條要聞

媒體:和紐森正面攤牌 這是特朗普渴望已久的一場戰斗

頭條要聞

媒體:和紐森正面攤牌 這是特朗普渴望已久的一場戰斗

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經要聞

重磅級民生文件公布 如何改變你我生活?

汽車要聞

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態度原創

健康
時尚
家居
公開課
軍事航空

減重專家破解減肥九大謠言!

今年夏天最流行的裙子,配這4雙鞋才好看!

家居要聞

簡約輕奢 現代實用私宅

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

烏方稱俄發動沖突以來最大空襲

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 育儿| 扎兰屯市| 汝南县| 洱源县| 潜江市| 台北市| 岚皋县| 海阳市| 建始县| 东平县| 郓城县| 天门市| 汤原县| 丹阳市| 海城市| 滕州市| 嵊泗县| 体育| 花莲市| 北辰区| 东乌珠穆沁旗| 澎湖县| 北流市| 章丘市| 开封县| 新河县| 碌曲县| 娄底市| 漳浦县| 阳曲县| 千阳县| 慈利县| 赣榆县| 马公市| 登封市| 达日县| 天门市| 巴马| 洪江市| 晋城| 峨眉山市|