在人工智能迅猛發(fā)展的今天,大型語(yǔ)言模型(LLMs)在數(shù)學(xué)和邏輯推理能力上取得了長(zhǎng)足進(jìn)步。2025年5月,來(lái)自浙江大學(xué)、天津大學(xué)和微軟亞洲研究院的研究團(tuán)隊(duì),由趙浩然、嚴(yán)宇辰、沈永亮等人組成的團(tuán)隊(duì),在arXiv預(yù)印本平臺(tái)發(fā)布了一篇題為《Let LLMs Break Free from Overthinking via Self-Braking Tuning》的研究論文。這項(xiàng)研究主要解決了大型推理模型在思考過(guò)程中的一個(gè)常見(jiàn)問(wèn)題:過(guò)度思考(overthinking)。研究團(tuán)隊(duì)開(kāi)發(fā)的"自制動(dòng)力訓(xùn)練"(Self-Braking Tuning,簡(jiǎn)稱SBT)方法,可以讓人工智能模型像人類一樣,在達(dá)到足夠確定性時(shí)自然終止思考過(guò)程,而不是繼續(xù)進(jìn)行冗余計(jì)算。有興趣深入了解的讀者可以通過(guò)他們的GitHub項(xiàng)目頁(yè)面(https://github.com/ZJU-REAL/Self-Braking-Tuning)獲取更多信息。
智能體也會(huì)"想太多":推理模型的效率困境
想象一下,你正在解決一道簡(jiǎn)單的數(shù)學(xué)題,比如"2加3等于多少"。作為人類,你可能只需幾秒鐘就能回答"5",然后停止思考這個(gè)問(wèn)題。但今天的大型語(yǔ)言模型(LLMs)卻可能會(huì)繼續(xù)"思考":它可能會(huì)重新檢查答案,嘗試其他計(jì)算方法,甚至質(zhì)疑自己是否理解了問(wèn)題,生成數(shù)百甚至上千個(gè)詞的冗長(zhǎng)推理過(guò)程。
這種現(xiàn)象被研究人員稱為"過(guò)度思考"(overthinking)。近年來(lái),像OpenAI的o1、DeepSeek-R1、QwQ等先進(jìn)的大型推理模型(LRMs)通過(guò)生成詳細(xì)的多步推理過(guò)程,顯著提高了在復(fù)雜任務(wù)上的準(zhǔn)確性。然而,這種進(jìn)步伴隨著一個(gè)顯著的代價(jià):推理過(guò)程變得極其冗長(zhǎng),一個(gè)問(wèn)題常常消耗數(shù)千個(gè)標(biāo)記(tokens),導(dǎo)致計(jì)算成本增加、延遲加長(zhǎng),以及充斥著冗余推理步驟的輸出,有時(shí)甚至?xí)谏w核心解決方案。
浙江大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn),在解決數(shù)學(xué)問(wèn)題時(shí),這些模型通常會(huì)在推理過(guò)程的早期就得出正確答案,但它們?nèi)詴?huì)繼續(xù)生成額外的解決方案嘗試,進(jìn)行重復(fù)驗(yàn)證和不必要的計(jì)算。例如,在AIME(美國(guó)數(shù)學(xué)邀請(qǐng)賽)級(jí)別的問(wèn)題上,模型可能會(huì)使用超過(guò)7,000個(gè)標(biāo)記,而實(shí)際上只有一小部分是產(chǎn)生答案所必需的。
現(xiàn)有的解決方法主要依賴外部干預(yù):模型優(yōu)化(通過(guò)強(qiáng)化學(xué)習(xí)或監(jiān)督微調(diào))、推理輸出優(yōu)化(動(dòng)態(tài)減少推理步驟數(shù)量)或添加外部限制(如標(biāo)記預(yù)算)。這些方法通常依賴復(fù)雜的優(yōu)化策略或引入額外的約束機(jī)制,而沒(méi)有充分探索模型自身緩解過(guò)度思考的能力。
像人類一樣"適可而止":自制動(dòng)力訓(xùn)練的創(chuàng)新方法
浙江大學(xué)團(tuán)隊(duì)的核心洞察是:大型語(yǔ)言模型可以被訓(xùn)練開(kāi)發(fā)出一種"內(nèi)部制動(dòng)機(jī)制",讓它們能夠識(shí)別什么時(shí)候進(jìn)一步的推理變得無(wú)效,從而自然地結(jié)束思考過(guò)程并過(guò)渡到最終解決方案的制定,就像人類在達(dá)到足夠確定性時(shí)自然地結(jié)束推理一樣。
這項(xiàng)名為"自制動(dòng)力訓(xùn)練"(Self-Braking Tuning,簡(jiǎn)稱SBT)的新方法,從根本上重塑了模型感知和調(diào)節(jié)自己推理過(guò)程的方式。與以往依賴外部約束的方法不同,SBT培養(yǎng)了模型內(nèi)在的自我調(diào)節(jié)能力。
想象一下教導(dǎo)一個(gè)學(xué)生解決數(shù)學(xué)問(wèn)題。傳統(tǒng)方法就像是老師不斷提醒學(xué)生:"時(shí)間到了,該停止思考了"或"你已經(jīng)用了太多步驟,請(qǐng)直接給出答案"。而SBT方法更像是教導(dǎo)學(xué)生自己判斷:"如果我已經(jīng)通過(guò)兩種方法得到了相同的答案,并且我很確定這是正確的,那么我應(yīng)該停止思考并提供最終答案。"
研究團(tuán)隊(duì)首先開(kāi)發(fā)了一套系統(tǒng)方法來(lái)識(shí)別推理軌跡中的過(guò)度思考模式。通過(guò)分析DeepSeek-R1等先進(jìn)模型的推理過(guò)程,他們發(fā)現(xiàn)這些過(guò)程通常包含兩部分:
1. 基礎(chǔ)解決方案(Foundation Solution):在推理過(guò)程開(kāi)始部分的第一個(gè)解決方案,模型理解問(wèn)題后,逐步進(jìn)行解決。 2. 演化解決方案(Evolution Solution):出現(xiàn)在模型推理過(guò)程后期的解決方案,通常伴隨著"等等"、"另外"或"然而"等提示詞,主要是對(duì)基礎(chǔ)解決方案的反思、改進(jìn)或總結(jié)。
研究團(tuán)隊(duì)通過(guò)統(tǒng)計(jì)發(fā)現(xiàn),在不同難度的數(shù)學(xué)問(wèn)題上,演化解決方案部分占據(jù)了總推理標(biāo)記的41%到71%,這部分通常包含大量冗余計(jì)算。
為了量化過(guò)度思考,研究者提出了兩個(gè)互補(bǔ)指標(biāo):
1. 推理效率比率(Reasoning Efficiency Ratio):計(jì)算達(dá)到第一個(gè)正確答案所需的步驟與總思考步驟的比率。比率越接近1表示推理越有效率,越接近0表示存在大量過(guò)度思考。 2. 過(guò)度思考標(biāo)記比率(Overthinking Marker Ratio):通過(guò)識(shí)別與過(guò)度思考相關(guān)的語(yǔ)言標(biāo)記(如"等等"、"讓我再檢查一下"等)來(lái)量化過(guò)度思考的語(yǔ)言特征。
基于這些指標(biāo),研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)綜合評(píng)分機(jī)制(Overthink Score),將這兩個(gè)指標(biāo)以90:10的權(quán)重結(jié)合,用于判斷推理過(guò)程中哪些部分是有效的,哪些部分是冗余的。
教會(huì)模型何時(shí)停止思考:數(shù)據(jù)構(gòu)建與訓(xùn)練策略
基于過(guò)度思考識(shí)別框架,研究團(tuán)隊(duì)開(kāi)發(fā)了兩種互補(bǔ)的數(shù)據(jù)構(gòu)建策略,用于訓(xùn)練模型自主終止冗余推理:
1. 自制動(dòng)力訓(xùn)練精確版(SBT-E):對(duì)每個(gè)展示過(guò)度思考的推理軌跡,保留基礎(chǔ)解決方案加上一個(gè)演化解決方案,然后添加一小段被屏蔽的后續(xù)推理。這種結(jié)構(gòu)化方法確保模型學(xué)習(xí)到必要推理和過(guò)度計(jì)算之間的清晰邊界。
2. 自制動(dòng)力訓(xùn)練動(dòng)態(tài)版(SBT-D):采用更加細(xì)粒度的自適應(yīng)策略,根據(jù)每個(gè)問(wèn)題的特點(diǎn)定制推理長(zhǎng)度。它逐步分析每個(gè)推理步驟,重新計(jì)算過(guò)度思考分?jǐn)?shù),直到分?jǐn)?shù)超過(guò)預(yù)設(shè)閾值(設(shè)為0.2),允許復(fù)雜問(wèn)題保留更多步驟,簡(jiǎn)單問(wèn)題更早終止。
就像教導(dǎo)司機(jī)何時(shí)踩剎車一樣,這兩種方法使用不同的學(xué)習(xí)策略:SBT-E更像是在固定位置安裝減速標(biāo)志,而SBT-D則更像是根據(jù)道路條件動(dòng)態(tài)判斷何時(shí)減速。
研究團(tuán)隊(duì)基于OpenR1-Math高質(zhì)量推理軌跡數(shù)據(jù)集,構(gòu)建了兩個(gè)專門(mén)的訓(xùn)練數(shù)據(jù)集:OpenR1-Math-SBT-E和OpenR1-Math-SBT-D,每個(gè)包含92,064個(gè)示例。
為了增強(qiáng)模型對(duì)其推理狀態(tài)的自我意識(shí),研究者還引入了兩個(gè)創(chuàng)新機(jī)制:
1. 屏蔽冗余思考:雖然SBT-E和SBT-D都識(shí)別最佳截?cái)帱c(diǎn),但簡(jiǎn)單切斷推理并不能幫助模型學(xué)習(xí)檢測(cè)過(guò)度思考。相反,研究者保留了一小部分冗余推理,并應(yīng)用損失屏蔽(loss masking)以防止其影響訓(xùn)練。這種方法讓模型接觸到過(guò)度思考模式,但不會(huì)強(qiáng)化這些模式。
2. 自然語(yǔ)言制動(dòng)信號(hào):在推理停止點(diǎn)添加明確的自然語(yǔ)言提示,如"等等,我已經(jīng)得到相同答案多次,是時(shí)候結(jié)束思考了"。這些制動(dòng)信號(hào)作為停止決策的語(yǔ)言錨點(diǎn),與模型的能力自然匹配,提供明確的元認(rèn)知提示,同時(shí)保持推理流暢。
這種方法就像教一個(gè)學(xué)生自己判斷:"我已經(jīng)檢查了兩次,得到了相同的答案,現(xiàn)在我可以確信這是正確的,不需要繼續(xù)思考了。"
顯著減少標(biāo)記消耗,保持推理準(zhǔn)確性
研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)推理基準(zhǔn)測(cè)試上進(jìn)行了廣泛實(shí)驗(yàn),評(píng)估自制動(dòng)力訓(xùn)練的有效性。測(cè)試涵蓋不同難度級(jí)別的數(shù)學(xué)問(wèn)題:AIME(高難度代數(shù)問(wèn)題)、AMC23(大學(xué)前數(shù)學(xué))、MATH500(多樣化數(shù)學(xué)問(wèn)題)和GSM8K(小學(xué)數(shù)學(xué)文字問(wèn)題)。
實(shí)驗(yàn)結(jié)果令人印象深刻:經(jīng)過(guò)自制動(dòng)力訓(xùn)練的模型在保持與基線模型相當(dāng)?shù)臏?zhǔn)確率的同時(shí),顯著減少了標(biāo)記消耗。對(duì)于Qwen2.5-Math-7B-Instruct模型,SBT-E和SBT-D分別減少了30.7%和23.0%的標(biāo)記使用量,準(zhǔn)確率僅下降2.65%和1.95%。更令人驚訝的是,當(dāng)應(yīng)用于Llama-3.1-8B-Instruct模型時(shí),SBT-E減少了62.8%的標(biāo)記消耗,同時(shí)保持了94.1%的基線準(zhǔn)確率。
這就像一位學(xué)生在解題時(shí)學(xué)會(huì)了更加高效:他們不再寫(xiě)下每一個(gè)思考步驟和多次驗(yàn)證,而是在確信答案后直接給出結(jié)論,既節(jié)省了時(shí)間也避免了不必要的工作。
研究者還發(fā)現(xiàn),SBT的效率提升因模型類型而異。對(duì)于通用模型(如Llama系列),較大模型獲益更多——標(biāo)記減少?gòu)?B模型的54.2%提升到8B模型的62.8%。而在數(shù)學(xué)專業(yè)模型中,較大模型的收益反而較?。?B為30.7%對(duì)比1.5B的48.9%),這表明專業(yè)模型已經(jīng)具有更加專注和高效的推理能力,進(jìn)一步壓縮的空間較小。
SBT-E和SBT-D兩種方法也展現(xiàn)出不同的性能特點(diǎn)。SBT-E通常實(shí)現(xiàn)更大的標(biāo)記減少(所有模型平均48.3%,相比SBT-D的43.9%),但準(zhǔn)確率下降略多。SBT-D表現(xiàn)更加平衡,特別是在最具挑戰(zhàn)性的AIME和MATH500基準(zhǔn)測(cè)試上。值得注意的是,對(duì)于Llama-3.1-8B模型,SBT-D在MATH500上實(shí)際提高了2.62%的準(zhǔn)確率,同時(shí)減少了58.7%的標(biāo)記,這表明動(dòng)態(tài)截?cái)嗫赡懿粌H消除冗余推理,在某些情況下還可能消除潛在有害的過(guò)度思考。
深入分析:影響自制動(dòng)力訓(xùn)練效果的關(guān)鍵因素
研究團(tuán)隊(duì)進(jìn)行了深入分析,探索了影響自制動(dòng)力訓(xùn)練效果的幾個(gè)關(guān)鍵因素:
1. 過(guò)度思考閾值的影響:研究者實(shí)驗(yàn)了0.2、0.3和0.4三個(gè)閾值,分別將約60%、50%和40%的樣本歸類為過(guò)度思考案例。結(jié)果顯示,0.2閾值為SBT-E提供了最佳性能,在標(biāo)記減少(比基線少49%)和準(zhǔn)確率保持(基線的97.4%)之間取得了最佳平衡。這一發(fā)現(xiàn)揭示了一個(gè)關(guān)鍵洞察:積極的過(guò)度思考識(shí)別(較低閾值)帶來(lái)更顯著的效率提升,同時(shí)不會(huì)導(dǎo)致相應(yīng)的準(zhǔn)確率損失,這表明LRM中的大部分推理確實(shí)是冗余的,可以在不影響問(wèn)題解決能力的情況下被消除。
2. 保留推理與冗余屏蔽的權(quán)衡:研究者調(diào)查了不同配置的保留(未屏蔽)和屏蔽內(nèi)容的組合,以了解這種平衡。結(jié)果顯示,保留兩個(gè)完整解決方案同時(shí)僅屏蔽少量額外句子產(chǎn)生最佳性能,減少49%的標(biāo)記同時(shí)保持97.4%的基線準(zhǔn)確率。這一發(fā)現(xiàn)提供了兩個(gè)關(guān)鍵洞察:首先,解決方案重復(fù)作為自然終止信號(hào):當(dāng)模型兩次得出相同答案時(shí),它學(xué)會(huì)這是結(jié)束推理的強(qiáng)烈指示;其次,保留推理和屏蔽內(nèi)容之間存在反比關(guān)系:保留更多推理(兩個(gè)解決方案)時(shí),最佳配置需要較少的屏蔽內(nèi)容;保留較少推理(一個(gè)解決方案)時(shí),更多的屏蔽內(nèi)容表現(xiàn)更好。
3. 步驟級(jí)別與標(biāo)記級(jí)別過(guò)度思考檢測(cè)的比較:研究團(tuán)隊(duì)比較了基于推理步驟和基于標(biāo)記的兩種過(guò)度思考檢測(cè)方法。結(jié)果表明,步驟級(jí)別檢測(cè)在所有數(shù)據(jù)集上都實(shí)現(xiàn)了更低的標(biāo)記使用量,同時(shí)保持更高的準(zhǔn)確率。這證實(shí)了研究者的假設(shè):當(dāng)保持完整邏輯單元時(shí),推理連貫性更好地得到保持。標(biāo)記級(jí)別截?cái)嚯m然更加精細(xì),但可能打破邏輯推理單元,潛在創(chuàng)造出不連貫或不完整的思考模式,這些模式對(duì)模型來(lái)說(shuō)更難學(xué)習(xí)或有效復(fù)制。
4. 自然語(yǔ)言指導(dǎo)與特殊標(biāo)記指導(dǎo)的比較:研究者比較了兩種信號(hào)推理終止的機(jī)制:自然語(yǔ)言指導(dǎo)(使用"我已經(jīng)驗(yàn)證了我的答案,不需要繼續(xù)..."等頓悟句)和特殊標(biāo)記方法(使用作為顯式控制信號(hào))。結(jié)果顯示,自然語(yǔ)言指導(dǎo)表現(xiàn)更優(yōu),在實(shí)現(xiàn)同等準(zhǔn)確率的同時(shí)使用明顯更少的標(biāo)記(1682對(duì)比1797)。這表明嵌入在自然語(yǔ)言中的元認(rèn)知自我反思提供了比顯式控制標(biāo)記更有效的學(xué)習(xí)信號(hào)。
這些發(fā)現(xiàn)表明,自制動(dòng)力訓(xùn)練不僅僅是一種技術(shù)改進(jìn),它代表了一種根本性的轉(zhuǎn)變:從外部控制模型行為轉(zhuǎn)向培養(yǎng)模型的內(nèi)在能力,使其能夠判斷何時(shí)應(yīng)該停止推理。
結(jié)語(yǔ):更智能、更高效的人工智能推理
歸根結(jié)底,浙江大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)的自制動(dòng)力訓(xùn)練(SBT)框架代表了解決大型語(yǔ)言模型過(guò)度思考問(wèn)題的一種全新方法。不同于傳統(tǒng)上依賴外部干預(yù)的策略,SBT從根本上重塑了模型對(duì)其推理過(guò)程的感知和調(diào)節(jié)方式,使模型能夠自然地識(shí)別過(guò)度思考并在適當(dāng)時(shí)候終止推理。
就像人類在解決問(wèn)題時(shí)會(huì)自然地知道何時(shí)停止思考一樣,經(jīng)過(guò)SBT訓(xùn)練的模型學(xué)會(huì)了在達(dá)到足夠確定性時(shí)"放手"。這種能力在不犧牲準(zhǔn)確性的情況下,顯著提高了計(jì)算效率,在測(cè)試基準(zhǔn)上減少了30%到60%的標(biāo)記消耗。
這項(xiàng)研究的意義遠(yuǎn)超簡(jiǎn)單的效率提升。它向我們展示了AI系統(tǒng)可以更像人類那樣工作的可能性——既能進(jìn)行深度思考,又不會(huì)陷入無(wú)休止的分析癱瘓。這對(duì)于部署在資源受限環(huán)境中的AI系統(tǒng)特別重要,也對(duì)未來(lái)發(fā)展更具元認(rèn)知能力的AI模型提供了重要啟示。
對(duì)于我們?nèi)粘J褂肁I的普通人來(lái)說(shuō),這意味著更快的響應(yīng)時(shí)間、更低的使用成本,以及更加簡(jiǎn)潔明了的答案。想象一下,當(dāng)你向AI助手詢問(wèn)一個(gè)數(shù)學(xué)問(wèn)題時(shí),它能夠快速給出正確答案,而不是生成長(zhǎng)達(dá)數(shù)千字的冗長(zhǎng)推理,這無(wú)疑會(huì)帶來(lái)更好的用戶體驗(yàn)。
研究團(tuán)隊(duì)也坦承,盡管SBT取得了顯著成功,但仍存在局限性。當(dāng)前研究主要聚焦于數(shù)學(xué)推理任務(wù),未來(lái)需要擴(kuò)展到開(kāi)放式、常識(shí)性、邏輯性或多模態(tài)推理領(lǐng)域;同時(shí),為了適應(yīng)不同任務(wù)和領(lǐng)域的特點(diǎn),過(guò)度思考檢測(cè)的閾值參數(shù)可能需要手動(dòng)調(diào)整,這限制了方法的動(dòng)態(tài)適應(yīng)性。
隨著大型語(yǔ)言模型繼續(xù)發(fā)展,我們可以期待更多像SBT這樣的創(chuàng)新方法,使AI系統(tǒng)不僅更加智能,還能更加高效和自我調(diào)節(jié)。正如研究者所表明的,有時(shí)候,讓AI知道何時(shí)停止思考,與教它如何思考同樣重要。
有興趣深入了解這項(xiàng)研究的讀者可以訪問(wèn)研究團(tuán)隊(duì)的GitHub項(xiàng)目頁(yè)面:https://github.com/ZJU-REAL/Self-Braking-Tuning 或項(xiàng)目網(wǎng)站:https://ZJU-REAL.github.io/SBT,獲取更多詳細(xì)信息和代碼實(shí)現(xiàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.