新智元報(bào)道
編輯:桃子 犀牛
【新智元導(dǎo)讀】數(shù)據(jù)枯竭正成為AI發(fā)展的新瓶頸!CMU團(tuán)隊(duì)提出革命性方案SRT:讓LLM實(shí)現(xiàn)無(wú)需人類標(biāo)注的自我進(jìn)化!SRT初期就能迭代提升數(shù)學(xué)與推理能力,甚至性能逼近傳統(tǒng)強(qiáng)化學(xué)習(xí)的效果,揭示了其顛覆性潛力。
通往AGI最大的絆腳石,便是互聯(lián)網(wǎng)數(shù)據(jù)不夠用了!
DeepSeek-R1、OpenAI的o系推理模型出世,不再單純依賴人類標(biāo)注「標(biāo)準(zhǔn)答案」,而是通過(guò)RL實(shí)現(xiàn)破局。
但問(wèn)題來(lái)了——當(dāng)前,LLM依然需要人類設(shè)計(jì)「正確信號(hào)」來(lái)指導(dǎo)訓(xùn)練。
如果問(wèn)題復(fù)雜到人類都不知道答案,這些AI就只能抓瞎了。
為此,CMU聯(lián)手獨(dú)立研究員推出一套「自獎(jiǎng)勵(lì)訓(xùn)練」(SRT)的全新方法,堪稱AI「自我修行」的秘籍!
論文地址:https://arxiv.org/pdf/2505.21444
它的核心思路是,讓LLM利用自身「自洽性」作為內(nèi)在的監(jiān)督信號(hào),生成獎(jiǎng)勵(lì)來(lái)優(yōu)化自己。
簡(jiǎn)單來(lái)說(shuō),AI會(huì)像一個(gè)哲學(xué)家,盯著自己的答案自問(wèn):這個(gè)推導(dǎo)邏輯自洽嗎?有沒(méi)有漏洞?
然后,它會(huì)根據(jù)答案「自洽程度」給自己打分,再用分?jǐn)?shù)去不斷改進(jìn)。
關(guān)鍵是,SRT完全不需要人類標(biāo)注的數(shù)據(jù),可以自然地應(yīng)用于「測(cè)試時(shí)訓(xùn)練」。
實(shí)驗(yàn)結(jié)果讓人眼前一亮:在早期訓(xùn)練階段,SRT的性能與標(biāo)準(zhǔn)答案訓(xùn)練RL方法相媲美。
目前,研究團(tuán)隊(duì)的代碼已公開(kāi)。
地址:https://github.com/tajwarfahim/srt
自獎(jiǎng)勵(lì)訓(xùn)練:AI自我修行秘籍
在沒(méi)有外部監(jiān)督的情況下,模型需要依靠自身來(lái)生成監(jiān)督信號(hào)。
直觀來(lái)說(shuō),如果模型能夠在其生成的多個(gè)答案中識(shí)別出更高質(zhì)量的答案,那么這種識(shí)別出的改進(jìn)就可以作為訓(xùn)練信號(hào)。
這種情況自然地發(fā)生在具有正向「生成-驗(yàn)證差距」的問(wèn)題中,比如數(shù)學(xué)、邏輯推理和代碼生成任務(wù)。
一種簡(jiǎn)單但有效的方法是利用多數(shù)投票來(lái)挖掘這種差距。實(shí)驗(yàn)表明,這比單個(gè)模型生成的答案有更高的準(zhǔn)確性。
在本文的設(shè)置中,多數(shù)投票的步驟包括:
對(duì)每個(gè)提示采樣生成多個(gè)答案;
根據(jù)解析出的最終解決方案對(duì)答案進(jìn)行分組;
用最常見(jiàn)的解決方案(眾數(shù))來(lái)估計(jì)真實(shí)答案。
自進(jìn)化方法SRT
研究團(tuán)隊(duì)提出了一種新穎的方法,把模型的自我改進(jìn)過(guò)程設(shè)計(jì)成一個(gè)強(qiáng)化學(xué)習(xí)任務(wù)。
在這個(gè)過(guò)程中,標(biāo)簽并不是固定的,而是由模型不斷演變的多數(shù)投票結(jié)果動(dòng)態(tài)生成的。
簡(jiǎn)單來(lái)說(shuō),就是讓模型自己「投票」選出最好的答案,并用這些答案作為指導(dǎo),逐步提升自己的表現(xiàn)。
強(qiáng)化學(xué)習(xí)的每一輪操作可以簡(jiǎn)單理解為以下步驟:
采樣一小批提示,然后用當(dāng)前模型為每個(gè)提示生成n個(gè)可能的答案。
通過(guò)「多數(shù)投票」的方式,找出每個(gè)提示下最常見(jiàn)的答案,作為臨時(shí)的「標(biāo)準(zhǔn)答案」(偽標(biāo)簽)。
檢查每個(gè)生成答案是否與多數(shù)投票的答案一致,如果一致就給它一個(gè)獎(jiǎng)勵(lì)(用公式表示為:r(y) = 1[answer(y) = y_majority])。
根據(jù)這批數(shù)據(jù)和計(jì)算出的獎(jiǎng)勵(lì),更新一次模型,讓它變得更聰明。
具體來(lái)說(shuō),研究團(tuán)隊(duì)設(shè)計(jì)了一種獎(jiǎng)勵(lì)機(jī)制,巧妙利用模型自洽性來(lái)定義獎(jiǎng)勵(lì)方式。這使得他們的方法能輕松適配常見(jiàn)的強(qiáng)化學(xué)習(xí)算法,比如PPO、RLOO、REINFORCE和REINFORCE+++。
另外,由于每個(gè)問(wèn)題提示通常會(huì)生成16到64個(gè)答案,SRT跟其他基于標(biāo)簽的算法相比,不會(huì)增加額外的計(jì)算負(fù)擔(dān)。
只要每次強(qiáng)化學(xué)習(xí)迭代時(shí),多數(shù)投票都能讓模型的生成結(jié)果比驗(yàn)證結(jié)果更好一點(diǎn),這種反復(fù)的自我獎(jiǎng)勵(lì)就能持續(xù)提供有用的指導(dǎo)信號(hào),幫助模型不斷進(jìn)步。
雖然模型自我改進(jìn)的前景令人振奮,但仍然有局限性:模型自生成的獎(jiǎng)勵(lì)僅僅是衡量潛在正確性的代用指標(biāo)。
這種代用獎(jiǎng)勵(lì)可能觸發(fā)「獎(jiǎng)勵(lì)作弊」(reward hacking):模型為了最大化自身賦予的獎(jiǎng)勵(lì),會(huì)產(chǎn)出越來(lái)越自洽卻可能并不正確的答案。
總的來(lái)說(shuō),這項(xiàng)研究的貢獻(xiàn)有以下四點(diǎn):
提出了一種簡(jiǎn)單而有效的自訓(xùn)練強(qiáng)化學(xué)習(xí)方法——自獎(jiǎng)勵(lì)訓(xùn)練(SRT)。該方法利用多個(gè)模型生成解之間的一致性來(lái)估計(jì)強(qiáng)化學(xué)習(xí)訓(xùn)練中的正確性,在沒(méi)有標(biāo)記數(shù)據(jù)的情況下提供自監(jiān)督信號(hào)。
通過(guò)實(shí)驗(yàn)證明,在早期訓(xùn)練階段,SRT的性能可媲美使用標(biāo)準(zhǔn)答案訓(xùn)練的標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)方法。
分析了自生成獎(jiǎng)勵(lì)的局限性,揭示了模型的獎(jiǎng)勵(lì)函數(shù)最初與正確性相關(guān),但可能會(huì)退化為僅反映置信度而非真實(shí)準(zhǔn)確性,導(dǎo)致獎(jiǎng)勵(lì)作弊問(wèn)題。
提出了緩解獎(jiǎng)勵(lì)作弊的策略,為未來(lái)持續(xù)模型改進(jìn)的方法奠定了基礎(chǔ)。
實(shí)驗(yàn)結(jié)果
最新提出的SRT算法,其優(yōu)勢(shì)和局限是什么?
為此,研究人員基于Qwen2.5-Math-7B模型,展開(kāi)了一系列研究,具體回答了以下四大核心問(wèn)題:
與基于真實(shí)標(biāo)記的標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)方法相比,SRT算法的有效性如何?對(duì)未見(jiàn)問(wèn)題可以實(shí)現(xiàn)泛化嗎?
自我改進(jìn)能否持續(xù)迭代從而實(shí)現(xiàn)性能的不斷提升?抑或這種改進(jìn)存在固有上限?
哪些底層因素會(huì)影響自我改進(jìn)的有效性?
當(dāng)SRT用于測(cè)試階段的性能提升時(shí),實(shí)際效果如何?
基于多數(shù)投票的自訓(xùn)練
如下圖2所示,在MATH和AIME訓(xùn)練集上,自監(jiān)督SRT方法無(wú)需真實(shí)標(biāo)記信號(hào),即可取得與基于真實(shí)標(biāo)記的強(qiáng)化學(xué)習(xí)相當(dāng)?shù)慕Y(jié)果。
值得注意的是,圖2的pass@1分?jǐn)?shù)均是在保留測(cè)試集上評(píng)估的,這表明自訓(xùn)練過(guò)程能穩(wěn)健地泛化到訓(xùn)練分布之外。
然而,DAPO數(shù)據(jù)集上的結(jié)果更為復(fù)雜。
具體而言,在DAPO上訓(xùn)練時(shí),研究人員發(fā)現(xiàn)SRT算法在測(cè)試集上的性能,最初以與基于真實(shí)答案的標(biāo)準(zhǔn)RL相當(dāng)?shù)乃俣忍嵘?/p>
但在約400-600訓(xùn)練步時(shí),SRT達(dá)到峰值性能后開(kāi)始下降,而基于真實(shí)標(biāo)記的標(biāo)準(zhǔn)RL訓(xùn)練卻能持續(xù)提升。
總體而言,研究發(fā)現(xiàn)了一個(gè)引人注目且出人意料的趨勢(shì):即使沒(méi)有任何標(biāo)注樣本,SRT的性能曲線在訓(xùn)練初期與基于標(biāo)準(zhǔn)答案的RL高度吻合。
在統(tǒng)計(jì)誤差范圍內(nèi),SRT在MATH和AIME'83-AIME'23數(shù)據(jù)集上的峰值測(cè)試pass@1分?jǐn)?shù)與有監(jiān)督RL方法基本持平。
在更具挑戰(zhàn)性的DAPO數(shù)據(jù)集上,SRT仍能達(dá)到RL最終性能的75%。
此外,在所有三個(gè)訓(xùn)練集上,SRT的峰值性能相比基礎(chǔ)模型都有約100%的相對(duì)提升。
SRT性能峰值后,異常現(xiàn)象分析
當(dāng)SRT在DAPO訓(xùn)練集上達(dá)到性能峰值后(見(jiàn)圖2),研究人員觀察到其測(cè)試準(zhǔn)確率開(kāi)始顯著惡化。
事實(shí)上,在MATH-12k數(shù)據(jù)集上訓(xùn)練超過(guò)兩個(gè)epoch時(shí),同樣會(huì)出現(xiàn)明顯的性能崩潰現(xiàn)象。
對(duì)于這種行為,作者給出一個(gè)簡(jiǎn)單而精確的理論解釋:
由SRT目標(biāo)定義的強(qiáng)化學(xué)習(xí)優(yōu)化問(wèn)題明確鼓勵(lì)輸出之間的一致性,而與正確性無(wú)關(guān)。
因此,在該目標(biāo)下的最優(yōu)策略是無(wú)論輸入如何都生成完全相同的響應(yīng),從而人為地獲得最大可能的獎(jiǎng)勵(lì)。
因此,自然可以預(yù)期,在這種代理目標(biāo)下的持續(xù)訓(xùn)練可能導(dǎo)致這種退化解,尤其是當(dāng)優(yōu)化這一目標(biāo)比學(xué)習(xí)解決實(shí)際任務(wù)更容易時(shí)。
測(cè)試時(shí)自改進(jìn)
自訓(xùn)練的一個(gè)誘人應(yīng)用,是通過(guò)測(cè)試時(shí)訓(xùn)練(test-time training)提升模型準(zhǔn)確率。
將SRT作為測(cè)試時(shí)訓(xùn)練技術(shù)應(yīng)用異常簡(jiǎn)單:只需將無(wú)標(biāo)注測(cè)試集完全視作訓(xùn)練數(shù)據(jù)集,并直接應(yīng)用SRT。
接下來(lái),研究人員對(duì)比了經(jīng)過(guò)SRT測(cè)試時(shí)訓(xùn)練后的多數(shù)投票性能,與未進(jìn)行任何測(cè)試時(shí)訓(xùn)練的性能。
如下圖4顯示,在maj@32指標(biāo)下,相比直接對(duì)基礎(chǔ)模型生成輸出應(yīng)用主流多數(shù)投票基線,通過(guò)SRR實(shí)現(xiàn)的測(cè)試時(shí)訓(xùn)練能帶來(lái)相對(duì)有限,但仍可察覺(jué)的性能提升。
此外,在更大規(guī)模的測(cè)試數(shù)據(jù)集上,相較于基礎(chǔ)模型的多數(shù)投票,其性能增益更為顯著。
為何測(cè)試時(shí)訓(xùn)練不會(huì)引發(fā)性能崩潰?
有趣的是,測(cè)試時(shí)訓(xùn)練完成后,通過(guò)直觀檢查模型輸出可發(fā)現(xiàn):盡管模型對(duì)幾乎每個(gè)測(cè)試提示的預(yù)測(cè)都退化成了單一響應(yīng)(這正是SRT目標(biāo)的最優(yōu)解行為),但測(cè)試準(zhǔn)確率仍保持高位。
研究人員推測(cè),測(cè)試時(shí)自訓(xùn)練的穩(wěn)定性源于數(shù)據(jù)集規(guī)模的關(guān)鍵差異。
以AIME24測(cè)試數(shù)據(jù)集為例,其僅含30個(gè)自改進(jìn)樣本。
在此有限樣本量下,模型會(huì)通過(guò)強(qiáng)化特定CoT推,迅速收斂至這些樣本上的穩(wěn)定多數(shù)投票答案。
一旦達(dá)成收斂,SRT便無(wú)法獲得有意義的梯度信號(hào)以進(jìn)一步更新參數(shù),從而自然穩(wěn)定了測(cè)試時(shí)性能。
相比之下,在大規(guī)模數(shù)據(jù)集常規(guī)訓(xùn)練時(shí),持續(xù)輸入的新樣本會(huì)不斷驅(qū)使模型為一致性進(jìn)行過(guò)度優(yōu)化。
在此條件下,模型傾向于采用過(guò)度簡(jiǎn)化的泛化策略(生成相同的\boxed{}答案),最終因輸出與提示無(wú)關(guān)的單一預(yù)測(cè)而崩潰。
大模型崩潰,可以避免嗎?
那么,LLM是否可以避免崩潰?
如上所述,自獎(jiǎng)勵(lì)訓(xùn)練(SRT)的優(yōu)化目標(biāo),可能導(dǎo)致初期性能顯著提升,但最終引發(fā)模型崩潰。
為此,研究人員探究了以下互補(bǔ)策略,以應(yīng)對(duì)模型崩潰問(wèn)題,進(jìn)一步提升自訓(xùn)練性能上限:
早停(Early Stopping)策略:利用少量帶標(biāo)注的驗(yàn)證數(shù)據(jù)集監(jiān)測(cè)模型狀態(tài),及時(shí)終止訓(xùn)練以防止崩潰;
算法策略:通過(guò)采用穩(wěn)定基模型(而非持續(xù)更新的模型)生成的偽標(biāo)記,從根本上降低崩潰風(fēng)險(xiǎn);
數(shù)據(jù)驅(qū)動(dòng)的課程學(xué)習(xí)(Curriculum Learning)策略:突破簡(jiǎn)單早停的局限,通過(guò)漸進(jìn)式學(xué)習(xí)機(jī)制提升模型性能。
早停策略
實(shí)驗(yàn)中,即使僅使用少量標(biāo)注驗(yàn)證數(shù)據(jù),也能有效識(shí)別自訓(xùn)練過(guò)程中的性能峰值點(diǎn),從而規(guī)避模型崩潰風(fēng)險(xiǎn)。
如圖6所示,通過(guò)在DAPO數(shù)據(jù)集上持續(xù)監(jiān)測(cè)訓(xùn)練過(guò)程并在多個(gè)測(cè)試集上進(jìn)行評(píng)估,作者發(fā)現(xiàn)一個(gè)關(guān)鍵現(xiàn)象:
不同保留測(cè)試集上的性能峰值均出現(xiàn)在相近的訓(xùn)練步數(shù)。
這一規(guī)律表明,任意一個(gè)測(cè)試集都可用于早停決策。
具體而言,圖6中的垂直虛線展示了僅使用1%的DAPO數(shù)據(jù)作為驗(yàn)證集的早停效果——此時(shí)模型在所有其他評(píng)估數(shù)據(jù)集上的性能仍保持接近最優(yōu)水平。
算法策略
模型崩潰的根源在于SRT(自訓(xùn)練強(qiáng)化學(xué)習(xí))過(guò)度強(qiáng)調(diào)一致性而非正確性——即使輸出結(jié)果錯(cuò)誤,模型間的一致性也會(huì)被持續(xù)強(qiáng)化。
針對(duì)此問(wèn)題,研究人員提出一種簡(jiǎn)單有效的解決方案:從穩(wěn)定的固定檢查點(diǎn)(而非持續(xù)更新的策略)生成偽標(biāo)記。
具體實(shí)施中,他們采用Qwen2.5-Math-7B基模型,通過(guò)多數(shù)表決機(jī)制生成偽標(biāo)記,將這些離線生成的標(biāo)記存儲(chǔ)后用于后續(xù)強(qiáng)化學(xué)習(xí)訓(xùn)練。
圖7顯示,使用此類離線標(biāo)記不僅能顯著提升訓(xùn)練穩(wěn)定性,還能達(dá)到與SRT相當(dāng)?shù)哪P托阅堋?/p>
這一發(fā)現(xiàn)具有重要啟示:訓(xùn)練過(guò)程中動(dòng)態(tài)更新偽標(biāo)記(在線標(biāo)注)未必能帶來(lái)顯著優(yōu)勢(shì),反而可能成為訓(xùn)練不穩(wěn)定的誘因。
課程學(xué)習(xí)策略
此外,研究人員提出一個(gè)關(guān)鍵假設(shè):模型在更具挑戰(zhàn)性的數(shù)據(jù)集上訓(xùn)練時(shí),崩潰現(xiàn)象會(huì)更快出現(xiàn)。
其內(nèi)在機(jī)理在于:面對(duì)高難度數(shù)據(jù)時(shí),模型更容易放棄預(yù)訓(xùn)練知識(shí),轉(zhuǎn)而通過(guò)優(yōu)化自一致性(而非真正學(xué)習(xí)解決任務(wù))來(lái)獲取獎(jiǎng)勵(lì)。
基于此假設(shè),研究人員采用課程學(xué)習(xí),通過(guò)篩選DAPO數(shù)據(jù)集中「最簡(jiǎn)單」的子集進(jìn)行訓(xùn)練。
具體而言,他們保留根據(jù)以下兩個(gè)指標(biāo)選出的前1/3最簡(jiǎn)單提示樣本:
基模型通過(guò)率(需真實(shí)標(biāo)記)
多數(shù)表決頻率(無(wú)需真實(shí)標(biāo)記)
如圖8所示,在這些簡(jiǎn)單子集上訓(xùn)練能顯著延緩獎(jiǎng)勵(lì)破解現(xiàn)象的出現(xiàn),使模型在多個(gè)訓(xùn)練周期內(nèi)持續(xù)提升。
值得注意的是,采用課程學(xué)習(xí)策略后,模型性能最終達(dá)到了與在整個(gè)DAPO數(shù)據(jù)集上使用真實(shí)標(biāo)記進(jìn)行標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)訓(xùn)練相當(dāng)?shù)乃健?/p>
這些突破性結(jié)果表明,課程學(xué)習(xí)策略有望進(jìn)一步拓展SRT的效能邊界,為后續(xù)研究開(kāi)辟了新的方向。
參考資料:
https://www.alphaxiv.org/overview/2505.21444
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.