網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI數(shù)學(xué)能力暴漲100%，自進(jìn)化直逼RL極限！CMU新作顛覆認(rèn)知

2025-06-01 12:30:11　來(lái)源: 新智元

北京舉報(bào)

分享至

　　新智元報(bào)道

　　編輯：桃子犀牛

　　【新智元導(dǎo)讀】數(shù)據(jù)枯竭正成為AI發(fā)展的新瓶頸！CMU團(tuán)隊(duì)提出革命性方案SRT：讓LLM實(shí)現(xiàn)無(wú)需人類標(biāo)注的自我進(jìn)化！SRT初期就能迭代提升數(shù)學(xué)與推理能力，甚至性能逼近傳統(tǒng)強(qiáng)化學(xué)習(xí)的效果，揭示了其顛覆性潛力。

　　通往AGI最大的絆腳石，便是互聯(lián)網(wǎng)數(shù)據(jù)不夠用了！

　　DeepSeek-R1、OpenAI的o系推理模型出世，不再單純依賴人類標(biāo)注「標(biāo)準(zhǔn)答案」，而是通過(guò)RL實(shí)現(xiàn)破局。

　　但問(wèn)題來(lái)了——當(dāng)前，LLM依然需要人類設(shè)計(jì)「正確信號(hào)」來(lái)指導(dǎo)訓(xùn)練。

　　如果問(wèn)題復(fù)雜到人類都不知道答案，這些AI就只能抓瞎了。

　　為此，CMU聯(lián)手獨(dú)立研究員推出一套「自獎(jiǎng)勵(lì)訓(xùn)練」（SRT）的全新方法，堪稱AI「自我修行」的秘籍！

　　論文地址：https://arxiv.org/pdf/2505.21444

　　它的核心思路是，讓LLM利用自身「自洽性」作為內(nèi)在的監(jiān)督信號(hào)，生成獎(jiǎng)勵(lì)來(lái)優(yōu)化自己。

　　簡(jiǎn)單來(lái)說(shuō)，AI會(huì)像一個(gè)哲學(xué)家，盯著自己的答案自問(wèn)：這個(gè)推導(dǎo)邏輯自洽嗎？有沒(méi)有漏洞？

　　然后，它會(huì)根據(jù)答案「自洽程度」給自己打分，再用分?jǐn)?shù)去不斷改進(jìn)。

　　關(guān)鍵是，SRT完全不需要人類標(biāo)注的數(shù)據(jù)，可以自然地應(yīng)用于「測(cè)試時(shí)訓(xùn)練」。

　　實(shí)驗(yàn)結(jié)果讓人眼前一亮：在早期訓(xùn)練階段，SRT的性能與標(biāo)準(zhǔn)答案訓(xùn)練RL方法相媲美。

　　目前，研究團(tuán)隊(duì)的代碼已公開(kāi)。

　　地址：https://github.com/tajwarfahim/srt

　　自獎(jiǎng)勵(lì)訓(xùn)練：AI自我修行秘籍

　　在沒(méi)有外部監(jiān)督的情況下，模型需要依靠自身來(lái)生成監(jiān)督信號(hào)。

　　直觀來(lái)說(shuō)，如果模型能夠在其生成的多個(gè)答案中識(shí)別出更高質(zhì)量的答案，那么這種識(shí)別出的改進(jìn)就可以作為訓(xùn)練信號(hào)。

　　這種情況自然地發(fā)生在具有正向「生成-驗(yàn)證差距」的問(wèn)題中，比如數(shù)學(xué)、邏輯推理和代碼生成任務(wù)。

　　一種簡(jiǎn)單但有效的方法是利用多數(shù)投票來(lái)挖掘這種差距。實(shí)驗(yàn)表明，這比單個(gè)模型生成的答案有更高的準(zhǔn)確性。

　　在本文的設(shè)置中，多數(shù)投票的步驟包括：

　　對(duì)每個(gè)提示采樣生成多個(gè)答案；

　　根據(jù)解析出的最終解決方案對(duì)答案進(jìn)行分組；

　　用最常見(jiàn)的解決方案（眾數(shù)）來(lái)估計(jì)真實(shí)答案。

　　自進(jìn)化方法SRT

　　研究團(tuán)隊(duì)提出了一種新穎的方法，把模型的自我改進(jìn)過(guò)程設(shè)計(jì)成一個(gè)強(qiáng)化學(xué)習(xí)任務(wù)。

　　在這個(gè)過(guò)程中，標(biāo)簽并不是固定的，而是由模型不斷演變的多數(shù)投票結(jié)果動(dòng)態(tài)生成的。

　　簡(jiǎn)單來(lái)說(shuō)，就是讓模型自己「投票」選出最好的答案，并用這些答案作為指導(dǎo)，逐步提升自己的表現(xiàn)。

　　強(qiáng)化學(xué)習(xí)的每一輪操作可以簡(jiǎn)單理解為以下步驟：

　　采樣一小批提示，然后用當(dāng)前模型為每個(gè)提示生成n個(gè)可能的答案。

　　通過(guò)「多數(shù)投票」的方式，找出每個(gè)提示下最常見(jiàn)的答案，作為臨時(shí)的「標(biāo)準(zhǔn)答案」（偽標(biāo)簽）。

　　檢查每個(gè)生成答案是否與多數(shù)投票的答案一致，如果一致就給它一個(gè)獎(jiǎng)勵(lì)（用公式表示為：r(y) = 1[answer(y) = y_majority]）。

　　根據(jù)這批數(shù)據(jù)和計(jì)算出的獎(jiǎng)勵(lì)，更新一次模型，讓它變得更聰明。

　　具體來(lái)說(shuō)，研究團(tuán)隊(duì)設(shè)計(jì)了一種獎(jiǎng)勵(lì)機(jī)制，巧妙利用模型自洽性來(lái)定義獎(jiǎng)勵(lì)方式。這使得他們的方法能輕松適配常見(jiàn)的強(qiáng)化學(xué)習(xí)算法，比如PPO、RLOO、REINFORCE和REINFORCE+++。

　　另外，由于每個(gè)問(wèn)題提示通常會(huì)生成16到64個(gè)答案，SRT跟其他基于標(biāo)簽的算法相比，不會(huì)增加額外的計(jì)算負(fù)擔(dān)。

　　只要每次強(qiáng)化學(xué)習(xí)迭代時(shí)，多數(shù)投票都能讓模型的生成結(jié)果比驗(yàn)證結(jié)果更好一點(diǎn)，這種反復(fù)的自我獎(jiǎng)勵(lì)就能持續(xù)提供有用的指導(dǎo)信號(hào)，幫助模型不斷進(jìn)步。

　　雖然模型自我改進(jìn)的前景令人振奮，但仍然有局限性：模型自生成的獎(jiǎng)勵(lì)僅僅是衡量潛在正確性的代用指標(biāo)。

　　這種代用獎(jiǎng)勵(lì)可能觸發(fā)「獎(jiǎng)勵(lì)作弊」（reward hacking）：模型為了最大化自身賦予的獎(jiǎng)勵(lì)，會(huì)產(chǎn)出越來(lái)越自洽卻可能并不正確的答案。

　　總的來(lái)說(shuō)，這項(xiàng)研究的貢獻(xiàn)有以下四點(diǎn)：

　　提出了一種簡(jiǎn)單而有效的自訓(xùn)練強(qiáng)化學(xué)習(xí)方法——自獎(jiǎng)勵(lì)訓(xùn)練（SRT）。該方法利用多個(gè)模型生成解之間的一致性來(lái)估計(jì)強(qiáng)化學(xué)習(xí)訓(xùn)練中的正確性，在沒(méi)有標(biāo)記數(shù)據(jù)的情況下提供自監(jiān)督信號(hào)。

　　通過(guò)實(shí)驗(yàn)證明，在早期訓(xùn)練階段，SRT的性能可媲美使用標(biāo)準(zhǔn)答案訓(xùn)練的標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)方法。

　　分析了自生成獎(jiǎng)勵(lì)的局限性，揭示了模型的獎(jiǎng)勵(lì)函數(shù)最初與正確性相關(guān)，但可能會(huì)退化為僅反映置信度而非真實(shí)準(zhǔn)確性，導(dǎo)致獎(jiǎng)勵(lì)作弊問(wèn)題。

　　提出了緩解獎(jiǎng)勵(lì)作弊的策略，為未來(lái)持續(xù)模型改進(jìn)的方法奠定了基礎(chǔ)。

　　實(shí)驗(yàn)結(jié)果

　　最新提出的SRT算法，其優(yōu)勢(shì)和局限是什么？

　　為此，研究人員基于Qwen2.5-Math-7B模型，展開(kāi)了一系列研究，具體回答了以下四大核心問(wèn)題：

　　與基于真實(shí)標(biāo)記的標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)方法相比，SRT算法的有效性如何？對(duì)未見(jiàn)問(wèn)題可以實(shí)現(xiàn)泛化嗎？

　　自我改進(jìn)能否持續(xù)迭代從而實(shí)現(xiàn)性能的不斷提升？抑或這種改進(jìn)存在固有上限？

　　哪些底層因素會(huì)影響自我改進(jìn)的有效性？

　　當(dāng)SRT用于測(cè)試階段的性能提升時(shí)，實(shí)際效果如何？

　　基于多數(shù)投票的自訓(xùn)練

　　如下圖2所示，在MATH和AIME訓(xùn)練集上，自監(jiān)督SRT方法無(wú)需真實(shí)標(biāo)記信號(hào)，即可取得與基于真實(shí)標(biāo)記的強(qiáng)化學(xué)習(xí)相當(dāng)?shù)慕Y(jié)果。

　　值得注意的是，圖2的pass@1分?jǐn)?shù)均是在保留測(cè)試集上評(píng)估的，這表明自訓(xùn)練過(guò)程能穩(wěn)健地泛化到訓(xùn)練分布之外。

　　然而，DAPO數(shù)據(jù)集上的結(jié)果更為復(fù)雜。

　　具體而言，在DAPO上訓(xùn)練時(shí)，研究人員發(fā)現(xiàn)SRT算法在測(cè)試集上的性能，最初以與基于真實(shí)答案的標(biāo)準(zhǔn)RL相當(dāng)?shù)乃俣忍嵘?/p>

　　但在約400-600訓(xùn)練步時(shí)，SRT達(dá)到峰值性能后開(kāi)始下降，而基于真實(shí)標(biāo)記的標(biāo)準(zhǔn)RL訓(xùn)練卻能持續(xù)提升。

　　總體而言，研究發(fā)現(xiàn)了一個(gè)引人注目且出人意料的趨勢(shì)：即使沒(méi)有任何標(biāo)注樣本，SRT的性能曲線在訓(xùn)練初期與基于標(biāo)準(zhǔn)答案的RL高度吻合。

　　在統(tǒng)計(jì)誤差范圍內(nèi)，SRT在MATH和AIME'83-AIME'23數(shù)據(jù)集上的峰值測(cè)試pass@1分?jǐn)?shù)與有監(jiān)督RL方法基本持平。

　　在更具挑戰(zhàn)性的DAPO數(shù)據(jù)集上，SRT仍能達(dá)到RL最終性能的75%。

　　此外，在所有三個(gè)訓(xùn)練集上，SRT的峰值性能相比基礎(chǔ)模型都有約100%的相對(duì)提升。

　　SRT性能峰值后，異常現(xiàn)象分析

　　當(dāng)SRT在DAPO訓(xùn)練集上達(dá)到性能峰值后（見(jiàn)圖2），研究人員觀察到其測(cè)試準(zhǔn)確率開(kāi)始顯著惡化。

　　事實(shí)上，在MATH-12k數(shù)據(jù)集上訓(xùn)練超過(guò)兩個(gè)epoch時(shí)，同樣會(huì)出現(xiàn)明顯的性能崩潰現(xiàn)象。

　　對(duì)于這種行為，作者給出一個(gè)簡(jiǎn)單而精確的理論解釋：

　　由SRT目標(biāo)定義的強(qiáng)化學(xué)習(xí)優(yōu)化問(wèn)題明確鼓勵(lì)輸出之間的一致性，而與正確性無(wú)關(guān)。

　　因此，在該目標(biāo)下的最優(yōu)策略是無(wú)論輸入如何都生成完全相同的響應(yīng)，從而人為地獲得最大可能的獎(jiǎng)勵(lì)。

　　因此，自然可以預(yù)期，在這種代理目標(biāo)下的持續(xù)訓(xùn)練可能導(dǎo)致這種退化解，尤其是當(dāng)優(yōu)化這一目標(biāo)比學(xué)習(xí)解決實(shí)際任務(wù)更容易時(shí)。

　　測(cè)試時(shí)自改進(jìn)

　　自訓(xùn)練的一個(gè)誘人應(yīng)用，是通過(guò)測(cè)試時(shí)訓(xùn)練（test-time training）提升模型準(zhǔn)確率。

　　將SRT作為測(cè)試時(shí)訓(xùn)練技術(shù)應(yīng)用異常簡(jiǎn)單：只需將無(wú)標(biāo)注測(cè)試集完全視作訓(xùn)練數(shù)據(jù)集，并直接應(yīng)用SRT。

　　接下來(lái)，研究人員對(duì)比了經(jīng)過(guò)SRT測(cè)試時(shí)訓(xùn)練后的多數(shù)投票性能，與未進(jìn)行任何測(cè)試時(shí)訓(xùn)練的性能。

　　如下圖4顯示，在maj@32指標(biāo)下，相比直接對(duì)基礎(chǔ)模型生成輸出應(yīng)用主流多數(shù)投票基線，通過(guò)SRR實(shí)現(xiàn)的測(cè)試時(shí)訓(xùn)練能帶來(lái)相對(duì)有限，但仍可察覺(jué)的性能提升。

　　此外，在更大規(guī)模的測(cè)試數(shù)據(jù)集上，相較于基礎(chǔ)模型的多數(shù)投票，其性能增益更為顯著。

　　為何測(cè)試時(shí)訓(xùn)練不會(huì)引發(fā)性能崩潰？

　　有趣的是，測(cè)試時(shí)訓(xùn)練完成后，通過(guò)直觀檢查模型輸出可發(fā)現(xiàn)：盡管模型對(duì)幾乎每個(gè)測(cè)試提示的預(yù)測(cè)都退化成了單一響應(yīng)（這正是SRT目標(biāo)的最優(yōu)解行為），但測(cè)試準(zhǔn)確率仍保持高位。

　　研究人員推測(cè)，測(cè)試時(shí)自訓(xùn)練的穩(wěn)定性源于數(shù)據(jù)集規(guī)模的關(guān)鍵差異。

　　以AIME24測(cè)試數(shù)據(jù)集為例，其僅含30個(gè)自改進(jìn)樣本。

　　在此有限樣本量下，模型會(huì)通過(guò)強(qiáng)化特定CoT推，迅速收斂至這些樣本上的穩(wěn)定多數(shù)投票答案。

　　一旦達(dá)成收斂，SRT便無(wú)法獲得有意義的梯度信號(hào)以進(jìn)一步更新參數(shù)，從而自然穩(wěn)定了測(cè)試時(shí)性能。

　　相比之下，在大規(guī)模數(shù)據(jù)集常規(guī)訓(xùn)練時(shí)，持續(xù)輸入的新樣本會(huì)不斷驅(qū)使模型為一致性進(jìn)行過(guò)度優(yōu)化。

　　在此條件下，模型傾向于采用過(guò)度簡(jiǎn)化的泛化策略（生成相同的\boxed{}答案），最終因輸出與提示無(wú)關(guān)的單一預(yù)測(cè)而崩潰。

　　大模型崩潰，可以避免嗎？

　　那么，LLM是否可以避免崩潰？

　　如上所述，自獎(jiǎng)勵(lì)訓(xùn)練（SRT）的優(yōu)化目標(biāo)，可能導(dǎo)致初期性能顯著提升，但最終引發(fā)模型崩潰。

　　為此，研究人員探究了以下互補(bǔ)策略，以應(yīng)對(duì)模型崩潰問(wèn)題，進(jìn)一步提升自訓(xùn)練性能上限：

　　早停（Early Stopping）策略：利用少量帶標(biāo)注的驗(yàn)證數(shù)據(jù)集監(jiān)測(cè)模型狀態(tài)，及時(shí)終止訓(xùn)練以防止崩潰；

　　算法策略：通過(guò)采用穩(wěn)定基模型（而非持續(xù)更新的模型）生成的偽標(biāo)記，從根本上降低崩潰風(fēng)險(xiǎn)；

　　數(shù)據(jù)驅(qū)動(dòng)的課程學(xué)習(xí)（Curriculum Learning）策略：突破簡(jiǎn)單早停的局限，通過(guò)漸進(jìn)式學(xué)習(xí)機(jī)制提升模型性能。

　　早停策略

　　實(shí)驗(yàn)中，即使僅使用少量標(biāo)注驗(yàn)證數(shù)據(jù)，也能有效識(shí)別自訓(xùn)練過(guò)程中的性能峰值點(diǎn)，從而規(guī)避模型崩潰風(fēng)險(xiǎn)。

　　如圖6所示，通過(guò)在DAPO數(shù)據(jù)集上持續(xù)監(jiān)測(cè)訓(xùn)練過(guò)程并在多個(gè)測(cè)試集上進(jìn)行評(píng)估，作者發(fā)現(xiàn)一個(gè)關(guān)鍵現(xiàn)象：

　　不同保留測(cè)試集上的性能峰值均出現(xiàn)在相近的訓(xùn)練步數(shù)。

　　這一規(guī)律表明，任意一個(gè)測(cè)試集都可用于早停決策。

　　具體而言，圖6中的垂直虛線展示了僅使用1%的DAPO數(shù)據(jù)作為驗(yàn)證集的早停效果——此時(shí)模型在所有其他評(píng)估數(shù)據(jù)集上的性能仍保持接近最優(yōu)水平。

　　算法策略

　　模型崩潰的根源在于SRT（自訓(xùn)練強(qiáng)化學(xué)習(xí)）過(guò)度強(qiáng)調(diào)一致性而非正確性——即使輸出結(jié)果錯(cuò)誤，模型間的一致性也會(huì)被持續(xù)強(qiáng)化。

　　針對(duì)此問(wèn)題，研究人員提出一種簡(jiǎn)單有效的解決方案：從穩(wěn)定的固定檢查點(diǎn)（而非持續(xù)更新的策略）生成偽標(biāo)記。

　　具體實(shí)施中，他們采用Qwen2.5-Math-7B基模型，通過(guò)多數(shù)表決機(jī)制生成偽標(biāo)記，將這些離線生成的標(biāo)記存儲(chǔ)后用于后續(xù)強(qiáng)化學(xué)習(xí)訓(xùn)練。

　　圖7顯示，使用此類離線標(biāo)記不僅能顯著提升訓(xùn)練穩(wěn)定性，還能達(dá)到與SRT相當(dāng)?shù)哪Ｐ托阅堋?/p>

　　這一發(fā)現(xiàn)具有重要啟示：訓(xùn)練過(guò)程中動(dòng)態(tài)更新偽標(biāo)記（在線標(biāo)注）未必能帶來(lái)顯著優(yōu)勢(shì)，反而可能成為訓(xùn)練不穩(wěn)定的誘因。

　　課程學(xué)習(xí)策略

　　此外，研究人員提出一個(gè)關(guān)鍵假設(shè)：模型在更具挑戰(zhàn)性的數(shù)據(jù)集上訓(xùn)練時(shí)，崩潰現(xiàn)象會(huì)更快出現(xiàn)。

　　其內(nèi)在機(jī)理在于：面對(duì)高難度數(shù)據(jù)時(shí)，模型更容易放棄預(yù)訓(xùn)練知識(shí)，轉(zhuǎn)而通過(guò)優(yōu)化自一致性（而非真正學(xué)習(xí)解決任務(wù)）來(lái)獲取獎(jiǎng)勵(lì)。

　　基于此假設(shè)，研究人員采用課程學(xué)習(xí)，通過(guò)篩選DAPO數(shù)據(jù)集中「最簡(jiǎn)單」的子集進(jìn)行訓(xùn)練。

　　具體而言，他們保留根據(jù)以下兩個(gè)指標(biāo)選出的前1/3最簡(jiǎn)單提示樣本：

　　基模型通過(guò)率（需真實(shí)標(biāo)記）

　　多數(shù)表決頻率（無(wú)需真實(shí)標(biāo)記）

　　如圖8所示，在這些簡(jiǎn)單子集上訓(xùn)練能顯著延緩獎(jiǎng)勵(lì)破解現(xiàn)象的出現(xiàn)，使模型在多個(gè)訓(xùn)練周期內(nèi)持續(xù)提升。

　　值得注意的是，采用課程學(xué)習(xí)策略后，模型性能最終達(dá)到了與在整個(gè)DAPO數(shù)據(jù)集上使用真實(shí)標(biāo)記進(jìn)行標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)訓(xùn)練相當(dāng)?shù)乃健?/p>

　　這些突破性結(jié)果表明，課程學(xué)習(xí)策略有望進(jìn)一步拓展SRT的效能邊界，為后續(xù)研究開(kāi)辟了新的方向。

　　參考資料：

　　https://www.alphaxiv.org/overview/2505.21444

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.