99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

「Next-Token」范式改變!剛剛,強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練來了

0
分享至

機(jī)器之心報(bào)道

編輯:張倩、陳陳

誰說強(qiáng)化學(xué)習(xí)只能是蛋糕上的櫻桃,說不定,它也可以是整個(gè)蛋糕呢?



在 2016 年的一次演講中,Yann LeCun 曾將強(qiáng)化學(xué)習(xí)比喻成蛋糕上的櫻桃。他提到,「如果把智能比作一塊蛋糕,那么無監(jiān)督學(xué)習(xí)就是蛋糕的主體,監(jiān)督學(xué)習(xí)就是蛋糕上的糖霜,而強(qiáng)化學(xué)習(xí)則是糖霜上的櫻桃。我們已經(jīng)知道如何制作糖霜和櫻桃,但卻不知道如何制作蛋糕本身。」



從 2016 年至今,LeCun 對(duì)強(qiáng)化學(xué)習(xí)一直不看好。然而,不可否認(rèn)的是,強(qiáng)化學(xué)習(xí)在提升 AI 模型能力方面正變得越來越重要。而且,來自微軟的一項(xiàng)新研究顯示,它不僅在后訓(xùn)練階段發(fā)揮著關(guān)鍵作用,甚至在預(yù)訓(xùn)練階段也展現(xiàn)出巨大的潛力。



在這篇題為「Reinforcement Pre-Training」的論文中,作者提出了一種名為「強(qiáng)化預(yù)訓(xùn)練(RPT)」的新范式。在這種范式中,下一個(gè) token 預(yù)測任務(wù)可以被重新定義為一個(gè)通過強(qiáng)化學(xué)習(xí)訓(xùn)練的推理任務(wù)。在這一任務(wù)中,模型會(huì)因正確預(yù)測給定上下文中的下一個(gè) token 而獲得可驗(yàn)證的獎(jiǎng)勵(lì)。



這就好比在制作蛋糕的過程中,直接將櫻桃融入到蛋糕的主體結(jié)構(gòu)中。





作者指出,RPT 范式的好處在于,它提供了一種可擴(kuò)展的方法,能夠利用海量文本數(shù)據(jù)進(jìn)行通用強(qiáng)化學(xué)習(xí),而無需依賴特定領(lǐng)域的標(biāo)注答案。

通過激勵(lì)模型進(jìn)行下一個(gè) token 的推理,RPT 顯著提升了預(yù)測下一個(gè) token 的語言建模準(zhǔn)確性。此外,RPT 為后續(xù)的強(qiáng)化微調(diào)提供了一個(gè)強(qiáng)大的預(yù)訓(xùn)練基礎(chǔ)。

scaling 曲線表明,隨著訓(xùn)練計(jì)算量的增加,下一個(gè) token 預(yù)測的準(zhǔn)確性持續(xù)提升。這些結(jié)果表明,RPT 是一種有效且有前景的 scaling 范式,能夠推動(dòng)語言模型預(yù)訓(xùn)練的發(fā)展。

不過,由于論文提出的方法比較新,社區(qū)對(duì)該方法的有效性、效率、前景等還有所疑問。







接下來,我們看文章內(nèi)容。

論文概覽



  • 論文標(biāo)題:Reinforcement Pre-Training
  • 論文鏈接:https://www.arxiv.org/pdf/2506.08007

大語言模型(LLMs)通過在海量文本語料庫上采用可擴(kuò)展的對(duì)下一個(gè) token 的預(yù)測,展現(xiàn)出跨多種任務(wù)的卓越能力。這種自監(jiān)督范式已被證明是一種高效的通用預(yù)訓(xùn)練方法。

與此同時(shí),RL 已成為微調(diào)大語言模型的關(guān)鍵技術(shù),既能讓 LLM 符合人類偏好,又能提升諸如復(fù)雜推理等特定技能。

然而,目前 RL 在 LLM 訓(xùn)練中的應(yīng)用面臨著可擴(kuò)展性和通用性方面的挑戰(zhàn)。

一方面,基于人類反饋的強(qiáng)化學(xué)習(xí)雖然在對(duì)齊方面有效,但依賴于昂貴的人類偏好數(shù)據(jù),而且其學(xué)習(xí)到的獎(jiǎng)勵(lì)模型容易受到 reward hacking 攻擊,從而限制了其可擴(kuò)展性。

另一方面,可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí) (RLVR) 利用客觀的、基于規(guī)則的獎(jiǎng)勵(lì),這些獎(jiǎng)勵(lì)通常來自問答對(duì)。雖然這可以緩解 reward hacking 攻擊,但 RLVR 通常受限于數(shù)據(jù)的稀缺性,不能用于通用預(yù)訓(xùn)練。

本文提出了強(qiáng)化預(yù)訓(xùn)練(Reinforcement Pre-Training, RPT)這一新范式,旨在彌合可擴(kuò)展的自監(jiān)督預(yù)訓(xùn)練與強(qiáng)化學(xué)習(xí)能力之間的鴻溝。

RPT 將傳統(tǒng)的對(duì) next-token 的預(yù)測任務(wù)重構(gòu)為對(duì) next-token 的推理過程:對(duì)于預(yù)訓(xùn)練語料中的任意上下文,模型需在預(yù)測前對(duì)后續(xù) Token 進(jìn)行推理,并通過與語料真實(shí)的 next-token 比對(duì)獲得可驗(yàn)證的內(nèi)在獎(jiǎng)勵(lì)。

該方法無需外部標(biāo)注或領(lǐng)域特定獎(jiǎng)勵(lì)函數(shù),即可將傳統(tǒng)用于 next-token 預(yù)測的海量無標(biāo)注文本數(shù)據(jù),轉(zhuǎn)化為適用于通用強(qiáng)化學(xué)習(xí)的大規(guī)模訓(xùn)練資源。

這種方法提供了幾個(gè)關(guān)鍵的優(yōu)點(diǎn)。

首先,RPT 具有固有的可擴(kuò)展性和通用性:該方法充分利用了傳統(tǒng) next-token 預(yù)測所使用的海量無標(biāo)注文本數(shù)據(jù),無需任何外部標(biāo)注,即可將其轉(zhuǎn)化為適用于通用強(qiáng)化學(xué)習(xí)的大規(guī)模訓(xùn)練數(shù)據(jù)集。

其次,使用直接的、基于規(guī)則的獎(jiǎng)勵(lì)信號(hào)本質(zhì)上可以最大限度地降低 reward hacking 風(fēng)險(xiǎn)。

第三,通過明確獎(jiǎng)勵(lì) next-token 推理范式,讓模型能夠進(jìn)行更深入的理解和泛化,而不僅僅是記住下一個(gè) Token。

最后,預(yù)訓(xùn)練期間的內(nèi)部推理過程允許模型為每個(gè)預(yù)測步驟分配更多的思考(計(jì)算資源),這類似于將推理時(shí)間擴(kuò)展能力提前應(yīng)用到訓(xùn)練過程中,從而直接提升下一 Token 預(yù)測的準(zhǔn)確性。

強(qiáng)化預(yù)訓(xùn)練(RPT)詳解

Next-Token 預(yù)測與 Next-Token 推理對(duì)比如下。



在 Next-Token 推理范式下,長思維鏈可以包含各種推理模式,例如自我批評(píng)和自我修正。

Next-Token 推理將預(yù)訓(xùn)練語料庫重構(gòu)為一系列龐大的推理問題,使預(yù)訓(xùn)練不再局限于學(xué)習(xí)表面的 Token 級(jí)關(guān)聯(lián),而是理解其背后的隱藏知識(shí)。

RPT 通過 on-policy 強(qiáng)化學(xué)習(xí)的方式訓(xùn)練大語言模型執(zhí)行 next-token 推理任務(wù),如圖 3 所示。



對(duì)于給定的上下文,提示語言模型生成 G 個(gè)響應(yīng)(思維軌跡)。每個(gè)響應(yīng)由一系列思維推理序列和最終預(yù)測序列 組成。



實(shí)驗(yàn)設(shè)置。本文使用 OmniMATH 數(shù)據(jù)集進(jìn)行強(qiáng)化預(yù)訓(xùn)練,其包含 4,428 道競賽級(jí)數(shù)學(xué)題目及答案。實(shí)驗(yàn)基礎(chǔ)模型為 Deepseek-R1-Distill-Qwen-14B。

實(shí)驗(yàn)結(jié)果

語言建模能力

表 1 顯示了 RPT 方法和基線方法在不同難度級(jí)別測試集上的下一個(gè) token 預(yù)測準(zhǔn)確性。結(jié)果顯示,RPT 在與標(biāo)準(zhǔn)下一個(gè) token 預(yù)測基線和基于推理的預(yù)測基線對(duì)比時(shí)均表現(xiàn)更優(yōu)。

具體來說,與 R1-Distill-Qwen-14B 相比,RPT-14B 在所有難度級(jí)別上都具有更高的下一個(gè) token 預(yù)測準(zhǔn)確率。



值得注意的是,它的性能與一個(gè)更大的模型的性能相媲美,即 R1-Distill-Qwen-32B(圖 4)。這些結(jié)果表明,強(qiáng)化預(yù)訓(xùn)練在捕獲 token 生成背后的復(fù)雜推理信號(hào)方面是有效的,并且在提高 LLM 的語言建模能力方面具有強(qiáng)大的潛力。



強(qiáng)化預(yù)訓(xùn)練的 scaling 特性

如圖 5 所示,RPT 的下一個(gè) token 預(yù)測準(zhǔn)確率隨著訓(xùn)練計(jì)算的擴(kuò)大而可靠地提高。所有難度級(jí)別的高 R2 值表明擬合曲線準(zhǔn)確地捕捉了性能趨勢(shì)。



在 RPT 基礎(chǔ)上進(jìn)行強(qiáng)化微調(diào)

如表 2 所示,經(jīng)過強(qiáng)化預(yù)訓(xùn)練的模型在進(jìn)一步使用 RLVR 進(jìn)行訓(xùn)練時(shí)能夠達(dá)到更高的性能上限。當(dāng)模型持續(xù)使用下一個(gè) token 預(yù)測目標(biāo)在相同數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),其推理能力顯著下降。隨后的 RLVR 訓(xùn)練僅能帶來緩慢的性能提升。這些結(jié)果表明,在數(shù)據(jù)有限的情況下,強(qiáng)化預(yù)訓(xùn)練能夠快速將從下一個(gè) token 推理中學(xué)到的強(qiáng)化推理模式遷移到下游任務(wù)中。



零樣本性能

如表 3 所示,RPT-14B 在所有基準(zhǔn)測試中始終優(yōu)于 R1-Distill-Qwen-14B。值得注意的是,RPT-14B 在 next-token 預(yù)測方面也超越了規(guī)模更大得多的 R1-Distill-Qwen-32B。



Next-Token 推理模式分析

如圖 6 所示,RPT-14B 的 next-token 推理過程與 R1-Distill-Qwen-14B 的問題解決過程明顯不同。表明 next-token 推理引發(fā)的推理過程與結(jié)構(gòu)化問題解決存在質(zhì)的差異。



最后,本文還在表 4 中提供了一個(gè)推理模式的示例。他們表明,RPT-14B 參與的是深思熟慮的過程,而非簡單的模式匹配。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
早年深圳有多亂,看完這些你就知道了?

早年深圳有多亂,看完這些你就知道了?

叮當(dāng)當(dāng)科技
2025-06-12 11:59:10
凱特王妃公開「葬禮計(jì)劃」,進(jìn)入預(yù)備期了

凱特王妃公開「葬禮計(jì)劃」,進(jìn)入預(yù)備期了

麥子熟了
2025-06-11 21:20:28
小米su7女車主連撞8輛汽車,正臉照遭曝光,個(gè)人賬號(hào)被扒引爭議!

小米su7女車主連撞8輛汽車,正臉照遭曝光,個(gè)人賬號(hào)被扒引爭議!

新語愛八卦
2025-06-12 16:49:21
多地緊急叫停國補(bǔ)!萬億補(bǔ)貼到底肥了誰?普通人根本搶不到

多地緊急叫停國補(bǔ)!萬億補(bǔ)貼到底肥了誰?普通人根本搶不到

史行途
2025-06-12 08:25:50
?19萬股民淚奔!“超級(jí)牛”300308,拿下全球第一,徹底爆了!

?19萬股民淚奔!“超級(jí)牛”300308,拿下全球第一,徹底爆了!

看財(cái)經(jīng)show
2025-06-12 16:13:11
哈佛大學(xué)公布咖啡與癌癥的關(guān)系!

哈佛大學(xué)公布咖啡與癌癥的關(guān)系!

尚曦讀史
2025-06-12 10:53:40
看看高鐵有無靠背,證明廁所確實(shí)有門,臺(tái)灣網(wǎng)紅“館長”登陸開啟六天直播之行

看看高鐵有無靠背,證明廁所確實(shí)有門,臺(tái)灣網(wǎng)紅“館長”登陸開啟六天直播之行

環(huán)球網(wǎng)資訊
2025-06-12 06:32:35
收益率超5000倍!泡泡瑪特投資人麥剛,200萬投資獲百億回報(bào)

收益率超5000倍!泡泡瑪特投資人麥剛,200萬投資獲百億回報(bào)

別人都叫我阿腈
2025-06-12 01:22:17
絕!《長安的荔枝》10位演員全是外國籍,國籍五花八門引爭議

絕!《長安的荔枝》10位演員全是外國籍,國籍五花八門引爭議

迪迪的娛樂故事
2025-06-12 05:53:02
中國恢復(fù)稀土供應(yīng)后,美國拋55%關(guān)稅,川普:中方習(xí)慣了美國讓步

中國恢復(fù)稀土供應(yīng)后,美國拋55%關(guān)稅,川普:中方習(xí)慣了美國讓步

國際阿嘗
2025-06-12 14:19:33
為何天安門升旗只升28.3米,這是作為中國人你必須知道的事

為何天安門升旗只升28.3米,這是作為中國人你必須知道的事

神奇故事
2025-06-09 23:53:51
以色列激怒俄羅斯,俄高官警告:只要打擊以色列,俄先進(jìn)導(dǎo)彈管夠

以色列激怒俄羅斯,俄高官警告:只要打擊以色列,俄先進(jìn)導(dǎo)彈管夠

龍炎校尉
2025-06-11 09:28:59
難以置信!某縣勞務(wù)派遣名單驚現(xiàn)985研究生,南開大學(xué)赫然上榜…

難以置信!某縣勞務(wù)派遣名單驚現(xiàn)985研究生,南開大學(xué)赫然上榜…

火山詩話
2025-06-12 19:10:44
獨(dú)行俠正式交易濃眉,湖人僅一步之遙,方案引發(fā)熱議。

獨(dú)行俠正式交易濃眉,湖人僅一步之遙,方案引發(fā)熱議。

開心芒果
2025-06-12 14:57:20
禁酒令下,小縣城的餐館更難了!

禁酒令下,小縣城的餐館更難了!

娛樂的硬糖吖
2025-06-12 02:29:15
為什么說要提防巴基斯坦,看看這群辱華小孩就知道了!

為什么說要提防巴基斯坦,看看這群辱華小孩就知道了!

老友科普
2025-06-12 16:00:03
G.E.M.鄧紫棋自爆因官司6年沒收到版稅, 重錄舊作反擊:死而復(fù)活

G.E.M.鄧紫棋自爆因官司6年沒收到版稅, 重錄舊作反擊:死而復(fù)活

粵睇先生
2025-06-12 15:49:21
張怡寧參加婚禮哭了,64歲丈夫一直咳嗽,看著很老,還是袁立前任

張怡寧參加婚禮哭了,64歲丈夫一直咳嗽,看著很老,還是袁立前任

娛圈小愚
2025-06-12 10:58:20
國臺(tái)辦:馬英九等超7000名臺(tái)灣各界人士將受邀參加第十七屆海峽論壇

國臺(tái)辦:馬英九等超7000名臺(tái)灣各界人士將受邀參加第十七屆海峽論壇

新華社
2025-06-11 20:04:51
教宗良十四世,任命首位中國(輔理)主教

教宗良十四世,任命首位中國(輔理)主教

意訊
2025-06-12 16:15:49
2025-06-12 22:07:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10630文章數(shù) 142337關(guān)注度
往期回顧 全部

科技要聞

一鏡雙目捅破天,華為最快明年Q2超越蘋果

頭條要聞

特朗普發(fā)帖稱中美關(guān)系非常好 外交部回應(yīng)

頭條要聞

特朗普發(fā)帖稱中美關(guān)系非常好 外交部回應(yīng)

體育要聞

沒有人會(huì)不喜歡TJ-麥康奈爾

娛樂要聞

鄧紫棋自爆因官司6年沒收到版稅, 重錄舊作反擊

財(cái)經(jīng)要聞

787客機(jī)首起空難 波音飛機(jī)事故頻發(fā)引質(zhì)疑

汽車要聞

方程豹最大SUV比豹8便宜?鈦7搭華為智駕

態(tài)度原創(chuàng)

旅游
教育
房產(chǎn)
親子
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

“媽媽你放棄我了嗎?”17歲女孩面相大變!全網(wǎng)熱議:養(yǎng)孩子,就是養(yǎng)她的面相

房產(chǎn)要聞

18位頂級(jí)買家瘋搶!凱旋新世界,憑何成為廣州頂豪終極價(jià)值錨點(diǎn)?

親子要聞

兒童正念冥想:親子幸福的充電站,全然接納!

軍事要聞

日方:山東艦艦載機(jī)"異常接近"日本軍機(jī)

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 郴州市| 嘉义县| 旌德县| 荥经县| 汪清县| 溧阳市| 宁河县| 垣曲县| 万年县| 平邑县| 都匀市| 远安县| 汶川县| 平安县| 神池县| 曲周县| 厦门市| 托克逊县| 广昌县| 云阳县| 仁布县| 磐安县| 社旗县| 新蔡县| 安顺市| 高陵县| 资溪县| 婺源县| 大同市| 河北区| 班玛县| 钟山县| 江油市| 汉川市| 永修县| 东丰县| 兰坪| 咸阳市| 池州市| 青田县| 丹巴县|