99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

「Next-Token」范式改變!剛剛,強化學習預訓練來了

0
分享至

機器之心報道

編輯:張倩、陳陳

誰說強化學習只能是蛋糕上的櫻桃,說不定,它也可以是整個蛋糕呢?



在 2016 年的一次演講中,Yann LeCun 曾將強化學習比喻成蛋糕上的櫻桃。他提到,「如果把智能比作一塊蛋糕,那么無監督學習就是蛋糕的主體,監督學習就是蛋糕上的糖霜,而強化學習則是糖霜上的櫻桃。我們已經知道如何制作糖霜和櫻桃,但卻不知道如何制作蛋糕本身。」



從 2016 年至今,LeCun 對強化學習一直不看好。然而,不可否認的是,強化學習在提升 AI 模型能力方面正變得越來越重要。而且,來自微軟的一項新研究顯示,它不僅在后訓練階段發揮著關鍵作用,甚至在預訓練階段也展現出巨大的潛力。



在這篇題為「Reinforcement Pre-Training」的論文中,作者提出了一種名為「強化預訓練(RPT)」的新范式。在這種范式中,下一個 token 預測任務可以被重新定義為一個通過強化學習訓練的推理任務。在這一任務中,模型會因正確預測給定上下文中的下一個 token 而獲得可驗證的獎勵。



這就好比在制作蛋糕的過程中,直接將櫻桃融入到蛋糕的主體結構中。





作者指出,RPT 范式的好處在于,它提供了一種可擴展的方法,能夠利用海量文本數據進行通用強化學習,而無需依賴特定領域的標注答案。

通過激勵模型進行下一個 token 的推理,RPT 顯著提升了預測下一個 token 的語言建模準確性。此外,RPT 為后續的強化微調提供了一個強大的預訓練基礎。

scaling 曲線表明,隨著訓練計算量的增加,下一個 token 預測的準確性持續提升。這些結果表明,RPT 是一種有效且有前景的 scaling 范式,能夠推動語言模型預訓練的發展。

不過,由于論文提出的方法比較新,社區對該方法的有效性、效率、前景等還有所疑問。







接下來,我們看文章內容。

論文概覽



  • 論文標題:Reinforcement Pre-Training
  • 論文鏈接:https://www.arxiv.org/pdf/2506.08007

大語言模型(LLMs)通過在海量文本語料庫上采用可擴展的對下一個 token 的預測,展現出跨多種任務的卓越能力。這種自監督范式已被證明是一種高效的通用預訓練方法。

與此同時,RL 已成為微調大語言模型的關鍵技術,既能讓 LLM 符合人類偏好,又能提升諸如復雜推理等特定技能。

然而,目前 RL 在 LLM 訓練中的應用面臨著可擴展性和通用性方面的挑戰。

一方面,基于人類反饋的強化學習雖然在對齊方面有效,但依賴于昂貴的人類偏好數據,而且其學習到的獎勵模型容易受到 reward hacking 攻擊,從而限制了其可擴展性。

另一方面,可驗證獎勵的強化學習 (RLVR) 利用客觀的、基于規則的獎勵,這些獎勵通常來自問答對。雖然這可以緩解 reward hacking 攻擊,但 RLVR 通常受限于數據的稀缺性,不能用于通用預訓練。

本文提出了強化預訓練(Reinforcement Pre-Training, RPT)這一新范式,旨在彌合可擴展的自監督預訓練與強化學習能力之間的鴻溝。

RPT 將傳統的對 next-token 的預測任務重構為對 next-token 的推理過程:對于預訓練語料中的任意上下文,模型需在預測前對后續 Token 進行推理,并通過與語料真實的 next-token 比對獲得可驗證的內在獎勵。

該方法無需外部標注或領域特定獎勵函數,即可將傳統用于 next-token 預測的海量無標注文本數據,轉化為適用于通用強化學習的大規模訓練資源。

這種方法提供了幾個關鍵的優點。

首先,RPT 具有固有的可擴展性和通用性:該方法充分利用了傳統 next-token 預測所使用的海量無標注文本數據,無需任何外部標注,即可將其轉化為適用于通用強化學習的大規模訓練數據集。

其次,使用直接的、基于規則的獎勵信號本質上可以最大限度地降低 reward hacking 風險。

第三,通過明確獎勵 next-token 推理范式,讓模型能夠進行更深入的理解和泛化,而不僅僅是記住下一個 Token。

最后,預訓練期間的內部推理過程允許模型為每個預測步驟分配更多的思考(計算資源),這類似于將推理時間擴展能力提前應用到訓練過程中,從而直接提升下一 Token 預測的準確性。

強化預訓練(RPT)詳解

Next-Token 預測與 Next-Token 推理對比如下。



在 Next-Token 推理范式下,長思維鏈可以包含各種推理模式,例如自我批評和自我修正。

Next-Token 推理將預訓練語料庫重構為一系列龐大的推理問題,使預訓練不再局限于學習表面的 Token 級關聯,而是理解其背后的隱藏知識。

RPT 通過 on-policy 強化學習的方式訓練大語言模型執行 next-token 推理任務,如圖 3 所示。



對于給定的上下文,提示語言模型生成 G 個響應(思維軌跡)。每個響應由一系列思維推理序列和最終預測序列 組成。



實驗設置。本文使用 OmniMATH 數據集進行強化預訓練,其包含 4,428 道競賽級數學題目及答案。實驗基礎模型為 Deepseek-R1-Distill-Qwen-14B。

實驗結果

語言建模能力

表 1 顯示了 RPT 方法和基線方法在不同難度級別測試集上的下一個 token 預測準確性。結果顯示,RPT 在與標準下一個 token 預測基線和基于推理的預測基線對比時均表現更優。

具體來說,與 R1-Distill-Qwen-14B 相比,RPT-14B 在所有難度級別上都具有更高的下一個 token 預測準確率。



值得注意的是,它的性能與一個更大的模型的性能相媲美,即 R1-Distill-Qwen-32B(圖 4)。這些結果表明,強化預訓練在捕獲 token 生成背后的復雜推理信號方面是有效的,并且在提高 LLM 的語言建模能力方面具有強大的潛力。



強化預訓練的 scaling 特性

如圖 5 所示,RPT 的下一個 token 預測準確率隨著訓練計算的擴大而可靠地提高。所有難度級別的高 R2 值表明擬合曲線準確地捕捉了性能趨勢。



在 RPT 基礎上進行強化微調

如表 2 所示,經過強化預訓練的模型在進一步使用 RLVR 進行訓練時能夠達到更高的性能上限。當模型持續使用下一個 token 預測目標在相同數據上進行訓練時,其推理能力顯著下降。隨后的 RLVR 訓練僅能帶來緩慢的性能提升。這些結果表明,在數據有限的情況下,強化預訓練能夠快速將從下一個 token 推理中學到的強化推理模式遷移到下游任務中。



零樣本性能

如表 3 所示,RPT-14B 在所有基準測試中始終優于 R1-Distill-Qwen-14B。值得注意的是,RPT-14B 在 next-token 預測方面也超越了規模更大得多的 R1-Distill-Qwen-32B。



Next-Token 推理模式分析

如圖 6 所示,RPT-14B 的 next-token 推理過程與 R1-Distill-Qwen-14B 的問題解決過程明顯不同。表明 next-token 推理引發的推理過程與結構化問題解決存在質的差異。



最后,本文還在表 4 中提供了一個推理模式的示例。他們表明,RPT-14B 參與的是深思熟慮的過程,而非簡單的模式匹配。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
邵佳一:趙發慶是老前輩,相信他能把大連鯤城帶到很高的水平

邵佳一:趙發慶是老前輩,相信他能把大連鯤城帶到很高的水平

懂球帝
2025-06-21 22:01:18
我繳10萬,可一查才發現,個人賬戶僅4萬,剩下的6萬元被“吞噬”

我繳10萬,可一查才發現,個人賬戶僅4萬,剩下的6萬元被“吞噬”

社保精算師
2025-03-25 20:47:03
美記:如果步行者贏下搶七,將成為NBA歷史以最大黑馬身份奪冠的球隊

美記:如果步行者贏下搶七,將成為NBA歷史以最大黑馬身份奪冠的球隊

雷速體育
2025-06-21 07:37:31
俗語“過了夏至節,夫妻各自歇”,是什么意思?聽聽老祖宗的忠告

俗語“過了夏至節,夫妻各自歇”,是什么意思?聽聽老祖宗的忠告

金沛的國學筆記
2025-06-21 17:44:44
不愿相信!凱特缺席賽馬會是因病情危急,此前已有化療面具征兆

不愿相信!凱特缺席賽馬會是因病情危急,此前已有化療面具征兆

李橑在北漂
2025-06-21 09:01:46
美航母去中東后,解放軍上強度50架軍機四面圍島,島內亂成一鍋粥

美航母去中東后,解放軍上強度50架軍機四面圍島,島內亂成一鍋粥

大道無形我有型
2025-06-20 14:51:10
重磅!湖人已瞄準灰熊DPOY猛將?美記爆驚天交易方案!

重磅!湖人已瞄準灰熊DPOY猛將?美記爆驚天交易方案!

田先生籃球
2025-06-21 12:21:17
事件大反轉?趙一鳴被搶后續,知情人爆更多信息,稱店員指使

事件大反轉?趙一鳴被搶后續,知情人爆更多信息,稱店員指使

歸史
2025-06-21 14:38:39
一天5個瓜,被曝懷孕、人設崩塌,娛樂圈的瓜一個比一個勁爆

一天5個瓜,被曝懷孕、人設崩塌,娛樂圈的瓜一個比一個勁爆

觀察鑒娛
2025-06-21 15:02:50
這個畢設,尺度真大!

這個畢設,尺度真大!

MICU設計
2025-06-18 11:23:49
海外最強華裔!土媒:費內巴切將報價1000萬歐,求購華裔中場天樂

海外最強華裔!土媒:費內巴切將報價1000萬歐,求購華裔中場天樂

直播吧
2025-06-20 17:00:17
發廊一店員跪著給顧客洗頭,男顧客很享受,網友:感覺有些擦邊

發廊一店員跪著給顧客洗頭,男顧客很享受,網友:感覺有些擦邊

唐小糖說情感
2025-06-17 09:40:21
死傷數倍于鄰國也要咬下人家一塊土地這場戰爭與俄烏戰爭何其相似

死傷數倍于鄰國也要咬下人家一塊土地這場戰爭與俄烏戰爭何其相似

通往遠方的路
2025-05-12 09:50:32
底層百姓越來越感覺到社保已經變成他們買不起的奢侈品!

底層百姓越來越感覺到社保已經變成他們買不起的奢侈品!

逍遙論經
2025-06-15 10:25:36
中甲門將微博爆雷!李平康再曝猛料:現役國腳級球員已被帶走

中甲門將微博爆雷!李平康再曝猛料:現役國腳級球員已被帶走

銜春信
2025-06-21 07:53:42
步行者3-3雷霆,搶七大戰誰奪冠?名嘴蘇群7字回應,NBA掌控不了

步行者3-3雷霆,搶七大戰誰奪冠?名嘴蘇群7字回應,NBA掌控不了

河山銳新聞
2025-06-21 11:44:16
2813枚核彈24小時待命,張召忠發出警告:一旦開戰無處可逃

2813枚核彈24小時待命,張召忠發出警告:一旦開戰無處可逃

青途歷史
2025-06-20 20:34:06
申請離隊,李月汝官宣,原因找到,女籃計劃或打亂,李夢祝福

申請離隊,李月汝官宣,原因找到,女籃計劃或打亂,李夢祝福

樂聊球
2025-06-05 10:11:21
原來那兒納茜同學沒說謊!清北近半學生,不是直接高考考進去的

原來那兒納茜同學沒說謊!清北近半學生,不是直接高考考進去的

深析古今
2025-06-21 22:47:43
王石再預測中國未來房地產走向:若無意外,大概率又是對的!

王石再預測中國未來房地產走向:若無意外,大概率又是對的!

巢客HOME
2025-03-21 09:10:03
2025-06-21 23:55:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10687文章數 142343關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

健康
家居
教育
游戲
軍事航空

呼吸科專家破解呼吸道九大謠言!

家居要聞

山水之間 墨染風雨云間

教育要聞

2025北京高招變數大!這些志愿填報的坑,千萬別踩!

韓國虛幻5重磅動作新作來了!上架多平臺 2026發售

軍事要聞

伊朗展示破壞力最強導彈

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 从江县| 社会| 铁力市| 三河市| 鄂尔多斯市| 桑植县| 吉隆县| 天水市| 宁阳县| 贵阳市| 青阳县| 湘潭市| 东明县| 龙海市| 龙门县| 上林县| 靖江市| 赣榆县| 鄱阳县| 德化县| 朔州市| 江华| 武安市| 石屏县| 文昌市| 吉水县| 保德县| 武强县| 昌都县| 江油市| 东台市| 西安市| 驻马店市| 七台河市| 凉山| 巫山县| 常州市| 长阳| 东乡县| 岫岩| 墨竹工卡县|