99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

MSRA清北推出強化預訓練!取代傳統自監督,14B模型媲美32B

0
分享至

鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI

“預測下一個token”——這個支撐LLM的核心訓練機制,正在被強化學習顛覆。

微軟亞洲研究院(MSRA)聯合清華大學、北京大學提出全新預訓練范式RPT(強化預訓練),首次將強化學習深度融入預訓練階段,讓模型在預測每個token前都能先“動腦推理”,并根據推理正確性獲得獎勵。



傳統預訓練依賴海量文本進行自監督學習,模型通過簡單預測下一個token建立語言能力,作者將之比喻為一塊蛋糕胚,而RL只是作為上面點綴的一顆櫻桃。

現在RPT要做的就是用櫻桃直接做蛋糕,即將這一過程重構為推理任務,促進模型更深層次理解和提升下一個token的預測準確度。



那這塊櫻桃蛋糕到底怎么做?詳細烘焙流程我們接著往下看。

將強化學習引入預訓練

傳統的預訓練方法采用自監督的下一個token預測任務,而RL通常承擔微調LLM的功能,使其與人類偏好對齊或者增強復雜推理。

然而基于人類反饋的強化學習(RLHF)過度依賴昂貴數據,且模型容易受到獎勵破解;可驗證獎勵的強化學習(RLVR)也會受到數據稀缺的限制,只能應用于特定領域的微調。

為了讓強化學習更好地作用于LLM,團隊提出的全新范式強化預訓練RPT,激勵使用RL進行有效的Next-Token推理任務,將預訓練語料庫重構為推理問題集,推動預訓練從學習表面的token相關性轉為理解深層含義。

模型首先需要對多個token生成一個思維鏈推理序列,涉及多種推理模式(如頭腦風暴、自我批評和自我糾正),然后再為下一個token生成預測。



具體來說,RPT就是通過讓LLM同策略(on-policy)執行,以生成多條不同的思維軌跡,每條軌跡包含中間推理步驟和對下一個token的最終預測。

引入前綴匹配獎勵,驗證預測的正確性。如果預測與真實token匹配,則分配正獎勵1,反之為0。該獎勵信號將用于更新LLM,以鼓勵生成能準確延續上下文的軌跡。



團隊使用包含4428個競賽數學問題及答案的OmniMATH數據集,并通過計算下一token的熵和設定閾值,進行數據過濾,只保留更難預測的token參與訓練。

另外采用Deepseek-R1-Distill-Qwen-14B作為基礎模型,使用GRPO算法和8K的訓練長度,批大小為256個問題,每個問題采樣8個響應。

更深層次的推理

實驗表明,與R1-Distill-Queen-14B相比,RPT-14B在三種難度(簡單、中等、困難)上均實現了更高的下一個token預測準確率,優于標準下一token預測基線和使用推理的預測基線。



在性能上,也可與更大的模型R1-Distill-Queen-32B相媲美,說明RPT能有效捕捉token生成背后的復雜推理信號,并在提升LLM的語言建模能力方面擁有巨大潛力。



RPT在跨難度的訓練計算方面,也表現出清晰的冪律縮放(Power-law Scaling),預測準確性隨著計算的增加而不斷提高,并且與理論曲線緊密擬合。



與傳統的使用下一個token預測相比,在具有可驗證答案的問題(即Skywork-OR1)上,使用RL微調RPT模型顯示出更強的推理能力

在數據有限的情況下,可以快速將從下一token推理中學習到的強化推理模式遷移至最終任務。



另外模型在SuperGPQA和MMLU-Pro基準測試上的零樣本評估表明,RPT-14B不僅優于R1-Distill-Queen-14B,還在推理模式中顯著超過了R1-Distill-Qwen-32B。



最后團隊還對推理軌跡進行分析,發現與顯式問題解決模型相比,RPT-14B采用了更多的假設生成、替代方案的考慮以及對結構線索甚至顆粒度token級細節的反思。

既包含高級語義理解,又包含低級文本特征,說明RPT在訓練過程中會培養更深層次的推理習慣



One More Thing

這個著名的“蛋糕論”最早出自圖靈獎得主Yann LeCun在2016年的演講。

  • 如果智能是一塊蛋糕,那么大部分蛋糕都是無監督學習,蛋糕上的裱花是監督學習,而蛋糕頂部的櫻桃則是強化學習。



而現在試圖用強化學習碾碎這塊蛋糕的,還有OpenAI



在上個月紅杉組織的AI Ascent活動中,OpenAI科學家Dan Roberts就提及了他們在將RL置于模型預訓練過程中的轉變。

在GPT-4o中全是傳統預訓練計算,在o1中引入了一些強化學習運算并且取得了不錯的效果,在o3中則引入更多,他們預計在未來的某一代模型中,將會完全由RL計算主導



有理由相信,未來RL或許將在LLM預訓練過程中掀起更大的風暴,且讓我們拭目以待。

論文鏈接:https://arxiv.org/abs/2506.08007

參考鏈接:
[1]https://x.com/omarsar0/status/1932522665182703664
[2]https://x.com/qx_dong/status/1932268949238067482
[3]https://www.youtube.com/watch?v=_rjD_2zn2JU

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
【2025.6.12】陳飛宇張婧儀二搭?章子怡為什么沒捧張雪迎?李昀銳小小上桌?黃炎和傅瀟倩?孫紅雷私下?

【2025.6.12】陳飛宇張婧儀二搭?章子怡為什么沒捧張雪迎?李昀銳小小上桌?黃炎和傅瀟倩?孫紅雷私下?

娛樂真爆姐
2025-06-12 23:15:04
印度客機墜毀,一名空姐的家人翻著相冊,跪地痛哭

印度客機墜毀,一名空姐的家人翻著相冊,跪地痛哭

瀟湘晨報
2025-06-12 22:44:09
醫生研究發現:老年人一旦做過白內障手術,這5件事就別再做了

醫生研究發現:老年人一旦做過白內障手術,這5件事就別再做了

艾米手工作品
2025-06-12 08:16:44
名記:尼克斯魯莽解雇錫伯杜后四處碰壁 我從未見過這種情況

名記:尼克斯魯莽解雇錫伯杜后四處碰壁 我從未見過這種情況

直播吧
2025-06-13 00:23:39
水均益回國了,手持祖國護照,龍鳳胎罕見露面,氣質遠勝國內少年

水均益回國了,手持祖國護照,龍鳳胎罕見露面,氣質遠勝國內少年

簡讀視覺
2025-06-13 01:19:12
趙麗穎在成都40度的天戴假發,滿臉不耐煩,裹抹胸“床單”好危險

趙麗穎在成都40度的天戴假發,滿臉不耐煩,裹抹胸“床單”好危險

大歪歪
2025-06-12 12:52:43
74歲劉曉慶突傳消息!全部取消

74歲劉曉慶突傳消息!全部取消

大象新聞
2025-06-12 11:58:06
咖啡“續命”實錘!研究表明:每天1.5-3杯,全因死亡風險降低30%,皮膚衰老風險降低 15%,延長壽命1.8年

咖啡“續命”實錘!研究表明:每天1.5-3杯,全因死亡風險降低30%,皮膚衰老風險降低 15%,延長壽命1.8年

梅斯醫學
2025-01-06 07:39:00
G.E.M.鄧紫棋自爆因官司6年沒收到版稅, 重錄舊作反擊:死而復活

G.E.M.鄧紫棋自爆因官司6年沒收到版稅, 重錄舊作反擊:死而復活

粵睇先生
2025-06-12 15:49:21
787全球首次全機墜毀!印航空難,鳥擊還是機械故障?

787全球首次全機墜毀!印航空難,鳥擊還是機械故障?

吃瓜體
2025-06-12 23:53:11
阿里離職員工元安回應內網貼:感謝馬云祝福,不是高管,希望大家不要消費馬老師!發帖IP顯示定位在新西蘭

阿里離職員工元安回應內網貼:感謝馬云祝福,不是高管,希望大家不要消費馬老師!發帖IP顯示定位在新西蘭

和訊網
2025-06-12 17:34:55
很嚴重了,這一次,很多人都熬不過去

很嚴重了,這一次,很多人都熬不過去

江湖人稱艾掌門
2025-06-10 16:06:26
日本足協主席:世界杯若能進8強、4強甚至奪冠,將是巨大突破

日本足協主席:世界杯若能進8強、4強甚至奪冠,將是巨大突破

懂球帝
2025-06-12 11:52:19
中紀委劃紅線!機關事業單位職工下班后,不能去這8類場所

中紀委劃紅線!機關事業單位職工下班后,不能去這8類場所

戶外釣魚哥阿勇
2025-06-11 15:02:54
大爆冷!聯盟第一轟然倒下!誰是輸球罪魁禍首?數據不會說謊

大爆冷!聯盟第一轟然倒下!誰是輸球罪魁禍首?數據不會說謊

籃球掃地僧
2025-06-12 11:51:33
朝中社:金正恩向普京致賀電

朝中社:金正恩向普京致賀電

參考消息
2025-06-12 17:44:33
末節3分純隱身!SGA怒砍24+6失誤遭嘲諷聲擊敗 總決賽最差一戰

末節3分純隱身!SGA怒砍24+6失誤遭嘲諷聲擊敗 總決賽最差一戰

顏小白的籃球夢
2025-06-12 11:24:46
大快人心!封神美劇評分跌至6.6后,HBO終于怒換女主

大快人心!封神美劇評分跌至6.6后,HBO終于怒換女主

來看美劇
2025-06-12 14:50:57
一條重磅房地產政策,近期可能落地!

一條重磅房地產政策,近期可能落地!

老楊聊房
2025-06-12 18:40:51
比汪小菲還慘?王思聰突傳噩耗,他也走上了父親王健林老路

比汪小菲還慘?王思聰突傳噩耗,他也走上了父親王健林老路

傲傲講歷史
2025-06-12 11:39:55
2025-06-13 02:48:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10647文章數 176167關注度
往期回顧 全部

科技要聞

一鏡雙目捅破天,華為最快明年Q2超越蘋果

頭條要聞

印度墜機幸存者:我站起來時周圍都是尸體 嚇壞了

頭條要聞

印度墜機幸存者:我站起來時周圍都是尸體 嚇壞了

體育要聞

沒有人會不喜歡TJ-麥康奈爾

娛樂要聞

鄧紫棋自爆因官司6年沒收到版稅, 重錄舊作反擊

財經要聞

787客機首起空難 波音飛機事故頻發引質疑

汽車要聞

方程豹最大SUV比豹8便宜?鈦7搭華為智駕

態度原創

藝術
教育
家居
手機
本地

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

石室聯中的高中公布師資了!清一色“老教師”

家居要聞

精致奢華 豐富的連貫空間

手機要聞

iPhone一季度全球減產40%:小米即將反超蘋果

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 霍山县| 东台市| 达孜县| 韩城市| 万全县| 小金县| 盐池县| 莲花县| 牟定县| 镇沅| 承德市| 乌兰察布市| 扎兰屯市| 阿尔山市| 邮箱| 驻马店市| 皋兰县| 班玛县| 景洪市| 谢通门县| 南投县| 博湖县| 靖远县| 志丹县| 喀什市| 新津县| 会同县| 宁德市| 望都县| 和田市| 东安县| 辽源市| 江城| 叙永县| 永吉县| 凯里市| 封丘县| 常熟市| 图木舒克市| 双辽市| 万宁市|