99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

4B小模型數(shù)學(xué)推理首超Claude 4,700步RL訓(xùn)練逼近235B性能

0
分享至

Polaris團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

4B模型的數(shù)學(xué)推理能力和頂尖商業(yè)大模型差在哪里?

香港大學(xué)NLP團(tuán)隊(duì)聯(lián)合字節(jié)跳動(dòng)Seed、復(fù)旦大學(xué)發(fā)布名為Polaris的強(qiáng)化學(xué)習(xí)訓(xùn)練配方:

通過Scaling RL,Polaris讓4B模型的數(shù)學(xué)推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一眾商業(yè)大模型,如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

并且,Polaris-4B的輕量化允許在消費(fèi)級(jí)顯卡上部署。



詳細(xì)的blog、訓(xùn)練數(shù)據(jù)、模型和代碼都已全部開源,鏈接可見文末。

圍繞待訓(xùn)練模型進(jìn)行參數(shù)配置

之前的RL訓(xùn)練配方,如DeepScaleR,已經(jīng)展示了Scaling RL在較弱基模型上強(qiáng)大的效果。

但對(duì)于目前最前沿的開源模型(如Qwen3),Scaling RL是否也能復(fù)現(xiàn)如此顯著的提升呢?

Polaris的研究團(tuán)隊(duì)給出了明確回答:可以!

具體來說,Polaris通過僅僅700步的RL訓(xùn)練,成功地讓Qwen3-4B在數(shù)學(xué)推理任務(wù)上接近了其235B版本的表現(xiàn)

只要方法得當(dāng),RL還存在著巨大的開發(fā)潛力。

Polaris的成功的秘籍就是:訓(xùn)練數(shù)據(jù)及超參數(shù)設(shè)置都要圍繞待訓(xùn)練的模型來進(jìn)行設(shè)置

訓(xùn)練數(shù)據(jù)構(gòu)造

Polaris團(tuán)隊(duì)發(fā)現(xiàn),對(duì)于同一份數(shù)據(jù),不同能力的基模型展現(xiàn)出的難度分布呈現(xiàn)出鏡像化的特征。、

對(duì)于DeepScaleR-40K訓(xùn)練集中的每個(gè)樣本,研究人員使用R1-Distill-Qwen-1.5B/7B兩個(gè)模型回答分別推理了8次,再統(tǒng)計(jì)其中正確次數(shù),以此衡量每個(gè)樣本的難度水平。



實(shí)驗(yàn)結(jié)果顯示,大多數(shù)樣本位于兩端(8/8正確解答或0/8正確解答),意味著該數(shù)據(jù)集雖然對(duì)1.5B模型具有挑戰(zhàn)性,卻不足以有效訓(xùn)練7B模型。

Polaris提出,構(gòu)建輕微偏向難題的數(shù)據(jù)分布,形狀就像鏡像J,過度偏向簡(jiǎn)單題或難題的分布都會(huì)使得無(wú)法產(chǎn)生優(yōu)勢(shì)的樣本在每個(gè)batch中占有過大的比例。

Polaris對(duì)開源數(shù)據(jù)DeepScale-40K和AReaL-boba-106k進(jìn)行了篩選,剔除所有8/8正確的樣本,最終形成了53K的初始化數(shù)據(jù)集。



盡管已經(jīng)得到了一個(gè)好的初始化數(shù)據(jù),但它并不是訓(xùn)練數(shù)據(jù)的“最終版本”。

在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,隨著模型對(duì)訓(xùn)練樣本的“掌握率”提高,難題也會(huì)變成簡(jiǎn)單題。

為此,研究團(tuán)隊(duì)在訓(xùn)練中引入了數(shù)據(jù)動(dòng)態(tài)更新策略。訓(xùn)練過程中,每個(gè)樣本的通過率會(huì)隨著reward計(jì)算而實(shí)時(shí)更新。在每個(gè)訓(xùn)練階段結(jié)束時(shí),準(zhǔn)確率過高的樣本將被刪除。

以多樣性為核心的采樣控制

在RL訓(xùn)練中,多樣性被視為提升模型表現(xiàn)的重要因素。好的多樣性使模型能探索更廣泛的推理路徑,避免在訓(xùn)練早期陷入過于確定的策略中。

Rollout階段的多樣性主要通過topp、topk與溫度t來調(diào)控。當(dāng)前大多數(shù)工作都采用topp=1.0和topk=-1,這已經(jīng)達(dá)到了最大的多樣性,但采樣溫度t還沒有統(tǒng)一的設(shè)置。

目前主流的t的設(shè)置方法有兩種:1、采用建議的解碼溫度,如Qwen3 demo中設(shè)置的0.6;2、直接設(shè)置為一個(gè)整數(shù)1.0。

但這兩種做法在Polaris的實(shí)驗(yàn)中都不是最優(yōu)解。

溫度、性能與多樣性的平衡之道



Polaris團(tuán)隊(duì)通過一系列試驗(yàn),分析了采樣溫度與模型準(zhǔn)確率及路徑多樣性之間的關(guān)系。

為了量化采樣軌跡的多樣性,他們采用Distinct N-gram指標(biāo)(n=4)用于衡量生成文本中獨(dú)特連續(xù)詞組的比例:分?jǐn)?shù)越接近1.0,說明生成內(nèi)容越多樣;反之則重復(fù)率較高。

結(jié)果顯示,較高的溫度能顯著提升多樣性,但不同模型在相同溫度下的表現(xiàn)也存在較大差異。從上圖來看,對(duì)于這兩個(gè)模型來說,以0.6作為采樣溫度明顯多樣性是不足的。



但也并非是把溫度設(shè)的越大就越好,也需要考慮性能的變化

Polaris團(tuán)隊(duì)發(fā)現(xiàn)模型性能隨溫度升高呈現(xiàn)“低-高-低”的趨勢(shì)。例如,把采樣溫度設(shè)置成1.0,對(duì)于Deepseek-R1-distill系列模型過高了,而對(duì)于Qwen3系列來說又有點(diǎn)低。

說明理想溫度的設(shè)計(jì)需要針對(duì)待模型進(jìn)行精細(xì)校準(zhǔn),沒有一個(gè)超參數(shù)是適配所有模型的

溫度區(qū)間的定義



Polaris團(tuán)隊(duì)基于實(shí)驗(yàn)趨勢(shì)歸納出模型采樣溫度的三個(gè)區(qū)域:

  • 1.魯棒生成區(qū)(Robust Generation Zone)
  • 在該區(qū)域內(nèi),性能波動(dòng)較小。測(cè)試階段解碼溫度通常就選自魯棒生成區(qū)。
  • 2.控制探索區(qū)(Controlled Exploration Zone)
  • 此區(qū)域的溫度雖然會(huì)導(dǎo)致模型性能較魯棒生成區(qū)略有下降,但降幅在可接受范圍內(nèi),同時(shí)能顯著提升多樣性,適合作為訓(xùn)練溫度使用。
  • 3.性能崩塌區(qū)(Performance Collapse Zone)
  • 當(dāng)采樣溫度超出一定范圍時(shí),性能急劇下降。

根據(jù)上圖規(guī)律,Polaris團(tuán)隊(duì)提出以控制探索區(qū)的溫度作為初始化溫度。



實(shí)驗(yàn)顯示,常用的t=0.6或t=1.0的設(shè)置溫度過低,限制了模型的探索空間,導(dǎo)致難以挖掘RL潛力。

因此,Polaris把Qwen3-4B的初始訓(xùn)練溫度設(shè)置為1.4。

動(dòng)態(tài)溫度調(diào)整



在性能增長(zhǎng)的同時(shí),多樣性同樣也會(huì)發(fā)生偏移。隨著訓(xùn)練收斂,各路徑間共享的N-gram比例增加,探索空間也隨之縮小。

在整個(gè)訓(xùn)練過程中始終使用最開始的溫度,會(huì)導(dǎo)致訓(xùn)練后期多樣性不足

因此,Polaris團(tuán)隊(duì)提出在RL訓(xùn)練過程中動(dòng)態(tài)更新采樣溫度的策略:在每個(gè)階段開始前都進(jìn)行和溫度初始化時(shí)類似的搜索方法,使得后續(xù)階段起始的多樣性分?jǐn)?shù)和第一階段的相似。

舉個(gè)例子,假如第一階段開始的多樣性分?jǐn)?shù)是60,那此后的每個(gè)階段,Polaris團(tuán)隊(duì)都會(huì)選擇一個(gè)能把多樣性分?jǐn)?shù)拉到60的溫度來進(jìn)行訓(xùn)練。



對(duì)比實(shí)驗(yàn)的結(jié)果顯示,采用同一溫度訓(xùn)練到結(jié)束,其效果不及多階段溫度調(diào)整。

多階段溫度調(diào)整不僅帶來了更優(yōu)的RL訓(xùn)練效果,還使得回答長(zhǎng)度的提升更加穩(wěn)定。

思維鏈長(zhǎng)度外推

在訓(xùn)練Qwen3-4B的過程中,一個(gè)顯著難題在于長(zhǎng)上下文訓(xùn)練,因?yàn)槟P捅旧淼幕卮痖L(zhǎng)度就已經(jīng)非常長(zhǎng)了,要繼續(xù)訓(xùn)練的更長(zhǎng)需要更高昂的計(jì)算代價(jià)。

Qwen3-4B的模型預(yù)訓(xùn)練上下文長(zhǎng)度僅有32K,而RL階段Polaris將最大訓(xùn)練長(zhǎng)設(shè)定為52K。但實(shí)際達(dá)到最大序列長(zhǎng)度的訓(xùn)練樣本比例不足10%,意味著真正使用長(zhǎng)文本進(jìn)行訓(xùn)練的樣本非常有限。



為評(píng)估Polaris-4B-Preview的長(zhǎng)文生成能力,Polaris究團(tuán)隊(duì)選取了AIME2024/25中的60題,每題進(jìn)行32次推理,總計(jì)1920個(gè)樣本,并按照回答長(zhǎng)度將其分為三組:

  • 短文本組:回答長(zhǎng)度小于16K;
  • 中等文本組:回答長(zhǎng)度介于16K到32K;
  • 長(zhǎng)文本組:回答長(zhǎng)度超過預(yù)訓(xùn)練長(zhǎng)度32K。

統(tǒng)計(jì)結(jié)果表明,長(zhǎng)文本組的準(zhǔn)確率僅為26%,證明模型在生成超過預(yù)訓(xùn)練長(zhǎng)度的長(zhǎng)CoT時(shí),性能明顯受限。

既然RL在長(zhǎng)上下文長(zhǎng)度的時(shí)候具備劣勢(shì),那么長(zhǎng)CoT性能不佳可能是由于長(zhǎng)文本訓(xùn)練不充分導(dǎo)致。

針對(duì)長(zhǎng)文本訓(xùn)練樣本不足的問題,團(tuán)隊(duì)引入了長(zhǎng)度外推技術(shù)。通過位置編碼RoPE的調(diào)整,模型能夠在推理時(shí)處理超出訓(xùn)練時(shí)所見的更長(zhǎng)序列,進(jìn)而補(bǔ)償長(zhǎng)文本訓(xùn)練中的不足。

具體實(shí)現(xiàn)上,研究團(tuán)隊(duì)采用了YaRN作為外推方法,并設(shè)置擴(kuò)展因子為1.5,如下配置所示:



實(shí)驗(yàn)結(jié)果顯示,通過應(yīng)用該策略,超過32K長(zhǎng)度回答的準(zhǔn)確率由26%提升至超過50%



多階段訓(xùn)練



Polaris采用多階段的訓(xùn)練方式,在早期階段,模型使用較短的上下文窗口;待模型表現(xiàn)收斂后,再逐漸增加上下文窗口的長(zhǎng)度以拓寬模型的推理能力。

盡管這一策略在某些模型下有效,但在多階段訓(xùn)練中,初始階段選擇合適的最大長(zhǎng)度至關(guān)重要,不同基礎(chǔ)模型token利用效率存在差異。



實(shí)驗(yàn)發(fā)現(xiàn),對(duì)于DeepSeek-R1-Distill-Qwen-1.5B/7B,采用較短的響應(yīng)長(zhǎng)度訓(xùn)練效果都較好;但對(duì)Qwen3-4B來說,即使響應(yīng)長(zhǎng)度只有24K且響應(yīng)截?cái)啾壤陀?5%,其性能也會(huì)急劇下降,這種下降即使在后期階段也難以恢復(fù)。



通常來說,從一開始就讓模型“思考更長(zhǎng)”會(huì)更安全:對(duì)于Qwen3-4B,實(shí)驗(yàn)觀察到從零開始使用40K響應(yīng)長(zhǎng)度時(shí)性能穩(wěn)步提升,這與從一開始就采用24K和24K→40K的方案形成了鮮明對(duì)比。

要點(diǎn):當(dāng)計(jì)算資源允許時(shí),直接從官方倉(cāng)庫(kù)建議的最大解碼長(zhǎng)度開始

評(píng)估結(jié)果



Polaris模型需要使用比Qwen3更高的采樣溫度和更長(zhǎng)的響應(yīng)長(zhǎng)度;所有其他設(shè)置保持相同。

對(duì)于AIME24和AIME25,上表報(bào)告了32次運(yùn)行的平均性能。

可以看到,Polaris讓4B模型的數(shù)學(xué)推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一眾商業(yè)大模型,在大多數(shù)評(píng)測(cè)中表現(xiàn)最佳。

notion地址: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1
blog 地址: https://hkunlp.github.io/blog/2025/Polaris/
代碼: https://github.com/ChenxinAn-fdu/POLARIS
Huggingface主頁(yè): https://huggingface.co/POLARIS-Project

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
陳國(guó)軍:一生3段婚姻,兒子陳赫是他的驕傲,最愛最恨都是劉曉慶

陳國(guó)軍:一生3段婚姻,兒子陳赫是他的驕傲,最愛最恨都是劉曉慶

三公子娛樂丫
2025-07-04 16:05:37
恭喜中國(guó)男籃!3首輪開啟盛世?美媒預(yù)測(cè)天才新星順位超楊瀚森

恭喜中國(guó)男籃!3首輪開啟盛世?美媒預(yù)測(cè)天才新星順位超楊瀚森

蛋疼體育
2025-07-08 23:29:46
亞洲第一賭場(chǎng)新東泰覆滅記:性交易泛濫,富商瘋狂砸錢,揮金如土

亞洲第一賭場(chǎng)新東泰覆滅記:性交易泛濫,富商瘋狂砸錢,揮金如土

談史論天地
2025-07-02 20:45:03
上海一超市6顆荔枝298元,工作人員:一款有故事的荔枝,限量供應(yīng)

上海一超市6顆荔枝298元,工作人員:一款有故事的荔枝,限量供應(yīng)

齊魯壹點(diǎn)
2025-07-08 14:39:19
廣東初二男孩被5名同學(xué)圍毆,父親掄起鐵棍將其中一名活活打死,判決結(jié)果出來后,網(wǎng)友不淡定了…

廣東初二男孩被5名同學(xué)圍毆,父親掄起鐵棍將其中一名活活打死,判決結(jié)果出來后,網(wǎng)友不淡定了…

譚老師地理工作室
2025-03-11 12:58:06
阿里納斯提出用喬什·吉迪換勇士隊(duì)庫(kù)明加的交易方案,適配庫(kù)里

阿里納斯提出用喬什·吉迪換勇士隊(duì)庫(kù)明加的交易方案,適配庫(kù)里

好火子
2025-07-10 02:06:43
為什么網(wǎng)上有那么多“低月租+大流量”的卡?去營(yíng)業(yè)廳卻不能辦?

為什么網(wǎng)上有那么多“低月租+大流量”的卡?去營(yíng)業(yè)廳卻不能辦?

號(hào)卡哆哆
2025-07-02 11:52:34
“牡丹花下死,做鬼也風(fēng)流”!如今,誰(shuí)也救不了44歲的宋小寶

“牡丹花下死,做鬼也風(fēng)流”!如今,誰(shuí)也救不了44歲的宋小寶

凡知
2025-07-08 14:52:06
特朗普索要100億美元駐韓軍費(fèi),韓方:將遵守現(xiàn)有協(xié)定

特朗普索要100億美元駐韓軍費(fèi),韓方:將遵守現(xiàn)有協(xié)定

界面新聞
2025-07-09 15:29:44
2008年,北京老光棍買下火葬場(chǎng)旁荒地,15年后殯葬巨頭傻了

2008年,北京老光棍買下火葬場(chǎng)旁荒地,15年后殯葬巨頭傻了

燦爛夏天
2025-07-04 17:39:41
彩繪顏料是苦的,苦得發(fā)麻

彩繪顏料是苦的,苦得發(fā)麻

歷史總在押韻
2025-07-09 00:36:43
夫妻性生活不和諧?試試這些簡(jiǎn)單的方法

夫妻性生活不和諧?試試這些簡(jiǎn)單的方法

精彩分享快樂
2025-07-10 00:34:21
韓鵬出任泰山代理主帥是補(bǔ)墻不是補(bǔ)強(qiáng),王大雷或成為最大輸家

韓鵬出任泰山代理主帥是補(bǔ)墻不是補(bǔ)強(qiáng),王大雷或成為最大輸家

姜大叔侃球
2025-07-09 10:13:32
外媒:伊朗已收到首架殲-10C戰(zhàn)機(jī)和PL-15導(dǎo)彈!

外媒:伊朗已收到首架殲-10C戰(zhàn)機(jī)和PL-15導(dǎo)彈!

荊楚寰宇文樞
2025-07-06 13:00:16
明明大版面記者調(diào)查一下就能結(jié)束的事,為什么要全靠網(wǎng)友瞎猜?

明明大版面記者調(diào)查一下就能結(jié)束的事,為什么要全靠網(wǎng)友瞎猜?

走讀新生
2025-07-09 21:48:02
跌慘了!從300萬(wàn)跌到175萬(wàn),縮水超40%,蘇州一樓盤業(yè)主欲哭無(wú)淚

跌慘了!從300萬(wàn)跌到175萬(wàn),縮水超40%,蘇州一樓盤業(yè)主欲哭無(wú)淚

明月雜談
2025-07-08 14:09:57
袁甲:崔康熙和管理層矛盾的根源就是這賽季球隊(duì)收回了他的引援權(quán)

袁甲:崔康熙和管理層矛盾的根源就是這賽季球隊(duì)收回了他的引援權(quán)

直播吧
2025-07-09 10:12:27
拳王鄒市明,終究還是向生活低頭了!在直播間賣起了雞爪和薯片!

拳王鄒市明,終究還是向生活低頭了!在直播間賣起了雞爪和薯片!

小咪侃娛圈
2025-07-09 13:33:47
突發(fā)!官宣手術(shù)!再簽兩人!弗拉格首秀就炸了!

突發(fā)!官宣手術(shù)!再簽兩人!弗拉格首秀就炸了!

左右為籃
2025-07-09 13:37:58
聽聞賀子珍沒被安排職務(wù),毛主席隨即大怒:難道她的資歷還不夠?

聽聞賀子珍沒被安排職務(wù),毛主席隨即大怒:難道她的資歷還不夠?

顧史
2025-07-07 17:49:58
2025-07-10 03:19:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10827文章數(shù) 176182關(guān)注度
往期回顧 全部

科技要聞

創(chuàng)造歷史,英偉達(dá)成首個(gè)4萬(wàn)億美元上市公司

頭條要聞

紐約市長(zhǎng)候選人稱若當(dāng)選將逮捕內(nèi)塔尼亞胡 特朗普發(fā)聲

頭條要聞

紐約市長(zhǎng)候選人稱若當(dāng)選將逮捕內(nèi)塔尼亞胡 特朗普發(fā)聲

體育要聞

東亞杯-姚偉傳射+世界波邵子欽頭槌 女足2-2韓國(guó)

娛樂要聞

周杰倫開抖音號(hào)瘋漲三百萬(wàn)粉絲

財(cái)經(jīng)要聞

金店業(yè)績(jī)分化 為何"一口價(jià)"賣得更好了?

汽車要聞

比亞迪為智能泊車安全兜底 天神之眼全面OTA升級(jí)

態(tài)度原創(chuàng)

家居
教育
房產(chǎn)
健康
公開課

家居要聞

以光為境 國(guó)寶花園別墅

教育要聞

好大的口氣!一博主直播稱“報(bào)我名字,隨便選班”,校方:已報(bào)警

房產(chǎn)要聞

成交活躍!改善項(xiàng)目霸屏領(lǐng)跑!2025上半年廣州熱盤榜出爐!

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 莱西市| 安国市| 连江县| 龙州县| 天长市| 精河县| 黄龙县| 涪陵区| 衡水市| 乳山市| 阿荣旗| 贡嘎县| 桐城市| 织金县| 凌海市| 罗源县| 鄂温| 湘潭市| 阳新县| 毕节市| 嘉鱼县| 南漳县| 江安县| 黄平县| 平南县| 沙湾县| 大名县| 吉安县| 托克托县| 金溪县| 松溪县| 讷河市| 高平市| 连南| 玛多县| 嵩明县| 黑水县| 松溪县| 桃园市| 南澳县| 富锦市|