99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

4B小模型數學推理首超Claude 4,700步RL訓練逼近235B性能

0
分享至

Polaris團隊 投稿
量子位 | 公眾號 QbitAI

4B模型的數學推理能力和頂尖商業大模型差在哪里?

香港大學NLP團隊聯合字節跳動Seed、復旦大學發布名為Polaris的強化學習訓練配方:

通過Scaling RL,Polaris讓4B模型的數學推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一眾商業大模型,如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

并且,Polaris-4B的輕量化允許在消費級顯卡上部署。



詳細的blog、訓練數據、模型和代碼都已全部開源,鏈接可見文末。

圍繞待訓練模型進行參數配置

之前的RL訓練配方,如DeepScaleR,已經展示了Scaling RL在較弱基模型上強大的效果。

但對于目前最前沿的開源模型(如Qwen3),Scaling RL是否也能復現如此顯著的提升呢?

Polaris的研究團隊給出了明確回答:可以!

具體來說,Polaris通過僅僅700步的RL訓練,成功地讓Qwen3-4B在數學推理任務上接近了其235B版本的表現

只要方法得當,RL還存在著巨大的開發潛力。

Polaris的成功的秘籍就是:訓練數據及超參數設置都要圍繞待訓練的模型來進行設置

訓練數據構造

Polaris團隊發現,對于同一份數據,不同能力的基模型展現出的難度分布呈現出鏡像化的特征。、

對于DeepScaleR-40K訓練集中的每個樣本,研究人員使用R1-Distill-Qwen-1.5B/7B兩個模型回答分別推理了8次,再統計其中正確次數,以此衡量每個樣本的難度水平。



實驗結果顯示,大多數樣本位于兩端(8/8正確解答或0/8正確解答),意味著該數據集雖然對1.5B模型具有挑戰性,卻不足以有效訓練7B模型。

Polaris提出,構建輕微偏向難題的數據分布,形狀就像鏡像J,過度偏向簡單題或難題的分布都會使得無法產生優勢的樣本在每個batch中占有過大的比例。

Polaris對開源數據DeepScale-40K和AReaL-boba-106k進行了篩選,剔除所有8/8正確的樣本,最終形成了53K的初始化數據集。



盡管已經得到了一個好的初始化數據,但它并不是訓練數據的“最終版本”。

在強化學習訓練過程中,隨著模型對訓練樣本的“掌握率”提高,難題也會變成簡單題。

為此,研究團隊在訓練中引入了數據動態更新策略。訓練過程中,每個樣本的通過率會隨著reward計算而實時更新。在每個訓練階段結束時,準確率過高的樣本將被刪除。

以多樣性為核心的采樣控制

在RL訓練中,多樣性被視為提升模型表現的重要因素。好的多樣性使模型能探索更廣泛的推理路徑,避免在訓練早期陷入過于確定的策略中。

Rollout階段的多樣性主要通過topp、topk與溫度t來調控。當前大多數工作都采用topp=1.0和topk=-1,這已經達到了最大的多樣性,但采樣溫度t還沒有統一的設置。

目前主流的t的設置方法有兩種:1、采用建議的解碼溫度,如Qwen3 demo中設置的0.6;2、直接設置為一個整數1.0。

但這兩種做法在Polaris的實驗中都不是最優解。

溫度、性能與多樣性的平衡之道



Polaris團隊通過一系列試驗,分析了采樣溫度與模型準確率及路徑多樣性之間的關系。

為了量化采樣軌跡的多樣性,他們采用Distinct N-gram指標(n=4)用于衡量生成文本中獨特連續詞組的比例:分數越接近1.0,說明生成內容越多樣;反之則重復率較高。

結果顯示,較高的溫度能顯著提升多樣性,但不同模型在相同溫度下的表現也存在較大差異。從上圖來看,對于這兩個模型來說,以0.6作為采樣溫度明顯多樣性是不足的。



但也并非是把溫度設的越大就越好,也需要考慮性能的變化

Polaris團隊發現模型性能隨溫度升高呈現“低-高-低”的趨勢。例如,把采樣溫度設置成1.0,對于Deepseek-R1-distill系列模型過高了,而對于Qwen3系列來說又有點低。

說明理想溫度的設計需要針對待模型進行精細校準,沒有一個超參數是適配所有模型的

溫度區間的定義



Polaris團隊基于實驗趨勢歸納出模型采樣溫度的三個區域:

  • 1.魯棒生成區(Robust Generation Zone)
  • 在該區域內,性能波動較小。測試階段解碼溫度通常就選自魯棒生成區。
  • 2.控制探索區(Controlled Exploration Zone)
  • 此區域的溫度雖然會導致模型性能較魯棒生成區略有下降,但降幅在可接受范圍內,同時能顯著提升多樣性,適合作為訓練溫度使用。
  • 3.性能崩塌區(Performance Collapse Zone)
  • 當采樣溫度超出一定范圍時,性能急劇下降。

根據上圖規律,Polaris團隊提出以控制探索區的溫度作為初始化溫度。



實驗顯示,常用的t=0.6或t=1.0的設置溫度過低,限制了模型的探索空間,導致難以挖掘RL潛力。

因此,Polaris把Qwen3-4B的初始訓練溫度設置為1.4。

動態溫度調整



在性能增長的同時,多樣性同樣也會發生偏移。隨著訓練收斂,各路徑間共享的N-gram比例增加,探索空間也隨之縮小。

在整個訓練過程中始終使用最開始的溫度,會導致訓練后期多樣性不足

因此,Polaris團隊提出在RL訓練過程中動態更新采樣溫度的策略:在每個階段開始前都進行和溫度初始化時類似的搜索方法,使得后續階段起始的多樣性分數和第一階段的相似。

舉個例子,假如第一階段開始的多樣性分數是60,那此后的每個階段,Polaris團隊都會選擇一個能把多樣性分數拉到60的溫度來進行訓練。



對比實驗的結果顯示,采用同一溫度訓練到結束,其效果不及多階段溫度調整。

多階段溫度調整不僅帶來了更優的RL訓練效果,還使得回答長度的提升更加穩定。

思維鏈長度外推

在訓練Qwen3-4B的過程中,一個顯著難題在于長上下文訓練,因為模型本身的回答長度就已經非常長了,要繼續訓練的更長需要更高昂的計算代價。

Qwen3-4B的模型預訓練上下文長度僅有32K,而RL階段Polaris將最大訓練長設定為52K。但實際達到最大序列長度的訓練樣本比例不足10%,意味著真正使用長文本進行訓練的樣本非常有限。



為評估Polaris-4B-Preview的長文生成能力,Polaris究團隊選取了AIME2024/25中的60題,每題進行32次推理,總計1920個樣本,并按照回答長度將其分為三組:

  • 短文本組:回答長度小于16K;
  • 中等文本組:回答長度介于16K到32K;
  • 長文本組:回答長度超過預訓練長度32K。

統計結果表明,長文本組的準確率僅為26%,證明模型在生成超過預訓練長度的長CoT時,性能明顯受限。

既然RL在長上下文長度的時候具備劣勢,那么長CoT性能不佳可能是由于長文本訓練不充分導致。

針對長文本訓練樣本不足的問題,團隊引入了長度外推技術。通過位置編碼RoPE的調整,模型能夠在推理時處理超出訓練時所見的更長序列,進而補償長文本訓練中的不足。

具體實現上,研究團隊采用了YaRN作為外推方法,并設置擴展因子為1.5,如下配置所示:



實驗結果顯示,通過應用該策略,超過32K長度回答的準確率由26%提升至超過50%



多階段訓練



Polaris采用多階段的訓練方式,在早期階段,模型使用較短的上下文窗口;待模型表現收斂后,再逐漸增加上下文窗口的長度以拓寬模型的推理能力。

盡管這一策略在某些模型下有效,但在多階段訓練中,初始階段選擇合適的最大長度至關重要,不同基礎模型token利用效率存在差異。



實驗發現,對于DeepSeek-R1-Distill-Qwen-1.5B/7B,采用較短的響應長度訓練效果都較好;但對Qwen3-4B來說,即使響應長度只有24K且響應截斷比例低于15%,其性能也會急劇下降,這種下降即使在后期階段也難以恢復。



通常來說,從一開始就讓模型“思考更長”會更安全:對于Qwen3-4B,實驗觀察到從零開始使用40K響應長度時性能穩步提升,這與從一開始就采用24K和24K→40K的方案形成了鮮明對比。

要點:當計算資源允許時,直接從官方倉庫建議的最大解碼長度開始

評估結果



Polaris模型需要使用比Qwen3更高的采樣溫度和更長的響應長度;所有其他設置保持相同。

對于AIME24和AIME25,上表報告了32次運行的平均性能。

可以看到,Polaris讓4B模型的數學推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一眾商業大模型,在大多數評測中表現最佳。

notion地址: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1
blog 地址: https://hkunlp.github.io/blog/2025/Polaris/
代碼: https://github.com/ChenxinAn-fdu/POLARIS
Huggingface主頁: https://huggingface.co/POLARIS-Project

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
清華高北大1分,復交浙錄取線落后中科大,廈大僅排名第30位

清華高北大1分,復交浙錄取線落后中科大,廈大僅排名第30位

史海流年號
2025-07-17 22:25:38
宗繼昌律師發聲:宗慶后曾承認3個孩子是宗氏血脈,不會虧待他們

宗繼昌律師發聲:宗慶后曾承認3個孩子是宗氏血脈,不會虧待他們

涵豆說娛
2025-07-14 17:58:19
朱拉尼逃跑,高層遭斬首,電視臺被叛軍占領,國家剛到手就丟了?

朱拉尼逃跑,高層遭斬首,電視臺被叛軍占領,國家剛到手就丟了?

井普椿的獨白
2025-07-20 11:36:19
天價耳環大反轉!央視通報:貪污、別墅只是幌子,兩項違法才是真

天價耳環大反轉!央視通報:貪污、別墅只是幌子,兩項違法才是真

冷紫葉
2025-07-17 22:59:01
雅魯藏布江水壩背后,是中國與印度幾十年來的隱秘“水”戰

雅魯藏布江水壩背后,是中國與印度幾十年來的隱秘“水”戰

阿胡
2025-07-20 11:24:19
大勝韓國,宮魯鳴后悔半決賽棄用王思雨,除了數據一特質無可替代

大勝韓國,宮魯鳴后悔半決賽棄用王思雨,除了數據一特質無可替代

小潌拍客在北漂
2025-07-20 18:55:40
梁靖崑兒子曬與王楚欽合照,網友:梁靖崑才多大,兒子都這么大了

梁靖崑兒子曬與王楚欽合照,網友:梁靖崑才多大,兒子都這么大了

鳳幻洋
2025-07-20 16:26:04
官方通報自來水異味原因 多篇論文顯示藻類確可造成水體嗅味,并出現沼澤或化糞池味

官方通報自來水異味原因 多篇論文顯示藻類確可造成水體嗅味,并出現沼澤或化糞池味

紅星新聞
2025-07-19 17:47:14
洪欣帶女兒到杭州旅游,11歲張晞彤留一頭黃色卷發,顏值非常一般

洪欣帶女兒到杭州旅游,11歲張晞彤留一頭黃色卷發,顏值非常一般

探源歷史
2025-07-20 13:28:34
廣東深圳:5000萬銀行假流水成掠奪6億資產幫兇

廣東深圳:5000萬銀行假流水成掠奪6億資產幫兇

先驅鳥
2025-07-20 08:28:13
頒獎2核心抱頭痛哭!2人遭狠批,輸日本非實力原因,鄭薇怎么評價

頒獎2核心抱頭痛哭!2人遭狠批,輸日本非實力原因,鄭薇怎么評價

老吳說體育
2025-07-20 19:29:00
朱孝天再次發文,大S花錢大手大腳,小S能力有限,評價一針見血

朱孝天再次發文,大S花錢大手大腳,小S能力有限,評價一針見血

老鵜愛說事
2025-07-19 16:16:04
大反轉!遼寧老年暴走團擋道120被全網罵慘,律師:他們沒錯!

大反轉!遼寧老年暴走團擋道120被全網罵慘,律師:他們沒錯!

坦然風云
2025-07-20 10:30:03
宗馥莉長輩全部戰隊杜建英,正中她下懷,引蛇出洞,然后一網打盡

宗馥莉長輩全部戰隊杜建英,正中她下懷,引蛇出洞,然后一網打盡

公子麥少
2025-07-20 11:46:07
網友號召抵制《羊蹄山》:女權丑化一切 再好玩也不買

網友號召抵制《羊蹄山》:女權丑化一切 再好玩也不買

3DM游戲
2025-07-19 08:03:43
曾被吹捧上天,如今卻“淪為笑柄”的凈水器,你還在用嗎?

曾被吹捧上天,如今卻“淪為笑柄”的凈水器,你還在用嗎?

裝修秀
2025-05-18 11:45:03
警惕莫迪來華小心思!繼中方一個官宣,印度希望中國明年投桃報李

警惕莫迪來華小心思!繼中方一個官宣,印度希望中國明年投桃報李

議紀史
2025-07-19 20:15:03
陳佩斯要哭了!本來看到幾萬的預售老爺子已經泄氣了!結果逆襲了

陳佩斯要哭了!本來看到幾萬的預售老爺子已經泄氣了!結果逆襲了

小娛樂悠悠
2025-07-20 10:00:06
中國女籃輕取韓國奪得季軍,女籃的一二三號位全部需要顛覆

中國女籃輕取韓國奪得季軍,女籃的一二三號位全部需要顛覆

李廣專業體育評論
2025-07-20 18:11:04
疑宗慶后司機爆料:他不喝酒,為人較節儉,一輛A6十六七年都不換

疑宗慶后司機爆料:他不喝酒,為人較節儉,一輛A6十六七年都不換

談史論天地
2025-07-20 15:22:22
2025-07-20 21:23:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10893文章數 176192關注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創始人首次復盤

頭條要聞

深圳自建房業主私裝電梯二手承重木斷裂 3名工人墜亡

頭條要聞

深圳自建房業主私裝電梯二手承重木斷裂 3名工人墜亡

體育要聞

中國女籃輸日本,天賦完敗給努力和戰術

娛樂要聞

肖戰改名官宣!徹底不裝了,要自由

財經要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

健康
親子
房產
藝術
手機

呼吸科專家破解呼吸道九大謠言!

親子要聞

長沙才待幾天,雙胞胎小哥倆已經念起媽媽了

房產要聞

海南中學江東校區學區劃片重磅出爐!這些項目贏麻了!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

明日發布,OPPO K13 Turbo 系列手機搭載疾風散熱引擎

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 濉溪县| 太康县| 潮安县| 台东市| 武鸣县| 思茅市| 赫章县| 绍兴市| 神木县| 和平区| 剑河县| 蒲城县| 上杭县| 砀山县| 贵南县| 武功县| 百色市| 太康县| 逊克县| 大宁县| 镇赉县| 和龙市| 婺源县| 东台市| 乌拉特中旗| 黄骅市| 涿州市| 进贤县| 朝阳市| 特克斯县| 峨眉山市| 胶南市| 丰原市| 雷波县| 淄博市| 循化| 山东省| 北安市| 拉萨市| 封开县| 安达市|