99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI沒做到,DeepSeek搞定了!開源引爆推理革命

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】100多天前,DeepSeek-R1憑借低訓練成本,名噪一時。而強化學習算法GRPO,是背后最大的功臣之一。然而,開源界對強化學習算法的探索并沒有終結。

DeepSeek-R1引爆了LLM推理革命。

DeepSeek-R1的秘籍在于強化學習微調算法:群體相對策略優化(Group Relative Policy Optimization,GRPO)。

未來,LLM的訓練將不再是單純的數據訓練,而是將推理能力作為標準流程。

那為什么強化學習能提高LLM的推理能力?

DeepSeek-R1的GRPO,有哪些身前身后事?

在后DeepSeek-R1時代,GRPO又引發了哪些奇思妙想?


什么是推理模型?

首先要面對的核心問題是:什么是推理?

簡單來說,推理是一種通過推導和訓練手段,使大語言模型(LLMs)更擅長處理復雜任務的能力。

技術一點的說法是:

推理是指LLM在給出最終答案之前,能先生成一系列中間步驟的能力。

這個過程通常被稱為「思維鏈」(Chain-of-Thought,簡稱CoT)推理。

在CoT推理中,模型會顯式地生成一系列結構化的陳述或計算步驟,來說明它是如何得出結論的。

下圖展示了這一定義及其示意。


大語言模型(LLM)處理多步驟推理任務示意圖

在多步驟推理任務,與直接回憶某個事實不同,推理模型需要結合多個中間推理步驟,才能得出正確的結論。

這些中間推理步驟是否展示給用戶,取決于具體的實現方式。


LLM強化學習黑話小抄

RLHF基礎:一切的起點

用于構建和優化推理模型的強化學習(RL)訓練方法,基本上都與人類反饋強化學習(RLHF)有關——

這也是目前用來開發和對齊傳統大語言模型(LLMs)的主流手段。

因此,在深入討論基于強化學習的推理優化方法之前,我們先簡要回顧一RLHF是如何工作的。

傳統LLM的三階段訓練流程:

  • 預訓練(Pre-training):使用大規模語料讓模型學習通用語言模式和知識。

  • 監督微調(Supervised Fine-tuning)用人工標注的任務數據進一步訓練模型,讓AI更擅長完成具體任務。

  • 對齊階段(Alignment,通常通過RLHF)讓模型更符合人類偏好,提升交互體驗與安全性。

RLHF訓練流程會從預訓練模型開始,然后通過監督學習進行微調。

這一步還不屬于強化學習,而是為后續的RL打下基礎的前置步驟

接下來,RLHF會使用強化學習算法,進一步對LLM進行對齊。

這是本文的重點。

整個RLHF流程分為三大步驟:

RLHF第一步(前置步驟):監督微調預訓練模型

這一步的目標是通過人工標注的數據對模型進行有監督學習,構建一個適合后續RLHF微調的基礎模型

RLHF第二步:構建獎勵模型(Reward Model)

收集多個回答并讓人類標注哪一個更好,以此訓練一個模型,能夠根據輸出內容給出高或低的「獎勵分數」。

RLHF第三步:強化學習微調

使用獎勵模型的評分結果作為獎勵信號,利用PPO等算法更新語言模型的策略,使其輸出更符合人類偏好。

RLHF第一步創建或從已有數據集中采樣一批提示語(prompts),然后由人類標注者為這些提示語編寫高質量的參考回答。

接著,我們使用這些人工標注的數據對預訓練語言模型進行監督微調(SFT)

正如前面提到的,這一步并不屬于強化學習,而是作為后續RLHF微調的前置準備


RLHF第二步第一步微調后的模型用于構建一個獎勵模型(Reward Model)。如下圖所示:


我們讓人類對多個模型生成的回答進行排序,然后用這些排序數據來訓練獎勵模型,讓它能根據回答的質量輸出相應的評分。

這個獎勵模型將在接下來的強化學習微調中,作為模型行為的評估依據。

RLHF第三步(也是最后一步)使用在第二步中訓練好的獎勵模型,為模型生成的回答打分,然后基于這些評分,使用近端策略優化(PPO)等算法對SFT模型進行強化學習微調。

這是強化學習發揮作用的地方

通過強化學習,模型會逐步調整其輸出策略,使其更傾向于生成高獎勵(即更符合人類偏好)的回答,從而實現真正的人類反饋對齊訓練




OpenAI的PPO

一開始,RLHF采用的是近端策略優化PPO。


PPO在架構中使用了四個不同的語言模型:

一個策略模型(正在訓練的模型)、

一個參考模型(原始模型的凍結副本)、

一個獎勵模型(基于人類偏好進行訓練)

和一個值模型(估計長期獎勵)。

這些模型都包含需要反向傳播來優化的可訓練參數,這消耗大量的GPU內存和計算周期,使得訓練過程變得笨重且昂貴。

監督學習能夠快速定義損失函數,且通常無需大量超參數調整。整個過程直觀、穩定、可控。

但在強化學習中,成功的路徑就不那么明確了:

強化學習算法往往包含許多相互依賴的模塊,調試困難

而且要想獲得良好結果,通常需要投入大量的精力進行調參和結構調整

這也是PPO被廣泛采用的原因之一——

它在實現簡便性樣本效率調參難度之間取得了較好的平衡。

PPO的核心思想是:

在每一步中計算一次策略更新,既能最小化代價函數,又能確保新策略與舊策略之間的偏差不會過大

OpenAI提出了全新目標函數增強了PPO算法的穩定性和實用性

其主要公式如下:


其中:

  • (q,a)是數據分布D中的一個問答對。

  • πθ表示新策略模型輸出的概率。

  • 行為策略πθold表示舊策略模型的輸出概率。

  • πθ/πθold是重要性采樣比(importance ratio),主要用于確保新舊模型的分布不會相差太大。

  • ε是用于裁剪重要性比值的參數,用來限制模型分布的變化,防止變化過大或過小。

  • ^A_t是優勢函數(advantage function),主要來源于獎勵模型和價值模型的評分。
  • R_l是獎勵模型的評分。

  • V是價值模型的評分。


圖1:在RL訓練過程中,應用Clip-Higher策略前后,AIME測試集上的準確率演員模型生成概率的熵對比

圖1展示了在使用與不使用裁剪參數的情況下,模型在AIME數據集上的表現和生成的熵值對比;可以明顯看到,加入裁剪參數后,模型性能和熵值都有顯著提升。

DeepSeek的GRPO


傳統PPO訓練方法往往代價高昂,需要消耗大量GPU計算時數,導致訓練成本居高不下,實際應用門檻遠超個人開發者和小型研究團隊的承受范圍。
突破性進展來自DeepSeek。

他們推出了PPO算法的改進「平替版本」GRPO:

提升數學推理能力的同時,顯著優化了PPO的內存使用效率


DeepSeek-R1訓練流程

創新的核心動機在于提升計算效率


該效率提升主要通過以下方式實現:

剔除「評論家」(價值模型):即傳統用于計算價值函數(預期未來收益)的大語言模型組件

采用相對質量評估:通過對策略模型本身生成的多組答案進行質量對比,直接計算優勢函數,取代傳統依賴額外模型估算獎勵的方法

這一創新顯著降低了訓練推理模型的計算需求,即使是「GPU資源匱乏」的團隊,也能開發出復雜的推理能力。


其公式如下:


GRPO的主要變化包括:

  • 每個提示語(prompt)采樣多次形成一個組,然后使用該組中獎勵值的標準化結果作為優勢值。

  • 引入KL散度作為正則項,對策略變化加以限制。

  • 由于GRPO主要用于數學或邏輯推理類問題,它使用的獎勵模型也是基于規則的。例如:


其中,y是標準答案,y^是預測答案。

GRPO的開源升級版:DAPO


然而,當前頂尖推理型大模型的關鍵技術細節(如OpenAI的o1技術博客和DeepSeek-R1技術報告中的內容)仍處于黑箱狀態,導致學術界難以復現他們強化學習訓練成果。
于是,開源的解耦裁剪與動態采樣策略優化(Decoupled Clip andDynamic sAmplingPolicyOptimization,DAPO)問世了。

DAPO為每個與答案a配對的問題q采樣一組輸,并通過以下目標函數優化策略:


DAPO包含以下幾個關鍵技術點:

  • Clip-Higher(高限裁剪):提升系統多樣性,避免熵崩潰。在策略梯度損失中提高重要性采樣比率(importance sampling ratio)的上裁剪限值,以緩解該問題。

  • Dynamic Sampling(動態采樣):提升訓練效率與穩定性。動態采樣策略可以過濾掉準確率為1或0的提示組(prompt groups),并在各批次中保持有效梯度提示的數量一致。

  • Token-level Policy GradientLoss(Token級策略梯度損失:在長鏈思維推理(long-CoT)強化學習場景中至關重要。

  • Overlong Reward Shaping(過長獎勵重塑):降低獎勵噪聲,穩定訓練過程。



高限裁剪

從前面的公式可以看出,對于裁剪參數,DAPO同時引入了「低裁剪」ε_{low}和「高裁剪」ε_{high}兩個界限。

這是因為:

  • 高裁剪限制模型的探索能力,避免模型過度增加低概率token的概率,從而控制生成多樣性;

  • 低裁剪確保高概率token的概率不會驟降,保持模型輸出的穩定性。

低概率token的更新空間遠小于高概率token。

此外,DAPO的實驗中發現,被裁剪的token的最大輸出概率通常小于0.2。

這也證明了高裁剪限制了低概率token概率的提升,進而抑制了模型的多樣性。如圖2所示:


圖2:最大裁剪概率

高低雙裁剪的策略如下:

  • ε_{low}:用于限制高概率token概率的下降,防止其概率驟減,通常設置得較小;

  • ε_{high}:用于限制低概率token概率的增加,允許更多探索空間,通常設置得較大。

在DAPO中,有ε_{low} <ε_{high},因此:< pan>

  • A>0(即獎勵為正)時,裁剪上限為(1+ε_{high}),較大的ε_{high}可避免低概率token被過早裁剪,允許其更新;

  • A<0(即獎勵為負)時,裁剪下限為(1?ε_{high}),適當限制高概率token的更新速度,避免其概率下降過快。


動態采樣

在當前強化學習算法中,同一個prompt需要采樣多次形成一個group。

如果該組內所有采樣結果的正確率都是1(即獎勵全為正)或全為0(即獎勵全為負),那么該組的優勢值\hat{A}為0,導致無法產生有效的梯度更新,降低了樣本效率。

如下圖3所示,隨著訓練進行,有效樣本在batch中的占比逐漸下降:


圖3:準確率為1的樣本比例

為了解決這個問題,DAPO引入了動態采樣機制

  • 在訓練前,過濾掉獎勵全為0或全為1的group;

  • 保證每個batch中的樣本都能產生有效梯度,同時維持batch的大小一致;

  • 隨著訓練步數增加,模型準確率提高,被過濾的樣本也隨之增多,因此雖然訓練速度不一定加快,但樣本效率更高,有助于模型更快收斂。


Token級策略梯度損失

在原始的GRPO中,損失是基于樣本整體計算的。這種做法可能導致長文本中的token學習效果較差。

例如:

  • 長輸出樣本的token損失為:


  • 短輸出樣本的token損失為:


計算總損失L_{long}+L_{short}時,雖然平均了,但因為N?>N?,導致長樣本的學習權重被稀釋。

此外,實驗也發現長內容容易生成無意義token,應該給予更多關注。

因此DAPO將損失改為每個token直接參與計算,總損失形式如下:


上述例子中的損失形式也相應變為:

過長獎勵重塑

在大語言模型(LLMs)訓練中,通常會設置max_token限制生成長度,超過這個長度的樣本會被截斷。

如果對這些截斷樣本的獎勵設計不合理,可能會引入獎勵噪聲,干擾訓練。

過去的方法通常會對這些樣本進行懲罰,但這可能導致本應合理的長答案被錯誤懲罰。

為此,DAPO引入了懲罰過渡區間,其獎勵設計如下:


  • 設定L_{cache}為緩沖區;

  • L_{max}為最大長度;

  • |y|為當前生成文本的長度。

當∣y∣+Lcache≤Lmax時,文本長度小于最大允許長度max_token,因此不施加懲罰。

當∣y∣+Lcache>Lmax且∣y∣

當∣y∣≥Lmax時,施加最大懲罰。

圖4展示了在基準設置下,使用動態采樣前后的訓練進度變化。


圖4:在基準設置下,應用動態采樣前后的訓練進度對比

自我反思與回溯能力的出現

在DAPO的訓練過程中,研究人員還觀察到了模型具有「反思」和「回溯」的能力,而這類能力在原始數據集中并未出現。

這與DeepSeekR1報告中的發現一致。

雖然目前還不清楚這一能力產生的根本原因,但它為未來的優化提供了新的方向。

圖5展示了強化學習中「反思行為」的涌現現象。


圖5:強化學習中反思行為的出現

參考資料:

https://pub.towardsai.net/the-evolution-of-grpo-dapo-d96000d0d81f

https://openai.com/index/openai-baselines-ppo/

https://www.k-a.in/grpo.html

https://magazine.sebastianraschka.com/p/the-state-of-llm-reasoning-model-training

https://arxiv.org/pdf/2503.14476

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
原來楊冪也有趕飛機瘋狂奔跑的時候,變成了像風一樣的女子啊

原來楊冪也有趕飛機瘋狂奔跑的時候,變成了像風一樣的女子啊

TVB的四小花
2025-05-24 15:18:06
武磊舊傷復發!媒體人開炮:6次集訓5次缺席,已不再適合國足

武磊舊傷復發!媒體人開炮:6次集訓5次缺席,已不再適合國足

奧拜爾
2025-05-23 22:46:01
熊磊回應生二胎,杜新枝曬美照有深意,田靜擔心麥子,李律威望高

熊磊回應生二胎,杜新枝曬美照有深意,田靜擔心麥子,李律威望高

娛樂洞察點點
2025-05-24 15:45:19
高管被一鍋端!5人虧光60億,千億中藥巨頭“底褲”都快被輸光了

高管被一鍋端!5人虧光60億,千億中藥巨頭“底褲”都快被輸光了

哄動一時啊
2025-05-14 09:35:03
可控核聚變 核電,業績最優的10家公司(我的投資干貨)

可控核聚變 核電,業績最優的10家公司(我的投資干貨)

風風順
2025-05-24 13:15:27
世乒賽離譜一幕:林詩棟跟梁靖崑比賽 遭中國女球迷狂噓 原因曝光

世乒賽離譜一幕:林詩棟跟梁靖崑比賽 遭中國女球迷狂噓 原因曝光

侃球熊弟
2025-05-23 23:51:54
突發:G7討論對中國產品加征關稅!有三個細節值得關注

突發:G7討論對中國產品加征關稅!有三個細節值得關注

別人都叫我阿腈
2025-05-24 09:42:19
華為官網全面降價,太香了!

華為官網全面降價,太香了!

果粉俱樂部
2025-05-23 12:13:01
唐旭說,媛媛,你走了,
我和乃文打架,再沒有幫我說話的了。

唐旭說,媛媛,你走了, 我和乃文打架,再沒有幫我說話的了。

如安青何
2025-05-22 22:31:06
不生,是他們對這個世界最后的反抗

不生,是他們對這個世界最后的反抗

小影的娛樂
2025-05-24 03:54:30
直到看見杜江陪霍思燕自駕去拉薩,才明白李小璐背叛賈乃亮有多傻

直到看見杜江陪霍思燕自駕去拉薩,才明白李小璐背叛賈乃亮有多傻

阿俆評論哥
2025-05-22 19:25:23
解放臺灣首功,已經被山東小伙拿下,臺灣編制山東人拿下優先權

解放臺灣首功,已經被山東小伙拿下,臺灣編制山東人拿下優先權

八斗小先生
2025-05-20 22:58:28
25樓有100多條蛇!東莞一小區業主:真的怕了……

25樓有100多條蛇!東莞一小區業主:真的怕了……

大象新聞
2025-05-23 11:11:03
上一場貿易戰,中國其實輸了,特別是08年金融危機那場,輸的厲害

上一場貿易戰,中國其實輸了,特別是08年金融危機那場,輸的厲害

慢看世界
2025-05-24 12:30:53
美軍印太司令揚言:再遭中國攔截就開火!我國軍隊需要提前防范

美軍印太司令揚言:再遭中國攔截就開火!我國軍隊需要提前防范

掌青說歷史
2025-05-24 12:56:44
告訴你的兒女:出門在外,與人關系再好,都別去“第二現場”

告訴你的兒女:出門在外,與人關系再好,都別去“第二現場”

布衣粗食68
2025-05-24 14:54:09
突發!黃珊珊辭掉民眾黨多項職務,疑似不滿黃國昌,而轉投綠營

突發!黃珊珊辭掉民眾黨多項職務,疑似不滿黃國昌,而轉投綠營

埃文凱爾
2025-05-24 12:08:00
你們發現了沒?父母有退休金的家庭,基本會有這三種現象

你們發現了沒?父母有退休金的家庭,基本會有這三種現象

有故事的人
2025-05-23 06:46:06
地球99.999%的黃金都“鎖”在地核,最新發現:它正在悄悄“漏財”

地球99.999%的黃金都“鎖”在地核,最新發現:它正在悄悄“漏財”

紅星新聞
2025-05-23 17:25:24
2025法網第一日賽程:鄭欽文亮相中心球場,袁悅亦出戰

2025法網第一日賽程:鄭欽文亮相中心球場,袁悅亦出戰

女網連連看
2025-05-24 18:56:09
2025-05-24 19:36:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12758文章數 66042關注度
往期回顧 全部

科技要聞

不止蘋果?特朗普:三星不在美國造 也加稅

頭條要聞

美國白宮數十人突然被裁 有人當場哭了

頭條要聞

美國白宮數十人突然被裁 有人當場哭了

體育要聞

NBA最被高估球隊,“突然”有了冠軍相?

娛樂要聞

歌手2025第二期排名:居然是他淘汰了

財經要聞

不得不說,特朗普殺瘋了

汽車要聞

一見傾心!東風全新SUV定妝圖曝光,顏值氣場并存

態度原創

房產
數碼
藝術
手機
公開課

房產要聞

連續17次提前交付!海口這座頂流紅盤,業主贏麻了!

數碼要聞

僅199元!小米推出室外攝像機4C:500萬像素全彩夜視、雙云臺

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

OPPO Reno14 / Pro 手機維修備件價格公布,屏幕組件 790 元起

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 高青县| 德州市| 神池县| 贵阳市| 阜平县| 民和| 八宿县| 青阳县| 大冶市| 东海县| 独山县| 弥勒县| 石嘴山市| 伊宁市| 固镇县| 临潭县| 随州市| 白河县| 平利县| 大邑县| 拜泉县| 罗甸县| 广德县| 广元市| 苗栗县| 阜南县| 同德县| 合肥市| 迁西县| 梨树县| 剑河县| 萨迦县| 海林市| 高安市| 荔波县| 施甸县| 陕西省| 衡山县| 平度市| 南昌市| 武穴市|