NFT團隊 投稿
量子位 | 公眾號 QbitAI
監督學習也能像強化學習一樣進行“自我反思”了。
清華大學與英偉達、斯坦福聯合提出新的監督學習方案——NFT(Negative-aware FineTuning),在RFT(Rejection FineTuning)算法基礎上通過構造一個“隱式負向模型” 來額外利用負向數據進行訓練。
這并不意味著使用“差數據”進行訓練,而是在已知的模型計算結果前提下,通過負向數據訓練正向模型,即“隱式負向策略(Implicit Negative Policy)”
這一策略彌合了監督學習和強化學習的差距,使得兩者性能基本持平。
△架構圖語言模型在線強化算法光譜圖
更讓人驚訝的是,NFT損失函數梯度和GRPO在On-Policy條件下是等價的!這意味著,GRPO中人為經驗設置的“Group Relative Normalization”方案,可以直接通過理論推導自然得出。
方法:負向策略計算出正向模型
NFT定義了一個在線強化過程:
1.數據采樣:語言模型自己產生大量數學問題答案,通過一個01獎勵函數,把答案分為正確和錯誤兩類,并統計每個問題回答準確率[數學公式]。
2.隱式策略建模:利用原始模型和待訓練正向模型,構造一個隱式負向策略來建模負向數據。
3.策略優化:在正確數據上,直接監督訓練正向策略模型;在錯誤數據上,通過用隱式負向策略擬合建模,達到直接優化正向策略模型的目的。
考慮這樣一個監督學習基線:Rejection sampling Finetuning(RFT)。每一輪,研究團隊讓模型自己產生大量數學問題答案,通過一個01獎勵函數,把所有模型產生的錯誤答案丟棄,僅在高質量正向數據上進行監督訓練。
RFT中,研究團隊每一輪的訓練目標是:
問題關鍵在于:能否在負向數據上監督訓練,也同樣得到上面的“正向策略”呢?
乍看上去是不可能的,在負向數據上訓練只能得到沒有用的“負向策略”。
然而,問題的轉折點在于,數據是已知模型在線采樣的,也就是正負向數據分布的和是已知的。由貝葉斯公式可知以下線性關系:
這說明,假設真能在負向數據上學習到一個“負向策略”,可以把這個負向策略和原始生成策略結合,“計算”得出想要的正向模型。
在實際操作中,不是真的去學習一個“差模型”。研究團隊提出“隱式負向策略”(Implicit Negative Policy),可以直接在負向數據上訓練正向策略。可用以下表達式來參數化隱式負向模型:
其中rq表示模型在回答問題q時的正確率,現實中由于模型對一個問題會產生多個回答,我們可以很容易地估計rq。這里表明隱式負向策略不是一個靜態的模型,而是基于不同難度的問題動態構造的
因此,NFT損失函數就可以表達為:
對以上損失函數直接求導,研究團隊在嚴格On-policy條件下得到和GRPO等價的梯度表達式。
這暗示了監督學習和強化學習或許存在深層的聯系,也直接說明NFT是一個絕對可靠的算法,最差也是退回On-Policy訓練和GRPO等價。
結果:監督強化學習方案性能持平,負向反饋在大模型中優勢更加明顯
NFT和當下性能最優的強化學習算法性能持平,部分場景下可能更有優勢(可以在現有監督學習框架基礎上簡單實現)。
與主流RLHF算法對比,NFT7B性能超過GRPO、DAPO;32B性能和DAPO基本持平。研究團隊還觀察到,模型越大,NFT和RFT算法性能差異越明顯。這暗示了負向反饋在大模型中承擔更重要的作用。
和其他已有的基于Qwen-7B zero style訓練模型相比,NFT達到最高的數學平均成績。
作為一個純監督學習算法,NFT不依賴任何外界數據,可實現數學能力的大幅提升。
△架構圖NFT在Qwen-7B(左)和32B模型(右)上性能表現及對比
研究團隊還發現NFT算法在不損失性能條件下有利于模型熵增加,鼓勵模型充分探索。
NFT算法指出并彌合了強化學習和監督學習的本質差異,這暗示兩套機器學習理論存在深層聯系,可以幫助研究者重新定位、思考和放大強化訓練的本質優勢。
項目網頁: https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning/
論文鏈接: https://arxiv.org/pdf/2505.18116
項目代碼: https://github.com/NVlabs/NFT
— 完 —
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.