- henry 發自 凹非寺
量子位 | 公眾號 QbitAI
學好數理化,走遍天下都不怕!
這一點這在大語言模型身上也不例外。
大家普遍認同:具備更強數學能力的模型往往也更智能。
但,常識就是用來打破的。
最近,來自CMU的團隊發現,一些數學好的模型并沒有將它們的“天賦”帶到其他更加通用的領域。
研究發現,只有用強化學習(RL)訓練的模型才能將數學推理技能廣泛遷移到其他任務上。而用監督微調(SFT)訓練的模型則表現出有限的遷移甚至沒有遷移。
網友直呼:又一個苦澀的教訓(bitter lesson)
這數學題,不做也罷?
很明顯,人們訓練大模型并不只是讓它來做數學題的。
研究者之所以熱衷于提高模型的數學表現,是因為希望它能夠把數學那里學到的嚴密邏輯應用到其他更廣泛的領域。
但在此之前,我們有必要知道,對于一個大模型,專門優化數學推理(math reasoning),它在其他任務(推理任務、非推理任務)上會變得更好,還是更差?
換句話說:做數學推理訓練,會不會幫助或者損害模型在其他領域的能力?
為了解決這一疑問,研究評估了20多個模型在數學推理、其他推理任務(包含醫學推理、醫學推理、智能體規劃)和非推理任務(包含常識對話和遵循指令)上的表現。
實驗先計算模型在每個benchmark任務上相比基線模型(Qwen3-14B-Base)的性能提升幅度,再將這個提升除以基線模型在該任務上的分數,以此得到相對提升的百分比,最后對同一組內所有任務的相對提升求均值,得到該任務組整體的相對增益。
為了更好地定量評估這個“遷移能力”,研究還提出了遷移能力指標(Transferability Index,TI)。
通過“其他推理”或“非推理”任務組的相對增益,分別除以數學任務組的相對增益。這樣,TI就清晰反映了數學能力的提升在多大程度上能遷移到其他領域。
如果TI大于0,說明對其他任務有正遷移效應,若小于0,則意味著負遷移。
實驗結果表明,模型的遷移能力與微調方法、模型規模以及架構有關,但其中微調方法是最關鍵的因素
具體而言,采用RL微調的模型,在其他推理任務和非推理任務上都能持續獲得更高的遷移能力指標,而使用SFT的模型則往往在非推理任務上出現負遷移。
再進一步的對照實驗中,研究采用相同數據集和基線模型驗證了在其他條件完全一致的情況下,純粹因為微調方式的不同,才產生了性能和遷移能力的顯著差異。
RL的又一次勝利
為了理解不同微調方法在遷移能力上產生差異的原因,研究進一步探索了模型內部的表征,將特定領域的查詢和答案分別輸入到基礎模型和微調模型中,并對隱藏層表示(hidden representations)進行PCA偏移分析。
通俗來說,通過PCA偏移分析,就能夠得知模型在后訓練階段,究竟是既保留了原有的知識,又在具體領域變得更強了,還是學了新的就忘了舊的。
PAC分析表明,RL微調模型在表征空間上的偏移最小。這就意味著,相較于SFT,采用RL進行微調的模型在提升專門領域表現的同時,還保留了之前學習到的能力。
同樣的,Token分布偏移分析表明RL訓練選擇性地調整了邏輯結構詞條。而SFT會同時擾亂邏輯和不相關的詞條,從而可能損害泛化能力。
此外,RL模型在推理和非推理任務上的KL散度均顯著低于SFT模型(KL散度越高,偏移越大)。
這表明,在Token概率分布層面,RL相比SFT發生的分布偏移更小。同時,RL還表現出更低的Token排名偏移(tokenrankshift)。
由此,相較于SFT,RL夠帶來更具體、更穩定、更精準的表征更新,從而實現更強的遷移能力與泛化性。
RL實現了它在LLM的又一次勝利,也預示著強化學習似乎是真正實現可遷移推理發展的關鍵
論文地址:
https://arxiv.org/abs/2507.00432
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
專屬AI產品從業者的實名社群,只聊AI產品最落地的真問題掃碼添加小助手,發送「姓名+公司+職位」申請入群~
進群后,你將直接獲得:
最新最專業的AI產品信息及分析
不定期發放的熱門產品內測碼
內部專屬內容與專業討論
科技前沿進展每日見
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.