- henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
學好數(shù)理化,走遍天下都不怕!
這一點這在大語言模型身上也不例外。
大家普遍認同:具備更強數(shù)學能力的模型往往也更智能。
但,常識就是用來打破的。
最近,來自CMU的團隊發(fā)現(xiàn),一些數(shù)學好的模型并沒有將它們的“天賦”帶到其他更加通用的領域。
研究發(fā)現(xiàn),只有用強化學習(RL)訓練的模型才能將數(shù)學推理技能廣泛遷移到其他任務上。而用監(jiān)督微調(diào)(SFT)訓練的模型則表現(xiàn)出有限的遷移甚至沒有遷移。
網(wǎng)友直呼:又一個苦澀的教訓(bitter lesson)
這數(shù)學題,不做也罷?
很明顯,人們訓練大模型并不只是讓它來做數(shù)學題的。
研究者之所以熱衷于提高模型的數(shù)學表現(xiàn),是因為希望它能夠把數(shù)學那里學到的嚴密邏輯應用到其他更廣泛的領域。
但在此之前,我們有必要知道,對于一個大模型,專門優(yōu)化數(shù)學推理(math reasoning),它在其他任務(推理任務、非推理任務)上會變得更好,還是更差?
換句話說:做數(shù)學推理訓練,會不會幫助或者損害模型在其他領域的能力?
為了解決這一疑問,研究評估了20多個模型在數(shù)學推理、其他推理任務(包含醫(yī)學推理、醫(yī)學推理、智能體規(guī)劃)和非推理任務(包含常識對話和遵循指令)上的表現(xiàn)。
實驗先計算模型在每個benchmark任務上相比基線模型(Qwen3-14B-Base)的性能提升幅度,再將這個提升除以基線模型在該任務上的分數(shù),以此得到相對提升的百分比,最后對同一組內(nèi)所有任務的相對提升求均值,得到該任務組整體的相對增益。
為了更好地定量評估這個“遷移能力”,研究還提出了遷移能力指標(Transferability Index,TI)。
通過“其他推理”或“非推理”任務組的相對增益,分別除以數(shù)學任務組的相對增益。這樣,TI就清晰反映了數(shù)學能力的提升在多大程度上能遷移到其他領域。
如果TI大于0,說明對其他任務有正遷移效應,若小于0,則意味著負遷移。
實驗結(jié)果表明,模型的遷移能力與微調(diào)方法、模型規(guī)模以及架構(gòu)有關,但其中微調(diào)方法是最關鍵的因素
具體而言,采用RL微調(diào)的模型,在其他推理任務和非推理任務上都能持續(xù)獲得更高的遷移能力指標,而使用SFT的模型則往往在非推理任務上出現(xiàn)負遷移。
再進一步的對照實驗中,研究采用相同數(shù)據(jù)集和基線模型驗證了在其他條件完全一致的情況下,純粹因為微調(diào)方式的不同,才產(chǎn)生了性能和遷移能力的顯著差異。
RL的又一次勝利
為了理解不同微調(diào)方法在遷移能力上產(chǎn)生差異的原因,研究進一步探索了模型內(nèi)部的表征,將特定領域的查詢和答案分別輸入到基礎模型和微調(diào)模型中,并對隱藏層表示(hidden representations)進行PCA偏移分析。
通俗來說,通過PCA偏移分析,就能夠得知模型在后訓練階段,究竟是既保留了原有的知識,又在具體領域變得更強了,還是學了新的就忘了舊的。
PAC分析表明,RL微調(diào)模型在表征空間上的偏移最小。這就意味著,相較于SFT,采用RL進行微調(diào)的模型在提升專門領域表現(xiàn)的同時,還保留了之前學習到的能力。
同樣的,Token分布偏移分析表明RL訓練選擇性地調(diào)整了邏輯結(jié)構(gòu)詞條。而SFT會同時擾亂邏輯和不相關的詞條,從而可能損害泛化能力。
此外,RL模型在推理和非推理任務上的KL散度均顯著低于SFT模型(KL散度越高,偏移越大)。
這表明,在Token概率分布層面,RL相比SFT發(fā)生的分布偏移更小。同時,RL還表現(xiàn)出更低的Token排名偏移(tokenrankshift)。
由此,相較于SFT,RL夠帶來更具體、更穩(wěn)定、更精準的表征更新,從而實現(xiàn)更強的遷移能力與泛化性。
RL實現(xiàn)了它在LLM的又一次勝利,也預示著強化學習似乎是真正實現(xiàn)可遷移推理發(fā)展的關鍵
論文地址:
https://arxiv.org/abs/2507.00432
一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評論區(qū)留下你的想法!
專屬AI產(chǎn)品從業(yè)者的實名社群,只聊AI產(chǎn)品最落地的真問題掃碼添加小助手,發(fā)送「姓名+公司+職位」申請入群~
進群后,你將直接獲得:
最新最專業(yè)的AI產(chǎn)品信息及分析
不定期發(fā)放的熱門產(chǎn)品內(nèi)測碼
內(nèi)部專屬內(nèi)容與專業(yè)討論
科技前沿進展每日見
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.