99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型刷數學題竟有害?CMU評估20+模型指出訓練陷阱

0
分享至

  • henry 發自 凹非寺
    量子位 | 公眾號 QbitAI

學好數理化,走遍天下都不怕!

這一點這在大語言模型身上也不例外。

大家普遍認同:具備更強數學能力的模型往往也更智能。

但,常識就是用來打破的。

最近,來自CMU的團隊發現,一些數學好的模型并沒有將它們的“天賦”帶到其他更加通用的領域。

研究發現,只有用強化學習(RL)訓練的模型才能將數學推理技能廣泛遷移到其他任務上。而用監督微調(SFT)訓練的模型則表現出有限的遷移甚至沒有遷移。



網友直呼:又一個苦澀的教訓(bitter lesson)

這數學題,不做也罷?

很明顯,人們訓練大模型并不只是讓它來做數學題的。

研究者之所以熱衷于提高模型的數學表現,是因為希望它能夠把數學那里學到的嚴密邏輯應用到其他更廣泛的領域。

但在此之前,我們有必要知道,對于一個大模型,專門優化數學推理(math reasoning),它在其他任務(推理任務、非推理任務)上會變得更好,還是更差?

換句話說:做數學推理訓練,會不會幫助或者損害模型在其他領域的能力?

為了解決這一疑問,研究評估了20多個模型在數學推理、其他推理任務(包含醫學推理、醫學推理、智能體規劃)和非推理任務(包含常識對話和遵循指令)上的表現。



實驗先計算模型在每個benchmark任務上相比基線模型(Qwen3-14B-Base)的性能提升幅度,再將這個提升除以基線模型在該任務上的分數,以此得到相對提升的百分比,最后對同一組內所有任務的相對提升求均值,得到該任務組整體的相對增益。

為了更好地定量評估這個“遷移能力”,研究還提出了遷移能力指標(Transferability Index,TI)。



通過“其他推理”或“非推理”任務組的相對增益,分別除以數學任務組的相對增益。這樣,TI就清晰反映了數學能力的提升在多大程度上能遷移到其他領域。

如果TI大于0,說明對其他任務有正遷移效應,若小于0,則意味著負遷移。



實驗結果表明,模型的遷移能力與微調方法、模型規模以及架構有關,但其中微調方法是最關鍵的因素

具體而言,采用RL微調的模型,在其他推理任務和非推理任務上都能持續獲得更高的遷移能力指標,而使用SFT的模型則往往在非推理任務上出現負遷移。

再進一步的對照實驗中,研究采用相同數據集和基線模型驗證了在其他條件完全一致的情況下,純粹因為微調方式的不同,才產生了性能和遷移能力的顯著差異。

RL的又一次勝利

為了理解不同微調方法在遷移能力上產生差異的原因,研究進一步探索了模型內部的表征,將特定領域的查詢和答案分別輸入到基礎模型和微調模型中,并對隱藏層表示(hidden representations)進行PCA偏移分析。

通俗來說,通過PCA偏移分析,就能夠得知模型在后訓練階段,究竟是既保留了原有的知識,又在具體領域變得更強了,還是學了新的就忘了舊的。



PAC分析表明,RL微調模型在表征空間上的偏移最小。這就意味著,相較于SFT,采用RL進行微調的模型在提升專門領域表現的同時,還保留了之前學習到的能力。



同樣的,Token分布偏移分析表明RL訓練選擇性地調整了邏輯結構詞條。而SFT會同時擾亂邏輯和不相關的詞條,從而可能損害泛化能力。



此外,RL模型在推理和非推理任務上的KL散度均顯著低于SFT模型(KL散度越高,偏移越大)。

這表明,在Token概率分布層面,RL相比SFT發生的分布偏移更小。同時,RL還表現出更低的Token排名偏移(tokenrankshift)。

由此,相較于SFT,RL夠帶來更具體、更穩定、更精準的表征更新,從而實現更強的遷移能力與泛化性。

RL實現了它在LLM的又一次勝利,也預示著強化學習似乎是真正實現可遷移推理發展的關鍵

論文地址:

https://arxiv.org/abs/2507.00432

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!


專屬AI產品從業者的實名社群,只聊AI產品最落地的真問題掃碼添加小助手,發送「姓名+公司+職位」申請入群~



進群后,你將直接獲得:

最新最專業的AI產品信息及分析

不定期發放的熱門產品內測碼

內部專屬內容與專業討論

科技前沿進展每日見

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
楊爍:離婚協議寫好,財產都給妻子的,他已經邁上另一條大道

楊爍:離婚協議寫好,財產都給妻子的,他已經邁上另一條大道

置身事內
2025-07-07 07:35:29
索馬里海盜誰都敢搶,為什么不敢搶中國?兩件事情讓世界明白真相

索馬里海盜誰都敢搶,為什么不敢搶中國?兩件事情讓世界明白真相

野蠻不失女人心
2024-10-02 09:05:21
40歲男子一個月請三次喪假,領導:你家親戚死光了?后面領導哭了

40歲男子一個月請三次喪假,領導:你家親戚死光了?后面領導哭了

睡前講故事
2025-07-04 18:44:50
汪小菲回應珠寶被搬空,直言那不重要,孩子在身邊就很開心了

汪小菲回應珠寶被搬空,直言那不重要,孩子在身邊就很開心了

鋭娛之樂
2025-07-08 17:00:27
明日六月十五,老人說:做3事,吃2樣,忌1事,家人安康福氣多

明日六月十五,老人說:做3事,吃2樣,忌1事,家人安康福氣多

神牛
2025-07-08 12:11:14
美軍西太雙重演習規模升級,中國專家:對此需高度警惕

美軍西太雙重演習規模升級,中國專家:對此需高度警惕

環球網資訊
2025-07-08 06:41:17
林葳被“騙子公司”坑慘!放話稱多隊邀請試訓,今卻面臨無球可打

林葳被“騙子公司”坑慘!放話稱多隊邀請試訓,今卻面臨無球可打

弄月公子
2025-07-08 19:29:23
山東泰山官方曬訓練視頻,球員已在韓鵬教練組帶領下進行訓練

山東泰山官方曬訓練視頻,球員已在韓鵬教練組帶領下進行訓練

直播吧
2025-07-08 22:09:02
陳建州火力全開!撕開汪家 “遮羞布”,大S家族集體下場護短?

陳建州火力全開!撕開汪家 “遮羞布”,大S家族集體下場護短?

坊聞本尊
2025-07-08 00:00:44
我國著名主持人赴瑞士安樂死,兒子講述其死前慘狀:我非常后悔

我國著名主持人赴瑞士安樂死,兒子講述其死前慘狀:我非常后悔

戶外小阿隋
2025-06-30 00:07:27
洪灝:目前穩定幣市場只有2500億美元,很快會遠超萬億美元!對中國是一項有益技術,香港穩定幣可能比美國更穩定

洪灝:目前穩定幣市場只有2500億美元,很快會遠超萬億美元!對中國是一項有益技術,香港穩定幣可能比美國更穩定

和訊網
2025-07-08 13:48:08
汪小菲說閨女眼睛像自己!玥兒的反應,讓汪小菲笑的前仰后合!

汪小菲說閨女眼睛像自己!玥兒的反應,讓汪小菲笑的前仰后合!

史書無明
2025-07-08 17:33:43
官方:上海海港簽下前西班牙人邊鋒梅倫多,球員曾與武磊做過隊友

官方:上海海港簽下前西班牙人邊鋒梅倫多,球員曾與武磊做過隊友

懂球帝
2025-07-08 21:03:14
周琦宣布美國治傷不到48小時,令人憤怒的事發生,大量惡評太心寒

周琦宣布美國治傷不到48小時,令人憤怒的事發生,大量惡評太心寒

阿廢冷眼觀察所
2025-07-08 10:20:33
國家衛健委發文,禁止這兩項手術!

國家衛健委發文,禁止這兩項手術!

醫學界
2025-07-08 20:41:16
俄羅斯必須承認落后,歸還領土100萬,換取中國的全力支持

俄羅斯必須承認落后,歸還領土100萬,換取中國的全力支持

書中自有顏如玉
2025-06-17 01:46:24
爛大街的4種“中國式大媽穿搭”,顯老土氣還油膩,看看你是嗎?

爛大街的4種“中國式大媽穿搭”,顯老土氣還油膩,看看你是嗎?

白宸侃片
2025-07-05 15:17:41
72年我去公社開會,借宿在女干部家,她鋪了新床單

72年我去公社開會,借宿在女干部家,她鋪了新床單

戶外小阿隋
2025-07-08 02:26:56
北京一軍官娶海軍美女少校為妻,2年后才發現妻子的真實身份

北京一軍官娶海軍美女少校為妻,2年后才發現妻子的真實身份

星辰故事屋
2024-06-05 12:16:48
廣東初二男孩被5名同學圍毆,父親掄起鐵棍將其中一名活活打死,判決結果出來后,網友不淡定了…

廣東初二男孩被5名同學圍毆,父親掄起鐵棍將其中一名活活打死,判決結果出來后,網友不淡定了…

譚老師地理工作室
2025-03-11 12:58:06
2025-07-08 23:00:50
量子位 incentive-icons
量子位
追蹤人工智能動態
10817文章數 176180關注度
往期回顧 全部

教育要聞

關鍵時刻!中產家庭為孩子找到了一條“反內卷”之路

頭條要聞

廣汽菲克破產 一句"不是所有吉普都叫Jeep"曾廣為人知

頭條要聞

廣汽菲克破產 一句"不是所有吉普都叫Jeep"曾廣為人知

體育要聞

17歲的朱正很好,但他救不了中國男籃

娛樂要聞

麻煩大了,鳳凰傳奇再次遭受“重創”

財經要聞

新消費浪潮下的資本敘事能持續嗎?

科技要聞

"失去新鮮感",中國車主為何不再追捧特斯拉

汽車要聞

遵循“極簡主義” 北京現代ELEXIO發布內飾官圖

態度原創

本地
旅游
數碼
手機
公開課

本地新聞

云游中國|踏入時光長廊!岐山八景訴說古今歲月風華

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數碼要聞

領先同行一個時代!海信RGB-Mini LED電視UX評測:光色同控引發畫質革命

手機要聞

vivo X200 Ultra已推送OriginOS 15.0.15.5:變化大,你升級了嗎

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 遵化市| 文化| 花莲县| 汶上县| 中江县| 博客| 和平县| 南江县| 徐汇区| 麦盖提县| 松桃| 平阴县| 张家界市| 敖汉旗| 贡山| 卢湾区| 浑源县| 呼和浩特市| 勐海县| 遵义市| 贵港市| 尼玛县| 林周县| 元谋县| 三门峡市| 石楼县| 临清市| 元氏县| 平凉市| 社会| 中江县| 尤溪县| 辰溪县| 英山县| 龙岩市| 固阳县| 紫金县| 新余市| 乳山市| 郎溪县| 乳源|