網易首頁 > 網易號 > 正文申請入駐

純蒸餾模型 SOTA 出現！直接 SFT 成本直降 50 倍，數據已全部開源

2025-05-21 17:00:49　來源: AI科技評論

廣東舉報

分享至

純蒸餾 SFT 的推理模型性能對標一眾 SFT + RL 模型。

作者丨郭海惟

編輯丨陳彩嫻

a-m-team 又發新論文了。

這個團隊上周剛剛在 Hugging Face 低調開源了32B稠密模型，但在多項關鍵推理評測中擊敗了 DeepSeek-R1，并與超大規模的 MoE 模型Qwen3-235B-A22B、Seed1.5-Thinking 不相上下，因此贏得了海內外的不少關注。

今天，a-m-team 發布了一篇名為“Not All Correct Answers Are Equal: Why Your Distillation Source Matters”的論文，介紹了 R1 之后下一代推理模型的小進展。

在這篇論文中，研究團隊發現基于 AM-Thinking-v1 的問答數據“純蒸餾”（即只用SFT）訓練出的“學生模型”，竟然在多個高難推理任務上接近甚至達到當前最優水平（SOTA），不僅超過了Qwen3-32B，甚至接近了 Qwen3-235B 這樣大一個數量級的模型表現。

論文鏈接：https://arxiv.org/pdf/2505.14464

在大模型能力競賽持續推進的今天，如何以更低的訓練成本獲得更強的推理能力，成為開源社區面臨的核心挑戰之一。

相比于 SFT+RL 的訓練方式，只用 SFT 意味著著數十倍的成本縮減——也就是說，沒有強化學習能力的企業級玩家將 AM-Thinking-v1 蒸餾版拿去直接 SFT 后落地，能夠大幅提升應用效率、降低落地成本。

這意味著開源社區未來能以更低的訓練成本，獲得更強的推理能力。而這項工作成立的前提條件是，需要能有良好的數據源。

換言之，假如數據源能驅動蒸餾模型的成長，那么蒸餾也將不只是一個簡簡單單的智能“壓縮”動作，而是會有潛力成為在開源社區生態中螺旋生長的系統性工程。

什么樣的數據源更有效？

蒸餾（Distillation）作為一種低成本、高效率的訓練方式，已被廣泛用于模型壓縮與能力遷移。一般情況下，基于GRPO 或者 PPO 的 RL 訓練，但一個被長期忽視的問題是：你的蒸餾源選對了嗎？

a-m-team 近期開源了一套基于 AM-Thinking-v1 和 Qwen3-235B-A22B 兩個頂尖大模型生成的推理蒸餾數據集。通過對 189 萬條高質量推理任務的并行蒸餾對比分析發現：

基于 AM-Thinking-v1 蒸餾訓練出的學生模型在多個高難推理任務上接近甚至達到當前最優水平（SOTA）；
這份開源數據集為低成本構建強推理能力模型提供了扎實支撐；
用同樣的學生模型、訓練配置、benchmark 套件對比訓練結果；
開源其中兩份（AM-Thinking-v1 和 Qwen3-235B-A22B）的數據以供社區驗證。

正如本篇論文一語雙關的主標題，“Not All Correct Answers Are Equal”——不同的模型，如果生成相似正確的答案，但并不代表他們都有相同的價值。因為基于這個正確答案背后的數據源質量、結構存在差異，自然對后續訓練的貢獻可能存在顯著差異。

a-m-team研究以自家最新發布的AM-Thinking-v1為例，根據其團隊研究，以AM-Thinking-v1為教師模型培訓出來的純蒸餾模型，相比于Qwen3-235B-A22和DeepSeek-R1的蒸餾模型在性能上有著顯著的領先優勢。

不僅如此，AM蒸餾過程中的損失曲線也是最低的，這點其實從圖一的評分排列中也可見一斑。如下圖所示，AM長期保持了遠低于其他模型的基準損耗。

損耗低的背后是 AM 團隊本身提供了更適合學習的高質量的數據。

a-m-team 團隊對從三個不同的大規模模型 AM-Thinking-v1、Qwen3-235B-A22B和 DeepSeek-R1的訓練數據進行了詳細分析后，認為這種分數差異來或許自于他們在數據結構上的優勢。

首先，AM的token 長度分布更加多樣。

如下圖專門展示了數學實例的詞元跨度分布情況。結果表明，AM-Thinking-v1 的數學數據呈現出高度分散的分布狀態，呈現了更多的短序列。

這意味著，AM的響應跨度廣——它既能生成簡潔的1024 token以內回復，也能輸出超過 10240 token 的復雜推理鏈，這種“長短結合”的分布為模型的自適應能力提供了數據支撐。

其次，AM 模型數據源的困惑度更低，數據質量更高。

研究稱，AM 的平均Perplexity(PPL)數值為2.5，低于Qwen3.0和DeepSeek R1 2.9，表明 AM 的數據在語言流暢性、連貫性等方面更優，這或許代表其適合用于訓練結構化 reasoning 過程。

而由于更好的數據結構，除了跑分領先外，生成行為也更符合“人類推理模式”。

研究者聲稱，在較難的任務中（如下圖AIME2024\2025），AM 蒸餾模型會自動生成更長 reasoning 過程，而在較簡單任務（如下圖中 MATH500）中則保持簡明。

這意味著模型保持了一個較好的長調度能力。

從不服跑個分，到不服蒸個餾？

a-m-team宣布開源了它的蒸餾數據，主要包括AM-Thinking-v1 Distilled Dataset和Qwen3-235B-A22B Distilled Dataset。其中每條數據都包含：

標準化 prompt；
符合驗證標準的 + 格式推理鏈；
精準分任務分類（數學、代碼、科學、指令、多輪對話等）；
驗證分數（均高于 0.9）及自動評分信息。

研究者希望，這份數據集不僅能助力社區低成本達成強推理能力，更能夠為后續 RLHF、CoT 微調、可控生成等高級能力構建提供基礎。同時，AM團隊也正在試水更廣泛的模型改進和應用場景。

正如AM團隊在一篇分析文章中指出，“蒸餾數據的選擇不再是技術細節，而是決定性能上限的關鍵因素。”優質的蒸餾數據源未來或許將直接影響訓練效率和性能上限。

而對于模型觀察者來說，AM團隊在本次論文中旗幟鮮明地提出了“Not All Correct Answers Are Equal”，其實也是對現階段模型的一種全新反思框架：

尤其在評分差異與用戶感知逐漸脫節，許多從業者對評分審美疲勞的今天，什么樣的開源大模型才更可以被稱作領先的？蒸餾背后體現的數據結構或許會是一個全新的視角。

近日，大家都在感嘆：DeepSeek 的 R1 之后，大模型已經很久沒有新的技術突破了。但實際證明，默默在認真研究技術的團隊還在不斷創新和取得貢獻。

更多內容，點擊下方關注：

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

《瘋狂動物城 2》公開先導預告 / 《劍星》續作計劃 2027 年之前發售

游戲動力ATK 2025-05-21 22:48:54
1 跟貼 1
【短訊】《異環》版號獲批丨《閃耀優俊少女》國服回歸丨《鬼武者2》重制版評分解禁

情報姬 2025-05-21 23:03:38
0 跟貼 0

Claude 3.7編程能力逆天，一口氣輸出3200行代碼

量子位 2025-02-25 17:42:07
0 跟貼 0

《消光：困獸》更換男主配音演員聲線可能不再適合

游民星空 2025-05-21 22:04:20
0 跟貼 0
時間沉迷警告！Steam肉鴿卡牌游戲《怪物火車2》二柄評測9分：策略爽感全面升級，地獄列車再次出發！

二柄 2025-05-21 22:06:33
0 跟貼 0

騰訊最硬核MMO，迎來了最爽的一集

競核 2025-05-21 23:45:25
0 跟貼 0

網頁上玩《星際穿越》，零基礎自制，代碼全丟給AI寫

機器之心Pro 2025-03-28 15:28:23
0 跟貼 0
豪擲萬億，用技術換市場，特朗普為何在中東整活？

盧克文工作室 2025-05-20 09:46:34
10 跟貼 10

近十年爆火發文流量密碼原來是 ta ，想要自學就用這款分析工具

生物學霸 2025-01-13 16:15:51
0 跟貼 0
中美達成協議幾天后，特朗普瞄準國內，不到24小時連下兩道指令

蕭狡科普解說 2025-05-21 09:01:14
0 跟貼 0
雷霆西決首戰26分大勝森林狼 SGA31+5+9

網易體育 2025-05-21 11:12:55
6758 跟貼 6758
安徽鳳陽：“鼓樓瓦面脫落”事件設計、施工、監理單位正接受調查

澎湃新聞 2025-05-21 12:51:51
8143 跟貼 8143
戰場上一個錯誤的指令，就會損失慘重

行者看劇 2025-05-20 10:11:18
1 跟貼 1
23999元起！搭載國產操作系統的首款鴻蒙折疊電腦發布

界面新聞 2025-05-19 17:48:32
7729 跟貼 7729
綠燈剩15秒故意堵路狂言“就不走”，后車司機聯手教他做人獲贊

河豚囤囤 2025-05-21 10:42:05
2922 跟貼 2922
林詩棟/蒯曼不敵日本組合無緣晉級世乒賽混雙四強

澎湃新聞 2025-05-21 16:46:27
1542 跟貼 1542
印度陣風或換國產導彈，要求法國提供代碼，想下次擊落殲-10CP

我是孤獨的小船 2025-05-21 14:53:24
0 跟貼 0
川大沒有風骨，是誰抽調了大學的骨頭

曉看說 2025-05-20 14:26:39
4298 跟貼 4298
黑衣人聽到指令后，迅速變換動作，這就是軍人素質

笑薛愛笑 2025-05-21 14:30:13
1 跟貼 1
太瘋狂！馬鞍山大量初三學生長期不在校上課，花兩萬多去上沖刺班

火山詩話 2025-05-21 19:30:53
959 跟貼 959
出局！掘金93-125雷霆，誰是本場的罪魁禍首，數據不會說謊

人間百態中的溫馨 2025-05-20 05:37:50
5 跟貼 5
國家統計局發布工資數據，或將影響2025年養老金漲幅

煙臺秀姐 2025-05-20 05:05:08
0 跟貼 0
男子在路邊撿到一塊模版，拿回家切出1∶1大小，網友：核心技術被你掌握了

新知速報 2025-05-19 21:04:04
0 跟貼 0
兩塊五的劣質奶粉一采購就是幾萬桶，他們準備賣給誰

柴狗夫斯基 2025-05-21 12:12:57
1 跟貼 1
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
純靠“腦補”圖像，大模型推理準確率狂飆80%丨劍橋谷歌新研究

量子位 2025-05-21 16:46:26
0 跟貼 0
2名男子吃面后沒結賬走出門近半小時后折回來付錢

星視頻 2025-05-21 16:37:39
1832 跟貼 1832
文心X1/4.5 Turbo幕后技術大公開！百度高管深度解讀

智東西 2025-05-20 21:29:05
0 跟貼 0
這就是絕大多數中國人眼中牛逼的技術

董路 2025-05-21 09:39:21
247 跟貼 247
S8張春華深度適配分析：或將把司馬懿帶飛到爆炸級新高度？

清影游戲 2025-05-21 18:35:45
1 跟貼 1
佩林卡寫好復仇代碼，操作瘋狂4換1的交易，32+15內線將空降湖人

埃文凱爾 2025-05-21 01:24:33
1 跟貼 1
熱搜第一！黃楊鈿甜藝考成績被質疑有水分，高中母校最新回應

大象新聞 2025-05-21 08:35:05
413 跟貼 413
第17屆蘭卡威海空展開幕：殲-10CE模型亮相備受關注

時拾影像 2025-05-21 10:23:53
1 跟貼 1
華為是怎么讓大模型提速的？

虎嗅APP 2025-05-21 20:35:43
1 跟貼 1
綿陽一村民在外務工家中老宅被拆，鎮政府回應：系施工方誤拆

澎湃新聞 2025-05-21 14:20:29
2 跟貼 2
雷競技資訊：輸給BLG是自己太能送！Rookie談自己沒盡力坑隊伍

實錘社 2025-05-22 04:40:30
1 跟貼 1
歐委會將計劃對進入歐盟小包裹征收2歐元的稅，外交部回應

環球網資訊 2025-05-21 15:32:15
508 跟貼 508
6月前，養老金調整通知有望公布，工齡16年和40年，漲錢差多少？

阿纂看事 2025-05-21 08:17:46
13 跟貼 13
英國400年來到底涌現出多少大師？網友列出了一個清單

清暉有墨 2025-05-21 14:49:24
221 跟貼 221
恭喜無錫邢蘇瞳同學！

江南晚報 2025-05-19 15:22:32
0 跟貼 0

AI科技評論

點評學術，服務AI

6834文章數 20668關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

健康

數碼

家居

時尚

手機 / 數碼

房產 / 家居

純蒸餾模型 SOTA 出現！直接 SFT 成本直降 50 倍，數據已全部開源

夢幻西游全服第二傷害玉魄誕生，玩家大意了慘虧7300W

歐洲領導人徹底失望：特朗普24小時不到就背棄我們

歐洲領導人徹底失望：特朗普24小時不到就背棄我們

打破三大魔咒！廣廈終于將冠軍帶回浙江

中國國家話劇院發訃告:沉痛悼念朱媛媛

年虧百億、裁員自救！“AI四小龍”難了

網易直擊IO大會：Gemini接管一切 眼鏡炸場

價格下調 2025聰明款ID.4 X限時13.99萬起

態度原創

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

唇皰疹和口腔潰瘍是"同伙"嗎？

聯發科在將其高端芯片引入Windows筆記本電腦的過程中面臨障礙

黑白簡約 見證平凡的蛻變

趙麗穎的短發美上熱搜！夏天想換發型一定不要錯過這篇

網易直擊IO大會：Gemini接管一切眼鏡炸場

黑白簡約見證平凡的蛻變