99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

純蒸餾模型 SOTA 出現!直接 SFT 成本直降 50 倍,數據已全部開源

0
分享至


純蒸餾 SFT 的推理模型性能對標一眾 SFT + RL 模型。

作者丨郭海惟

編輯丨陳彩嫻

a-m-team 又發新論文了。

這個團隊上周剛剛在 Hugging Face 低調開源了32B稠密模型,但在多項關鍵推理評測中擊敗了 DeepSeek-R1,并與超大規模的 MoE 模型Qwen3-235B-A22B、Seed1.5-Thinking 不相上下,因此贏得了海內外的不少關注。

今天,a-m-team 發布了一篇名為“Not All Correct Answers Are Equal: Why Your Distillation Source Matters”的論文,介紹了 R1 之后下一代推理模型的小進展。

在這篇論文中,研究團隊發現基于 AM-Thinking-v1 的問答數據“純蒸餾”(即只用SFT)訓練出的“學生模型”,竟然在多個高難推理任務上接近甚至達到當前最優水平(SOTA),不僅超過了Qwen3-32B,甚至接近了 Qwen3-235B 這樣大一個數量級的模型表現。


論文鏈接:https://arxiv.org/pdf/2505.14464

在大模型能力競賽持續推進的今天,如何以更低的訓練成本獲得更強的推理能力,成為開源社區面臨的核心挑戰之一。

相比于 SFT+RL 的訓練方式,只用 SFT 意味著著數十倍的成本縮減——也就是說,沒有強化學習能力的企業級玩家將 AM-Thinking-v1 蒸餾版拿去直接 SFT 后落地,能夠大幅提升應用效率、降低落地成本。

這意味著開源社區未來能以更低的訓練成本,獲得更強的推理能力。而這項工作成立的前提條件是,需要能有良好的數據源。

換言之,假如數據源能驅動蒸餾模型的成長,那么蒸餾也將不只是一個簡簡單單的智能“壓縮”動作,而是會有潛力成為在開源社區生態中螺旋生長的系統性工程。

1

什么樣的數據源更有效?

蒸餾(Distillation)作為一種低成本、高效率的訓練方式,已被廣泛用于模型壓縮與能力遷移。一般情況下,基于GRPO 或者 PPO 的 RL 訓練,但一個被長期忽視的問題是:你的蒸餾源選對了嗎?

a-m-team 近期開源了一套基于 AM-Thinking-v1 和 Qwen3-235B-A22B 兩個頂尖大模型生成的推理蒸餾數據集。通過對 189 萬條高質量推理任務的并行蒸餾對比分析發現:

  • 基于 AM-Thinking-v1 蒸餾訓練出的學生模型在多個高難推理任務上接近甚至達到當前最優水平(SOTA);

  • 這份開源數據集為低成本構建強推理能力模型提供了扎實支撐;

  • 用同樣的學生模型、訓練配置、benchmark 套件對比訓練結果;

  • 開源其中兩份(AM-Thinking-v1 和 Qwen3-235B-A22B)的數據以供社區驗證。

正如本篇論文一語雙關的主標題,“Not All Correct Answers Are Equal”——不同的模型,如果生成相似正確的答案,但并不代表他們都有相同的價值。因為基于這個正確答案背后的數據源質量、結構存在差異,自然對后續訓練的貢獻可能存在顯著差異。

a-m-team研究以自家最新發布的AM-Thinking-v1為例,根據其團隊研究,以AM-Thinking-v1為教師模型培訓出來的純蒸餾模型,相比于Qwen3-235B-A22和DeepSeek-R1的蒸餾模型在性能上有著顯著的領先優勢。


不僅如此,AM蒸餾過程中的損失曲線也是最低的,這點其實從圖一的評分排列中也可見一斑。如下圖所示,AM長期保持了遠低于其他模型的基準損耗。


損耗低的背后是 AM 團隊本身提供了更適合學習的高質量的數據。

a-m-team 團隊對從三個不同的大規模模型 AM-Thinking-v1、Qwen3-235B-A22B和 DeepSeek-R1的訓練數據進行了詳細分析后,認為這種分數差異來或許自于他們在數據結構上的優勢。


首先,AMtoken 長度分布更加多樣

如下圖專門展示了數學實例的詞元跨度分布情況。結果表明,AM-Thinking-v1 的數學數據呈現出高度分散的分布狀態,呈現了更多的短序列。

這意味著,AM的響應跨度廣——它既能生成簡潔的1024 token以內回復,也能輸出超過 10240 token 的復雜推理鏈,這種“長短結合”的分布為模型的自適應能力提供了數據支撐。


其次,AM 模型數據源的困惑度更低,數據質量更高。

研究稱,AM 的平均Perplexity(PPL)數值為2.5,低于Qwen3.0和DeepSeek R1 2.9,表明 AM 的數據在語言流暢性、連貫性等方面更優,這或許代表其適合用于訓練結構化 reasoning 過程。


而由于更好的數據結構,除了跑分領先外,生成行為也更符合“人類推理模式”。

研究者聲稱,在較難的任務中(如下圖AIME2024\2025),AM 蒸餾模型會自動生成更長 reasoning 過程,而在較簡單任務(如下圖中 MATH500)中則保持簡明。

這意味著模型保持了一個較好的長調度能力。


2

從不服跑個分,到不服蒸個餾?

a-m-team宣布開源了它的蒸餾數據,主要包括AM-Thinking-v1 Distilled Dataset和Qwen3-235B-A22B Distilled Dataset。其中每條數據都包含:

  • 標準化 prompt;

  • 符合驗證標準的 + 格式推理鏈;

  • 精準分任務分類(數學、代碼、科學、指令、多輪對話等);

  • 驗證分數(均高于 0.9)及自動評分信息。

研究者希望,這份數據集不僅能助力社區低成本達成強推理能力,更能夠為后續 RLHF、CoT 微調、可控生成等高級能力構建提供基礎。同時,AM團隊也正在試水更廣泛的模型改進和應用場景。

正如AM團隊在一篇分析文章中指出,“蒸餾數據的選擇不再是技術細節,而是決定性能上限的關鍵因素。”優質的蒸餾數據源未來或許將直接影響訓練效率和性能上限。

而對于模型觀察者來說,AM團隊在本次論文中旗幟鮮明地提出了“Not All Correct Answers Are Equal”,其實也是對現階段模型的一種全新反思框架:

尤其在評分差異與用戶感知逐漸脫節,許多從業者對評分審美疲勞的今天,什么樣的開源大模型才更可以被稱作領先的?蒸餾背后體現的數據結構或許會是一個全新的視角。

近日,大家都在感嘆:DeepSeek 的 R1 之后,大模型已經很久沒有新的技術突破了。但實際證明,默默在認真研究技術的團隊還在不斷創新和取得貢獻。



更多內容,點擊下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
太陽CEO被爆睡女隊員,換了新老板,還是一團亂啊

太陽CEO被爆睡女隊員,換了新老板,還是一團亂啊

溫讀史
2025-05-21 17:08:31
米蘭南看臺:末輪聯賽15分鐘后將離場,讓球隊獨自面對羞恥

米蘭南看臺:末輪聯賽15分鐘后將離場,讓球隊獨自面對羞恥

直播吧
2025-05-21 15:51:20
成都市委召開警示教育會 曹立軍主持并講話

成都市委召開警示教育會 曹立軍主持并講話

成都簡陽發布
2025-05-21 22:14:15
干旱黃色預警繼續:陜西西南部、河南西部、甘肅東部等地特旱

干旱黃色預警繼續:陜西西南部、河南西部、甘肅東部等地特旱

界面新聞
2025-05-21 18:01:24
廣州一居民家里太熱,一看發現:陽臺外竟有12臺空調外機!

廣州一居民家里太熱,一看發現:陽臺外竟有12臺空調外機!

環球網資訊
2025-05-19 18:37:05
上海、深圳又在出現3大怪現象,開始逐步蔓延,值得每個人深思

上海、深圳又在出現3大怪現象,開始逐步蔓延,值得每個人深思

巢客HOME
2025-05-21 05:05:03
多哈世乒賽女單:16強誕生!國乒5人日本隊4人,石洵瑤戰早田希娜

多哈世乒賽女單:16強誕生!國乒5人日本隊4人,石洵瑤戰早田希娜

小濤體育
2025-05-22 02:32:37
哈馬斯玩脫了:以色列召回談判團隊,一言不合就開打

哈馬斯玩脫了:以色列召回談判團隊,一言不合就開打

一種觀點
2025-05-21 07:59:44
張靚穎的風格真是多變啊

張靚穎的風格真是多變啊

情感大頭說說
2025-05-22 00:28:05
再見,皇馬!1億攻擊手正式遭出售!欽點簽下1.4億頂級“節拍器”

再見,皇馬!1億攻擊手正式遭出售!欽點簽下1.4億頂級“節拍器”

頭狼追球
2025-05-21 18:36:50
內部人士:塔圖姆受傷后,凱爾特人休賽期應送走4名首發徹底重建

內部人士:塔圖姆受傷后,凱爾特人休賽期應送走4名首發徹底重建

好火子
2025-05-22 04:13:13
王菲謝霆鋒飛日本過情人節,低頭耳語好恩愛,輪流背包王菲很嬌羞

王菲謝霆鋒飛日本過情人節,低頭耳語好恩愛,輪流背包王菲很嬌羞

娛樂圈圈圓
2025-05-21 17:00:36
深夜,美股集體下跌,中概股飄紅!比特幣漲破108000美元!

深夜,美股集體下跌,中概股飄紅!比特幣漲破108000美元!

證券時報e公司
2025-05-21 23:05:58
熱搜第一!黃楊鈿甜藝考成績被質疑有水分,高中母校最新回應

熱搜第一!黃楊鈿甜藝考成績被質疑有水分,高中母校最新回應

大象新聞
2025-05-21 08:35:05
NBA訓練師:不會只把楊瀚森練成大個子 要讓他成為無固定位置球員

NBA訓練師:不會只把楊瀚森練成大個子 要讓他成為無固定位置球員

直播吧
2025-05-21 15:51:19
0713是誰羨慕了?不僅上春晚 這次集體還要上央媽的綜藝!

0713是誰羨慕了?不僅上春晚 這次集體還要上央媽的綜藝!

喜歡歷史的阿繁
2025-05-22 03:11:15
怎能不動情!孫興慜賽后動情痛哭,10年熱刺生涯首次奪冠

怎能不動情!孫興慜賽后動情痛哭,10年熱刺生涯首次奪冠

直播吧
2025-05-22 05:11:36
道瓊斯指數下跌超1%,標普指數跌0.6%

道瓊斯指數下跌超1%,標普指數跌0.6%

每日經濟新聞
2025-05-21 23:00:07
研究發現:能活到85歲的老人,大多在55歲,就已經不做這9事了

研究發現:能活到85歲的老人,大多在55歲,就已經不做這9事了

鬼菜生活
2025-05-17 11:09:03
聽我一句勸,最多十年燃油車將面臨和新能源車一樣的窘境:加油難

聽我一句勸,最多十年燃油車將面臨和新能源車一樣的窘境:加油難

李子櫥
2025-05-21 20:16:49
2025-05-22 06:03:00
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
6834文章數 20668關注度
往期回顧 全部

游戲要聞

夢幻西游全服第二傷害玉魄誕生,玩家大意了慘虧7300W

頭條要聞

歐洲領導人徹底失望:特朗普24小時不到就背棄我們

頭條要聞

歐洲領導人徹底失望:特朗普24小時不到就背棄我們

體育要聞

打破三大魔咒!廣廈終于將冠軍帶回浙江

娛樂要聞

中國國家話劇院發訃告:沉痛悼念朱媛媛

財經要聞

年虧百億、裁員自救!“AI四小龍”難了

科技要聞

網易直擊IO大會:Gemini接管一切 眼鏡炸場

汽車要聞

價格下調 2025聰明款ID.4 X限時13.99萬起

態度原創

藝術
健康
數碼
家居
時尚

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

唇皰疹和口腔潰瘍是"同伙"嗎?

數碼要聞

聯發科在將其高端芯片引入Windows筆記本電腦的過程中面臨障礙

家居要聞

黑白簡約 見證平凡的蛻變

趙麗穎的短發美上熱搜!夏天想換發型一定不要錯過這篇

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 石狮市| 镇巴县| 花垣县| 尖扎县| 乐清市| 佛坪县| 大庆市| 木里| 敦化市| 罗田县| 马关县| 台北市| 台东县| 平遥县| 顺平县| 惠东县| 海南省| 阿克苏市| 大庆市| 宁夏| 柯坪县| 沙河市| 屯留县| 浮山县| 珲春市| 迁安市| 河北省| 石泉县| 五指山市| 增城市| 开原市| 巴林右旗| 富裕县| 方山县| 都江堰市| 得荣县| 洛阳市| 霍邱县| 乌兰察布市| 新昌县| 巨鹿县|