99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

純蒸餾模型 SOTA 出現(xiàn)!直接 SFT 成本直降 50 倍,數(shù)據(jù)已全部開源

0
分享至

a-m-team 又發(fā)新論文了。

這個團隊上周剛剛在 Hugging Face 低調開源了32B稠密模型,但在多項關鍵推理評測中擊敗了 DeepSeek-R1,并與超大規(guī)模的 MoE 模型Qwen3-235B-A22B、Seed1.5-Thinking 不相上下,因此贏得了海內外的不少關注。

今天,a-m-team 發(fā)布了一篇名為“Not All Correct Answers Are Equal: Why Your Distillation Source Matters”的論文,介紹了 R1 之后下一代推理模型的小進展。

在這篇論文中,研究團隊發(fā)現(xiàn)基于 AM-Thinking-v1 的問答數(shù)據(jù)“純蒸餾”(即只用SFT)訓練出的“學生模型”,竟然在多個高難推理任務上接近甚至達到當前最優(yōu)水平(SOTA),不僅超過了Qwen3-32B,甚至接近了 Qwen3-235B 這樣大一個數(shù)量級的模型表現(xiàn)。


論文鏈接:https://arxiv.org/pdf/2505.14464

在大模型能力競賽持續(xù)推進的今天,如何以更低的訓練成本獲得更強的推理能力,成為開源社區(qū)面臨的核心挑戰(zhàn)之一。

相比于 SFT+RL 的訓練方式,只用 SFT 意味著著數(shù)十倍的成本縮減——也就是說,沒有強化學習能力的企業(yè)級玩家將 AM-Thinking-v1 蒸餾版拿去直接 SFT 后落地,能夠大幅提升應用效率、降低落地成本。

這意味著開源社區(qū)未來能以更低的訓練成本,獲得更強的推理能力。而這項工作成立的前提條件是,需要能有良好的數(shù)據(jù)源。

換言之,假如數(shù)據(jù)源能驅動蒸餾模型的成長,那么蒸餾也將不只是一個簡簡單單的智能“壓縮”動作,而是會有潛力成為在開源社區(qū)生態(tài)中螺旋生長的系統(tǒng)性工程。


什么樣的數(shù)據(jù)源更有效?

蒸餾(Distillation)作為一種低成本、高效率的訓練方式,已被廣泛用于模型壓縮與能力遷移。一般情況下,基于GRPO 或者 PPO 的 RL 訓練,但一個被長期忽視的問題是:你的蒸餾源選對了嗎?

a-m-team 近期開源了一套基于 AM-Thinking-v1 和 Qwen3-235B-A22B 兩個頂尖大模型生成的推理蒸餾數(shù)據(jù)集。通過對 189 萬條高質量推理任務的并行蒸餾對比分析發(fā)現(xiàn):

基于 AM-Thinking-v1 蒸餾訓練出的學生模型在多個高難推理任務上接近甚至達到當前最優(yōu)水平(SOTA);

這份開源數(shù)據(jù)集為低成本構建強推理能力模型提供了扎實支撐;

用同樣的學生模型、訓練配置、benchmark 套件對比訓練結果;

開源其中兩份(AM-Thinking-v1 和 Qwen3-235B-A22B)的數(shù)據(jù)以供社區(qū)驗證。

正如本篇論文一語雙關的主標題,“Not All Correct Answers Are Equal”——不同的模型,如果生成相似正確的答案,但并不代表他們都有相同的價值。因為基于這個正確答案背后的數(shù)據(jù)源質量、結構存在差異,自然對后續(xù)訓練的貢獻可能存在顯著差異。

a-m-team研究以自家最新發(fā)布的AM-Thinking-v1為例,根據(jù)其團隊研究,以AM-Thinking-v1為教師模型培訓出來的純蒸餾模型,相比于Qwen3-235B-A22和DeepSeek-R1的蒸餾模型在性能上有著顯著的領先優(yōu)勢。


不僅如此,AM蒸餾過程中的損失曲線也是最低的,這點其實從圖一的評分排列中也可見一斑。如下圖所示,AM長期保持了遠低于其他模型的基準損耗。


損耗低的背后是 AM 團隊本身提供了更適合學習的高質量的數(shù)據(jù)。

a-m-team 團隊對從三個不同的大規(guī)模模型 AM-Thinking-v1、Qwen3-235B-A22B和 DeepSeek-R1的訓練數(shù)據(jù)進行了詳細分析后,認為這種分數(shù)差異來或許自于他們在數(shù)據(jù)結構上的優(yōu)勢。


首先,AM的token 長度分布更加多樣。

如下圖專門展示了數(shù)學實例的詞元跨度分布情況。結果表明,AM-Thinking-v1 的數(shù)學數(shù)據(jù)呈現(xiàn)出高度分散的分布狀態(tài),呈現(xiàn)了更多的短序列。

這意味著,AM的響應跨度廣——它既能生成簡潔的1024 token以內回復,也能輸出超過 10240 token 的復雜推理鏈,這種“長短結合”的分布為模型的自適應能力提供了數(shù)據(jù)支撐。


其次,AM 模型數(shù)據(jù)源的困惑度更低,數(shù)據(jù)質量更高。

研究稱,AM 的平均Perplexity(PPL)數(shù)值為2.5,低于Qwen3.0和DeepSeek R1 2.9,表明 AM 的數(shù)據(jù)在語言流暢性、連貫性等方面更優(yōu),這或許代表其適合用于訓練結構化 reasoning 過程。


而由于更好的數(shù)據(jù)結構,除了跑分領先外,生成行為也更符合“人類推理模式”。

研究者聲稱,在較難的任務中(如下圖AIME20242025),AM 蒸餾模型會自動生成更長 reasoning 過程,而在較簡單任務(如下圖中 MATH500)中則保持簡明。

這意味著模型保持了一個較好的長調度能力。



從不服跑個分,到不服蒸個餾?

a-m-team宣布開源了它的蒸餾數(shù)據(jù),主要包括AM-Thinking-v1 Distilled Dataset和Qwen3-235B-A22B Distilled Dataset。其中每條數(shù)據(jù)都包含:

標準化 prompt;

符合驗證標準的 + 格式推理鏈;

精準分任務分類(數(shù)學、代碼、科學、指令、多輪對話等);

驗證分數(shù)(均高于 0.9)及自動評分信息。

研究者希望,這份數(shù)據(jù)集不僅能助力社區(qū)低成本達成強推理能力,更能夠為后續(xù) RLHF、CoT 微調、可控生成等高級能力構建提供基礎。同時,AM團隊也正在試水更廣泛的模型改進和應用場景。

正如AM團隊在一篇分析文章中指出,“蒸餾數(shù)據(jù)的選擇不再是技術細節(jié),而是決定性能上限的關鍵因素。”優(yōu)質的蒸餾數(shù)據(jù)源未來或許將直接影響訓練效率和性能上限。

而對于模型觀察者來說,AM團隊在本次論文中旗幟鮮明地提出了“Not All Correct Answers Are Equal”,其實也是對現(xiàn)階段模型的一種全新反思框架:

尤其在評分差異與用戶感知逐漸脫節(jié),許多從業(yè)者對評分審美疲勞的今天,什么樣的開源大模型才更可以被稱作領先的?蒸餾背后體現(xiàn)的數(shù)據(jù)結構或許會是一個全新的視角。

近日,大家都在感嘆:DeepSeek 的 R1 之后,大模型已經很久沒有新的技術突破了。但實際證明,默默在認真研究技術的團隊還在不斷創(chuàng)新和取得貢獻。

(雷峰網)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
善惡終有報,曾為安倍晉三哭喪的影后呂麗萍,如今已成為“笑話”

善惡終有報,曾為安倍晉三哭喪的影后呂麗萍,如今已成為“笑話”

卷史
2025-05-02 13:38:20
俄軍轟炸機被炸,外國網友發(fā)布中國空軍基地機庫:又讓俄軍羨慕了

俄軍轟炸機被炸,外國網友發(fā)布中國空軍基地機庫:又讓俄軍羨慕了

嘆知
2025-06-02 15:07:29
金正恩心腹大將也逃不過!朝軍總政治局局長軍銜被降

金正恩心腹大將也逃不過!朝軍總政治局局長軍銜被降

IN朝鮮
2025-06-02 12:53:51
太難了!網傳河源一超市8個月的工資沒發(fā),多名員工聚集超市討薪

太難了!網傳河源一超市8個月的工資沒發(fā),多名員工聚集超市討薪

火山詩話
2025-06-02 11:26:31
記者:呂迪格希望留在皇馬履行完合同,和耶羅聚餐與未來無關

記者:呂迪格希望留在皇馬履行完合同,和耶羅聚餐與未來無關

懂球帝
2025-06-03 04:02:20
周杰倫和昆凌在日本京都逛街,打扮一言難盡,穿的低襠褲太丑了

周杰倫和昆凌在日本京都逛街,打扮一言難盡,穿的低襠褲太丑了

草莓解說體育
2025-06-02 18:21:52
20歲少女影院接客,擦拭紙巾扔一地,價格曝光,一細節(jié)信息量大

20歲少女影院接客,擦拭紙巾扔一地,價格曝光,一細節(jié)信息量大

博士觀察
2025-06-01 18:33:11
曝朱芳雨醞釀大交易,CBA得分王或加盟廣東隊,杜鋒愛徒確定離隊

曝朱芳雨醞釀大交易,CBA得分王或加盟廣東隊,杜鋒愛徒確定離隊

幫主砍球
2025-06-02 21:47:51
朝鮮糧食如何分配?根據(jù)2025年標準,朝鮮成年人每天定量700克糧

朝鮮糧食如何分配?根據(jù)2025年標準,朝鮮成年人每天定量700克糧

百態(tài)人間
2025-06-02 16:25:48
山東滕州警方:在一河道內發(fā)現(xiàn)失聯(lián)10歲男童,確認系溺水身亡,排除刑事案件

山東滕州警方:在一河道內發(fā)現(xiàn)失聯(lián)10歲男童,確認系溺水身亡,排除刑事案件

環(huán)球網資訊
2025-06-02 21:10:31
《藏海傳》曹靜賢到死不知,他拿到假癸璽,藏海用一計算計所有人

《藏海傳》曹靜賢到死不知,他拿到假癸璽,藏海用一計算計所有人

阿訊說天下
2025-06-02 15:23:09
法網最大黑馬誕生!她還是個勵志姐

法網最大黑馬誕生!她還是個勵志姐

極目新聞
2025-06-02 22:33:46
香港首位女優(yōu)曝《一路向西2》進度,透露已收5位數(shù)定金

香港首位女優(yōu)曝《一路向西2》進度,透露已收5位數(shù)定金

可樂談情感
2025-06-02 12:48:59
太難了!芯片流片成功率歷史新低:10家有8家失敗

太難了!芯片流片成功率歷史新低:10家有8家失敗

芯榜
2025-06-02 17:50:26
山東看到偵察衛(wèi)星被墜落,渤海上空藏著什么秘密讓我們忍無可忍

山東看到偵察衛(wèi)星被墜落,渤海上空藏著什么秘密讓我們忍無可忍

精彩V視手機臺
2025-06-02 14:15:41
李亞鵬否認麗江項目失敗:開盤就是麗江銷售第一,兩年賣了70個億,爛尾房是假消息

李亞鵬否認麗江項目失敗:開盤就是麗江銷售第一,兩年賣了70個億,爛尾房是假消息

魯中晨報
2025-06-02 20:30:03
男子借著酒勁去鄰居家,與鄰居發(fā)生關系,老婆發(fā)現(xiàn)后竟非常開心

男子借著酒勁去鄰居家,與鄰居發(fā)生關系,老婆發(fā)現(xiàn)后竟非常開心

罪案洞察者
2025-05-21 09:47:42
幸虧劉國梁王勵勤提前布局!乒聯(lián)鬧事和樊振東留洋,原來皆非偶然

幸虧劉國梁王勵勤提前布局!乒聯(lián)鬧事和樊振東留洋,原來皆非偶然

三十年萊斯特城球迷
2025-06-02 23:08:59
俄軍遭遇數(shù)十年來最大與最嚴重的損失

俄軍遭遇數(shù)十年來最大與最嚴重的損失

寰宇大觀察
2025-06-02 16:42:29
特朗普出現(xiàn)重大誤判!普京終于懂了:他怕的是中國,不是俄羅斯

特朗普出現(xiàn)重大誤判!普京終于懂了:他怕的是中國,不是俄羅斯

帝王崛起
2025-06-02 10:30:06
2025-06-03 05:04:49
雷峰網 incentive-icons
雷峰網
關注智能與未來!
66502文章數(shù) 655672關注度
往期回顧 全部

游戲要聞

夢幻西游端午節(jié)活動炸高級金蟬獸訣,這枚玉算不算物理系畢業(yè)裝?

頭條要聞

媒體:烏"奇襲"突破有核國家底線 俄應作出最強烈反擊

頭條要聞

媒體:烏"奇襲"突破有核國家底線 俄應作出最強烈反擊

體育要聞

傲了一輩子的恩里克,心中永遠住著一個小天使

娛樂要聞

大S女兒來北京!馬筱梅帶她喝下午茶

財經要聞

近期大火的"穩(wěn)定幣、RWA"是什么?誰將受益?

科技要聞

下周的WWDC,蘋果AI依舊不會有“驚喜”

汽車要聞

吉利汽車5月銷量23.52萬輛 同比增長46%

態(tài)度原創(chuàng)

游戲
本地
房產
藝術
公開課

《荒野大鏢客》約翰演員首玩游戲:透露角色秘密

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

房產要聞

金地華南落子海南自貿港22萬㎡標桿項目,夯實代建行業(yè)領軍者地位

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 东城区| 福泉市| 平昌县| 都昌县| 阜新| 岐山县| 焦作市| 宜兰县| 克什克腾旗| 韶关市| 兴仁县| 临沧市| 长寿区| 仁寿县| 屯昌县| 钟山县| 长沙市| 唐河县| 含山县| 五河县| 靖宇县| 廊坊市| 西贡区| 乡城县| 陆丰市| 赤壁市| 灵璧县| 同仁县| 柳州市| 淮安市| 房产| 思南县| 舞阳县| 通榆县| 定安县| 阿拉善盟| 新疆| 子长县| 孝感市| 棋牌| 万州区|