網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

7B模型超越DeepSeek-R1：模仿人類教師，弱模型也能教出強(qiáng)推理LLM

2025-06-25 14:29:03　來源: 量子位

北京舉報(bào)

分享至

不圓發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

Thinking模式當(dāng)?shù)溃處熌Ｐ鸵苍搶W(xué)會(huì)“啟發(fā)式”教學(xué)了——

由Transformer作者之一Llion Jones創(chuàng)立的明星AI公司Sakana AI，帶著他們的新方法來了！

這個(gè)方法要求教師模型像優(yōu)秀的人類教師一樣，根據(jù)已知解決方案輸出清晰的逐步解釋，而不再是從頭開始自己解決。

用Sanaka AI的新方法訓(xùn)練出的7B小模型，在傳授推理技能方面，比671B的DeepSeek-R1還要有效。

訓(xùn)練比自己大3倍的學(xué)生模型也不在話下。

對(duì)此有網(wǎng)友評(píng)價(jià)：我們剛剛才意識(shí)到，最好的老師不是房間里最聰明的人。

像人類老師一樣

許多高級(jí)推理模型，如DeepSeek-R1，遵循兩階段的訓(xùn)練過程：首先訓(xùn)練教師模型，然后使用其輸出訓(xùn)練學(xué)生模型，最終產(chǎn)品為學(xué)生模型。

傳統(tǒng)上，這些教師模型通過昂貴的強(qiáng)化學(xué)習(xí)（RL）進(jìn)行訓(xùn)練，模型必須從頭學(xué)習(xí)解決復(fù)雜問題，只有在得到正確答案時(shí)才會(huì)獲得獎(jiǎng)勵(lì)：

先讓教師模型得到問題的答案，再把答案仔細(xì)過濾并重新用作學(xué)生模型的訓(xùn)練數(shù)據(jù)。

這種方法緩慢、昂貴且往往過于偏狹，過于依賴教師模型自身能力。因?yàn)榻處熌Ｐ湍玫降膬H僅只有問題，它們需要自己思考給出結(jié)果。

而Sanaka AI的新方法不再通過解決問題來教學(xué)，而是讓新的強(qiáng)化學(xué)習(xí)教師（RLTs）“學(xué)會(huì)教學(xué)”：

要求它們根據(jù)已知解決方案輸出清晰的逐步解釋，就像優(yōu)秀的人類教師一樣。

就像一位好教師不需要重新發(fā)現(xiàn)數(shù)學(xué)定理來解釋它們一樣，RLTs在輸入提示中既獲得問題的內(nèi)容，也獲得每個(gè)問題的正確答案。

它們的任務(wù)是提供有助于學(xué)生模型學(xué)習(xí)的、逐步的詳細(xì)解釋，從而連接這些知識(shí)點(diǎn)。如果學(xué)生模型能夠根據(jù)教師對(duì)問題的解釋輕松理解正確解決方案，那么這就是RLTs做得好的信號(hào)。

也就是說，對(duì)RLTs的獎(jiǎng)勵(lì)不再是能自己解決問題，而是能解釋對(duì)學(xué)生模型有多有幫助。

Sanaka AI的新方法解決了傳統(tǒng)方法中的兩個(gè)問題：

首先，新方法的訓(xùn)練循環(huán)使教師訓(xùn)練與其真正目的（為學(xué)生進(jìn)行蒸餾/冷啟動(dòng)提供幫助）保持一致，從而大大提高了效率。

其次，將問題和正確答案同時(shí)輸入RLT，能幫助原本無法獨(dú)立解決問題的小型模型學(xué)會(huì)教學(xué)。

這些特性使Sanaka AI的新方法能更快、更經(jīng)濟(jì)、更有效地訓(xùn)練出具有強(qiáng)大推理能力的學(xué)生模型。

小型教師模型的“不合理但有效”

為了驗(yàn)證新方法的有效性，Sanaka AI用新方法訓(xùn)練了一個(gè)7B的RLT小模型作為教學(xué)模型與此前最先進(jìn)的方法進(jìn)行比較。

競(jìng)爭(zhēng)方法使用規(guī)模更大的模型，如DeepSeek-R1和QwQ，并結(jié)合GPT-4o-mini等工具在用于訓(xùn)練學(xué)生模型之前清理其輸出，以獲得額外幫助。

結(jié)果發(fā)現(xiàn)：使用相同的Qwen2.5學(xué)生模型、相同的問題以及相同的評(píng)估設(shè)置，RLT以遠(yuǎn)少的計(jì)算量取得了比DeepSeek-R1和QwQ更好的效果。

把學(xué)生模型的規(guī)模擴(kuò)大，結(jié)果同樣令人驚訝：7B的RLT成功訓(xùn)練了一個(gè)32B的學(xué)生模型，其規(guī)模是自己四倍以上，并取得了優(yōu)異的成果。

Sanaka AI的新方法還可以和傳統(tǒng)RL方法相輔相成：

上圖展示了在2024年美國(guó)邀請(qǐng)數(shù)學(xué)考試（AIME）、競(jìng)賽數(shù)學(xué)和研究生級(jí)問答基準(zhǔn)（GPQA）上的平均性能。

新方法和傳統(tǒng)RL方法聯(lián)合使用，使RLT獲得了改進(jìn)性能，并補(bǔ)充了傳統(tǒng)RL方法在問題解決方面的應(yīng)用。

用作起點(diǎn)時(shí)，RLT幫助學(xué)生模型達(dá)到了更高的性能水平。

從成本角度來看，差異非常顯著：使用RLT訓(xùn)練32B的學(xué)生模型僅需單個(gè)計(jì)算節(jié)點(diǎn)一天時(shí)間，而傳統(tǒng)RL方法在相同硬件上需要數(shù)月。

一項(xiàng)定性分析揭示了RLTs提供的解釋與Deepseek-R1的蒸餾軌跡之間存在一些差異：

Deepseek-R1的輸出常常依賴于外部工具，例如計(jì)算器、網(wǎng)絡(luò)上的討論以及玩梗，包括一些具有誤導(dǎo)性的內(nèi)容。

相比之下，RLT提供的解釋避免了令人困惑的語言，并增加了額外的邏輯步驟來幫助學(xué)生。

這些直觀的改進(jìn)能夠轉(zhuǎn)化為學(xué)生語言模型的改進(jìn)學(xué)習(xí)，像人類專家一樣簡(jiǎn)潔且清晰。

參考鏈接：
https://x.com/SakanaAILabs/status/1936965841188425776
博客：https://sakana.ai/rlt
論文：https://arxiv.org/abs/2506.08388
代碼：github.com/SakanaAI/RLT

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

AI替代程序員？一項(xiàng)最新測(cè)試的結(jié)果恰恰相反 | 企服國(guó)際觀察

鈦媒體APP 2025-06-25 13:43:12
0 跟貼 0
巧用DeepSeek構(gòu)建多元資產(chǎn)配置框架！“最會(huì)用AI做研究的策略首席”王開教你”新套路”

華爾街見聞官方 2025-06-25 20:28:08
0 跟貼 0

鄭州押注2000億人工智能產(chǎn)業(yè)！三年計(jì)劃出爐，DeepSeek接入政務(wù)系統(tǒng)

智東西 2025-06-25 19:15:44
0 跟貼 0

科學(xué)家提出階段式強(qiáng)化學(xué)習(xí)策略，讓小模型在數(shù)學(xué)推理測(cè)試達(dá)SOTA

DeepTech深科技 2025-06-24 18:55:26
0 跟貼 0
物流業(yè)deepseek時(shí)刻，中國(guó)無人車火爆全球

華商韜略 2025-06-17 10:58:23
0 跟貼 0

從刮胡子機(jī)器人到雙臂神技！這家具身獨(dú)角獸引爆億級(jí)美元融資熱潮

新智元 2025-06-23 13:16:27
1 跟貼 1

一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
你給豆包打的這通視頻背后，藏著AI實(shí)時(shí)交互的體驗(yàn)密碼

智東西 2025-06-25 20:04:47
0 跟貼 0

對(duì)話智識(shí)神工楚慶：AI必須創(chuàng)造新生產(chǎn)力，否則就是一場(chǎng)昂貴的幻覺

通信世界 2025-06-25 20:14:37
0 跟貼 0
3mm超薄「隨身AI大腦」來了！全球首個(gè)Agentic神器讓打工人瘋狂種草

新智元 2025-06-25 20:11:19
0 跟貼 0
丘成桐180°轉(zhuǎn)彎，認(rèn)為中國(guó)超年輕一代數(shù)學(xué)天才前途無量（一）

王小東 2025-06-23 10:49:59
48 跟貼 48
蚌埠學(xué)子家長(zhǎng)，如何學(xué)好數(shù)學(xué)，特級(jí)名師分享經(jīng)驗(yàn)

蚌埠日?qǐng)?bào) 2025-06-22 15:54:54
0 跟貼 0
高考710分，數(shù)學(xué)150分，學(xué)霸男孩想讀生命科學(xué)專業(yè)，“想在分子細(xì)胞層面找到攻克癌癥的方法”

大吵小鬧 2025-06-23 18:18:39
33 跟貼 33
男孩中考查分863分?jǐn)?shù)學(xué)滿分

解鎖世界風(fēng)云 2025-06-24 00:17:18
0 跟貼 0
小學(xué)數(shù)學(xué)應(yīng)用題，這道題是這次月考最后一道大題

公考客棧店小二 2025-06-25 10:00:00
0 跟貼 0
韋神都來聽她的課，王虹的數(shù)學(xué)有多牛

主持人嘉文 2025-06-21 17:52:27
0 跟貼 0
多個(gè)AI測(cè)試語文高考作文穩(wěn)拿高分，卻敗在了數(shù)學(xué)壓軸題上

量子位 2025-06-10 20:24:14
0 跟貼 0
數(shù)學(xué)逆襲到117分，分享如何攻克短板科目

小莉幫忙 2025-06-25 16:17:35
0 跟貼 0
1476高中數(shù)學(xué)：求函數(shù)值的和。是硬算還是巧算？介紹兩種簡(jiǎn)單的解

我服子佩 2025-06-24 22:04:53
1 跟貼 1
高中數(shù)學(xué)必會(huì)題求函數(shù)的最小值

三樂大掌柜 2025-06-22 22:29:21
1 跟貼 1
數(shù)學(xué)女神她來了

楊軼 2025-06-23 15:06:17
0 跟貼 0
高考700分！學(xué)生報(bào)單科成績(jī)，老師集體豎大拇指，直呼太厲害網(wǎng)友：孩子太淡定了，心態(tài)真好

營(yíng)天下 2025-06-24 10:45:53
24 跟貼 24
高考完的哥哥給上初一的妹妹輔導(dǎo)數(shù)學(xué)，氣氛逐漸緊張

YK大遼河 2025-06-24 12:00:05
0 跟貼 0
34歲王虹教授清華開講，現(xiàn)場(chǎng)提出一個(gè)“請(qǐng)求”

環(huán)球網(wǎng)資訊 2025-06-25 19:46:21
1 跟貼 1
接好運(yùn)！綿陽東辰歷史類考生任珂影考出666分班主任連說三聲“非常優(yōu)秀”

封面新聞 2025-06-25 19:59:54
0 跟貼 0
從小鎮(zhèn)到哈佛講臺(tái)：美國(guó)代數(shù)幾何學(xué)派之父扎里斯基的學(xué)術(shù)之路

科技導(dǎo)報(bào) 2025-06-25 20:41:28
0 跟貼 0
男孩中考查分863分?jǐn)?shù)學(xué)滿分！從緊張撫胸深呼吸到驚喜，父母在旁邊緊張到不敢吭聲

觀象視頻 2025-06-23 11:20:13
0 跟貼 0
理科“戰(zhàn)神”分享數(shù)學(xué)考試經(jīng)驗(yàn)：抓住選填生命線，能考130分左右

星視頻 2025-06-25 10:34:40
0 跟貼 0
河南分?jǐn)?shù)線求你低一點(diǎn)，河南高考?xì)v年分?jǐn)?shù)線回顧，河南考生太難

數(shù)據(jù)會(huì)跳舞 2025-06-25 11:41:19
1 跟貼 1
四川男孩一邊深呼吸一邊查分，緊張到父母都不敢說話驚喜查出863分！數(shù)學(xué)滿分！

奇妙觀探 2025-06-25 14:00:22
0 跟貼 0
2025年浙江中考數(shù)學(xué)壓軸題，看看老師怎么分析！！！

胡萊克修斯 2025-06-24 01:02:00
3 跟貼 3
老師告狀孩子上課睡覺，爸爸回復(fù)讓網(wǎng)友點(diǎn)贊，孩子絕不會(huì)站上天臺(tái)

搞笑傲風(fēng) 2025-06-24 22:52:03
15 跟貼 15
梁實(shí)2025高考成績(jī)揭曉，總分454分，數(shù)學(xué)85分表情極其懊惱

愛看新聞 2025-06-25 19:02:29
0 跟貼 0
女孩數(shù)學(xué)從17分逆襲到75分，直接喜極而泣，女孩：感謝我的數(shù)學(xué)老師和每天努力的自己

重慶觀資訊 2025-06-25 15:37:34
0 跟貼 0
考生3個(gè)月提分90夢(mèng)圓清華美院：數(shù)學(xué)沒及格，其他科瘋狂“補(bǔ)天”

星視頻 2025-06-25 14:56:28
0 跟貼 0
2024年貴州貴陽質(zhì)檢題目求代數(shù)式的值

三樂大掌柜 2025-06-24 10:45:45
1 跟貼 1
2024年四川成都錦江區(qū)期中考試題求代數(shù)式的值

三樂大掌柜 2025-06-23 10:18:59
3 跟貼 3
2022年內(nèi)蒙古鄂爾多斯中考題，怎么求x與y的值？

三樂大掌柜 2025-06-24 10:43:39
3 跟貼 3
已知a+b=2，求代數(shù)式的最大值

三樂大掌柜 2025-06-25 11:01:14
1 跟貼 1
高考最卷的省竟是它？AI分析30萬數(shù)據(jù)，結(jié)果扎心了！

科技俠來了 2025-06-23 20:29:20
0 跟貼 0

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

7B模型超越DeepSeek-R1：模仿人類教師，弱模型也能教出強(qiáng)推理LLM

小米YU7已下線500輛展車 26日前運(yùn)往全國(guó)

與汪峰節(jié)目牽手引猜測(cè) 寧靜談?chuàng)衽紭?biāo)準(zhǔn)：他不是我的菜

與汪峰節(jié)目牽手引猜測(cè) 寧靜談?chuàng)衽紭?biāo)準(zhǔn)：他不是我的菜

山西太原大媽，在NBA闖出一片天

向佐接機(jī)郭碧婷，全程無交流像陌生人

免除蘇寧易購5億債務(wù)的神秘人是誰？

售14.99萬/限量200臺(tái) 別克昂科威S新增丹霞紅內(nèi)飾

態(tài)度原創(chuàng)

木質(zhì)簡(jiǎn)約 空間極致利用

被貴妃帶火的“唐代頂流”，如今怎么不火了

終于見面啦！！！！原創(chuàng)dy：@辣炒年糕

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言！

木質(zhì)簡(jiǎn)約空間極致利用