99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

7B模型超越DeepSeek-R1:模仿人類教師,弱模型也能教出強(qiáng)推理LLM

0
分享至

不圓 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

Thinking模式當(dāng)?shù)溃處熌P鸵苍搶W(xué)會(huì)“啟發(fā)式”教學(xué)了——

由Transformer作者之一Llion Jones創(chuàng)立的明星AI公司Sakana AI,帶著他們的新方法來了!

這個(gè)方法要求教師模型像優(yōu)秀的人類教師一樣,根據(jù)已知解決方案輸出清晰的逐步解釋,而不再是從頭開始自己解決。



用Sanaka AI的新方法訓(xùn)練出的7B小模型,在傳授推理技能方面,比671B的DeepSeek-R1還要有效。

訓(xùn)練比自己大3倍的學(xué)生模型也不在話下。



對(duì)此有網(wǎng)友評(píng)價(jià):我們剛剛才意識(shí)到,最好的老師不是房間里最聰明的人。





像人類老師一樣



許多高級(jí)推理模型,如DeepSeek-R1,遵循兩階段的訓(xùn)練過程:首先訓(xùn)練教師模型,然后使用其輸出訓(xùn)練學(xué)生模型,最終產(chǎn)品為學(xué)生模型。

傳統(tǒng)上,這些教師模型通過昂貴的強(qiáng)化學(xué)習(xí)(RL)進(jìn)行訓(xùn)練,模型必須從頭學(xué)習(xí)解決復(fù)雜問題,只有在得到正確答案時(shí)才會(huì)獲得獎(jiǎng)勵(lì):

先讓教師模型得到問題的答案,再把答案仔細(xì)過濾并重新用作學(xué)生模型的訓(xùn)練數(shù)據(jù)。



這種方法緩慢、昂貴且往往過于偏狹,過于依賴教師模型自身能力。因?yàn)榻處熌P湍玫降膬H僅只有問題,它們需要自己思考給出結(jié)果。

而Sanaka AI的新方法不再通過解決問題來教學(xué),而是讓新的強(qiáng)化學(xué)習(xí)教師(RLTs)“學(xué)會(huì)教學(xué)”

要求它們根據(jù)已知解決方案輸出清晰的逐步解釋,就像優(yōu)秀的人類教師一樣。



就像一位好教師不需要重新發(fā)現(xiàn)數(shù)學(xué)定理來解釋它們一樣,RLTs在輸入提示中既獲得問題的內(nèi)容,也獲得每個(gè)問題的正確答案

它們的任務(wù)是提供有助于學(xué)生模型學(xué)習(xí)的、逐步的詳細(xì)解釋,從而連接這些知識(shí)點(diǎn)。如果學(xué)生模型能夠根據(jù)教師對(duì)問題的解釋輕松理解正確解決方案,那么這就是RLTs做得好的信號(hào)。

也就是說,對(duì)RLTs的獎(jiǎng)勵(lì)不再是能自己解決問題,而是能解釋對(duì)學(xué)生模型有多有幫助。



Sanaka AI的新方法解決了傳統(tǒng)方法中的兩個(gè)問題:

首先,新方法的訓(xùn)練循環(huán)使教師訓(xùn)練與其真正目的(為學(xué)生進(jìn)行蒸餾/冷啟動(dòng)提供幫助)保持一致,從而大大提高了效率。

其次,將問題和正確答案同時(shí)輸入RLT,能幫助原本無法獨(dú)立解決問題的小型模型學(xué)會(huì)教學(xué)。

這些特性使Sanaka AI的新方法能更快、更經(jīng)濟(jì)、更有效地訓(xùn)練出具有強(qiáng)大推理能力的學(xué)生模型。

小型教師模型的“不合理但有效”

為了驗(yàn)證新方法的有效性,Sanaka AI用新方法訓(xùn)練了一個(gè)7B的RLT小模型作為教學(xué)模型與此前最先進(jìn)的方法進(jìn)行比較。

競(jìng)爭(zhēng)方法使用規(guī)模更大的模型,如DeepSeek-R1和QwQ,并結(jié)合GPT-4o-mini等工具在用于訓(xùn)練學(xué)生模型之前清理其輸出,以獲得額外幫助。



結(jié)果發(fā)現(xiàn):使用相同的Qwen2.5學(xué)生模型、相同的問題以及相同的評(píng)估設(shè)置,RLT以遠(yuǎn)少的計(jì)算量取得了比DeepSeek-R1和QwQ更好的效果。

把學(xué)生模型的規(guī)模擴(kuò)大,結(jié)果同樣令人驚訝:7B的RLT成功訓(xùn)練了一個(gè)32B的學(xué)生模型,其規(guī)模是自己四倍以上,并取得了優(yōu)異的成果。

Sanaka AI的新方法還可以和傳統(tǒng)RL方法相輔相成:



上圖展示了在2024年美國(guó)邀請(qǐng)數(shù)學(xué)考試(AIME)、競(jìng)賽數(shù)學(xué)和研究生級(jí)問答基準(zhǔn)(GPQA)上的平均性能。

新方法和傳統(tǒng)RL方法聯(lián)合使用,使RLT獲得了改進(jìn)性能,并補(bǔ)充了傳統(tǒng)RL方法在問題解決方面的應(yīng)用。

用作起點(diǎn)時(shí),RLT幫助學(xué)生模型達(dá)到了更高的性能水平。

從成本角度來看,差異非常顯著:使用RLT訓(xùn)練32B的學(xué)生模型僅需單個(gè)計(jì)算節(jié)點(diǎn)一天時(shí)間,而傳統(tǒng)RL方法在相同硬件上需要數(shù)月。

一項(xiàng)定性分析揭示了RLTs提供的解釋與Deepseek-R1的蒸餾軌跡之間存在一些差異:



Deepseek-R1的輸出常常依賴于外部工具,例如計(jì)算器、網(wǎng)絡(luò)上的討論以及玩梗,包括一些具有誤導(dǎo)性的內(nèi)容。

相比之下,RLT提供的解釋避免了令人困惑的語言,并增加了額外的邏輯步驟來幫助學(xué)生。

這些直觀的改進(jìn)能夠轉(zhuǎn)化為學(xué)生語言模型的改進(jìn)學(xué)習(xí),像人類專家一樣簡(jiǎn)潔且清晰。

參考鏈接:
https://x.com/SakanaAILabs/status/1936965841188425776
博客:https://sakana.ai/rlt
論文:https://arxiv.org/abs/2506.08388
代碼:github.com/SakanaAI/RLT

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
外資藥企大批退出中國(guó),真的是咱們贏了嗎?大謬!

外資藥企大批退出中國(guó),真的是咱們贏了嗎?大謬!

未央看點(diǎn)
2025-06-24 01:32:07
太實(shí)誠(chéng)了!38歲劉亦菲不化妝無美顏純素顏出鏡,氣血充足,真美啊

太實(shí)誠(chéng)了!38歲劉亦菲不化妝無美顏純素顏出鏡,氣血充足,真美啊

清游說娛
2025-06-24 17:47:37
北京天氣“反轉(zhuǎn)”了!未來這幾天有雨——

北京天氣“反轉(zhuǎn)”了!未來這幾天有雨——

BRTV新聞
2025-06-25 14:33:53
以伊十二日戰(zhàn)爭(zhēng)結(jié)束, 伊朗成最大贏家!!!

以伊十二日戰(zhàn)爭(zhēng)結(jié)束, 伊朗成最大贏家!!!

山河路口
2025-06-25 12:47:16
社保繳納出事了!稅局終于對(duì)社保出手了,這7種行為查到必罰!

社保繳納出事了!稅局終于對(duì)社保出手了,這7種行為查到必罰!

稅海拾真
2025-06-25 09:42:30
東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學(xué)習(xí)

東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學(xué)習(xí)

星光看娛樂
2025-06-25 13:20:52
女喂養(yǎng)員海洋館失蹤,不久鯊魚因病手術(shù),獸醫(yī)開刀后發(fā)現(xiàn)異常

女喂養(yǎng)員海洋館失蹤,不久鯊魚因病手術(shù),獸醫(yī)開刀后發(fā)現(xiàn)異常

懸案解密檔案
2025-06-21 09:33:54
首發(fā)10+15,李月汝征服美媒!全英語流利采訪,打臉歧視她的教練

首發(fā)10+15,李月汝征服美媒!全英語流利采訪,打臉歧視她的教練

嘴炮體壇
2025-06-25 10:54:31
2-0!2-1!溫網(wǎng)第2天,中國(guó)金花2人同時(shí)晉級(jí),36歲老將接近創(chuàng)歷史

2-0!2-1!溫網(wǎng)第2天,中國(guó)金花2人同時(shí)晉級(jí),36歲老將接近創(chuàng)歷史

侃球熊弟
2025-06-24 22:38:56
世界首富馬斯克語出驚人!他直言:“外界一直低估中國(guó)!”

世界首富馬斯克語出驚人!他直言:“外界一直低估中國(guó)!”

荊楚寰宇文樞
2025-06-24 23:52:04
李夢(mèng)宣布不再參加比賽,女籃主帥宮魯鳴回應(yīng)歡迎其回歸!

李夢(mèng)宣布不再參加比賽,女籃主帥宮魯鳴回應(yīng)歡迎其回歸!

杜蘭特
2025-06-25 10:36:04
總理府已被圍,佩通坦拒絕辭職,軍方態(tài)度堅(jiān)決,陸軍司令作出決定

總理府已被圍,佩通坦拒絕辭職,軍方態(tài)度堅(jiān)決,陸軍司令作出決定

博覽歷史
2025-06-23 17:12:51
國(guó)務(wù)院辦公廳關(guān)于進(jìn)一步規(guī)范和提升12345熱線服務(wù)的意見

國(guó)務(wù)院辦公廳關(guān)于進(jìn)一步規(guī)范和提升12345熱線服務(wù)的意見

新京報(bào)
2025-06-25 17:18:45
比亞迪經(jīng)銷商會(huì)議重大決定:精簡(jiǎn)SKU、庫存熔斷、返利666元/輛

比亞迪經(jīng)銷商會(huì)議重大決定:精簡(jiǎn)SKU、庫存熔斷、返利666元/輛

車市紅點(diǎn)
2025-06-24 15:41:51
65歲老頭包養(yǎng)26歲女孩以干爹干女兒互稱,最后一次上床被女孩掐死

65歲老頭包養(yǎng)26歲女孩以干爹干女兒互稱,最后一次上床被女孩掐死

胖胖侃咖
2025-06-23 08:00:07
俄空軍司令科貝拉乘直升機(jī)視察前線被烏軍擊落,當(dāng)場(chǎng)喪生

俄空軍司令科貝拉乘直升機(jī)視察前線被烏軍擊落,當(dāng)場(chǎng)喪生

環(huán)球熱點(diǎn)快評(píng)
2025-06-24 09:03:00
斯諾克冷門不斷!2大世界冠軍翻車,囧哥轟5-0,中國(guó)13人進(jìn)正賽!

斯諾克冷門不斷!2大世界冠軍翻車,囧哥轟5-0,中國(guó)13人進(jìn)正賽!

劉姚堯的文字城堡
2025-06-25 08:50:58
國(guó)家出手!大批醫(yī)院將退出醫(yī)保

國(guó)家出手!大批醫(yī)院將退出醫(yī)保

賽柏藍(lán)
2025-06-25 20:29:49
全國(guó)城管機(jī)構(gòu)大撤銷!百萬城管咋辦?六個(gè)方案能解決重就業(yè)問題?

全國(guó)城管機(jī)構(gòu)大撤銷!百萬城管咋辦?六個(gè)方案能解決重就業(yè)問題?

說宇宙
2025-06-22 11:20:03
失傳已久的手診口訣找到了,趕緊收藏

失傳已久的手診口訣找到了,趕緊收藏

鄉(xiāng)村白大褂之家
2025-06-24 20:52:56
2025-06-25 21:23:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10732文章數(shù) 176172關(guān)注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運(yùn)往全國(guó)

頭條要聞

與汪峰節(jié)目牽手引猜測(cè) 寧靜談?chuàng)衽紭?biāo)準(zhǔn):他不是我的菜

頭條要聞

與汪峰節(jié)目牽手引猜測(cè) 寧靜談?chuàng)衽紭?biāo)準(zhǔn):他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機(jī)郭碧婷,全程無交流像陌生人

財(cái)經(jīng)要聞

免除蘇寧易購5億債務(wù)的神秘人是誰?

汽車要聞

售14.99萬/限量200臺(tái) 別克昂科威S新增丹霞紅內(nèi)飾

態(tài)度原創(chuàng)

家居
本地
親子
藝術(shù)
健康

家居要聞

木質(zhì)簡(jiǎn)約 空間極致利用

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

親子要聞

終于見面啦!!!!原創(chuàng)dy:@辣炒年糕

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 乌兰浩特市| 衡阳市| 阳山县| 广南县| 监利县| 商洛市| 双辽市| 宝兴县| 都兰县| 南乐县| 邻水| 临泽县| 玉环县| 蓬莱市| 老河口市| 林口县| 咸宁市| 新田县| 新邵县| 蒙城县| 磐安县| 盐城市| 抚松县| 舟曲县| 镇原县| 苍溪县| 石阡县| 高要市| 湖北省| 莆田市| 丰镇市| 石棉县| 赣州市| 阿尔山市| 房山区| 米脂县| 揭阳市| 康平县| 治多县| 博兴县| 德令哈市|