99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

強(qiáng)化學(xué)習(xí)賦能工具推理,ToRL實(shí)現(xiàn)奧數(shù)解題能力躍升17%

0
分享至

始智AI wisemodel.cn開源社區(qū)

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel社區(qū)上線,價(jià)格實(shí)惠,靈活方便,支持在線微調(diào)訓(xùn)練模型,及和,并。

在大模型推理能力提升的探索中,工具使用一直是克服語言模型計(jì)算局限性的關(guān)鍵路徑。不過,當(dāng)今的大模型在使用工具方面還存在一些局限,比如預(yù)先確定了工具的使用模式、限制了對(duì)最優(yōu)策略的探索、實(shí)現(xiàn)透明度不足等。

為了解決這些難題,來自上海交通大學(xué)、SII 和 GAIR 的研究團(tuán)隊(duì)提出了一種全新框架ToRL,該方法允許模型直接從基座模型開始,通過強(qiáng)化學(xué)習(xí)自主探索最優(yōu)工具使用策略,而非受限于預(yù)定義的工具使用模式。ToRL相關(guān)模型已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗(yàn)。


模型地址

https://wisemodel.cn/models/GAIR/ToRL-1.5B

https://wisemodel.cn/models/GAIR/ToRL-7B

01.

框架突破

為什么要直接從基座模型擴(kuò)展工具集成強(qiáng)化學(xué)習(xí)?

在傳統(tǒng)工具集成推理(TIR)領(lǐng)域,研究者們長期遵循著一條看似不可撼動(dòng)的鐵律:必須先通過監(jiān)督微調(diào)(SFT)教會(huì)模型使用工具,才能進(jìn)行強(qiáng)化學(xué)習(xí)優(yōu)化。這種 "先 SFT 再 RL" 的范式,就像給 AI 套上預(yù)設(shè)的思維枷鎖,雖然能獲得穩(wěn)定的性能提升,卻可能永遠(yuǎn)無法發(fā)現(xiàn)最優(yōu)的工具使用策略。

正當(dāng)大家沿著這條既定路線堆砌數(shù)據(jù)和算力時(shí),該研究團(tuán)隊(duì)卻大膽提出了一個(gè)假設(shè):如果讓模型完全自主探索工具使用方式,會(huì)怎樣?他們開發(fā)的 ToRL 框架就像打開了一扇全新的大門 —— 直接從基座模型出發(fā),單純通過擴(kuò)展強(qiáng)化學(xué)習(xí)讓 AI 自主掌握工具使用的精髓。

實(shí)驗(yàn)結(jié)果令人驚喜:ToRL 不僅打破了傳統(tǒng) TIR 方法的性能天花板,更讓模型自發(fā)涌現(xiàn)出三大重要能力:1、像人類專家般的工具選擇直覺;2、自我修正無效代碼的元能力;3、動(dòng)態(tài)切換計(jì)算與推理的解題智慧。

這些能力完全由獎(jiǎng)勵(lì)信號(hào)驅(qū)動(dòng)自然形成,沒有任何人為預(yù)設(shè)的痕跡。

這不禁讓人思考:ToRL 證明了大模型可能早已具備強(qiáng)大的工具使用能力,只是需要更開放的學(xué)習(xí)方式去釋放。當(dāng)主流研究還在為數(shù)據(jù)規(guī)模和算法復(fù)雜度較勁時(shí),ToRL 用事實(shí)告訴我們:有時(shí)候,少一些人為干預(yù),反而能收獲更多意外之喜。


ToRL使用自然語言和代碼工具交叉驗(yàn)證,并在發(fā)現(xiàn)不一致后進(jìn)一步使用使用工具驗(yàn)證

02.

技術(shù)解析:賦予模型自主工具能力

工具集成推理 (TIR) 的基本框架

工具集成推理 (TIR) 使大語言模型能夠通過編寫代碼,利用外部工具執(zhí)行計(jì)算,并基于執(zhí)行結(jié)果迭代生成推理過程。這一過程可以用簡單的語言描述為:

當(dāng)語言模型面對(duì)一個(gè)問題時(shí),TIR 允許模型構(gòu)建一個(gè)包含多個(gè)步驟的推理軌跡。在每一步中,模型首先用自然語言進(jìn)行推理,然后生成相關(guān)代碼,接著獲取代碼的執(zhí)行結(jié)果,并將這三部分內(nèi)容組合起來形成完整的推理過程。隨著推理的深入,模型會(huì)不斷參考之前的推理內(nèi)容、代碼及其執(zhí)行結(jié)果,進(jìn)一步調(diào)整自己的思路。

ToRL: 直接從基座模型的強(qiáng)化學(xué)習(xí)

ToRL 框架將 TIR 與直接從基座語言模型開始的強(qiáng)化學(xué)習(xí)相結(jié)合,而不需要先進(jìn)行監(jiān)督微調(diào)。這使得模型能夠自主發(fā)現(xiàn)有效的工具使用策略。

在模型的推理過程中,當(dāng)檢測(cè)到代碼終止標(biāo)識(shí)符 (```output) 時(shí),系統(tǒng)會(huì)暫停文本生成,提取最新的代碼塊執(zhí)行,并將結(jié)構(gòu)化執(zhí)行結(jié)果插入上下文中。系統(tǒng)會(huì)繼續(xù)生成后續(xù)的自然語言推理,直到模型提供最終答案或生成新的代碼塊。

設(shè)計(jì)選擇與考量:

  • 工具調(diào)用頻率控制:為了平衡訓(xùn)練效率,引入超參數(shù) C,表示每次響應(yīng)生成允許的最大工具調(diào)用次數(shù);

  • 執(zhí)行環(huán)境選擇:選擇穩(wěn)定、準(zhǔn)確和響應(yīng)迅速的代碼解釋器實(shí)現(xiàn);

  • 錯(cuò)誤消息處理:提取關(guān)鍵錯(cuò)誤信息,減少上下文長度;

  • 沙盒輸出掩碼:在損失計(jì)算中掩蓋沙盒環(huán)境的輸出,提高訓(xùn)練穩(wěn)定性。

獎(jiǎng)勵(lì)設(shè)計(jì):實(shí)現(xiàn)了基于規(guī)則的獎(jiǎng)勵(lì)函數(shù),正確答案獲得 + 1 獎(jiǎng)勵(lì),錯(cuò)誤答案獲得 - 1 獎(jiǎng)勵(lì)。此外,研究還嘗試探究了基于執(zhí)行的懲罰:含有不可執(zhí)行代碼的響應(yīng)會(huì)導(dǎo)致 - 0.5的獎(jiǎng)勵(lì)減少。在默認(rèn)實(shí)驗(yàn)設(shè)置中,僅使用了答案正確性的 reward。

03.

實(shí)驗(yàn)驗(yàn)證


ToRL在數(shù)學(xué)基準(zhǔn)測(cè)試上的準(zhǔn)確率比較

實(shí)驗(yàn)結(jié)果表明,ToRL 在所有測(cè)試基準(zhǔn)上的表現(xiàn)始終優(yōu)于基線模型。對(duì)于 1.5B 參數(shù)模型,ToRL-1.5B 的平均準(zhǔn)確率達(dá)到了 48.5%,超過了 Qwen2.5-Math-1.5B-Instruct (35.9%) 和 Qwen2.5-Math-1.5B-Instruct-TIR (41.3%)。在 7B 參數(shù)模型中,性能提升更加顯著,ToRL-7B 達(dá)到了 62.1% 的平均準(zhǔn)確率,比具有相同基礎(chǔ)模型的其他開源模型高出 14.7%。


ToRL 在數(shù)學(xué)基準(zhǔn)測(cè)試上的訓(xùn)練動(dòng)態(tài)

上圖展示了在五個(gè)不同數(shù)學(xué)基準(zhǔn)上的訓(xùn)練動(dòng)態(tài)。ToRL-7B 在訓(xùn)練步驟中顯示出持續(xù)改進(jìn),并保持明顯優(yōu)勢(shì)。這種性能差距在具有挑戰(zhàn)性的基準(zhǔn)上尤為顯著,如 AIME24 (43.3%)、AIME25 (30.0%) 和 OlympiadBench (49.9%)。

04.

行為探索:模型使用工具的認(rèn)知模式

訓(xùn)練中的工具使用進(jìn)化


訓(xùn)練步數(shù)增加時(shí),ToRL 的代碼使用率與有效性變化

上圖提供了訓(xùn)練過程中工具使用模式的深入洞察:

  • 代碼比率:模型生成的包含代碼的響應(yīng)比例在前 100 步內(nèi)從 40% 增加到 80%,展示了整個(gè)訓(xùn)練過程中的穩(wěn)定提升

  • 通過率:成功執(zhí)行的代碼比例呈現(xiàn)持續(xù)上升趨勢(shì),反映了模型增強(qiáng)的編碼能力

  • 正確 / 錯(cuò)誤響應(yīng)的通過率:揭示了代碼執(zhí)行錯(cuò)誤與最終答案準(zhǔn)確性之間的相關(guān)性,正確響應(yīng)表現(xiàn)出更高的代碼通過率

  • 有效代碼比率:檢查有效代碼比例的變化,包括成功執(zhí)行的代碼和在模型提供最終答案前生成的代碼,兩者都隨著訓(xùn)練時(shí)間增加而提高

關(guān)鍵發(fā)現(xiàn):隨著訓(xùn)練步驟的增加,模型解決問題使用代碼的比例以及可以正確執(zhí)行的代碼比例持續(xù)增長。同時(shí),模型能夠識(shí)別并減少無效代碼的生成。

關(guān)鍵參數(shù)設(shè)置的影響


探索相應(yīng)最大次數(shù)(左 2 圖)和可執(zhí)行(右 2 圖)對(duì)模型性能的影響

研究團(tuán)隊(duì)探索了關(guān)鍵 ToRL 設(shè)置對(duì)最終性能和行為的影響:

首先,實(shí)驗(yàn)探究了增加 C(單次響應(yīng)生成中可調(diào)用的最大工具數(shù))的影響。將 C 從 1 增加到 2 顯著提高了性能,平均準(zhǔn)確率提高約 2%。然而,增加 C 會(huì)大幅降低訓(xùn)練速度,需要在性能和效率之間進(jìn)行權(quán)衡。

此外,分析了將代碼可執(zhí)行性獎(jiǎng)勵(lì)納入獎(jiǎng)勵(lì)塑造的影響。結(jié)果表明,這種獎(jiǎng)勵(lì)設(shè)計(jì)并未提高模型性能。研究團(tuán)隊(duì)推測(cè),對(duì)執(zhí)行錯(cuò)誤進(jìn)行懲罰可能會(huì)激勵(lì)模型生成過于簡單的代碼以最小化錯(cuò)誤,從而可能阻礙其正確解決問題的能力。

通過強(qiáng)化學(xué)習(xí)擴(kuò)展涌現(xiàn)的認(rèn)知行為

模型訓(xùn)練后期出現(xiàn)了一些有趣的現(xiàn)象,這些現(xiàn)象幫助我們深入理解模型使用工具解決問題的認(rèn)知行為。

例如,模型能夠根據(jù)代碼解釋器的執(zhí)行反饋調(diào)整其推理。在一個(gè)案例中,模型首先編寫了代碼,但由于不當(dāng)處理導(dǎo)致索引錯(cuò)誤。在收到 "TypeError: 'int' object is not subscriptable" 的反饋后,它迅速調(diào)整并生成了可執(zhí)行代碼,最終推斷出正確答案。


案例 1-ToRL 通過執(zhí)行器報(bào)錯(cuò)反饋重新構(gòu)建推理代碼

另一個(gè)案例展示了模型的反思認(rèn)知行為。模型最初通過自然語言推理解決問題,然后通過工具進(jìn)行驗(yàn)證,但發(fā)現(xiàn)不一致。因此,模型進(jìn)一步進(jìn)行修正,最終生成正確答案。


案例 2-ToRL 使用代碼工具驗(yàn)證修正推理結(jié)果

關(guān)鍵發(fā)現(xiàn):ToRL 產(chǎn)生了多種認(rèn)知行為,包括從代碼執(zhí)行結(jié)果獲取反饋,以及通過代碼和自然語言進(jìn)行交叉檢查。

05.

前景與意義:超越數(shù)學(xué)的工具學(xué)習(xí)

ToRL 使大語言模型能夠通過強(qiáng)化學(xué)習(xí)將工具整合到推理中,超越預(yù)定義的工具使用約束。研究結(jié)果顯示了顯著的性能提升和涌現(xiàn)的推理能力,展示了 ToRL 在復(fù)雜推理方面推進(jìn)大語言模型發(fā)展的潛力。

這種直接從基座模型擴(kuò)展的方法不僅在數(shù)學(xué)領(lǐng)域表現(xiàn)出色,還為需要精確計(jì)算、模擬或算法推理的其他領(lǐng)域開辟了新的可能性,如科學(xué)計(jì)算、經(jīng)濟(jì)建模和算法問題解決。

研究團(tuán)隊(duì)已開源實(shí)現(xiàn)代碼、數(shù)據(jù)集和訓(xùn)練模型,使社區(qū)能夠在 ToRL 的基礎(chǔ)上進(jìn)一步拓展工具增強(qiáng)語言模型的研究。

編輯丨趙雅鑫

----- END -----

wisemodel相關(guān):

系統(tǒng)升級(jí):

大賽報(bào)名:

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運(yùn)營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
官方最新通報(bào)!“耳環(huán)事件”大反轉(zhuǎn)了?網(wǎng)友扒出3條漏洞打臉

官方最新通報(bào)!“耳環(huán)事件”大反轉(zhuǎn)了?網(wǎng)友扒出3條漏洞打臉

禾寒?dāng)?/span>
2025-07-17 13:31:24
國家能源局:7月16日全國電力負(fù)荷再創(chuàng)歷史新高,首次突破15億千瓦

國家能源局:7月16日全國電力負(fù)荷再創(chuàng)歷史新高,首次突破15億千瓦

澎湃新聞
2025-07-17 02:27:36
北大在廣東再次遭遇斷檔!名校崇拜不敵實(shí)用主義,深層次揭秘

北大在廣東再次遭遇斷檔!名校崇拜不敵實(shí)用主義,深層次揭秘

史海流年號(hào)
2025-07-16 22:02:32
“惡魔”宗慶后的墮落之路:從對(duì)女員工下手開始,就一發(fā)不可收拾

“惡魔”宗慶后的墮落之路:從對(duì)女員工下手開始,就一發(fā)不可收拾

深析古今
2025-07-17 17:23:50
這教練靠譜!前世界杯名帥競聘國足主帥:愿接受足協(xié)年薪要求!

這教練靠譜!前世界杯名帥競聘國足主帥:愿接受足協(xié)年薪要求!

邱澤云
2025-07-17 15:26:30
春秋航空一航班疑起飛離地后發(fā)生故障“砸下來”落地,航司回應(yīng):機(jī)械故障

春秋航空一航班疑起飛離地后發(fā)生故障“砸下來”落地,航司回應(yīng):機(jī)械故障

瀟湘晨報(bào)
2025-07-17 20:55:36
美媒:楊瀚森提升了三分這讓人驚訝 他可能是開拓者下一個(gè)基石

美媒:楊瀚森提升了三分這讓人驚訝 他可能是開拓者下一個(gè)基石

直播吧
2025-07-17 19:32:16
最新消息!曝開拓者同意放人,楊瀚森結(jié)束夏聯(lián),可能回國打亞洲杯

最新消息!曝開拓者同意放人,楊瀚森結(jié)束夏聯(lián),可能回國打亞洲杯

侃球熊弟
2025-07-17 23:31:59
高加索變天了,兩小國公然向俄羅斯索要領(lǐng)土

高加索變天了,兩小國公然向俄羅斯索要領(lǐng)土

史政先鋒
2025-07-17 17:28:41
在地鐵上“沒掏、沒摸、沒動(dòng)、沒硬、沒射、沒說話、手舉起來”,就被判強(qiáng)制猥褻罪?

在地鐵上“沒掏、沒摸、沒動(dòng)、沒硬、沒射、沒說話、手舉起來”,就被判強(qiáng)制猥褻罪?

鄒談
2025-07-17 11:23:11
“內(nèi)鬼”黎凱生被查,兩年前已退休

“內(nèi)鬼”黎凱生被查,兩年前已退休

政知新媒體
2025-07-17 20:17:57
知名女歌手確診急性骨壞死,演唱會(huì)宣布取消

知名女歌手確診急性骨壞死,演唱會(huì)宣布取消

惠州全接觸
2025-07-17 15:20:46
加州州長跳腳:特朗普這是把未來交給中國,休想

加州州長跳腳:特朗普這是把未來交給中國,休想

觀察者網(wǎng)
2025-07-17 22:46:42
杜建英同學(xué)發(fā)聲:怒斥宗馥莉沒教養(yǎng)是惡人,杜建英一直郁郁寡歡

杜建英同學(xué)發(fā)聲:怒斥宗馥莉沒教養(yǎng)是惡人,杜建英一直郁郁寡歡

葉公子
2025-07-17 20:43:32
二十屆中央第六輪巡視開始進(jìn)駐

二十屆中央第六輪巡視開始進(jìn)駐

界面新聞
2025-07-17 18:32:50
旁白|王喜民被錯(cuò)當(dāng)被告的十一個(gè)月

旁白|王喜民被錯(cuò)當(dāng)被告的十一個(gè)月

澎湃新聞
2025-07-17 14:58:28
除了商標(biāo)全是假的!全球科技先鋒隕落,百年巨頭淪為貼牌工廠

除了商標(biāo)全是假的!全球科技先鋒隕落,百年巨頭淪為貼牌工廠

聞識(shí)
2025-07-15 13:34:23
流弊!曝保羅即將加盟!NBA又一爭冠熱門誕生

流弊!曝保羅即將加盟!NBA又一爭冠熱門誕生

籃球?qū)崙?zhàn)寶典
2025-07-17 20:41:53
娃哈哈的“繼承迷局”:宗馥莉轉(zhuǎn)錢不是關(guān)鍵,信托是否有效才關(guān)鍵

娃哈哈的“繼承迷局”:宗馥莉轉(zhuǎn)錢不是關(guān)鍵,信托是否有效才關(guān)鍵

藍(lán)鯨新聞
2025-07-17 20:39:10
還是沒有熬過楊振寧!陪伴21年后,冷凍9顆卵子的翁帆痛苦嗎?

還是沒有熬過楊振寧!陪伴21年后,冷凍9顆卵子的翁帆痛苦嗎?

明月聊史
2025-07-17 15:29:09
2025-07-18 00:32:49
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
309文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

遺產(chǎn)戰(zhàn)進(jìn)入高潮 關(guān)鍵時(shí)刻"影子夫人"杜建英資金出狀況

頭條要聞

遺產(chǎn)戰(zhàn)進(jìn)入高潮 關(guān)鍵時(shí)刻"影子夫人"杜建英資金出狀況

體育要聞

楊力維和楊舒予,是姐妹,也是戰(zhàn)友

娛樂要聞

又相信愛情了,董璇二婚現(xiàn)場(chǎng)照曝光!

財(cái)經(jīng)要聞

杭州成立專班介入宗慶后遺產(chǎn)糾紛

汽車要聞

有望年內(nèi)上市 奧迪A6L e-tron申報(bào)信息曝光

態(tài)度原創(chuàng)

教育
房產(chǎn)
手機(jī)
游戲
公開課

教育要聞

寶媽千萬不要在家長群里說這件事!!

房產(chǎn)要聞

突發(fā)!海航陳峰被判12年,罰2.2億!

手機(jī)要聞

小米16外觀曝光,或9月發(fā)?

數(shù)毛社預(yù)測(cè):PS6內(nèi)存提升不會(huì)太大 估計(jì)就24GB

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 竹北市| 扎赉特旗| 隆昌县| 武穴市| 伊春市| 万全县| 铜梁县| 德令哈市| 卫辉市| 南溪县| 阿克苏市| 尼勒克县| 云龙县| 梓潼县| 称多县| 上林县| 壶关县| 靖安县| 洮南市| 广饶县| 宁陕县| 施甸县| 固原市| 广东省| 彭阳县| 应城市| 呼玛县| 枝江市| 巧家县| 宣城市| 海林市| 通城县| 石狮市| 阳泉市| 合川市| 乌兰察布市| 漾濞| 黔江区| 清远市| 凌源市| 临湘市|