99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

自動學會工具解題,RL擴展催化奧數能力激增17%

0
分享至




在大模型推理能力提升的探索中,工具使用一直是克服語言模型計算局限性的關鍵路徑。不過,當今的大模型在使用工具方面還存在一些局限,比如預先確定了工具的使用模式、限制了對最優策略的探索、實現透明度不足等。

為了解決這些難題,來自上海交通大學、SII 和 GAIR的研究團隊提出了一種全新框架ToRL(Tool-Integrated Reinforcement Learning),該方法允許模型直接從基座模型開始,通過強化學習自主探索最優工具使用策略,而非受限于預定義的工具使用模式。



  • 論文標題:ToRL: Scaling Tool-Integrated RL
  • 論文地址:https://arxiv.org/pdf/2503.23383
  • 代碼地址:https://github.com/GAIR-NLP/ToRL
  • 數據集地址:https://github.com/GAIR-NLP/ToRL/tree/main/data/torl_data
  • 模型地址:https://huggingface.co/GAIR/ToRL-7B

實驗表明,這種方法在數學推理任務上取得了顯著突破:ToRL-7B 在 AIME24 上達到了 43.3% 的準確率,比不使用工具的基線 RL 模型提高了 14%,比現有的工具集成大模型提高了 17%。



圖 1: ToRL 在 AIME24 等基準中的性能對比,優于基線和現有 TIR 系統

一、為什么要直接從基座模型擴展工具集成強化學習?

在傳統工具集成推理(TIR)領域,研究者們長期遵循著一條看似不可撼動的鐵律:必須先通過監督微調(SFT)教會模型使用工具,才能進行強化學習優化。這種 "先 SFT 再 RL" 的范式,就像給 AI 套上預設的思維枷鎖,雖然能獲得穩定的性能提升,卻可能永遠無法發現最優的工具使用策略。

正當大家沿著這條既定路線堆砌數據和算力時,該研究團隊卻大膽提出了一個假設:如果讓模型完全自主探索工具使用方式,會怎樣?他們開發的 ToRL 框架就像打開了一扇全新的大門 —— 直接從基座模型出發,單純通過擴展強化學習讓 AI 自主掌握工具使用的精髓。

實驗結果令人驚喜:ToRL 不僅打破了傳統 TIR 方法的性能天花板,更讓模型自發涌現出三大重要能力:

  1. 像人類專家般的工具選擇直覺
  2. 自我修正無效代碼的元能力
  3. 動態切換計算與推理的解題智慧

這些能力完全由獎勵信號驅動自然形成,沒有任何人為預設的痕跡。

這不禁讓人思考:ToRL 證明了大模型可能早已具備強大的工具使用能力,只是需要更開放的學習方式去釋放。當主流研究還在為數據規模和算法復雜度較勁時,ToRL 用事實告訴我們:有時候,少一些人為干預,反而能收獲更多意外之喜。



圖 2: ToRL 使用自然語言和代碼工具交叉驗證,并在發現不一致后進一步使用使用工具驗證

二、技術解析:ToRL 如何賦予模型自主工具能力

工具集成推理 (TIR) 的基本框架

工具集成推理 (TIR) 使大語言模型能夠通過編寫代碼,利用外部工具執行計算,并基于執行結果迭代生成推理過程。這一過程可以用簡單的語言描述為:

當語言模型面對一個問題時,TIR 允許模型構建一個包含多個步驟的推理軌跡。在每一步中,模型首先用自然語言進行推理,然后生成相關代碼,接著獲取代碼的執行結果,并將這三部分內容組合起來形成完整的推理過程。隨著推理的深入,模型會不斷參考之前的推理內容、代碼及其執行結果,進一步調整自己的思路。

ToRL: 直接從基座模型的強化學習

ToRL 框架將 TIR 與直接從基座語言模型開始的強化學習相結合,而不需要先進行監督微調。這使得模型能夠自主發現有效的工具使用策略。

在模型的推理過程中,當檢測到代碼終止標識符 (```output) 時,系統會暫停文本生成,提取最新的代碼塊執行,并將結構化執行結果插入上下文中。系統會繼續生成后續的自然語言推理,直到模型提供最終答案或生成新的代碼塊。

設計選擇與考量:

  • 工具調用頻率控制:為了平衡訓練效率,引入超參數 C,表示每次響應生成允許的最大工具調用次數;
  • 執行環境選擇:選擇穩定、準確和響應迅速的代碼解釋器實現;
  • 錯誤消息處理:提取關鍵錯誤信息,減少上下文長度;
  • 沙盒輸出掩碼:在損失計算中掩蓋沙盒環境的輸出,提高訓練穩定性。

獎勵設計:實現了基于規則的獎勵函數,正確答案獲得 + 1 獎勵,錯誤答案獲得 - 1 獎勵。此外,研究還嘗試探究了基于執行的懲罰:含有不可執行代碼的響應會導致 - 0.5 的獎勵減少。在默認實驗設置中,僅使用了答案正確性的 reward。

三、實驗驗證:ToRL 的性能優勢



圖 3: ToRL 在數學基準測試上的準確率比較

實驗結果表明,ToRL 在所有測試基準上的表現始終優于基線模型。對于 1.5B 參數模型,ToRL-1.5B 的平均準確率達到了 48.5%,超過了 Qwen2.5-Math-1.5B-Instruct (35.9%) 和 Qwen2.5-Math-1.5B-Instruct-TIR (41.3%)。在 7B 參數模型中,性能提升更加顯著,ToRL-7B 達到了 62.1% 的平均準確率,比具有相同基礎模型的其他開源模型高出 14.7%。



圖 4: ToRL 在數學基準測試上的訓練動態

圖 4 展示了在五個不同數學基準上的訓練動態。ToRL-7B 在訓練步驟中顯示出持續改進,并保持明顯優勢。這種性能差距在具有挑戰性的基準上尤為顯著,如 AIME24 (43.3%)、AIME25 (30.0%) 和 OlympiadBench (49.9%)。

四、行為探索:模型使用工具的認知模式

訓練中的工具使用進化



圖 5: 訓練步數增加時,ToRL 的代碼使用率與有效性變化

圖 5 提供了訓練過程中工具使用模式的深入洞察:

  • 代碼比率:模型生成的包含代碼的響應比例在前 100 步內從 40% 增加到 80%,展示了整個訓練過程中的穩定提升
  • 通過率:成功執行的代碼比例呈現持續上升趨勢,反映了模型增強的編碼能力
  • 正確 / 錯誤響應的通過率:揭示了代碼執行錯誤與最終答案準確性之間的相關性,正確響應表現出更高的代碼通過率
  • 有效代碼比率:檢查有效代碼比例的變化,包括成功執行的代碼和在模型提供最終答案前生成的代碼,兩者都隨著訓練時間增加而提高

關鍵發現:隨著訓練步驟的增加,模型解決問題使用代碼的比例以及可以正確執行的代碼比例持續增長。同時,模型能夠識別并減少無效代碼的生成。

關鍵參數設置的影響



圖 6: 探索相應最大次數(左 2 圖)和可執行(右 2 圖)對模型性能的影響

研究團隊探索了關鍵 ToRL 設置對最終性能和行為的影響:

首先,實驗探究了增加 C(單次響應生成中可調用的最大工具數)的影響。將 C 從 1 增加到 2 顯著提高了性能,平均準確率提高約 2%。然而,增加 C 會大幅降低訓練速度,需要在性能和效率之間進行權衡。

此外,分析了將代碼可執行性獎勵納入獎勵塑造的影響。結果表明,這種獎勵設計并未提高模型性能。研究團隊推測,對執行錯誤進行懲罰可能會激勵模型生成過于簡單的代碼以最小化錯誤,從而可能阻礙其正確解決問題的能力。

通過強化學習擴展涌現的認知行為

模型訓練后期出現了一些有趣的現象,這些現象幫助我們深入理解模型使用工具解決問題的認知行為。

例如,模型能夠根據代碼解釋器的執行反饋調整其推理。在一個案例中,模型首先編寫了代碼,但由于不當處理導致索引錯誤。在收到 "TypeError: 'int' object is not subscriptable" 的反饋后,它迅速調整并生成了可執行代碼,最終推斷出正確答案。



圖 7: 案例 1-ToRL 通過執行器報錯反饋重新構建推理代碼

另一個案例展示了模型的反思認知行為。模型最初通過自然語言推理解決問題,然后通過工具進行驗證,但發現不一致。因此,模型進一步進行修正,最終生成正確答案。



圖 8: 案例 2-ToRL 使用代碼工具驗證修正推理結果

關鍵發現:ToRL 產生了多種認知行為,包括從代碼執行結果獲取反饋,以及通過代碼和自然語言進行交叉檢查。

五、前景與意義:超越數學的工具學習

ToRL 使大語言模型能夠通過強化學習將工具整合到推理中,超越預定義的工具使用約束。研究結果顯示了顯著的性能提升和涌現的推理能力,展示了 ToRL 在復雜推理方面推進大語言模型發展的潛力。

這種直接從基座模型擴展的方法不僅在數學領域表現出色,還為需要精確計算、模擬或算法推理的其他領域開辟了新的可能性,如科學計算、經濟建模和算法問題解決。

研究團隊已開源實現代碼、數據集和訓練模型,使社區能夠在 ToRL 的基礎上進一步拓展工具增強語言模型的研究。

項目鏈接:https://github.com/GAIR-NLP/ToRL

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
安徽哄搶土豆事件,失控背后需理清三個真相,2年前成都就有案例

安徽哄搶土豆事件,失控背后需理清三個真相,2年前成都就有案例

史書無明
2025-06-16 21:24:19
33歲大齡剩女吐槽相親男吃幾次飯就想確定關系,評論區罵聲一片

33歲大齡剩女吐槽相親男吃幾次飯就想確定關系,評論區罵聲一片

阿會情感
2025-06-01 12:40:06
真當中國不敢動手?中方向全世界宣布:退出1900億大項目

真當中國不敢動手?中方向全世界宣布:退出1900億大項目

混沌錄
2025-06-16 20:01:16
“憑什么說我擦邊”,初中女生穿短袖拍照被噴,網友:這照片確實

“憑什么說我擦邊”,初中女生穿短袖拍照被噴,網友:這照片確實

知曉科普
2025-06-12 08:10:09
僅僅開播4小時,奪熱度第一!觀眾好評如潮,這部劇,爆了

僅僅開播4小時,奪熱度第一!觀眾好評如潮,這部劇,爆了

星宿影視鴨
2025-06-16 16:42:35
如果兩岸突然爆發戰爭,那么,我們首先斬首的就應該是顧立雄

如果兩岸突然爆發戰爭,那么,我們首先斬首的就應該是顧立雄

牛牛叨史
2025-06-16 18:39:18
匈牙利總理最新涉華表態

匈牙利總理最新涉華表態

環球時報新聞
2025-06-16 11:47:44
各個門閥勢力在國內已經形成,對國家持續發展危害極大!要警惕了

各個門閥勢力在國內已經形成,對國家持續發展危害極大!要警惕了

律法刑道
2025-06-15 21:25:05
爭鳴!陽痿屬于婚前應該如實告知的重大疾病,那艾滋病為何被隱瞞

爭鳴!陽痿屬于婚前應該如實告知的重大疾病,那艾滋病為何被隱瞞

火山詩話
2025-06-16 11:22:23
違背承諾偷賣稀土給美國,印度這回遭殃了

違背承諾偷賣稀土給美國,印度這回遭殃了

小樾說歷史
2025-06-16 17:39:57
哪有什么叛逆女王!日本最高齡AV女優,90歲了還得繼續拍

哪有什么叛逆女王!日本最高齡AV女優,90歲了還得繼續拍

這里是東京
2025-06-16 17:51:57
意媒:意大利高層對新帥選擇分化嚴重,布馮極力拒絕曼奇尼

意媒:意大利高層對新帥選擇分化嚴重,布馮極力拒絕曼奇尼

雷速體育
2025-06-17 00:11:23
6月19日0時起,S18武漢天河機場高速將免費通行

6月19日0時起,S18武漢天河機場高速將免費通行

極目新聞
2025-06-16 21:05:40
以伊連續第4天互轟:高官被斬,平民罹難,牽動全球

以伊連續第4天互轟:高官被斬,平民罹難,牽動全球

上觀新聞
2025-06-16 21:01:12
6月16日,傳來朱立倫、韓國瑜新消息,國民黨主席要變天?

6月16日,傳來朱立倫、韓國瑜新消息,國民黨主席要變天?

奇思妙想生活家
2025-06-17 02:45:14
炸裂!來滬高材生被拍下裸體!“我以為大城市男女思想都前衛”……

炸裂!來滬高材生被拍下裸體!“我以為大城市男女思想都前衛”……

極目新聞
2025-06-16 22:42:26
8個月來第二次!內塔尼亞胡之子婚禮再延期 其家庭住所是伊朗導彈襲擊目標之一

8個月來第二次!內塔尼亞胡之子婚禮再延期 其家庭住所是伊朗導彈襲擊目標之一

紅星新聞
2025-06-16 16:47:50
想不到,第一個站出來硬剛以色列、站隊伊朗的竟是這個國家

想不到,第一個站出來硬剛以色列、站隊伊朗的竟是這個國家

大道微言
2025-06-16 18:22:02
南京市長、淮安市委書記現場觀看“蘇超”,鎮江市長“探班”球員

南京市長、淮安市委書記現場觀看“蘇超”,鎮江市長“探班”球員

政知新媒體
2025-06-16 21:02:51
越美第三輪貿易談判取得重大突破:關稅或降至20%-25%,中國商品繞道成焦點

越美第三輪貿易談判取得重大突破:關稅或降至20%-25%,中國商品繞道成焦點

緬甸中文網
2025-06-16 14:28:06
2025-06-17 07:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10654文章數 142339關注度
往期回顧 全部

科技要聞

雷軍:?戒O1芯片還要再做5年、10年

頭條要聞

以總理稱行動不會停止 伊朗:已準備長期全面戰爭

頭條要聞

以總理稱行動不會停止 伊朗:已準備長期全面戰爭

體育要聞

被偷走的世界杯資格 他們用20年搶回來了

娛樂要聞

該管管了!楊坤篡改革命紅歌遭痛批

財經要聞

618國補貼錢反漲價 美的深陷價格魔術漩渦

汽車要聞

榮威M7 DMH外觀官圖發布 預計將于下半年正式上市

態度原創

本地
時尚
房產
旅游
家居

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

今夏第一雙涼鞋,求你買這4雙!巨火巨顯腿長!

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

遠行而歸 臺式極簡布局

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 临桂县| 北海市| 巫溪县| 西丰县| 页游| 黄山市| 沅江市| 阳新县| 石嘴山市| 张家界市| 修文县| 堆龙德庆县| 福泉市| 常德市| 巫山县| 六安市| 晋江市| 苏尼特右旗| 莱芜市| 上杭县| 安远县| 南通市| 家居| 乐都县| 佛冈县| 高青县| 舒城县| 渭南市| 远安县| 石嘴山市| 邹平县| 望都县| 开阳县| 沁水县| 册亨县| 樟树市| 巴中市| 隆化县| 扬州市| 桃江县| 姚安县|