99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OTC?PO | 揭開?o3?神秘面紗,讓?Agent?少用工具、多動腦子

0
分享至




王鴻儒目前就讀于香港中文大學博士四年級 (預計今年7月畢業),導師為黃錦輝教授,研究方向主要包括對話系統,工具學習以及大語言模型智能體等,英國愛丁堡大學和美國伊利諾伊大學香檳分校(UIUC)訪問學者,在國際頂級會議如NeurIPS, ACL, EMNLP等發表30余篇相關論文,其中包括10多篇一作或共一論文,代表工作有Cue-CoT, SAFARI, AppBench, Self-DC, OTC等,谷歌學術引用超600次,NeurIPS Area Chair以及多個國際頂級會議審稿人,NICE社區初創成員,曾獲得國際博士生論壇最佳論文獎,ACL 2024@SIGHAN 最佳論文獎,WWW2024 Online Safety Prize Challenge冠軍等多項榮譽。

Agent 即一系列自動化幫助人類完成具體任務的智能體或者智能助手,可以自主進行推理,與環境進行交互并獲取環境以及人類反饋,從而最終完成給定的任務,比如最近爆火的 Manus 以及 OpenAI 的 o3 等一系列模型和框架。

強化學習(Reinforcement Learning)被認為是當下最具想象力、最適合用于 Agent 自主學習的算法。其通過定義好一個獎勵函數,讓模型在解決任務的過程中不斷獲取反饋(即不同的獎勵信號),然后不斷地探索試錯,找到一個能夠最大化獲取獎勵的策略或者行為模式。



圖 1Agent 的兩種重要的行為模式

為了實現 OpenAI 推出的 o3 這樣的表現,我們就必須先要了解 Agent 最重要的行為模式。Agent 最重要的兩種行為主要分為推理((i.e.,Reasoning)和行動((i.e.,Acting)兩種,前者專注模型本身的推理行為,比如反思、分解等各種深度思考技巧;后者專注模型與環境的交互,比如模型需要調用不同的工具、API 以及其他模型來獲取必要的中間結果。

Open-o1、DeepSeek-R1 以及 QwQ 等大推理模型通過設計一些基于規則的獎勵函數,僅僅從最終答案的正確與否就可以通過 RL 激發出來大模型強大的 Reasoning 模式,比如 System 2 thinking,從而在代碼、數學等任務上取得了驚人的效果。

近期一系列工作試圖在 Agent 的 Acting 模式復刻大推理模型的成功,比如 Search-R1、ToRL、ReTool 等等,但是幾乎所有的工作依舊沿用之前的大推理模型時代的獎勵函數,即根據最后答案的正確與否來給予 Agent 不同的獎勵信號。

這樣會帶來很多過度優化問題,就像 OpenAI 在其博客中指出的那樣,模型會出現 Reasoning 和 Acting 行為模式的混亂。因為模型僅僅只關注最后的答案正確,其可能會在中間過程中不使用或者過度使用推理或者行動這兩種行為。

這里面存在一個認知卸載現象,比如模型就會過度的依賴外部的工具,從而不進行推理,這樣一方面模型之前預訓練積累的能力就極大地浪費了,另外也會出現非常愚蠢的使用工具的情況,舉個例子就是我們俗稱的「遇事不思考,老是問老師或者直接抄答案」。

我們這里可以針對 Agent 的這兩種不同的行為:Reasoning 和 Acting,設想幾種不同的獎勵函數,或者說我們期望模型表現出來一種什么樣的模式。

  1. Maximize Reasoning and Acting:即我們期望模型能夠使用越多的 reasoning 和 acting 來解決問題,會導致效率以及過度優化問題。
  2. Minimize Reasoning and Acting:即我們期望模型能夠使用越少的 reasoning 和 acting 來解決問題,訓練難度較大,可能會導致效果不佳。
  3. Maximize Acting and Minimize Reasoning:這會導致模型極大的浪費本身就很強的 reasoning 能力,反復的愚蠢的去和外部世界交互。
  4. Maximize Reasoning and Minimize Acting:即 OpenAI o3 目前表現出來的行為,o3 只會在超過自己能力之外的問題下才會去和外部世界交互,大部分的問題都使用自己的推理能力進行解決了。

這其中最有潛力或者最有可能的技術路線就是第 2 和第 4 個方向,而在這兩個方向里唯一的一個共同點就是要不斷要求模型去 Minimize Acting,那我們最新推出的 OTC: Optimal Tool Call via Reinforcement Learning(OTC-PO)其實就是朝著這個方向走出的根本性的一步。



  • Arxiv: https://arxiv.org/pdf/2504.14870
  • Huggingface: https://huggingface.co/papers/2504.14870

本文的核心貢獻在于以下三點:

  1. 我們是第一個 i) 關注大模型工具使用行為優化的 RL 算法;ii) 發現并量化認知卸載現象,且模型越大,認知卸載越嚴重,即模型過于依賴外部工具而不自己思考;iii) 提出工具生產力概念,兼顧收益與成本;
  2. 我們提出 OTC-PO,任何 RL 算法皆可使用,代碼修改僅幾行,簡單、通用、可擴展、可泛化,可以應用到幾乎所有工具使用的場景,最大化保持準確率的同時讓你的訓練又快又好,模型即聰明又高效。
  3. 我們的方法在不損失準確率的前提下,工具調用減少 73.1%,工具效率提升 229.4%,訓練時間大幅縮小,且模型越大,效果越好。

具體來說,給定任意一個問題和任意一個模型,我們假設存在一個最優的 Acting 次數,即最少的工具調用次數,來使得模型能夠去回答對這個問題。

需要注意的是這里面最少的工具調用次數是由模型和問題共同決定的,因為不同的模型有著不同的能力,不同的問題也有著不同的難度,這樣就是每一個問題和每一個模型其實都有著獨特的最小所需工具次數,并且這個最少的工具調用次數可以為 0(即退化為傳統的 language-only reasoning)。

也正是因為這樣的性質,導致之前的 SFT 方案無法直接作用在這樣的場景里面,因為 SFT 基本都是使用一個數據集去擬合所有模型的行為。RL 就天然的提供了這樣的一個解決方案,使得不同的模型都可以在自己的交互過程中去學習到對應的最佳的行為模式,而不僅僅是通過 SFT 去模仿一個次優解。

那這個任務就可以被重新定義成如下這樣的形式,給定一個問題 q,一個模型 M 以及一堆工具 t0, t1, …, tn,我們喜歡模型 M 能夠即快又好的回答問題,其在第 k 步的推理過程可以被定義成:



其中ri, tci, oi 分別代表模型的內部推理過程,工具調用,以及環境反饋。需要注意的時候這樣的定義可以泛化到不使用任何工具調用的情況即tci和oi為空字符串。整體的任務就變成了我們需要要求模型不僅答對,還要以一種高效的方式答對,即





這里最核心的思路是根據模型在當下這個交互行為中工具的調用次數 m 以及最優的工具調用次數 n 去給予模型不同的獎勵函數。具體來說,在答對的情況下,我們希望模型在取得最優工具調用的時候能夠獲取最大的獎勵,在使用了更多的工具調用的時候獎勵是相對小一點的;在答錯的情況下,我們希望模型不會獲取獎勵或者根據調用次數獲得的獎勵相對較小,從而最大程度的規避獎勵黑客現象(i.e., Reward Hacking)。具體來說,我們設計了如下的獎勵函數:



其中代表對于工具調用次數的獎勵,代表原來的根據答案的正確性的獎勵。這樣的獎勵函數有很多優點:1)已經有理論證明類似這樣的定義理論上對于準確性沒有任何損失;2)極大地避免獎勵黑客的現象,防止模型過度優化;3)可以泛化到幾乎所有的 Agentic RL 的場景,比如對和進行擴充,考慮更多的獎勵信號。這里的設計只需要滿足之前說過的那些屬性即可,比如越少越好,或者越接近最優工具調用越好,感興趣的可以參考原文,這里我們重點講講我們的一些發現。

主要結果

圖 2Search as Tools, and Code as Tool can be found in the paper.

模型越大,其認知卸載越嚴重。這里的認知卸載指的是模型傾向于把原來通過推理能得到的結果直接外包給外部工具,從而一方面造成工具濫用,一方面阻礙了模型自身推理能力的發展。從圖上看就是 Search-R1 在更大的模型上反而需要使用到更多的工具,工具生產力更低。

模型越大,我們的方法效果越好。我們在 7B 模型能夠取得最高 256.9% 的工具生產力的提升,并且我們的準確率基本沒有損失,我們相信當模型大小繼續增大的時候,有可能我們能迎來效果與效率的雙重提升,具體原因我們稍后解釋。

此外我們發現 GRPO 相較于 PPO 效果更好,這是因為 GRPO 由于天然具備針對同一樣本的多次采樣,對于該樣本的最優工具調用行為有一個更加精準的估計。



圖 3OTC-PO 訓練效率分析

上圖展現了我們的訓練效率分析。可以看出我們的方法不僅能夠以更少的工具調用和更短的響應時間實現類似的結果,還能實現更快、更高效的訓練優化。這一點尤為重要,因為它顯著降低了訓練過程中與實時工具交互相關的時間和成本,包括時間、計算資源以及可能潛在的工具調用費用。



圖 4The Out-of-domain performance of OTC-PO and Search-R1 in TP.



表 4The results of Out-of-Domain (OOD) evaluation of OTC against Search-R1 in EM and TC.

我們的方法不僅僅在 In-domain evaluation 上取得了不錯的效果,在 Out-of-domain 上仍然能夠帶來巨大的提升,甚至我們觀察到我們的準確率和效率都得到了提升,而不僅僅是工具的調用次數和工具生產力,比如這里 OTC-PPO 在 7B 模型上的表現就顯著優于 Search-R1-PPO。



最后分享一個 case study,更多分析和 case 可參考原文。這個 case study 代表了我們整篇論文最重要的一個發現即(Minimizing Acting = Maximizing Reasoning) = Smart Agent從案例中我們可以觀察到如果不對模型的交互行為做出任何的限制,模型非常容易出現認知卸載以及工具濫用的現象。僅僅只需要最小化工具調用,我們就可以發現模型不僅能學會更加聰明的使用工具(OTC-PPO),還會極大地激發自身的推理能力,從而去完成問題,即我們一開始所說的如何實現 o3 的行為模式。

結論

在本研究中,我們引入了最佳工具調用控制策略優化(OTC-PO),這是一個簡單而有效的強化學習框架,它明確鼓勵語言模型通過最佳工具調用生成正確答案。與之前主要關注最終答案正確性的研究不同,我們的方法結合了工具集成獎勵,該獎勵同時考慮了工具使用的有效性和效率,從而促進了既智能又經濟高效的工具使用行為。

據我們所知,這是第一篇從強化學習(RL)角度去建模 TIR 中工具使用行為的研究,我們的方法提供了一種簡單、可泛化、可擴展的解決方案,使 LLM 在多種情境和基準測試中成為更強大、更經濟的智能體。這個項目仍在進行中,希望不久的未來我們能夠給大家分享更多發現。我們有信心這篇論文將會引領一個全新的研究范式,為實現 OpenAI 的 o3 系列模型帶來一個可行的路徑。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
他花25萬美元買了張無限次機票,被嘲笑20年,如今航空公司很頭疼

他花25萬美元買了張無限次機票,被嘲笑20年,如今航空公司很頭疼

凡知
2025-05-08 18:57:28
偽造學歷入讀港大,28歲環球小姐李思萱入獄

偽造學歷入讀港大,28歲環球小姐李思萱入獄

三湘都市報
2025-05-09 15:45:22
全面爆發:印度攻擊巴基斯坦的防空系統

全面爆發:印度攻擊巴基斯坦的防空系統

一種觀點
2025-05-08 18:49:59
央視點名痛批!花光84億造不出一輛車,卻能花5000萬給員工買零食

央視點名痛批!花光84億造不出一輛車,卻能花5000萬給員工買零食

說說史事
2025-05-08 17:42:56
小區交付10年,巨大落地玻璃窗從6樓墜落!業內人士稱開發商施工存嚴重隱患

小區交付10年,巨大落地玻璃窗從6樓墜落!業內人士稱開發商施工存嚴重隱患

都市快報橙柿互動
2025-05-09 13:50:18
美國不當“和事佬”?萬斯與特朗普“唱反調”:印巴戰爭和我們無關!

美國不當“和事佬”?萬斯與特朗普“唱反調”:印巴戰爭和我們無關!

財聯社
2025-05-09 11:13:10
太拼了!75歲“輸液大王”赤裸半身秀肌肉,線條不輸健身教練,背后科倫藥業業績遭遇“滑鐵盧”

太拼了!75歲“輸液大王”赤裸半身秀肌肉,線條不輸健身教練,背后科倫藥業業績遭遇“滑鐵盧”

金融界
2025-05-09 15:59:57
5月9日莫斯科閱兵:幾點?在哪?有誰?

5月9日莫斯科閱兵:幾點?在哪?有誰?

二月侃事
2025-05-09 11:13:22
提前續約,鮑爾默引爆聯盟,3年9200萬,快船或組豪華戰艦

提前續約,鮑爾默引爆聯盟,3年9200萬,快船或組豪華戰艦

體育大朋說
2025-05-09 11:48:56
又擊落25架,中國反無人機系統殺爽,印軍再遭失敗,打開大壩放水

又擊落25架,中國反無人機系統殺爽,印軍再遭失敗,打開大壩放水

說天說地說實事
2025-05-09 09:06:35
趙作海因病去世,曾蒙冤入獄11年獲65萬元國家賠償

趙作海因病去世,曾蒙冤入獄11年獲65萬元國家賠償

新京報
2025-05-09 12:29:14
突發,阿里的天塌了

突發,阿里的天塌了

大廠往事爆料
2025-05-09 11:26:17
稀土協議達成,特朗普:美國可以獲得“大量非常高質量的稀土”!澤連斯基:準備好即日起停火!海外稀土價格暴漲,部分品種已翻倍

稀土協議達成,特朗普:美國可以獲得“大量非常高質量的稀土”!澤連斯基:準備好即日起停火!海外稀土價格暴漲,部分品種已翻倍

每日經濟新聞
2025-05-09 15:28:06
勇士G2輸球后,美媒更新奪冠概率!掘金4.3%墊底榜首仍高達49.4%

勇士G2輸球后,美媒更新奪冠概率!掘金4.3%墊底榜首仍高達49.4%

鍋子籃球
2025-05-09 13:38:34
江蘇一廳長,任上被查!

江蘇一廳長,任上被查!

魯中晨報
2025-05-09 10:40:10
塔利班推特公開呼吁,給我一個面子行不,印度和巴基斯坦別再打了

塔利班推特公開呼吁,給我一個面子行不,印度和巴基斯坦別再打了

碳基生物關懷組織
2025-05-08 18:37:49
第八架!巴鐵徹底殺瘋了!印度王牌戰機剛上天就被揍下來!

第八架!巴鐵徹底殺瘋了!印度王牌戰機剛上天就被揍下來!

健身狂人
2025-05-09 10:17:37
官宣!再見了,李凱爾...

官宣!再見了,李凱爾...

左右為籃
2025-05-09 11:29:05
成都網約車人證暴增達31萬個!市場嚴重飽和,相關部門發出警示…

成都網約車人證暴增達31萬個!市場嚴重飽和,相關部門發出警示…

火山詩話
2025-05-08 12:22:47
厲害了!央視報道PL-15E生產線,24小時無人化全自動不間斷生產

厲害了!央視報道PL-15E生產線,24小時無人化全自動不間斷生產

辣條小劇場
2025-05-09 03:33:15
2025-05-09 16:31:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10464文章數 142303關注度
往期回顧 全部

科技要聞

奧特曼:不怕中國趕上 就怕美國犯愚蠢錯誤

頭條要聞

普雷沃斯特當選新一任教皇 外交部回應

頭條要聞

普雷沃斯特當選新一任教皇 外交部回應

體育要聞

對話薩維奧拉:希望中國能有更多武磊出現

娛樂要聞

張柏芝把鋒菲戀的體面徹底踩在了腳下

財經要聞

美英達成貿易協議!

汽車要聞

絕對能省心過日子 榮威D6滿足家用車三大標準

態度原創

數碼
教育
本地
游戲
軍事航空

數碼要聞

別想提前看評測!曝RTX 5060上市前將無驅動發布

教育要聞

預計190所!大學,批量倒閉

本地新聞

非遺里的河南|汴梁鳶舞千年韻!宋室風箏藏多少絕活

《軒轅劍3》Switch日版再度跳票 這下比NS2還晚了

軍事要聞

加沙多地遭襲 巴武裝人員與以軍激烈戰斗

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 库伦旗| 利津县| 修武县| 清新县| 金阳县| 屏山县| 韶山市| 涿鹿县| 襄城县| 边坝县| 潜山县| 烟台市| 文成县| 彩票| 连南| 吉林省| 图片| 青铜峡市| 固原市| 曲靖市| 南漳县| 东港市| 福海县| 成都市| 济源市| 常州市| 卢龙县| 峨眉山市| 嘉鱼县| 沁水县| 玉门市| 秭归县| 响水县| 镇康县| 宁德市| 赤城县| 泸定县| 禄劝| 南木林县| 新邵县| 岐山县|