99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

研究人員揭示代碼執行器受限于模型能力,指明智能體融入符號計算

0
分享至

近日,中國科學技術大學本科校友、美國哈佛大學博士生陳勇超和所在團隊以 Qwen-3B/7B/14B 為初始模型, 用多步監督微調(SFT,Supervised Fine-tuning)和群體相對策略優化(GRPO,Group Relative Policy Optimization)讓模型在 144 個推理和規劃的任務上進行訓練。訓練過程中模型可以自由多次使用代碼執行器來幫助推理,這些任務都有符號計算的成分,但是文字推理和符號計算哪個更合適以及如何相互配合其實需要模型自主學會。


圖 | 陳勇超(來源:陳勇超)

研究團隊發現,訓練代碼執行器(Code Interpreter)受限于模型的能力。比如,很多模型在過度的文字推理訓練后,代碼生成能力反而會下降。這種能力下降在 Leetcode 這種特定代碼基準上很難體現出來,因為下降的能力是在解析具體抽象問題到代碼或者符號計算這一步。現實生活中很多問題也是這樣,盡管存在符號計算的因素,但是想要抽象成符號計算的問題需要有很多思考。

任務的多樣性則是另一個挑戰。訓練單個任務的代碼執行系統很容易,但是研究團隊發現當任務種類繁多情況下,模型就很難學會根據不同任務來決定策略,很多任務對于策略的偏好性甚至是相反的。鑒于此,研究團隊發現單純靠強化學習很難達到很好的效果,這和在數學任務或檢索任務上使用強化學習就能完成訓練存在不同之處。“所以,SFT 階段在我們研究團隊的任務上還是非常重要的。”陳勇超表示。

陳勇超認為,未來基于大模型的代理或者具身智能系統在很多任務中都需要融入符號計算,就像很多機器人領域的學者認為“未來的模型不是從視覺語言到動作,而是視覺語言到控制”。可以預見的是,最先應用的是虛擬世界,比如旅行規劃、網頁任務以及各種科學問題求解。同時,雖然很多任務并不需要符號計算,但是仍需要代碼執行,例如任務過程中需要畫圖來可視化,這些場景也亟需訓練模型融入代碼執行器。

據介紹,R1-Code-Interpreter 工作是研究團隊整個大課題的一部分:把符號計算與基于大模型的推理規劃結合起來(Neuro-Symbolic Foundation Models for Reasoning and Planning)。現在的大模型推理規劃基本都是直接基于純神經網絡以及文字推理來進行。但是,有很多任務都是需要基于符號來計算優化的,比如要讓大模型幫用戶規劃旅行路線,整個機票、酒店、時間、地點和交通的選擇都是在預算、偏好、行程和價格等因素下的優化與規劃問題。再比如,機器人中典型的任務與移動規劃。前段時間特別火的“9.9 和 9.11 比大小”還有“strawberry 里面有幾個 r”等問題,讓大模型生成代碼來解決這些問題比直接文字推理要簡單容易得多。

在這個工作之前,研究團隊在 ICRA 2024 發表的 AutoTAMP[1] 和在 NAACL 2025 發表的 TravelPlanner[2] 利用其預先設計好的框架和算法把大模型與符號計算的工具相結合, 來做機器人和旅行中的規劃問題。這樣做能帶來很好的效果,但是泛化性會有局限性。比如,面臨不同任務需求時,所需要的算法以及框架會不一樣,這時若為每個場景設計一個框架會顯得十分局限。現在大模型之所以這么火,一大原因就是因為它超強的泛化性。所以,研究團隊一直思考如何在讓大模型能夠在符號計算的同時,又不損失大模型的泛化能力。

2024 年,陳勇超在微軟研究院實習的時候,首先想到的就是以代碼為載體,來融合各個算法、控制器和規劃器。一方面,因為符號計算就是在人為預先設定的規則語言下調用各種算法,比如編程語言、控制器以及規劃搜索方法等。另一方面,當前的大模型在經過訓練后,天然具備代碼編程的能力。所以研究團隊認為,如果大模型能夠自然高效運用代碼執行器,然后在文字推理和符號計算之間靈活調動,那么在處理各種推理規劃任務時會非常高效。同時,因為是否調用代碼以及選擇什么樣的算法都是大模型自主完成,所以對泛化性沒有損失。

明確了這個方向之后,研究團隊先測試了一下目前 OpenAI 的 Code-Interpreter,借此發現目前 OpenAI 訓練的 GPT-4o+代碼執行器有很多問題,比如有些任務很明顯使用生成代碼來解決會更好,但是其實模型仍然會選擇自己用文字推理,然后導致出錯。研究團隊還發現,即使通過調整提示詞引導模型生成代碼來解決任務,生成的代碼也會經常包含無效的代碼,未能充分利用符號計算。最新的推理模型 o1、o3 還有 DeepSeek-R1 也被發現存在這些問題。后來,研究團隊把所發現的現有 Code-Interpreter 的問題總結成論文,并以《在代碼執行與文本推理之間引導大型語言模型》(Steering Large Language Models between Code Execution and Textual Reasoning)為題發表在 2025 國際學習表征會議(ICLR,International Conference on Learning Representations)[3]。

而為了解決這些不足,研究團隊嘗試訓練模型來提高自如運用代碼執行器的能力。其中涉及到兩個方向:一是額外訓練一個輔助的模型來指導主模型的生成,好處是輔助模型的尺寸和訓練難度都要小很多,而且可以通過用最強的主模型來探測現在能達到的最強能力。二是直接微調單個模型來兼顧純文字推理以及符號計算的能力,這對基礎模型的能力要求比較高。研究團隊一開始嘗試的是第一種方法,訓練出來的 CodeSteer[4] 能夠讓 GPT-4o 在 8B 模型的指導下,充分利用符號計算來解決很多推理規劃問題,甚至在很多任務上比 o1 和 DeepSeek-R1 的表現還好。第二種方法就是研究團隊在此次 R1-Code-Interpreter 工作中所探究的。

最終,相關論文以《R1-Code-Interpreter:通過監督學習與強化學習訓練大語言模型的代碼推理能力》(R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning)為題發表在預印本網站arXiv上 [5]。


圖丨相關論文(來源:arXiv)

陳勇超認為,未來的大模型做推理和規劃任務的時候,應該在三種方法模態直接自由選擇和銜接:1)自己直接生成答案,大模型文字推理或者機器人里面 VLA 生成控制信號;2)調用外部的工具(tool use);3)生成代碼來創造合適的工具。后續,他計劃探索一些方法把這三種模式都結合起來。同時,也打算在具體實際的應用任務上達到更好的效果,來驗證想法的可行性。

參考資料:

1.https://arxiv.org/abs/2306.06531

2.https://aclanthology.org/2025.naacl-long.176/

3.https://openreview.net/forum?id=5X5Z7Ffrjb

4.https://arxiv.org/abs/2502.04350

5.https://arxiv.org/abs/2505.21668

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
日本“硬抗”特朗普 這一次是真的“跪”不動了

日本“硬抗”特朗普 這一次是真的“跪”不動了

看看新聞Knews
2025-07-04 06:49:43
上海確診一例!張文宏團隊參與會診!病死率極高,一周內迅速惡化

上海確診一例!張文宏團隊參與會診!病死率極高,一周內迅速惡化

小嵩
2025-07-03 18:11:19
7月4日,人社部會公布2025年養老金調整通知嗎?月底能補發到位嗎

7月4日,人社部會公布2025年養老金調整通知嗎?月底能補發到位嗎

興史興談
2025-07-04 12:36:41
“女教師舉報女生遭性侵被開除”事件大結局:各路官員紛紛入刑!

“女教師舉報女生遭性侵被開除”事件大結局:各路官員紛紛入刑!

兵叔評說
2025-07-04 12:35:59
外媒爆:美政府通知通用電氣航空航天,稱其可以重啟向中國商飛供應噴氣發動機

外媒爆:美政府通知通用電氣航空航天,稱其可以重啟向中國商飛供應噴氣發動機

環球網資訊
2025-07-04 08:59:47
網友們曝出了目前國內民航業中的飛二代們,并點了兩個人的名

網友們曝出了目前國內民航業中的飛二代們,并點了兩個人的名

清暉有墨
2025-07-03 18:17:04
越南全票通過《國籍法》修正案!承認雙重國籍,釋放強大信號

越南全票通過《國籍法》修正案!承認雙重國籍,釋放強大信號

緬甸中文網
2025-07-03 19:22:06
泰國三天兩換總理,準備迎回佩通坦?

泰國三天兩換總理,準備迎回佩通坦?

新民周刊
2025-07-04 09:08:09
預計未來8天都有雨,北京出現“梅雨”了嗎?氣象專家回應

預計未來8天都有雨,北京出現“梅雨”了嗎?氣象專家回應

新京報
2025-07-04 13:50:27
2024年,我國人均GDP降至全球第73名,那美、俄、印、日等國呢?

2024年,我國人均GDP降至全球第73名,那美、俄、印、日等國呢?

南生今世說
2025-07-04 03:14:33
砸開火車窗戶的,是一位漂亮的中國人!

砸開火車窗戶的,是一位漂亮的中國人!

基本常識
2025-07-03 22:22:50
破紀錄!爆表!緊急提醒:今天起,出門可多穿紅衣服

破紀錄!爆表!緊急提醒:今天起,出門可多穿紅衣服

極目新聞
2025-07-04 15:07:47
南航機長跳樓自殺迎新進展:空姐妻子刪除文章,疑似已經和解!

南航機長跳樓自殺迎新進展:空姐妻子刪除文章,疑似已經和解!

古希臘掌管松餅的神
2025-07-03 16:45:01
F-35意外趴窩,印度官方發帖嘲諷英國!

F-35意外趴窩,印度官方發帖嘲諷英國!

環球時報新聞
2025-07-04 12:05:30
這是我今年見過最“離譜”的判決!

這是我今年見過最“離譜”的判決!

走讀新生
2025-07-04 01:37:25
吃相難看?韓紅向貴州捐款930萬,惡心一幕發生,刀郎被網友逼捐

吃相難看?韓紅向貴州捐款930萬,惡心一幕發生,刀郎被網友逼捐

法老不說教
2025-07-02 18:15:08
太離譜!“小區內竟要修路114公里”,5000多戶的超級大盤,近1200萬元維修金成了某些人的“提款機”!業委會原主任被抓

太離譜!“小區內竟要修路114公里”,5000多戶的超級大盤,近1200萬元維修金成了某些人的“提款機”!業委會原主任被抓

每日經濟新聞
2025-07-03 23:17:14
南航機長跳樓自殺真相:人情世故讓10年努力清零,幾十位好友發聲

南航機長跳樓自殺真相:人情世故讓10年努力清零,幾十位好友發聲

奇思妙想草葉君
2025-07-03 22:33:37
莫斯科市中心遇襲爆炸!俄安全局長科姆科夫或被炸身亡

莫斯科市中心遇襲爆炸!俄安全局長科姆科夫或被炸身亡

項鵬飛
2025-07-03 19:46:25
ESPN談今夏至今的贏家輸家:火箭得KD贏得徹底 湖人引艾頓不理想

ESPN談今夏至今的贏家輸家:火箭得KD贏得徹底 湖人引艾頓不理想

直播吧
2025-07-04 13:51:10
2025-07-04 16:16:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15370文章數 513847關注度
往期回顧 全部

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰報

頭條要聞

南京一小區修路114公里 近1200萬維修金被當"提款機"

頭條要聞

南京一小區修路114公里 近1200萬維修金被當"提款機"

體育要聞

33歲,她的野心也該火一把了

娛樂要聞

王嘉爾年收四成借朋友 竟遭人間蒸發

財經要聞

闖禍電芯商部分產線停產!羅馬仕通知停工

汽車要聞

純電續航180km/或30萬級 方程豹鈦7四季度上市

態度原創

本地
親子
房產
游戲
公開課

本地新聞

云游中國 | 穿越三國!赤壁古戰場藏了多少英雄傳奇?

親子要聞

時隔三年我們的大家庭終于聚齊了,放個全家福的先行預告片

房產要聞

千萬級豪宅成交激增!2025年上半年,廣州這些頂豪出圈了!

《啪嗒砰》精神續作延遲發布:需要更多時間處理

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 鄂州市| 遵义市| 东乡县| 平陆县| 定远县| 行唐县| 武汉市| 利辛县| 天峨县| 泾阳县| 亚东县| 东乡| 吐鲁番市| 镇平县| 三河市| 封开县| 东兰县| 大竹县| 武乡县| 新安县| 仪陇县| 清原| 莲花县| 登封市| 砀山县| 高阳县| 开鲁县| 河北省| 广河县| 凤翔县| 米易县| 梁山县| 华安县| 海林市| 三江| 镇巴县| 德格县| 焦作市| 厦门市| 龙胜| 即墨市|