近日,中國科學技術大學本科校友、美國哈佛大學博士生陳勇超和所在團隊以 Qwen-3B/7B/14B 為初始模型, 用多步監督微調(SFT,Supervised Fine-tuning)和群體相對策略優化(GRPO,Group Relative Policy Optimization)讓模型在 144 個推理和規劃的任務上進行訓練。訓練過程中模型可以自由多次使用代碼執行器來幫助推理,這些任務都有符號計算的成分,但是文字推理和符號計算哪個更合適以及如何相互配合其實需要模型自主學會。
圖 | 陳勇超(來源:陳勇超)
研究團隊發現,訓練代碼執行器(Code Interpreter)受限于模型的能力。比如,很多模型在過度的文字推理訓練后,代碼生成能力反而會下降。這種能力下降在 Leetcode 這種特定代碼基準上很難體現出來,因為下降的能力是在解析具體抽象問題到代碼或者符號計算這一步。現實生活中很多問題也是這樣,盡管存在符號計算的因素,但是想要抽象成符號計算的問題需要有很多思考。
任務的多樣性則是另一個挑戰。訓練單個任務的代碼執行系統很容易,但是研究團隊發現當任務種類繁多情況下,模型就很難學會根據不同任務來決定策略,很多任務對于策略的偏好性甚至是相反的。鑒于此,研究團隊發現單純靠強化學習很難達到很好的效果,這和在數學任務或檢索任務上使用強化學習就能完成訓練存在不同之處。“所以,SFT 階段在我們研究團隊的任務上還是非常重要的。”陳勇超表示。
陳勇超認為,未來基于大模型的代理或者具身智能系統在很多任務中都需要融入符號計算,就像很多機器人領域的學者認為“未來的模型不是從視覺語言到動作,而是視覺語言到控制”。可以預見的是,最先應用的是虛擬世界,比如旅行規劃、網頁任務以及各種科學問題求解。同時,雖然很多任務并不需要符號計算,但是仍需要代碼執行,例如任務過程中需要畫圖來可視化,這些場景也亟需訓練模型融入代碼執行器。
據介紹,R1-Code-Interpreter 工作是研究團隊整個大課題的一部分:把符號計算與基于大模型的推理規劃結合起來(Neuro-Symbolic Foundation Models for Reasoning and Planning)。現在的大模型推理規劃基本都是直接基于純神經網絡以及文字推理來進行。但是,有很多任務都是需要基于符號來計算優化的,比如要讓大模型幫用戶規劃旅行路線,整個機票、酒店、時間、地點和交通的選擇都是在預算、偏好、行程和價格等因素下的優化與規劃問題。再比如,機器人中典型的任務與移動規劃。前段時間特別火的“9.9 和 9.11 比大小”還有“strawberry 里面有幾個 r”等問題,讓大模型生成代碼來解決這些問題比直接文字推理要簡單容易得多。
在這個工作之前,研究團隊在 ICRA 2024 發表的 AutoTAMP[1] 和在 NAACL 2025 發表的 TravelPlanner[2] 利用其預先設計好的框架和算法把大模型與符號計算的工具相結合, 來做機器人和旅行中的規劃問題。這樣做能帶來很好的效果,但是泛化性會有局限性。比如,面臨不同任務需求時,所需要的算法以及框架會不一樣,這時若為每個場景設計一個框架會顯得十分局限。現在大模型之所以這么火,一大原因就是因為它超強的泛化性。所以,研究團隊一直思考如何在讓大模型能夠在符號計算的同時,又不損失大模型的泛化能力。
2024 年,陳勇超在微軟研究院實習的時候,首先想到的就是以代碼為載體,來融合各個算法、控制器和規劃器。一方面,因為符號計算就是在人為預先設定的規則語言下調用各種算法,比如編程語言、控制器以及規劃搜索方法等。另一方面,當前的大模型在經過訓練后,天然具備代碼編程的能力。所以研究團隊認為,如果大模型能夠自然高效運用代碼執行器,然后在文字推理和符號計算之間靈活調動,那么在處理各種推理規劃任務時會非常高效。同時,因為是否調用代碼以及選擇什么樣的算法都是大模型自主完成,所以對泛化性沒有損失。
明確了這個方向之后,研究團隊先測試了一下目前 OpenAI 的 Code-Interpreter,借此發現目前 OpenAI 訓練的 GPT-4o+代碼執行器有很多問題,比如有些任務很明顯使用生成代碼來解決會更好,但是其實模型仍然會選擇自己用文字推理,然后導致出錯。研究團隊還發現,即使通過調整提示詞引導模型生成代碼來解決任務,生成的代碼也會經常包含無效的代碼,未能充分利用符號計算。最新的推理模型 o1、o3 還有 DeepSeek-R1 也被發現存在這些問題。后來,研究團隊把所發現的現有 Code-Interpreter 的問題總結成論文,并以《在代碼執行與文本推理之間引導大型語言模型》(Steering Large Language Models between Code Execution and Textual Reasoning)為題發表在 2025 國際學習表征會議(ICLR,International Conference on Learning Representations)[3]。
而為了解決這些不足,研究團隊嘗試訓練模型來提高自如運用代碼執行器的能力。其中涉及到兩個方向:一是額外訓練一個輔助的模型來指導主模型的生成,好處是輔助模型的尺寸和訓練難度都要小很多,而且可以通過用最強的主模型來探測現在能達到的最強能力。二是直接微調單個模型來兼顧純文字推理以及符號計算的能力,這對基礎模型的能力要求比較高。研究團隊一開始嘗試的是第一種方法,訓練出來的 CodeSteer[4] 能夠讓 GPT-4o 在 8B 模型的指導下,充分利用符號計算來解決很多推理規劃問題,甚至在很多任務上比 o1 和 DeepSeek-R1 的表現還好。第二種方法就是研究團隊在此次 R1-Code-Interpreter 工作中所探究的。
最終,相關論文以《R1-Code-Interpreter:通過監督學習與強化學習訓練大語言模型的代碼推理能力》(R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning)為題發表在預印本網站arXiv上 [5]。
圖丨相關論文(來源:arXiv)
陳勇超認為,未來的大模型做推理和規劃任務的時候,應該在三種方法模態直接自由選擇和銜接:1)自己直接生成答案,大模型文字推理或者機器人里面 VLA 生成控制信號;2)調用外部的工具(tool use);3)生成代碼來創造合適的工具。后續,他計劃探索一些方法把這三種模式都結合起來。同時,也打算在具體實際的應用任務上達到更好的效果,來驗證想法的可行性。
參考資料:
1.https://arxiv.org/abs/2306.06531
2.https://aclanthology.org/2025.naacl-long.176/
3.https://openreview.net/forum?id=5X5Z7Ffrjb
4.https://arxiv.org/abs/2502.04350
5.https://arxiv.org/abs/2505.21668
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.