網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

北郵、美團(tuán)聯(lián)合提出反思微調(diào)AgentRefine：微調(diào)的也能讓Agent模型學(xué)會(huì)反思？

2025-03-11 08:26:47　來(lái)源: 將門(mén)創(chuàng)投

北京舉報(bào)

分享至

本文通過(guò) agent tuning 探討了開(kāi)源大型語(yǔ)言模型的通用智能體能力。當(dāng)前方法在 held-in 評(píng)估集上表現(xiàn)良好，但由于對(duì)部分手動(dòng) agent 環(huán)境的過(guò)擬合，難以在 held-out 數(shù)據(jù)上泛化。為此，本文提出了 AgentRefine 方法，使模型能夠依據(jù)環(huán)境反饋調(diào)整錯(cuò)誤。實(shí)驗(yàn)結(jié)果表明，AgentRefine 在多樣化智能體基準(zhǔn)測(cè)試中的泛化能力明顯優(yōu)于現(xiàn)有的智能體微調(diào)方法。

進(jìn)一步分析顯示，Refinement Tuning 提高了智能體能力的穩(wěn)健性，而環(huán)境與思維的多樣性進(jìn)一步促進(jìn)了性能提升。我們希望本研究能為未來(lái)的智能體發(fā)展提供新思路。

論文題目： AgentRefine: Enhancing Agent Generalization through Refinement Tuning 論文地址： https://arxiv.org/abs/2501.01702 代碼地址： https://github.com/Fu-Dayuan/AgentRefine 項(xiàng)目主頁(yè)： https://agentrefine.github.io/

一、概述

1.1 背景

基于大語(yǔ)言模型（LLMs）的智能體（agent）已經(jīng)被證實(shí)其能像人類(lèi)一樣執(zhí)行復(fù)雜任務(wù)。其能利用大型語(yǔ)言模型的強(qiáng)大能力來(lái)感知環(huán)境、做出決策并采取行動(dòng)，已成為解決復(fù)雜現(xiàn)實(shí)世界問(wèn)題的有效方案。

1.2 動(dòng)機(jī)

我們首先觀察到，現(xiàn)有的智能體訓(xùn)練語(yǔ)料庫(kù)在訓(xùn)練內(nèi)（Held-in）評(píng)估集上表現(xiàn)出了令人滿意的結(jié)果，但在訓(xùn)練外（Held-out）評(píng)估集上卻未能很好地泛化。

這些智能體微調(diào)工作面臨嚴(yán)重的格式錯(cuò)誤，并且常常長(zhǎng)時(shí)間陷入同樣的錯(cuò)誤中。它們無(wú)法從經(jīng)驗(yàn)中學(xué)習(xí)，只能記住現(xiàn)有的觀察-行動(dòng)關(guān)系。基于這一洞察，我們提出了一種新穎的 AgentRefine 框架用于智能體微調(diào)策略。其核心思想是讓模型通過(guò)軌跡中的觀察學(xué)習(xí)糾正其錯(cuò)誤。

1.3 效果

通過(guò)使用我們合成的數(shù)據(jù)在 Llama3 和 Mistral-v0.3 上執(zhí)行微調(diào)，我們?cè)谖鍌€(gè)智能體評(píng)估任務(wù)上的實(shí)驗(yàn)表明，AgentRefine 在多樣化智能體任務(wù)的泛化能力上顯著超越了最先進(jìn)的智能體微調(diào)工作。它在面對(duì)擾動(dòng)時(shí)也具有更好的魯棒性，并且能夠在推理時(shí)生成多樣化的思維。

我們的研究結(jié)果建立了智能體泛化與自我修正之間的關(guān)聯(lián)，并為未來(lái)的研究提供了一個(gè)新范式。

二、方法

2.1 數(shù)據(jù)構(gòu)建

受到桌面角色扮演游戲（TRPG）的啟發(fā)，AgentRefine 數(shù)據(jù)的構(gòu)建過(guò)程可以分為三個(gè)部分：腳本生成、軌跡生成和驗(yàn)證，如圖 4 所示。

腳本生成要求大型語(yǔ)言模型根據(jù)角色生成包含環(huán)境、任務(wù)和可用動(dòng)作的腳本。在軌跡生成階段，LLM 需要同時(shí)扮演主持人（DM）和玩家的角色，以生成包含錯(cuò)誤的多輪智能體數(shù)據(jù)，并根據(jù)腳本進(jìn)行精煉。驗(yàn)證將對(duì)腳本和軌跡進(jìn)行驗(yàn)證，指出 LLM 在給定角色中所犯的錯(cuò)誤，LLM 將根據(jù)驗(yàn)證者的反饋重新生成腳本/軌跡。

2.2 腳本生成

我們首先從多樣化的人物中抽取一個(gè)人物，并提示大型語(yǔ)言模型基于生成一個(gè)包含環(huán)境、任務(wù)和可用動(dòng)作的腳本。環(huán)境將包括可能在互動(dòng)中出現(xiàn)的位置、物品和玩家信息。

在生成環(huán)境后，LLM 將生成一個(gè)清晰具體的任務(wù)。最后，LLM 將生成一系列可用的動(dòng)作。對(duì)于每個(gè)動(dòng)作，我們要求 LLM 生成一個(gè)動(dòng)作名稱、驗(yàn)證代碼和有效參數(shù)。

2.3 軌跡生成

給定一個(gè)腳本，LLM 可以在一次調(diào)用中模擬 DM 與玩家之間的多回合互動(dòng)。具體而言，DM 的回合分為三個(gè)階段：思考、觀察和評(píng)估。

在思考階段，我們要求 LLM 評(píng)估玩家的狀態(tài)和迄今為止已知的信息，并分析玩家可以根據(jù)上一個(gè)動(dòng)作獲得的觀察結(jié)果。觀察階段將提供玩家可以獲得的觀察結(jié)果，而在評(píng)估階段，DM 將評(píng)估玩家最后的動(dòng)作是否包含參數(shù)錯(cuò)誤、邏輯錯(cuò)誤和位置錯(cuò)誤。玩家的回合類(lèi)似于 ReAct，要求 LLM 通過(guò)思考分析當(dāng)前狀態(tài)，然后提出一個(gè)行動(dòng)。

2.4 驗(yàn)證

驗(yàn)證器將檢查腳本和軌跡。在腳本部分，為了確保動(dòng)作名稱的有效性，我們對(duì)動(dòng)作名稱應(yīng)用驗(yàn)證代碼，僅在所有動(dòng)作通過(guò)驗(yàn)證時(shí)保存腳本。在軌跡部分，如果生成的軌跡存在：

1. 在某個(gè)回合處存在 JSON 格式錯(cuò)誤；

2. 在最后一個(gè)回合處任務(wù)未完成；

3. 在玩家的回合時(shí)，其動(dòng)作無(wú)法與任何驗(yàn)證代碼及對(duì)應(yīng)參數(shù)匹配，而且 DM 在回合中未提供參數(shù)錯(cuò)誤，我們將保存所有之前的回合，直到，并提示 LLM 繼續(xù)生成。如果 DM 評(píng)估任務(wù)已完成但軌跡中的錯(cuò)誤修正回合數(shù)少于兩個(gè)，我們將提供所有回合給 LLM，并要求其從頭開(kāi)始重新生成軌跡。

2.5 生成設(shè)置

我們使用 gpt-4o-2024-05-13 生成腳本和軌跡。我們將保存所有能夠通過(guò)驗(yàn)證的軌跡，這些軌跡在 4 次 LLM 調(diào)用中生成（包括腳本生成和軌跡生成）。

我們主要采用 1-shot 軌跡示例方法進(jìn)行軌跡生成，并在腳本生成中采用 3-shot 腳本示例，以幫助 LLM 遵循格式并提供多樣化的結(jié)果。我們使用 deepseek-v2.5 作為開(kāi)源 LLM 來(lái)生成腳本和軌跡。

2.6 Refinement Tuning

在生成完整軌跡后，我們將軌跡轉(zhuǎn)換為 Refinement Tuning數(shù)據(jù)集，具體而言，用戶回合是 DM 的觀察，而助手回合是玩家的思維和行動(dòng)，以 ReAct 格式表示。

為了防止 LLM 生成的錯(cuò)誤回合干擾，我們改變了損失函數(shù) ，如方程 1 所示，其中是給定數(shù)據(jù) 的總回合數(shù)，、、分別是第回合的思維、行動(dòng)和觀察。如果是正確的，則，否則。

三、實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

我們?cè)诖蠖鄶?shù)實(shí)驗(yàn)中使用 LLaMA3-base 系列模型。對(duì)于 mistral，我們使用 mistral-v0.3。我們應(yīng)用了原始的 llama3（或 mistral）的多輪聊天模板。我們使用 LLaMA-Factory 來(lái)訓(xùn)練我們的模型。

我們選擇了 5 個(gè)任務(wù)：SciWorld、Alfworld、BabyAI、PDDL 和 Jericho，它們都在測(cè)試模型的決策能力。我們使用 AgentBoard 框架進(jìn)行實(shí)驗(yàn)，該框架可以確定智能體是否完成了所有任務(wù)（成功率）以及智能體是否到達(dá)了關(guān)鍵節(jié)點(diǎn)（進(jìn)展率）。

對(duì)于閉源模型，我們選擇 gpt-4o-2024-05-13 和 gpt-4o-mini-2024-07-18。對(duì)于開(kāi)源模型，我們選擇 Meta-Llama-3-8B-Instruct、MetaLlama-3-70B-Instruct 和 Mistral-7B-Instruct-v0.3。

對(duì)于微調(diào)模式，我們選擇 Agent-FLAN、AgentGym 和 AgentGen 作為基線。它們都試圖解決智能體泛化問(wèn)題。Agent-FLAN 的訓(xùn)練集包括 Alfworld。AgentGym 的訓(xùn)練集包括 Alfworld、BabyAI 和 SciWorld。這些數(shù)據(jù)集將被視為相應(yīng)方法的 Held-in 測(cè)試任務(wù)。

3.2 主要結(jié)果

表一顯示了 AgentRefine 與其他方法的性能比較。我們用下劃線標(biāo)識(shí)每種方法的 held-in 指標(biāo)。可以觀察到，與其他工作相比，我們的方法在 held-out 任務(wù)中顯示出顯著優(yōu)勢(shì)。

例如，在 Sciworld 成功率上領(lǐng)先 Agent-FLAN 13.3%。值得注意的是，在某些任務(wù)中，AgentRefine 甚至可以達(dá)到 GPT-4o 系列的性能。這證明了 AgentRefine 強(qiáng)大的泛化能力。

為了進(jìn)一步研究 Refinement Tuning 的有效性，我們進(jìn)行了相關(guān)的消融實(shí)驗(yàn)。表 2 顯示，在屏蔽 Refinement Tuning 后，模型在 5 個(gè)任務(wù)上的表現(xiàn)顯著下降。例如，Sciworld 的性能下降約 43%，在某種程度上反映了 Refinement Tuning 的必要性。

從表 2 中，我們可以觀察到，在沒(méi)有精煉軌跡的數(shù)據(jù)上訓(xùn)練的模型在所有任務(wù)中經(jīng)歷了類(lèi)似幅度的性能下降。

在我們提出的 Refinement Tuning 中，我們對(duì)錯(cuò)誤的回合標(biāo)記的損失進(jìn)行 mask，以防止模型學(xué)習(xí)不正確的思維過(guò)程。為了驗(yàn)證這一過(guò)程是否必要，我們?cè)谙嗤臄?shù)據(jù)上訓(xùn)練一個(gè)學(xué)習(xí)所有助手回合標(biāo)記的模型。表 2 顯示，學(xué)習(xí)錯(cuò)誤標(biāo)記的模型導(dǎo)致非常不利的后果，Sciworld的性能幾乎下降了75%。

3.3 分析

3.3.1 魯棒性分析

我們?cè)谝粋€(gè) held-in 任務(wù)上進(jìn)行數(shù)據(jù)擾動(dòng)實(shí)驗(yàn)。具體而言，我們選擇 Alfworld，它屬于 AgentGym 和 Agent-FLAN 的 held-in 類(lèi)別。我們?cè)?Alfworld 中進(jìn)行了 5 種擾動(dòng)：

擾動(dòng) 1：將指令中的 [clean、cool、heat] {obj} with {recep} 更改為 [clean、cool、heat] {obj} using {recep}。

擾動(dòng) 2：將指令中的 go to {recep} 更改為 move to {recep}。

擾動(dòng) 3：將指令中的 take {obj} from {recep} 更改為 from {recep} take {obj}。

擾動(dòng) 4：刪除指令中物品名稱和物品編號(hào)之間的所有空格。

擾動(dòng) 5：移除訓(xùn)練集中的所有 IND 數(shù)據(jù)并重新訓(xùn)練模型。我們還更改了 Agentboard 的環(huán)境接口以適應(yīng)這些變化。

先前的工作在 held-in 任務(wù)上進(jìn)行了廣泛的訓(xùn)練，但在 held-out 任務(wù)上表現(xiàn)不佳。一個(gè)可能的原因是模型僅僅記住了觀察和訓(xùn)練數(shù)據(jù)中行為之間的鍵值對(duì)。而不是學(xué)習(xí)根據(jù)任務(wù)和觀察推斷正確的行動(dòng)。

通過(guò)表 3 我們可以觀察到，簡(jiǎn)單的數(shù)據(jù)擾動(dòng)導(dǎo)致原始保持任務(wù)的性能顯著下降。例如，在平均分?jǐn)?shù)下，AgentGym 的成功率下降了 25.6%，而 Agent-FLAN 的性能下降更為嚴(yán)重，達(dá)到了 30.4%。它們的標(biāo)準(zhǔn)差接近 20%。

相比之下，我們的 AgentRefine 在平均值上增加了 3.7%，且標(biāo)準(zhǔn)差較低，為 3.73%，這表明它學(xué)習(xí)了決策能力，而不僅僅是簡(jiǎn)單的記憶。

3.3.2 案例分析

圖 9 展示了 Agent-FLAN 和 AgentRefine 在 Jericho 和 Sciworld 中的示例。這些案例表明，Refinement Tuning 可以增強(qiáng)模型思維的多樣性和質(zhì)量，這有助于提高模型的探索廣度和效率，并避免在新環(huán)境中總是陷入循環(huán)。

在 Jericho, Agent-FLAN 錯(cuò)誤地認(rèn)為它不在牢房中，并試圖前往牢房。在失敗后，它選擇檢查有效動(dòng)作。盡管檢查有效動(dòng)作是一個(gè)正確的選擇，但 Agent-FLAN 不會(huì)根據(jù)返回的結(jié)果糾正其錯(cuò)誤決策，而是重復(fù)“前往牢房并檢查有效動(dòng)作”的錯(cuò)誤循環(huán)。

相比之下，AgentRefine 在意識(shí)到其行動(dòng)未能實(shí)現(xiàn)目標(biāo)時(shí)，會(huì)嘗試各種新方法，而不是無(wú)休止地重復(fù)之前嘗試過(guò)的錯(cuò)誤行動(dòng)。

在 Sciworld 中，Agent-FLAN 忽略了目標(biāo)中的提示，即叉子在臥室，并選擇在廚房搜索。此外，Agent-FLAN 在記住 Alfworld 數(shù)據(jù)集后，試圖輸出只能在 Alfworld 中找到的位置（抽屜、臺(tái)面以及動(dòng)作格式 go to {place}），這些在 SciWorld 中并不存在。

相反，AgentRefine 能夠清楚地找到溫度計(jì)，并決定去臥室尋找叉子。在去臥室失敗后，它決定根據(jù)幾輪觀察去走廊。在思考 6 中，盡管 AgentRefine 錯(cuò)誤地認(rèn)為它無(wú)法到達(dá)臥室，但其判斷表明它可以利用短期記憶（來(lái)自第 2 輪）修正其決策。

當(dāng)觀察 6 提供關(guān)于臥室的清晰信息時(shí)，AgentRefine 能夠糾正其在思考 6 中的錯(cuò)誤決策并到達(dá)臥室。這表明，AgentRefine 在結(jié)果上的改善并不是由于記憶訓(xùn)練數(shù)據(jù)中的先前知識(shí)，而是其有效利用和整合短期記憶中多個(gè)關(guān)鍵信息的能力，以糾正歷史決策中的錯(cuò)誤。

3.3.3 推理任務(wù)

圖 8 展示了推理任務(wù) HotpotQA 的結(jié)果。結(jié)果表明，AgentRefine 在 HotpotQA 的 EM 和 F1 指標(biāo)上優(yōu)于其他方法。這證明了 AgentRefine 在推理問(wèn)題上的泛化能力依然有效。

3.3.4 GPT-4 判斷的可靠性

圖 10 顯示了 GPT-4 與人類(lèi)判斷的比較。我們隨機(jī)抽取了 50 條生成軌跡。在每條軌跡中，我們隨機(jī)抽取了 1 個(gè)正確回合和 1 個(gè)錯(cuò)誤回合。我們要求人類(lèi)標(biāo)注者標(biāo)記回合的正確性。

結(jié)果表明，在 GPT-4 標(biāo)記為正確的回合中，94% 與人類(lèi)判斷一致，而在 GPT-4 標(biāo)記為錯(cuò)誤的回合中，82% 與人類(lèi)判斷一致。這表明 GPT-4 的判斷是可靠的。

3.3.5 開(kāi)源模型合成軌跡

表 5 展示了我們使用 Deepseek-v2.5 合成的 4000 個(gè)訓(xùn)練軌跡訓(xùn)練后的結(jié)果。結(jié)果表明與使用 GPT-4 進(jìn)行數(shù)據(jù)合成的 Agent FLAN 相比，使用開(kāi)源模型 DeepSeek-v2.5 合成的 AgentRefine 數(shù)據(jù)在執(zhí)行任務(wù)方面具有顯著優(yōu)勢(shì)。

這說(shuō)明了 AgentRefine 的有效性。同時(shí)也反映出早在 2024 年 9 月 Deepseek 的模型就可以接受復(fù)雜指令合成出帶有反思步驟的軌跡。

四、總結(jié)

在這項(xiàng)工作中，我們通過(guò) agent tuning 研究開(kāi)源大型語(yǔ)言模型的通用 agent 能力。目前的工作在 held-in 的評(píng)估集上表現(xiàn)良好，但由于對(duì)幾個(gè)手動(dòng) agent 環(huán)境的過(guò)擬合，未能在 held-out 上進(jìn)行泛化。

我們提出了 AgentRefine 方法，使模型能夠根據(jù)環(huán)境反饋糾正其錯(cuò)誤。實(shí)驗(yàn)表明，AgentRefine 在多樣化智能體基準(zhǔn)測(cè)試的泛化能力方面顯著優(yōu)于最先進(jìn)的智能體微調(diào)工作。

我們的分析表明，Refinement Tuning 增強(qiáng)了智能體能力的健壯性，而智能體環(huán)境和思維的多樣性進(jìn)一步提升了性能。我們希望為未來(lái)的智能體研究提供新的見(jiàn)解。

作者：洪文滔，傅大源來(lái)源：公眾號(hào)【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看！

本周上新！

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門(mén)創(chuàng)投建立的AI學(xué)習(xí)社區(qū)（

www.techbeat.net

）。社區(qū)上線600+期talk視頻，3000+篇技術(shù)干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會(huì)及其他線上交流活動(dòng)，不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛(ài)的高質(zhì)量、知識(shí)型交流平臺(tái)，希望為AI人才打造更專(zhuān)業(yè)的服務(wù)和體驗(yàn)，加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章，并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向，對(duì)用戶啟發(fā)更大的文章，做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信（yellowsubbj）投稿，溝通投稿詳情；還可以關(guān)注“將門(mén)創(chuàng)投”公眾號(hào)，后臺(tái)回復(fù)“投稿”二字，獲得投稿說(shuō)明。

關(guān)于我“門(mén)”

將門(mén)是一家以專(zhuān)注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機(jī)構(gòu)，也是北京市標(biāo)桿型孵化器。公司致力于通過(guò)連接技術(shù)與商業(yè)，發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè)，推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門(mén)成立于2015年底，創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成，曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè)，不僅想獲得投資，還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù)，歡迎發(fā)送或者推薦項(xiàng)目給我“門(mén)”:

bp@thejiangmen.com

點(diǎn)擊右上角，把文章分享到朋友圈

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.