本文通過(guò) agent tuning 探討了開(kāi)源大型語(yǔ)言模型的通用智能體能力。當(dāng)前方法在 held-in 評(píng)估集上表現(xiàn)良好,但由于對(duì)部分手動(dòng) agent 環(huán)境的過(guò)擬合,難以在 held-out 數(shù)據(jù)上泛化。 為此,本文提出了 AgentRefine 方法,使模型能夠依據(jù)環(huán)境反饋調(diào)整錯(cuò)誤。 實(shí)驗(yàn)結(jié)果表明,AgentRefine 在多樣化智能體基準(zhǔn)測(cè)試中的泛化能力明顯優(yōu)于現(xiàn)有的智能體微調(diào)方法。
進(jìn)一步分析顯示,Refinement Tuning 提高了智能體能力的穩(wěn)健性,而環(huán)境與思維的多樣性進(jìn)一步促進(jìn)了性能提升。我們希望本研究能為未來(lái)的智能體發(fā)展提供新思路。
論文題目: AgentRefine: Enhancing Agent Generalization through Refinement Tuning 論文地址: https://arxiv.org/abs/2501.01702 代碼地址: https://github.com/Fu-Dayuan/AgentRefine 項(xiàng)目主頁(yè): https://agentrefine.github.io/
一、概述
1.1 背景
基于大語(yǔ)言模型(LLMs)的智能體(agent)已經(jīng)被證實(shí)其能像人類(lèi)一樣執(zhí)行復(fù)雜任務(wù)。其能利用大型語(yǔ)言模型的強(qiáng)大能力來(lái)感知環(huán)境、做出決策并采取行動(dòng),已成為解決復(fù)雜現(xiàn)實(shí)世界問(wèn)題的有效方案。
1.2 動(dòng)機(jī)
我們首先觀察到,現(xiàn)有的智能體訓(xùn)練語(yǔ)料庫(kù)在訓(xùn)練內(nèi)(Held-in)評(píng)估集上表現(xiàn)出了令人滿意的結(jié)果,但在訓(xùn)練外(Held-out)評(píng)估集上卻未能很好地泛化。
這些智能體微調(diào)工作面臨嚴(yán)重的格式錯(cuò)誤,并且常常長(zhǎng)時(shí)間陷入同樣的錯(cuò)誤中。它們無(wú)法從經(jīng)驗(yàn)中學(xué)習(xí),只能記住現(xiàn)有的觀察-行動(dòng)關(guān)系。基于這一洞察,我們提出了一種新穎的 AgentRefine 框架用于智能體微調(diào)策略。其核心思想是讓模型通過(guò)軌跡中的觀察學(xué)習(xí)糾正其錯(cuò)誤。
1.3 效果
通過(guò)使用我們合成的數(shù)據(jù)在 Llama3 和 Mistral-v0.3 上執(zhí)行微調(diào),我們?cè)谖鍌€(gè)智能體評(píng)估任務(wù)上的實(shí)驗(yàn)表明,AgentRefine 在多樣化智能體任務(wù)的泛化能力上顯著超越了最先進(jìn)的智能體微調(diào)工作。它在面對(duì)擾動(dòng)時(shí)也具有更好的魯棒性,并且能夠在推理時(shí)生成多樣化的思維。
我們的研究結(jié)果建立了智能體泛化與自我修正之間的關(guān)聯(lián),并為未來(lái)的研究提供了一個(gè)新范式。
二、方法
2.1 數(shù)據(jù)構(gòu)建
受到桌面角色扮演游戲(TRPG)的啟發(fā),AgentRefine 數(shù)據(jù)的構(gòu)建過(guò)程可以分為三個(gè)部分:腳本生成、軌跡生成和驗(yàn)證,如圖 4 所示。
腳本生成要求大型語(yǔ)言模型根據(jù)角色生成包含環(huán)境、任務(wù)和可用動(dòng)作的腳本。在軌跡生成階段,LLM 需要同時(shí)扮演主持人(DM)和玩家的角色,以生成包含錯(cuò)誤的多輪智能體數(shù)據(jù),并根據(jù)腳本進(jìn)行精煉。驗(yàn)證將對(duì)腳本和軌跡進(jìn)行驗(yàn)證,指出 LLM 在給定角色中所犯的錯(cuò)誤,LLM 將根據(jù)驗(yàn)證者的反饋重新生成腳本/軌跡。
2.2 腳本生成
我們首先從多樣化的人物中抽取一個(gè)人物 ,并提示大型語(yǔ)言模型基于 生成一個(gè)包含環(huán)境、任務(wù)和可用動(dòng)作的腳本。環(huán)境將包括可能在互動(dòng)中出現(xiàn)的位置、物品和玩家信息。
在生成環(huán)境后,LLM 將生成一個(gè)清晰具體的任務(wù)。最后,LLM 將生成一系列可用的動(dòng)作。對(duì)于每個(gè)動(dòng)作,我們要求 LLM 生成一個(gè)動(dòng)作名稱、驗(yàn)證代碼和有效參數(shù)。
2.3 軌跡生成
給定一個(gè)腳本,LLM 可以在一次調(diào)用中模擬 DM 與玩家之間的多回合互動(dòng)。具體而言,DM 的回合分為三個(gè)階段:思考、觀察和評(píng)估。
在思考階段,我們要求 LLM 評(píng)估玩家的狀態(tài)和迄今為止已知的信息,并分析玩家可以根據(jù)上一個(gè)動(dòng)作獲得的觀察結(jié)果。觀察階段將提供玩家可以獲得的觀察結(jié)果,而在評(píng)估階段,DM 將評(píng)估玩家最后的動(dòng)作是否包含參數(shù)錯(cuò)誤、邏輯錯(cuò)誤和位置錯(cuò)誤。玩家的回合類(lèi)似于 ReAct,要求 LLM 通過(guò)思考分析當(dāng)前狀態(tài),然后提出一個(gè)行動(dòng)。
2.4 驗(yàn)證
驗(yàn)證器將檢查腳本和軌跡。在腳本部分,為了確保動(dòng)作名稱的有效性,我們對(duì)動(dòng)作名稱應(yīng)用驗(yàn)證代碼,僅在所有動(dòng)作通過(guò)驗(yàn)證時(shí)保存腳本。在軌跡部分,如果生成的軌跡存在:
1. 在某個(gè)回合 處存在 JSON 格式錯(cuò)誤;
2. 在最后一個(gè)回合 處任務(wù)未完成;
3. 在玩家的回合 時(shí),其動(dòng)作無(wú)法與任何驗(yàn)證代碼及對(duì)應(yīng)參數(shù)匹配,而且 DM 在回合 中未提供參數(shù)錯(cuò)誤,我們將保存所有之前的回合,直到 ,并提示 LLM 繼續(xù)生成。如果 DM 評(píng)估任務(wù)已完成但軌跡中的錯(cuò)誤修正回合數(shù)少于兩個(gè),我們將提供所有回合給 LLM,并要求其從頭開(kāi)始重新生成軌跡。
2.5 生成設(shè)置
我們使用 gpt-4o-2024-05-13 生成腳本和軌跡。我們將保存所有能夠通過(guò)驗(yàn)證的軌跡,這些軌跡在 4 次 LLM 調(diào)用中生成(包括腳本生成和軌跡生成)。
我們主要采用 1-shot 軌跡示例方法進(jìn)行軌跡生成,并在腳本生成中采用 3-shot 腳本示例,以幫助 LLM 遵循格式并提供多樣化的結(jié)果。我們使用 deepseek-v2.5 作為開(kāi)源 LLM 來(lái)生成腳本和軌跡。
2.6 Refinement Tuning
在生成完整軌跡后,我們將軌跡轉(zhuǎn)換為 Refinement Tuning數(shù)據(jù)集 ,具體而言,用戶回合是 DM 的觀察,而助手回合是玩家的思維和行動(dòng),以 ReAct 格式表示。
為了防止 LLM 生成的錯(cuò)誤回合干擾,我們改變了損失函數(shù) ,如方程 1 所示,其中 是給定數(shù)據(jù) 的總回合數(shù), 、 、 分別是第 回合的思維、行動(dòng)和觀察。如果 是正確的,則 ,否則 。
三、實(shí)驗(yàn)
3.1 實(shí)驗(yàn)設(shè)置
我們?cè)诖蠖鄶?shù)實(shí)驗(yàn)中使用 LLaMA3-base 系列模型。對(duì)于 mistral,我們使用 mistral-v0.3。我們應(yīng)用了原始的 llama3(或 mistral)的多輪聊天模板。我們使用 LLaMA-Factory 來(lái)訓(xùn)練我們的模型。
我們選擇了 5 個(gè)任務(wù):SciWorld、Alfworld、BabyAI、PDDL 和 Jericho,它們都在測(cè)試模型的決策能力。我們使用 AgentBoard 框架進(jìn)行實(shí)驗(yàn),該框架可以確定智能體是否完成了所有任務(wù)(成功率)以及智能體是否到達(dá)了關(guān)鍵節(jié)點(diǎn)(進(jìn)展率)。
對(duì)于閉源模型,我們選擇 gpt-4o-2024-05-13 和 gpt-4o-mini-2024-07-18。對(duì)于開(kāi)源模型,我們選擇 Meta-Llama-3-8B-Instruct、MetaLlama-3-70B-Instruct 和 Mistral-7B-Instruct-v0.3。
對(duì)于微調(diào)模式,我們選擇 Agent-FLAN、AgentGym 和 AgentGen 作為基線。它們都試圖解決智能體泛化問(wèn)題。Agent-FLAN 的訓(xùn)練集包括 Alfworld。AgentGym 的訓(xùn)練集包括 Alfworld、BabyAI 和 SciWorld。這些數(shù)據(jù)集將被視為相應(yīng)方法的 Held-in 測(cè)試任務(wù)。
3.2 主要結(jié)果
表一顯示了 AgentRefine 與其他方法的性能比較。我們用下劃線標(biāo)識(shí)每種方法的 held-in 指標(biāo)。可以觀察到,與其他工作相比,我們的方法在 held-out 任務(wù)中顯示出顯著優(yōu)勢(shì)。
例如,在 Sciworld 成功率上領(lǐng)先 Agent-FLAN 13.3%。值得注意的是,在某些任務(wù)中,AgentRefine 甚至可以達(dá)到 GPT-4o 系列的性能。這證明了 AgentRefine 強(qiáng)大的泛化能力。
為了進(jìn)一步研究 Refinement Tuning 的有效性,我們進(jìn)行了相關(guān)的消融實(shí)驗(yàn)。表 2 顯示,在屏蔽 Refinement Tuning 后,模型在 5 個(gè)任務(wù)上的表現(xiàn)顯著下降。例如,Sciworld 的性能下降約 43%,在某種程度上反映了 Refinement Tuning 的必要性。
從表 2 中,我們可以觀察到,在沒(méi)有精煉軌跡的數(shù)據(jù)上訓(xùn)練的模型在所有任務(wù)中經(jīng)歷了類(lèi)似幅度的性能下降。
在我們提出的 Refinement Tuning 中,我們對(duì)錯(cuò)誤的回合標(biāo)記的損失進(jìn)行 mask,以防止模型學(xué)習(xí)不正確的思維過(guò)程。為了驗(yàn)證這一過(guò)程是否必要,我們?cè)谙嗤臄?shù)據(jù)上訓(xùn)練一個(gè)學(xué)習(xí)所有助手回合標(biāo)記的模型。表 2 顯示,學(xué)習(xí)錯(cuò)誤標(biāo)記的模型導(dǎo)致非常不利的后果,Sciworld的性能幾乎下降了75%。
3.3 分析
3.3.1 魯棒性分析
我們?cè)谝粋€(gè) held-in 任務(wù)上進(jìn)行數(shù)據(jù)擾動(dòng)實(shí)驗(yàn)。具體而言,我們選擇 Alfworld,它屬于 AgentGym 和 Agent-FLAN 的 held-in 類(lèi)別。我們?cè)?Alfworld 中進(jìn)行了 5 種擾動(dòng):
擾動(dòng) 1:將指令中的 [clean、cool、heat] {obj} with {recep} 更改為 [clean、cool、heat] {obj} using {recep}。
擾動(dòng) 2:將指令中的 go to {recep} 更改為 move to {recep}。
擾動(dòng) 3:將指令中的 take {obj} from {recep} 更改為 from {recep} take {obj}。
擾動(dòng) 4:刪除指令中物品名稱和物品編號(hào)之間的所有空格。
擾動(dòng) 5:移除訓(xùn)練集中的所有 IND 數(shù)據(jù)并重新訓(xùn)練模型。我們還更改了 Agentboard 的環(huán)境接口以適應(yīng)這些變化。
先前的工作在 held-in 任務(wù)上進(jìn)行了廣泛的訓(xùn)練,但在 held-out 任務(wù)上表現(xiàn)不佳。一個(gè)可能的原因是模型僅僅記住了觀察和訓(xùn)練數(shù)據(jù)中行為之間的鍵值對(duì)。而不是學(xué)習(xí)根據(jù)任務(wù)和觀察推斷正確的行動(dòng)。
通過(guò)表 3 我們可以觀察到,簡(jiǎn)單的數(shù)據(jù)擾動(dòng)導(dǎo)致原始保持任務(wù)的性能顯著下降。例如,在平均分?jǐn)?shù)下,AgentGym 的成功率下降了 25.6%,而 Agent-FLAN 的性能下降更為嚴(yán)重,達(dá)到了 30.4%。它們的標(biāo)準(zhǔn)差接近 20%。
相比之下,我們的 AgentRefine 在平均值上增加了 3.7%,且標(biāo)準(zhǔn)差較低,為 3.73%,這表明它學(xué)習(xí)了決策能力,而不僅僅是簡(jiǎn)單的記憶。
3.3.2 案例分析
圖 9 展示了 Agent-FLAN 和 AgentRefine 在 Jericho 和 Sciworld 中的示例。這些案例表明,Refinement Tuning 可以增強(qiáng)模型思維的多樣性和質(zhì)量,這有助于提高模型的探索廣度和效率,并避免在新環(huán)境中總是陷入循環(huán)。
在 Jericho, Agent-FLAN 錯(cuò)誤地認(rèn)為它不在牢房中,并試圖前往牢房。在失敗后,它選擇檢查有效動(dòng)作。盡管檢查有效動(dòng)作是一個(gè)正確的選擇,但 Agent-FLAN 不會(huì)根據(jù)返回的結(jié)果糾正其錯(cuò)誤決策,而是重復(fù)“前往牢房并檢查有效動(dòng)作”的錯(cuò)誤循環(huán)。
相比之下,AgentRefine 在意識(shí)到其行動(dòng)未能實(shí)現(xiàn)目標(biāo)時(shí),會(huì)嘗試各種新方法,而不是無(wú)休止地重復(fù)之前嘗試過(guò)的錯(cuò)誤行動(dòng)。
在 Sciworld 中,Agent-FLAN 忽略了目標(biāo)中的提示,即叉子在臥室,并選擇在廚房搜索。此外,Agent-FLAN 在記住 Alfworld 數(shù)據(jù)集后,試圖輸出只能在 Alfworld 中找到的位置(抽屜、臺(tái)面以及動(dòng)作格式 go to {place}),這些在 SciWorld 中并不存在。
相反,AgentRefine 能夠清楚地找到溫度計(jì),并決定去臥室尋找叉子。在去臥室失敗后,它決定根據(jù)幾輪觀察去走廊。在思考 6 中,盡管 AgentRefine 錯(cuò)誤地認(rèn)為它無(wú)法到達(dá)臥室,但其判斷表明它可以利用短期記憶(來(lái)自第 2 輪)修正其決策。
當(dāng)觀察 6 提供關(guān)于臥室的清晰信息時(shí),AgentRefine 能夠糾正其在思考 6 中的錯(cuò)誤決策并到達(dá)臥室。這表明,AgentRefine 在結(jié)果上的改善并不是由于記憶訓(xùn)練數(shù)據(jù)中的先前知識(shí),而是其有效利用和整合短期記憶中多個(gè)關(guān)鍵信息的能力,以糾正歷史決策中的錯(cuò)誤。
3.3.3 推理任務(wù)
圖 8 展示了推理任務(wù) HotpotQA 的結(jié)果。結(jié)果表明,AgentRefine 在 HotpotQA 的 EM 和 F1 指標(biāo)上優(yōu)于其他方法。這證明了 AgentRefine 在推理問(wèn)題上的泛化能力依然有效。
3.3.4 GPT-4 判斷的可靠性
圖 10 顯示了 GPT-4 與人類(lèi)判斷的比較。我們隨機(jī)抽取了 50 條生成軌跡。在每條軌跡中,我們隨機(jī)抽取了 1 個(gè)正確回合和 1 個(gè)錯(cuò)誤回合。我們要求人類(lèi)標(biāo)注者標(biāo)記回合的正確性。
結(jié)果表明,在 GPT-4 標(biāo)記為正確的回合中,94% 與人類(lèi)判斷一致,而在 GPT-4 標(biāo)記為錯(cuò)誤的回合中,82% 與人類(lèi)判斷一致。這表明 GPT-4 的判斷是可靠的。
3.3.5 開(kāi)源模型合成軌跡
表 5 展示了我們使用 Deepseek-v2.5 合成的 4000 個(gè)訓(xùn)練軌跡訓(xùn)練后的結(jié)果。結(jié)果表明與使用 GPT-4 進(jìn)行數(shù)據(jù)合成的 Agent FLAN 相比,使用開(kāi)源模型 DeepSeek-v2.5 合成的 AgentRefine 數(shù)據(jù)在執(zhí)行任務(wù)方面具有顯著優(yōu)勢(shì)。
這說(shuō)明了 AgentRefine 的有效性。同時(shí)也反映出早在 2024 年 9 月 Deepseek 的模型就可以接受復(fù)雜指令合成出帶有反思步驟的軌跡。
四、總結(jié)
在這項(xiàng)工作中,我們通過(guò) agent tuning 研究開(kāi)源大型語(yǔ)言模型的通用 agent 能力。目前的工作在 held-in 的評(píng)估集上表現(xiàn)良好,但由于對(duì)幾個(gè)手動(dòng) agent 環(huán)境的過(guò)擬合,未能在 held-out 上進(jìn)行泛化。
我們提出了 AgentRefine 方法,使模型能夠根據(jù)環(huán)境反饋糾正其錯(cuò)誤。實(shí)驗(yàn)表明,AgentRefine 在多樣化智能體基準(zhǔn)測(cè)試的泛化能力方面顯著優(yōu)于最先進(jìn)的智能體微調(diào)工作。
我們的分析表明,Refinement Tuning 增強(qiáng)了智能體能力的健壯性,而智能體環(huán)境和思維的多樣性進(jìn)一步提升了性能。我們希望為未來(lái)的智能體研究提供新的見(jiàn)解。
作者:洪文滔,傅大源 來(lái)源:公眾號(hào)【PaperWeekly】
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術(shù)流”原創(chuàng)投稿計(jì)劃
TechBeat是由將門(mén)創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(
www.techbeat.net) 。 社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛(ài)的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專(zhuān)業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。
投稿內(nèi)容
// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //
// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。
我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)
投稿方式
發(fā)送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門(mén)創(chuàng)投”公眾號(hào),后臺(tái)回復(fù)“投稿”二字,獲得投稿說(shuō)明。
關(guān)于我“門(mén)”
將門(mén)是一家以專(zhuān)注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過(guò)連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。
將門(mén)成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門(mén)”:
bp@thejiangmen.com
點(diǎn)擊右上角,把文章分享到朋友圈
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.