LLM優化技術在許多通用任務中提升了模型性能,但缺乏針對AI Agents關鍵功能(如長期規劃、動態環境交互和復雜決策)的專門優化。為此,華東師大等提供了對LLM的AI Agents優化方法的全面回顧,將其分為參數驅動和非參數驅動。
15類AI Agents優化方法。參數驅動優化:涵蓋基于微調的優化、基于強化學習的優化以及混合策略,非參數驅動策略:提示工程和外部知識檢索。
一、參數驅動AI Agents優化
詳細探討了基于參數驅動的優化方法,這些方法通過調整大型語言模型(LLM)的參數來提升其作為智能體(agent)的性能。參數驅動的優化方法主要分為三類:傳統的基于微調(fine-tuning)的優化、基于強化學習(reinforcement learning, RL)的優化,以及混合優化策略:
- 傳統微調優化
傳統的微調方法通過調整預訓練的LLM參數來適應特定任務,主要涉及以下步驟:
軌跡數據構建(Trajectory Data Construction):這是微調前的關鍵步驟,目的是生成與目標任務對齊的高質量軌跡數據。數據獲取和生成方法包括專家標注數據、強大的LLM生成軌跡、自我探索環境交互軌跡和多智能體協作構建。每種方法都有其優勢和局限性,例如專家標注數據質量高但成本高,而自我探索方法成本低但可能產生低質量軌跡。
基于軌跡的微調(Trajectory-based Fine-Tuning):微調過程通常結合一般指令數據和特定任務的軌跡數據,以確保模型在保留基礎語言能力的同時,優化特定任務的性能。微調技術包括標準的監督式微調(SFT)、參數高效微調(如LoRA)和針對特定任務定制的微調策略。
- 基于強化學習的優化
強化學習方法通過與環境的交互來優化LLM智能體的行為,主要分為基于獎勵函數的優化和基于偏好對齊的優化:
基于獎勵函數的優化(Reward Function-based Optimization):利用明確的獎勵信號來指導LLM智能體的行為優化。這些方法通常使用傳統的強化學習算法,如PPO或Actor-Critic,通過環境反饋、模型生成的信號或自定義獎勵函數來調整LLM的參數。例如,CMAT使用多智能體協作和Actor-Critic框架,而StepAgent結合了逆強化學習(IRL)和DPO+PPO來優化智能體行為。
基于偏好對齊的優化(Preference Alignment-based Optimization):這種方法不依賴于明確的獎勵信號,而是通過偏好數據來優化智能體的行為,使其更符合人類偏好或特定任務目標。DPO是一種常用的技術,它通過比較偏好對來直接優化策略,而無需建模獎勵函數。例如,DMPO通過替換策略約束為狀態-動作占用度量(SAOM)約束來優化RL目標,而IPR使用DPO來優化智能體在每一步的行為。
- 混合微調優化
混合微調策略結合了監督式微調和強化學習的優勢,以克服單一方法的局限性。這些方法通常先通過監督式微調初始化智能體,然后使用強化學習進一步優化其策略。例如,ReFT、AgentGym和ETO等方法在監督式微調階段使用高質量的專家軌跡數據進行初始化,然后在強化學習階段使用PPO或DPO來優化智能體的行為。此外,一些方法采用迭代方法,交替進行監督式微調和強化學習階段,以持續優化智能體的性能。
二、非參數驅動AI Agents優化
探討了參數無關優化方法,通過調整輸入、上下文或任務交互,而不是修改模型參數,來優化基于LLM的智能體行為。
- 基于經驗的優化
基于經驗的優化方法利用歷史數據、軌跡或累積知識來改進LLM智能體。通過存儲和分析成功與失敗的經驗,智能體能夠提煉出有用的見解,從而優化策略、增強長期決策能力,并適應不斷變化的任務。例如:
Optimus-1:利用多模態記憶模塊,將探索軌跡轉換為層次化的知識圖譜,輔助智能體的任務規劃和提示生成。
Agent Hospital:整合醫療記錄庫和經驗庫,根據成功和失敗案例優化決策。
ExpeL:自動收集訓練任務中的知識,并在推理時回憶這些知識。
- 基于反饋的優化
基于反饋的優化方法通過利用反饋進行自我反思、糾正和迭代改進來增強LLM智能體。這些方法分為三類:
自我反思優化(Self-Reflection Optimization):智能體利用環境或自身評估的反饋來識別改進領域,并通過自我糾正和進化來調整行為。例如:
Reflexion:將任務結果或啟發式評估轉換為文本修正,集成到決策中。
SAGE:檢查器代理提供迭代反饋,助手代理生成自我反思。
外部反饋優化(External Feedback Optimization):利用外部模型、代理或框架的評估信號來優化行為。例如:
Retroformer:使用回顧模型分析失敗并提供改進反饋。
COPPER:使用共享反思模塊生成反事實反饋。
元提示優化(Meta-Prompt Optimization):通過迭代調整全局指令或元提示來增強智能體的泛化能力。例如:
MetaReflection:從失敗試驗中提取信息,創建優化的提示。
OPRO:通過分析任務準確性生成改進的指令。
- 基于工具的優化
LLM智能體能夠利用外部工具(如計算器、搜索引擎、代碼解釋器等)來增強其解決問題的能力。優化工具使用和選擇策略是提升智能體性能的關鍵。例如:
TPTU:優化任務分解和工具調用。
AVATAR:通過比較樣本對的性能差異,分析工具使用問題。
Middleware:引入錯誤反饋機制,對齊工具輸入輸出。
- 基于RAG的優化
檢索增強生成(RAG)通過動態整合外部知識,克服了預訓練知識的局限性,提升了智能體在知識密集型任務中的表現。例如:
AutoRAG:自動化選擇RAG模塊,評估不同的檢索技術和重排策略。
Self-RAG:結合檢索與自我反思,智能體通過迭代反饋自適應地優化內容。
RaDA:利用過去的經驗和動態檢索分解任務,生成情境化的行動。
- 多智能體協作優化
多智能體框架通過分配角色和迭代互動來處理復雜任務,提升決策能力。例如:
MetaGPT:通過多智能體協作模擬軟件開發流程。
ChatDev:分解任務為模塊化階段,通過角色協作優化軟件開發。
DyLAN:動態構建智能體網絡,優化團隊協作。
Agentverse:提供多智能體協作和探索新興行為的平臺。
更多信息:《動手設計AI Agents:CrewAI版》、《高級RAG之36技》、新技術實戰:中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日報/月報、最新技術熱點追蹤解讀(GPT4-o/數字人/MCP/Gemini 2.5 Pro)
https://arxiv.org/pdf/2503.12434
A Survey on the Optimization of Large Language Model-based Agents
https://github.com/YoungDubbyDu/LLM-Agent-Optimization.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.