網易首頁 > 網易號 > 正文申請入駐

重磅！大模型 AI Agents 優化最新綜述

2025-04-01 16:52:22　來源: 人工智能研究

貴州舉報

分享至

LLM優化技術在許多通用任務中提升了模型性能，但缺乏針對AI Agents關鍵功能（如長期規劃、動態環境交互和復雜決策）的專門優化。為此，華東師大等提供了對LLM的AI Agents優化方法的全面回顧，將其分為參數驅動和非參數驅動。

15類AI Agents優化方法。參數驅動優化：涵蓋基于微調的優化、基于強化學習的優化以及混合策略，非參數驅動策略：提示工程和外部知識檢索。

一、參數驅動AI Agents優化

詳細探討了基于參數驅動的優化方法，這些方法通過調整大型語言模型（LLM）的參數來提升其作為智能體（agent）的性能。參數驅動的優化方法主要分為三類：傳統的基于微調（fine-tuning）的優化、基于強化學習（reinforcement learning, RL）的優化，以及混合優化策略：

傳統微調優化

傳統的微調方法通過調整預訓練的LLM參數來適應特定任務，主要涉及以下步驟：

軌跡數據構建（Trajectory Data Construction）：這是微調前的關鍵步驟，目的是生成與目標任務對齊的高質量軌跡數據。數據獲取和生成方法包括專家標注數據、強大的LLM生成軌跡、自我探索環境交互軌跡和多智能體協作構建。每種方法都有其優勢和局限性，例如專家標注數據質量高但成本高，而自我探索方法成本低但可能產生低質量軌跡。
基于軌跡的微調（Trajectory-based Fine-Tuning）：微調過程通常結合一般指令數據和特定任務的軌跡數據，以確保模型在保留基礎語言能力的同時，優化特定任務的性能。微調技術包括標準的監督式微調（SFT）、參數高效微調（如LoRA）和針對特定任務定制的微調策略。

基于強化學習的優化

強化學習方法通過與環境的交互來優化LLM智能體的行為，主要分為基于獎勵函數的優化和基于偏好對齊的優化：

基于獎勵函數的優化（Reward Function-based Optimization）：利用明確的獎勵信號來指導LLM智能體的行為優化。這些方法通常使用傳統的強化學習算法，如PPO或Actor-Critic，通過環境反饋、模型生成的信號或自定義獎勵函數來調整LLM的參數。例如，CMAT使用多智能體協作和Actor-Critic框架，而StepAgent結合了逆強化學習（IRL）和DPO+PPO來優化智能體行為。
基于偏好對齊的優化（Preference Alignment-based Optimization）：這種方法不依賴于明確的獎勵信號，而是通過偏好數據來優化智能體的行為，使其更符合人類偏好或特定任務目標。DPO是一種常用的技術，它通過比較偏好對來直接優化策略，而無需建模獎勵函數。例如，DMPO通過替換策略約束為狀態-動作占用度量（SAOM）約束來優化RL目標，而IPR使用DPO來優化智能體在每一步的行為。

混合微調優化

混合微調策略結合了監督式微調和強化學習的優勢，以克服單一方法的局限性。這些方法通常先通過監督式微調初始化智能體，然后使用強化學習進一步優化其策略。例如，ReFT、AgentGym和ETO等方法在監督式微調階段使用高質量的專家軌跡數據進行初始化，然后在強化學習階段使用PPO或DPO來優化智能體的行為。此外，一些方法采用迭代方法，交替進行監督式微調和強化學習階段，以持續優化智能體的性能。

二、非參數驅動AI Agents優化

探討了參數無關優化方法，通過調整輸入、上下文或任務交互，而不是修改模型參數，來優化基于LLM的智能體行為。

基于經驗的優化

基于經驗的優化方法利用歷史數據、軌跡或累積知識來改進LLM智能體。通過存儲和分析成功與失敗的經驗，智能體能夠提煉出有用的見解，從而優化策略、增強長期決策能力，并適應不斷變化的任務。例如：

Optimus-1：利用多模態記憶模塊，將探索軌跡轉換為層次化的知識圖譜，輔助智能體的任務規劃和提示生成。
Agent Hospital：整合醫療記錄庫和經驗庫，根據成功和失敗案例優化決策。
ExpeL：自動收集訓練任務中的知識，并在推理時回憶這些知識。

基于反饋的優化

基于反饋的優化方法通過利用反饋進行自我反思、糾正和迭代改進來增強LLM智能體。這些方法分為三類：

自我反思優化（Self-Reflection Optimization）：智能體利用環境或自身評估的反饋來識別改進領域，并通過自我糾正和進化來調整行為。例如：
- Reflexion：將任務結果或啟發式評估轉換為文本修正，集成到決策中。
- SAGE：檢查器代理提供迭代反饋，助手代理生成自我反思。
外部反饋優化（External Feedback Optimization）：利用外部模型、代理或框架的評估信號來優化行為。例如：
- Retroformer：使用回顧模型分析失敗并提供改進反饋。
- COPPER：使用共享反思模塊生成反事實反饋。
元提示優化（Meta-Prompt Optimization）：通過迭代調整全局指令或元提示來增強智能體的泛化能力。例如：
- MetaReflection：從失敗試驗中提取信息，創建優化的提示。
- OPRO：通過分析任務準確性生成改進的指令。

基于工具的優化

LLM智能體能夠利用外部工具（如計算器、搜索引擎、代碼解釋器等）來增強其解決問題的能力。優化工具使用和選擇策略是提升智能體性能的關鍵。例如：

TPTU：優化任務分解和工具調用。
AVATAR：通過比較樣本對的性能差異，分析工具使用問題。
Middleware：引入錯誤反饋機制，對齊工具輸入輸出。

基于RAG的優化

檢索增強生成（RAG）通過動態整合外部知識，克服了預訓練知識的局限性，提升了智能體在知識密集型任務中的表現。例如：

AutoRAG：自動化選擇RAG模塊，評估不同的檢索技術和重排策略。
Self-RAG：結合檢索與自我反思，智能體通過迭代反饋自適應地優化內容。
RaDA：利用過去的經驗和動態檢索分解任務，生成情境化的行動。

多智能體協作優化

多智能體框架通過分配角色和迭代互動來處理復雜任務，提升決策能力。例如：

MetaGPT：通過多智能體協作模擬軟件開發流程。
ChatDev：分解任務為模塊化階段，通過角色協作優化軟件開發。
DyLAN：動態構建智能體網絡，優化團隊協作。
Agentverse：提供多智能體協作和探索新興行為的平臺。

更多信息：《動手設計AI Agents：CrewAI版》、《高級RAG之36技》、新技術實戰：中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日報/月報、最新技術熱點追蹤解讀（GPT4-o/數字人/MCP/Gemini 2.5 Pro）

https://arxiv.org/pdf/2503.12434
A Survey on the Optimization of Large Language Model-based Agents
https://github.com/YoungDubbyDu/LLM-Agent-Optimization.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.