99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

重磅!大模型 AI Agents 優化最新綜述

0
分享至

LLM優化技術在許多通用任務中提升了模型性能,但缺乏針對AI Agents關鍵功能(如長期規劃、動態環境交互和復雜決策)的專門優化。為此,華東師大等提供了對LLM的AI Agents優化方法的全面回顧,將其分為參數驅動非參數驅動。

15類AI Agents優化方法。參數驅動優化:涵蓋基于微調的優化、基于強化學習的優化以及混合策略,非參數驅動策略:提示工程和外部知識檢索。

一、參數驅動AI Agents優化

詳細探討了基于參數驅動的優化方法,這些方法通過調整大型語言模型(LLM)的參數來提升其作為智能體(agent)的性能。參數驅動的優化方法主要分為三類:傳統的基于微調(fine-tuning)的優化、基于強化學習(reinforcement learning, RL)的優化,以及混合優化策略:


  • 傳統微調優化

傳統的微調方法通過調整預訓練的LLM參數來適應特定任務,主要涉及以下步驟:


  • 軌跡數據構建(Trajectory Data Construction):這是微調前的關鍵步驟,目的是生成與目標任務對齊的高質量軌跡數據。數據獲取和生成方法包括專家標注數據、強大的LLM生成軌跡、自我探索環境交互軌跡和多智能體協作構建。每種方法都有其優勢和局限性,例如專家標注數據質量高但成本高,而自我探索方法成本低但可能產生低質量軌跡。

  • 基于軌跡的微調(Trajectory-based Fine-Tuning):微調過程通常結合一般指令數據和特定任務的軌跡數據,以確保模型在保留基礎語言能力的同時,優化特定任務的性能。微調技術包括標準的監督式微調(SFT)、參數高效微調(如LoRA)和針對特定任務定制的微調策略。

  • 基于強化學習的優化

強化學習方法通過與環境的交互來優化LLM智能體的行為,主要分為基于獎勵函數的優化和基于偏好對齊的優化:

  • 基于獎勵函數的優化(Reward Function-based Optimization):利用明確的獎勵信號來指導LLM智能體的行為優化。這些方法通常使用傳統的強化學習算法,如PPO或Actor-Critic,通過環境反饋、模型生成的信號或自定義獎勵函數來調整LLM的參數。例如,CMAT使用多智能體協作和Actor-Critic框架,而StepAgent結合了逆強化學習(IRL)和DPO+PPO來優化智能體行為。

  • 基于偏好對齊的優化(Preference Alignment-based Optimization):這種方法不依賴于明確的獎勵信號,而是通過偏好數據來優化智能體的行為,使其更符合人類偏好或特定任務目標。DPO是一種常用的技術,它通過比較偏好對來直接優化策略,而無需建模獎勵函數。例如,DMPO通過替換策略約束為狀態-動作占用度量(SAOM)約束來優化RL目標,而IPR使用DPO來優化智能體在每一步的行為。

  • 混合微調優化

混合微調策略結合了監督式微調和強化學習的優勢,以克服單一方法的局限性。這些方法通常先通過監督式微調初始化智能體,然后使用強化學習進一步優化其策略。例如,ReFT、AgentGym和ETO等方法在監督式微調階段使用高質量的專家軌跡數據進行初始化,然后在強化學習階段使用PPO或DPO來優化智能體的行為。此外,一些方法采用迭代方法,交替進行監督式微調和強化學習階段,以持續優化智能體的性能。

二、非參數驅動AI Agents優化

探討了參數無關優化方法,通過調整輸入、上下文或任務交互,而不是修改模型參數,來優化基于LLM的智能體行為。

  • 基于經驗的優化

基于經驗的優化方法利用歷史數據、軌跡或累積知識來改進LLM智能體。通過存儲和分析成功與失敗的經驗,智能體能夠提煉出有用的見解,從而優化策略、增強長期決策能力,并適應不斷變化的任務。例如:

  • Optimus-1:利用多模態記憶模塊,將探索軌跡轉換為層次化的知識圖譜,輔助智能體的任務規劃和提示生成。

  • Agent Hospital:整合醫療記錄庫和經驗庫,根據成功和失敗案例優化決策。

  • ExpeL:自動收集訓練任務中的知識,并在推理時回憶這些知識。

  • 基于反饋的優化

基于反饋的優化方法通過利用反饋進行自我反思、糾正和迭代改進來增強LLM智能體。這些方法分為三類:

  • 自我反思優化(Self-Reflection Optimization):智能體利用環境或自身評估的反饋來識別改進領域,并通過自我糾正和進化來調整行為。例如:

    • Reflexion:將任務結果或啟發式評估轉換為文本修正,集成到決策中。

    • SAGE:檢查器代理提供迭代反饋,助手代理生成自我反思。

  • 外部反饋優化(External Feedback Optimization):利用外部模型、代理或框架的評估信號來優化行為。例如:

    • Retroformer:使用回顧模型分析失敗并提供改進反饋。

    • COPPER:使用共享反思模塊生成反事實反饋。

  • 元提示優化(Meta-Prompt Optimization):通過迭代調整全局指令或元提示來增強智能體的泛化能力。例如:

    • MetaReflection:從失敗試驗中提取信息,創建優化的提示。

    • OPRO:通過分析任務準確性生成改進的指令。

  • 基于工具的優化

LLM智能體能夠利用外部工具(如計算器、搜索引擎、代碼解釋器等)來增強其解決問題的能力。優化工具使用和選擇策略是提升智能體性能的關鍵。例如:

  • TPTU:優化任務分解和工具調用。

  • AVATAR:通過比較樣本對的性能差異,分析工具使用問題。

  • Middleware:引入錯誤反饋機制,對齊工具輸入輸出。

  • 基于RAG的優化

檢索增強生成(RAG)通過動態整合外部知識,克服了預訓練知識的局限性,提升了智能體在知識密集型任務中的表現。例如:

  • AutoRAG:自動化選擇RAG模塊,評估不同的檢索技術和重排策略。

  • Self-RAG:結合檢索與自我反思,智能體通過迭代反饋自適應地優化內容。

  • RaDA:利用過去的經驗和動態檢索分解任務,生成情境化的行動。

  • 多智能體協作優化

多智能體框架通過分配角色和迭代互動來處理復雜任務,提升決策能力。例如:

  • MetaGPT:通過多智能體協作模擬軟件開發流程。

  • ChatDev:分解任務為模塊化階段,通過角色協作優化軟件開發。

  • DyLAN:動態構建智能體網絡,優化團隊協作。

  • Agentverse:提供多智能體協作和探索新興行為的平臺。

更多信息:《動手設計AI Agents:CrewAI版》、《高級RAG之36技》、新技術實戰:中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日報/月報、最新技術熱點追蹤解讀(GPT4-o/數字人/MCP/Gemini 2.5 Pro)

https://arxiv.org/pdf/2503.12434
A Survey on the Optimization of Large Language Model-based Agents
https://github.com/YoungDubbyDu/LLM-Agent-Optimization.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
詹姆斯排第一!美媒曬交易市場大魚TOP6:里夫斯5庫明加3字母哥2

詹姆斯排第一!美媒曬交易市場大魚TOP6:里夫斯5庫明加3字母哥2

鍋子籃球
2025-07-04 13:53:01
柴油熱值更高!油耗比混動還低,為什么沒人拿柴油機當增程器?

柴油熱值更高!油耗比混動還低,為什么沒人拿柴油機當增程器?

少數派報告Report
2025-07-02 09:15:51
凱特王妃談抗癌經歷:不能像以前那樣正常工作,找到人生新狀態需要時間,“真的,真的很難”

凱特王妃談抗癌經歷:不能像以前那樣正常工作,找到人生新狀態需要時間,“真的,真的很難”

FM93浙江交通之聲
2025-07-04 13:05:59
美國參議院深夜通過"滅頂法案",萬億新能源產業恐一夜崩盤

美國參議院深夜通過"滅頂法案",萬億新能源產業恐一夜崩盤

來科點譜
2025-07-03 16:18:44
世界發生了3件大事,全世界意識到:必須重新評估中國的實力

世界發生了3件大事,全世界意識到:必須重新評估中國的實力

獵火照狼山
2025-06-09 19:47:06
中國確認9.3閱兵后,越南要在前一天閱兵,調集7000人要搞大陣仗

中國確認9.3閱兵后,越南要在前一天閱兵,調集7000人要搞大陣仗

紀中百大事
2025-06-30 08:11:34
NBA備忘錄:25年自動參選但加盟NCAA的國際球員 無法參加26年選秀

NBA備忘錄:25年自動參選但加盟NCAA的國際球員 無法參加26年選秀

直播吧
2025-07-04 14:56:07
首播將至!33集涉案劇來襲,接檔《以法之名》上星,劇荒有解了

首播將至!33集涉案劇來襲,接檔《以法之名》上星,劇荒有解了

懂體育的小吖頭
2025-07-04 09:51:28
特斯拉Model Y痛失全球銷冠,一款中國車殺入全球銷量前十

特斯拉Model Y痛失全球銷冠,一款中國車殺入全球銷量前十

金融界
2025-07-04 10:39:21
網傳上海一面館用剩面二次銷售 市監部門正調查

網傳上海一面館用剩面二次銷售 市監部門正調查

看看新聞Knews
2025-07-04 14:57:24
伊能靜法國吃大餐被偷拍,素顏面相變了認不出,和秦昊都太愛粉色

伊能靜法國吃大餐被偷拍,素顏面相變了認不出,和秦昊都太愛粉色

古希臘掌管月桂的神
2025-07-02 21:35:48
全國縣市人均可支配收入30強:浙江獨占23席,蘇南四小龍果然富裕

全國縣市人均可支配收入30強:浙江獨占23席,蘇南四小龍果然富裕

Data居士
2025-07-04 10:44:26
印拒簽后上合準備清理門戶,中方牽頭成立新組織,擬邀名單有看頭

印拒簽后上合準備清理門戶,中方牽頭成立新組織,擬邀名單有看頭

山山視角
2025-07-03 05:02:51
林彪去江西休養,順路看望賀子珍,他走后賀子珍馬上聯系省委同志

林彪去江西休養,順路看望賀子珍,他走后賀子珍馬上聯系省委同志

正史筆記
2024-05-30 17:11:48
李一桐,戳穿丑男劉宇寧資源不斷的真相,她給女演員們都提了個醒

李一桐,戳穿丑男劉宇寧資源不斷的真相,她給女演員們都提了個醒

大笑江湖史
2025-07-02 11:00:52
救命!60 多歲長成這樣,誰懂?。∏髥栠@大佬叫啥

救命!60 多歲長成這樣,誰懂??!求問這大佬叫啥

小光侃娛樂
2025-06-15 22:10:04
涉嫌嚴重違紀違法,廣東一科長任上被查

涉嫌嚴重違紀違法,廣東一科長任上被查

魯中晨報
2025-07-04 09:31:02
1997年,蔣緯國去世轟動臺灣,不是因他的死訊,而是因為他的遺言

1997年,蔣緯國去世轟動臺灣,不是因他的死訊,而是因為他的遺言

百態人間
2025-06-16 16:12:55
超傷!王嘉爾借出收入40%給朋友后被騙!網扒線索猜就是他

超傷!王嘉爾借出收入40%給朋友后被騙!網扒線索猜就是他

草莓解說體育
2025-07-04 05:10:44
34歲劉芮麟官宣生子喜訊,春天領證,藏得很嚴實!一家三口真白嫩

34歲劉芮麟官宣生子喜訊,春天領證,藏得很嚴實!一家三口真白嫩

娛圈小愚
2025-07-04 11:36:22
2025-07-04 16:03:00
人工智能研究 incentive-icons
人工智能研究
分享深度學習、CV、NLP
275文章數 130關注度
往期回顧 全部

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰報

頭條要聞

南京一小區修路114公里 近1200萬維修金被當"提款機"

頭條要聞

南京一小區修路114公里 近1200萬維修金被當"提款機"

體育要聞

33歲,她的野心也該火一把了

娛樂要聞

王嘉爾年收四成借朋友 竟遭人間蒸發

財經要聞

闖禍電芯商部分產線停產!羅馬仕通知停工

汽車要聞

純電續航180km/或30萬級 方程豹鈦7四季度上市

態度原創

本地
旅游
教育
公開課
軍事航空

本地新聞

云游中國 | 穿越三國!赤壁古戰場藏了多少英雄傳奇?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

等腰三角形角度難題:巧解∠A 的度數

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄美元首通話約1小時 討論中東局勢、俄烏談判等

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 华蓥市| 仲巴县| 万全县| 灵寿县| 扶余县| 平阳县| 静宁县| 金溪县| 桓台县| 社旗县| 裕民县| 富川| 苏尼特右旗| 天峻县| 青河县| 布拖县| 格尔木市| 鹤庆县| 金塔县| 神农架林区| 电白县| 荣成市| 南汇区| 万荣县| 沙湾县| 万安县| 商都县| 福海县| 新宁县| 安图县| 芷江| 黎平县| 崇阳县| 黄浦区| 喀什市| 新兴县| 讷河市| 隆昌县| 土默特左旗| 高碑店市| 郧西县|