大語言模型(LLM)已成為規劃復雜任務的強大工具。雖然現有方法通常依賴于 “思考 - 行動 - 觀察”(TAO)過程,但這些方法受限于 LLM 固有的知識局限性。檢索增強生成 (RAG) 則利用外部數據庫,將 LLM 生成與檢索到的信息相結合。而將 RAG 應用于實際任務規劃仍然面臨著兩個方面的挑戰:
1. 可擴展性:通過遍歷現有指令并將其組合成新的序列來擴展指令圖的范圍的能力,幫助 LLM 完成沒有預定義路徑的任務。
2. 可遷移性:開發能夠快速適應新任務的技術,使模型能夠從有限的示例中有效地學習。
針對大模型任務規劃中的可擴展性與可遷移性挑戰,華為2012中央軟件院新加坡團隊王政博士主導提出了InstructRAG方案,通過多智能體協同的元強化學習架構,實現了:1)基于強化學習的指令圖拓撲擴展;2)元學習驅動的少樣本任務遷移。在跨領域的復雜任務測試中(包括多跳推理、具身決策、在線購物和科學問答),相較現有最優方法取得19.2%的性能提升,并在50%噪聲干擾下僅表現出11.1%的性能衰減,展現出較強的復雜場景適用性。
- 論文標題:InstructRAG: Leveraging Retrieval-Augmented Generation on Instruction Graphs for LLM-Based Task Planning
- 論文鏈接:https://arxiv.org/abs/2504.13032
InstructRAG 框架主要包含三個主要組件:
1. Instruction Graph:用于組織過去指令路徑的圖;
2. RL-Agent:通過強化學習擴展圖覆蓋范圍的智能體;
3. ML-Agent:使用元學習提升任務泛化能力的智能體。
核心思路
指令圖(Instruction Graph)
有向圖 G (V, E) 組織過去的指令路徑(正確動作的序列)。節點(V)表示圖中指令集 I,對相似的指令進行聚類。邊 (E)表示任務集 T,記錄路徑中涉及的任務和相關問題。該圖是通過迭代插入來自過去成功路徑的指令來構建的,使用近似最近鄰 (AKNN) 搜索和閾值確定是否創建新節點或添加到現有節點。指令的組合能夠創造出解決以前未曾見過的問題的新途徑。
強化學習智能體(RL-Agent)
在指令圖中選擇節點的過程可以被看作馬爾可夫決策過程(MDP),作者使用強化學習 (Reinforcement Learning) 訓練的智能體,遍歷指令圖并識別給定任務的候選指令路徑,可有效探索指令圖的可擴展性。
1. 狀態(state): 輸入問題與各種圖元素之間的余弦相似度。
2. 行動(action):將當前節點包含在路徑中或排除它。
3. 獎勵(reward):端到端性能指標(例如 F1 Score)。
4. 策略學習(policy learning):該智能體使用策略梯度方法進行優化,并使用歷史數據進行熱啟動以加速訓練。這種方法可以通過找到最優指令路徑來實現有效的檢索增強。
元學習智能體(ML-Agent)
ML-Agent 是使用元學習(Meta Learning)訓練的智能體,用來增強可遷移性。它會從 RL-Agent 提供的候選路徑中選擇最相關的路徑并為 LLM 生成提示。其模型架構包括:1. 共享自注意力層的問題編碼器和路徑編碼器,2. 從 Transformer 激活中獲取的特征表示。
ML-Agent 的訓練包含著兩個階段:
1. 預訓練:優化問題路徑對齊(QPA)和問題路徑匹配(QPM)兩個任務。
2. 微調:端到端優化規劃的性能。
這種方法允許模型通過僅使用幾個示例進行更新來推廣到新任務,從而增強檢索增強生成的多智能體協作。
InstructRAG 整體框架
1. 訓練階段:使用來自可見訓練任務的 support set 和 query set 協作迭代訓練 RL-Agent 和 ML-Agent。
2. 少量樣本學習階段:使用來自支持集的少量樣本示例,智能體的參數可以快速適應未見過的任務。
3. 測試階段:使用未知任務上的 query set 來評估模型適應的有效性。
這個整體框架通過 RL-Agent 增強可擴展性,通過 ML-Agent 增強可遷移性。
實驗結果
本文的實驗在四個廣泛使用的數據集上進行:
- HotpotQA:多跳推理任務;
- ALFWorld:模擬環境中的具體任務;
- Webshop:網上購物網頁導航任務;
- ScienceWorld:基礎科學推理任務。
使用了 GLM-4,GPT-4o mini 和 DeepSeek-V2 三個 LLM,baseline 包括 ReAct,WKM,Reflexion,GenGround 和 RAP。
評估指標分別為 HotPotQA 的 F1 Score,ALFWorld 的 Success Rate 以及 WebShop 和 ScienceWorld 的 Reward Score。
1. 對未見過任務的表現:
InstructRAG 在三個 LLM 上指標明顯優于所有 baseline,相較于最佳 baseline RAP,分別在 HotpotQA,ALFWorld 和 Webshop 上提升了 19.2%,9.3% 和 6.1%。
2. 跨數據集泛化:
通過將訓練好的模型從 HotpotQA 應用于 ScienceWorld 數據集中的全新任務,InstructRAG 也表現出了強大的泛化能力。
3. 對已見過任務的表現:
實驗結果表明 InstructRAG 在可見的訓練任務上的表現優于 RAP。
4. 抗噪聲能力:
即使噪聲率為 50%,InstructRAG 的性能僅下降了 11.1%,而 RAP 的性能下降了 27.2%。這表明 InstructRAG 具有強大的抗噪聲能力。
5. 在 HotpotQA 上驗證可擴展性和可遷移性的消融實驗:
缺少了任何一個組件,InstructRAG 在 HotpotQA 上的 F1 score 都會有所下降,這表明每個組件的存在都對其性能有重大貢獻。
6. 少樣本學習的影響:
如圖中 (a)-(b) 所示,任務比例從 0.2 變化到 1.0,隨著任務數量增加,有效性保持穩定,這表明在不同任務之間具有較強的遷移性。由于包含了額外的訓練數據,運行時間隨著任務的增加而增加。此外,對于每個任務,樣本比例從 0.2 變化到 1.0。如圖中 (c) 和 (d) 所示,有效性改善,并在約 0.8 的樣本比例處收斂,而隨著更多樣本用于訓練,運行時間也在增加。
總結
綜上,該工作提出了一種系統化的方法,利用 RAG 進行任務規劃,解決了可擴展性和可遷移性的問題。InstructRAG 集成了指令圖,RL-Agent 和 ML-Agent,優化端到端任務規劃性能。在四個數據集上進行的大量實驗表明,InstructRAG 的性能卓越,與現有的方法相比,提升高達 19.2%。該框架展現出卓越的抗噪魯棒性,并能夠使用少量樣本快速適應新任務。未來的工作將集中于進一步增強 InstructRAG 的泛化能力。
團隊介紹
該工作由華為新加坡中央軟件院團隊獨立完成,團隊以深耕 AI 基礎軟件作為目標,聚焦大模型基礎軟件技術創新研究,包括 RAG、AI Agent、多模態等前沿基礎技術研究和能力構建,致力于構建基于強大算力和大模型的應用技術,以推動 AI 基礎軟件的發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.