大語言模型(LLM)已成為規(guī)劃復(fù)雜任務(wù)的強(qiáng)大工具。雖然現(xiàn)有方法通常依賴于 “思考 - 行動(dòng) - 觀察”(TAO)過程,但這些方法受限于 LLM 固有的知識(shí)局限性。檢索增強(qiáng)生成 (RAG) 則利用外部數(shù)據(jù)庫(kù),將 LLM 生成與檢索到的信息相結(jié)合。而將 RAG 應(yīng)用于實(shí)際任務(wù)規(guī)劃仍然面臨著兩個(gè)方面的挑戰(zhàn):
1. 可擴(kuò)展性:通過遍歷現(xiàn)有指令并將其組合成新的序列來擴(kuò)展指令圖的范圍的能力,幫助 LLM 完成沒有預(yù)定義路徑的任務(wù)。
2. 可遷移性:開發(fā)能夠快速適應(yīng)新任務(wù)的技術(shù),使模型能夠從有限的示例中有效地學(xué)習(xí)。
針對(duì)大模型任務(wù)規(guī)劃中的可擴(kuò)展性與可遷移性挑戰(zhàn),華為2012中央軟件院新加坡團(tuán)隊(duì)王政博士主導(dǎo)提出了InstructRAG方案,通過多智能體協(xié)同的元強(qiáng)化學(xué)習(xí)架構(gòu),實(shí)現(xiàn)了:1)基于強(qiáng)化學(xué)習(xí)的指令圖拓?fù)鋽U(kuò)展;2)元學(xué)習(xí)驅(qū)動(dòng)的少樣本任務(wù)遷移。在跨領(lǐng)域的復(fù)雜任務(wù)測(cè)試中(包括多跳推理、具身決策、在線購(gòu)物和科學(xué)問答),相較現(xiàn)有最優(yōu)方法取得19.2%的性能提升,并在50%噪聲干擾下僅表現(xiàn)出11.1%的性能衰減,展現(xiàn)出較強(qiáng)的復(fù)雜場(chǎng)景適用性。
- 論文標(biāo)題:InstructRAG: Leveraging Retrieval-Augmented Generation on Instruction Graphs for LLM-Based Task Planning
- 論文鏈接:https://arxiv.org/abs/2504.13032
InstructRAG 框架主要包含三個(gè)主要組件:
1. Instruction Graph:用于組織過去指令路徑的圖;
2. RL-Agent:通過強(qiáng)化學(xué)習(xí)擴(kuò)展圖覆蓋范圍的智能體;
3. ML-Agent:使用元學(xué)習(xí)提升任務(wù)泛化能力的智能體。
核心思路
指令圖(Instruction Graph)
有向圖 G (V, E) 組織過去的指令路徑(正確動(dòng)作的序列)。節(jié)點(diǎn)(V)表示圖中指令集 I,對(duì)相似的指令進(jìn)行聚類。邊 (E)表示任務(wù)集 T,記錄路徑中涉及的任務(wù)和相關(guān)問題。該圖是通過迭代插入來自過去成功路徑的指令來構(gòu)建的,使用近似最近鄰 (AKNN) 搜索和閾值確定是否創(chuàng)建新節(jié)點(diǎn)或添加到現(xiàn)有節(jié)點(diǎn)。指令的組合能夠創(chuàng)造出解決以前未曾見過的問題的新途徑。
強(qiáng)化學(xué)習(xí)智能體(RL-Agent)
在指令圖中選擇節(jié)點(diǎn)的過程可以被看作馬爾可夫決策過程(MDP),作者使用強(qiáng)化學(xué)習(xí) (Reinforcement Learning) 訓(xùn)練的智能體,遍歷指令圖并識(shí)別給定任務(wù)的候選指令路徑,可有效探索指令圖的可擴(kuò)展性。
1. 狀態(tài)(state): 輸入問題與各種圖元素之間的余弦相似度。
2. 行動(dòng)(action):將當(dāng)前節(jié)點(diǎn)包含在路徑中或排除它。
3. 獎(jiǎng)勵(lì)(reward):端到端性能指標(biāo)(例如 F1 Score)。
4. 策略學(xué)習(xí)(policy learning):該智能體使用策略梯度方法進(jìn)行優(yōu)化,并使用歷史數(shù)據(jù)進(jìn)行熱啟動(dòng)以加速訓(xùn)練。這種方法可以通過找到最優(yōu)指令路徑來實(shí)現(xiàn)有效的檢索增強(qiáng)。
元學(xué)習(xí)智能體(ML-Agent)
ML-Agent 是使用元學(xué)習(xí)(Meta Learning)訓(xùn)練的智能體,用來增強(qiáng)可遷移性。它會(huì)從 RL-Agent 提供的候選路徑中選擇最相關(guān)的路徑并為 LLM 生成提示。其模型架構(gòu)包括:1. 共享自注意力層的問題編碼器和路徑編碼器,2. 從 Transformer 激活中獲取的特征表示。
ML-Agent 的訓(xùn)練包含著兩個(gè)階段:
1. 預(yù)訓(xùn)練:優(yōu)化問題路徑對(duì)齊(QPA)和問題路徑匹配(QPM)兩個(gè)任務(wù)。
2. 微調(diào):端到端優(yōu)化規(guī)劃的性能。
這種方法允許模型通過僅使用幾個(gè)示例進(jìn)行更新來推廣到新任務(wù),從而增強(qiáng)檢索增強(qiáng)生成的多智能體協(xié)作。
InstructRAG 整體框架
1. 訓(xùn)練階段:使用來自可見訓(xùn)練任務(wù)的 support set 和 query set 協(xié)作迭代訓(xùn)練 RL-Agent 和 ML-Agent。
2. 少量樣本學(xué)習(xí)階段:使用來自支持集的少量樣本示例,智能體的參數(shù)可以快速適應(yīng)未見過的任務(wù)。
3. 測(cè)試階段:使用未知任務(wù)上的 query set 來評(píng)估模型適應(yīng)的有效性。
這個(gè)整體框架通過 RL-Agent 增強(qiáng)可擴(kuò)展性,通過 ML-Agent 增強(qiáng)可遷移性。
實(shí)驗(yàn)結(jié)果
本文的實(shí)驗(yàn)在四個(gè)廣泛使用的數(shù)據(jù)集上進(jìn)行:
- HotpotQA:多跳推理任務(wù);
- ALFWorld:模擬環(huán)境中的具體任務(wù);
- Webshop:網(wǎng)上購(gòu)物網(wǎng)頁導(dǎo)航任務(wù);
- ScienceWorld:基礎(chǔ)科學(xué)推理任務(wù)。
使用了 GLM-4,GPT-4o mini 和 DeepSeek-V2 三個(gè) LLM,baseline 包括 ReAct,WKM,Reflexion,GenGround 和 RAP。
評(píng)估指標(biāo)分別為 HotPotQA 的 F1 Score,ALFWorld 的 Success Rate 以及 WebShop 和 ScienceWorld 的 Reward Score。
1. 對(duì)未見過任務(wù)的表現(xiàn):
InstructRAG 在三個(gè) LLM 上指標(biāo)明顯優(yōu)于所有 baseline,相較于最佳 baseline RAP,分別在 HotpotQA,ALFWorld 和 Webshop 上提升了 19.2%,9.3% 和 6.1%。
2. 跨數(shù)據(jù)集泛化:
通過將訓(xùn)練好的模型從 HotpotQA 應(yīng)用于 ScienceWorld 數(shù)據(jù)集中的全新任務(wù),InstructRAG 也表現(xiàn)出了強(qiáng)大的泛化能力。
3. 對(duì)已見過任務(wù)的表現(xiàn):
實(shí)驗(yàn)結(jié)果表明 InstructRAG 在可見的訓(xùn)練任務(wù)上的表現(xiàn)優(yōu)于 RAP。
4. 抗噪聲能力:
即使噪聲率為 50%,InstructRAG 的性能僅下降了 11.1%,而 RAP 的性能下降了 27.2%。這表明 InstructRAG 具有強(qiáng)大的抗噪聲能力。
5. 在 HotpotQA 上驗(yàn)證可擴(kuò)展性和可遷移性的消融實(shí)驗(yàn):
缺少了任何一個(gè)組件,InstructRAG 在 HotpotQA 上的 F1 score 都會(huì)有所下降,這表明每個(gè)組件的存在都對(duì)其性能有重大貢獻(xiàn)。
6. 少樣本學(xué)習(xí)的影響:
如圖中 (a)-(b) 所示,任務(wù)比例從 0.2 變化到 1.0,隨著任務(wù)數(shù)量增加,有效性保持穩(wěn)定,這表明在不同任務(wù)之間具有較強(qiáng)的遷移性。由于包含了額外的訓(xùn)練數(shù)據(jù),運(yùn)行時(shí)間隨著任務(wù)的增加而增加。此外,對(duì)于每個(gè)任務(wù),樣本比例從 0.2 變化到 1.0。如圖中 (c) 和 (d) 所示,有效性改善,并在約 0.8 的樣本比例處收斂,而隨著更多樣本用于訓(xùn)練,運(yùn)行時(shí)間也在增加。
總結(jié)
綜上,該工作提出了一種系統(tǒng)化的方法,利用 RAG 進(jìn)行任務(wù)規(guī)劃,解決了可擴(kuò)展性和可遷移性的問題。InstructRAG 集成了指令圖,RL-Agent 和 ML-Agent,優(yōu)化端到端任務(wù)規(guī)劃性能。在四個(gè)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,InstructRAG 的性能卓越,與現(xiàn)有的方法相比,提升高達(dá) 19.2%。該框架展現(xiàn)出卓越的抗噪魯棒性,并能夠使用少量樣本快速適應(yīng)新任務(wù)。未來的工作將集中于進(jìn)一步增強(qiáng) InstructRAG 的泛化能力。
團(tuán)隊(duì)介紹
該工作由華為新加坡中央軟件院團(tuán)隊(duì)獨(dú)立完成,團(tuán)隊(duì)以深耕 AI 基礎(chǔ)軟件作為目標(biāo),聚焦大模型基礎(chǔ)軟件技術(shù)創(chuàng)新研究,包括 RAG、AI Agent、多模態(tài)等前沿基礎(chǔ)技術(shù)研究和能力構(gòu)建,致力于構(gòu)建基于強(qiáng)大算力和大模型的應(yīng)用技術(shù),以推動(dòng) AI 基礎(chǔ)軟件的發(fā)展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.