99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

解決擴展和遷移難題,華為新加坡提出InstructRAG,提升高達19%

0
分享至




大語言模型(LLM)已成為規劃復雜任務的強大工具。雖然現有方法通常依賴于 “思考 - 行動 - 觀察”(TAO)過程,但這些方法受限于 LLM 固有的知識局限性。檢索增強生成 (RAG) 則利用外部數據庫,將 LLM 生成與檢索到的信息相結合。而將 RAG 應用于實際任務規劃仍然面臨著兩個方面的挑戰:

1. 可擴展性:通過遍歷現有指令并將其組合成新的序列來擴展指令圖的范圍的能力,幫助 LLM 完成沒有預定義路徑的任務。

2. 可遷移性:開發能夠快速適應新任務的技術,使模型能夠從有限的示例中有效地學習。

針對大模型任務規劃中的可擴展性與可遷移性挑戰,華為2012中央軟件院新加坡團隊王政博士主導提出了InstructRAG方案,通過多智能體協同的元強化學習架構,實現了:1)基于強化學習的指令圖拓撲擴展;2)元學習驅動的少樣本任務遷移。在跨領域的復雜任務測試中(包括多跳推理、具身決策、在線購物和科學問答),相較現有最優方法取得19.2%的性能提升,并在50%噪聲干擾下僅表現出11.1%的性能衰減,展現出較強的復雜場景適用性。



  • 論文標題:InstructRAG: Leveraging Retrieval-Augmented Generation on Instruction Graphs for LLM-Based Task Planning
  • 論文鏈接:https://arxiv.org/abs/2504.13032

InstructRAG 框架主要包含三個主要組件:

1. Instruction Graph:用于組織過去指令路徑的圖;

2. RL-Agent:通過強化學習擴展圖覆蓋范圍的智能體;

3. ML-Agent:使用元學習提升任務泛化能力的智能體。



核心思路

指令圖(Instruction Graph)

有向圖 G (V, E) 組織過去的指令路徑(正確動作的序列)。節點(V)表示圖中指令集 I,對相似的指令進行聚類。邊 (E)表示任務集 T,記錄路徑中涉及的任務和相關問題。該圖是通過迭代插入來自過去成功路徑的指令來構建的,使用近似最近鄰 (AKNN) 搜索和閾值確定是否創建新節點或添加到現有節點。指令的組合能夠創造出解決以前未曾見過的問題的新途徑。

強化學習智能體(RL-Agent)

在指令圖中選擇節點的過程可以被看作馬爾可夫決策過程(MDP),作者使用強化學習 (Reinforcement Learning) 訓練的智能體,遍歷指令圖并識別給定任務的候選指令路徑,可有效探索指令圖的可擴展性。

1. 狀態(state): 輸入問題與各種圖元素之間的余弦相似度。

2. 行動(action):將當前節點包含在路徑中或排除它。

3. 獎勵(reward):端到端性能指標(例如 F1 Score)。

4. 策略學習(policy learning):該智能體使用策略梯度方法進行優化,并使用歷史數據進行熱啟動以加速訓練。這種方法可以通過找到最優指令路徑來實現有效的檢索增強。

元學習智能體(ML-Agent)

ML-Agent 是使用元學習(Meta Learning)訓練的智能體,用來增強可遷移性。它會從 RL-Agent 提供的候選路徑中選擇最相關的路徑并為 LLM 生成提示。其模型架構包括:1. 共享自注意力層的問題編碼器和路徑編碼器,2. 從 Transformer 激活中獲取的特征表示。

ML-Agent 的訓練包含著兩個階段:

1. 預訓練:優化問題路徑對齊(QPA)和問題路徑匹配(QPM)兩個任務。

2. 微調:端到端優化規劃的性能。

這種方法允許模型通過僅使用幾個示例進行更新來推廣到新任務,從而增強檢索增強生成的多智能體協作。

InstructRAG 整體框架

1. 訓練階段:使用來自可見訓練任務的 support set 和 query set 協作迭代訓練 RL-Agent 和 ML-Agent。

2. 少量樣本學習階段:使用來自支持集的少量樣本示例,智能體的參數可以快速適應未見過的任務。

3. 測試階段:使用未知任務上的 query set 來評估模型適應的有效性。

這個整體框架通過 RL-Agent 增強可擴展性,通過 ML-Agent 增強可遷移性。

實驗結果

本文的實驗在四個廣泛使用的數據集上進行:

  • HotpotQA:多跳推理任務;
  • ALFWorld:模擬環境中的具體任務;
  • Webshop:網上購物網頁導航任務;
  • ScienceWorld:基礎科學推理任務。

使用了 GLM-4,GPT-4o mini 和 DeepSeek-V2 三個 LLM,baseline 包括 ReAct,WKM,Reflexion,GenGround 和 RAP。

評估指標分別為 HotPotQA 的 F1 Score,ALFWorld 的 Success Rate 以及 WebShop 和 ScienceWorld 的 Reward Score。

1. 對未見過任務的表現:



InstructRAG 在三個 LLM 上指標明顯優于所有 baseline,相較于最佳 baseline RAP,分別在 HotpotQA,ALFWorld 和 Webshop 上提升了 19.2%,9.3% 和 6.1%。

2. 跨數據集泛化:



通過將訓練好的模型從 HotpotQA 應用于 ScienceWorld 數據集中的全新任務,InstructRAG 也表現出了強大的泛化能力。

3. 對已見過任務的表現:



實驗結果表明 InstructRAG 在可見的訓練任務上的表現優于 RAP。

4. 抗噪聲能力:



即使噪聲率為 50%,InstructRAG 的性能僅下降了 11.1%,而 RAP 的性能下降了 27.2%。這表明 InstructRAG 具有強大的抗噪聲能力。

5. 在 HotpotQA 上驗證可擴展性和可遷移性的消融實驗:



缺少了任何一個組件,InstructRAG 在 HotpotQA 上的 F1 score 都會有所下降,這表明每個組件的存在都對其性能有重大貢獻。

6. 少樣本學習的影響:



如圖中 (a)-(b) 所示,任務比例從 0.2 變化到 1.0,隨著任務數量增加,有效性保持穩定,這表明在不同任務之間具有較強的遷移性。由于包含了額外的訓練數據,運行時間隨著任務的增加而增加。此外,對于每個任務,樣本比例從 0.2 變化到 1.0。如圖中 (c) 和 (d) 所示,有效性改善,并在約 0.8 的樣本比例處收斂,而隨著更多樣本用于訓練,運行時間也在增加。

總結

綜上,該工作提出了一種系統化的方法,利用 RAG 進行任務規劃,解決了可擴展性和可遷移性的問題。InstructRAG 集成了指令圖,RL-Agent 和 ML-Agent,優化端到端任務規劃性能。在四個數據集上進行的大量實驗表明,InstructRAG 的性能卓越,與現有的方法相比,提升高達 19.2%。該框架展現出卓越的抗噪魯棒性,并能夠使用少量樣本快速適應新任務。未來的工作將集中于進一步增強 InstructRAG 的泛化能力。

團隊介紹

該工作由華為新加坡中央軟件院團隊獨立完成,團隊以深耕 AI 基礎軟件作為目標,聚焦大模型基礎軟件技術創新研究,包括 RAG、AI Agent、多模態等前沿基礎技術研究和能力構建,致力于構建基于強大算力和大模型的應用技術,以推動 AI 基礎軟件的發展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
發行價558,高點1877,現跌破100,千元神話破滅,誰在為高價買單

發行價558,高點1877,現跌破100,千元神話破滅,誰在為高價買單

小舟談歷史
2025-05-24 17:21:56
小米汽車回應YU7門把手冬天冰凍問題:盡量停室內

小米汽車回應YU7門把手冬天冰凍問題:盡量停室內

手機中國
2025-05-23 22:05:08
點球大戰制勝!武漢6-5奪亞冠女足冠軍創歷史+進世俱杯 門神2撲點

點球大戰制勝!武漢6-5奪亞冠女足冠軍創歷史+進世俱杯 門神2撲點

我愛英超
2025-05-24 23:06:48
安徽蒙城女網紅賣提拉米蘇,導致一百多人住院,病人數量還在增加

安徽蒙城女網紅賣提拉米蘇,導致一百多人住院,病人數量還在增加

江山揮筆
2025-05-24 16:06:46
國民黨主席或將換人當!朱立倫實在不行,盧秀燕受黨內大佬支持

國民黨主席或將換人當!朱立倫實在不行,盧秀燕受黨內大佬支持

大道無形我有型
2025-05-24 18:11:10
小米高調宣布3nm自研芯片引爭議,專家警告:不要暗示超過華為

小米高調宣布3nm自研芯片引爭議,專家警告:不要暗示超過華為

一個有靈魂的作者
2025-05-23 11:59:45
雨果繼續超神!4-3力克梁靖崑晉級世乒賽男單決賽,和王楚欽爭冠

雨果繼續超神!4-3力克梁靖崑晉級世乒賽男單決賽,和王楚欽爭冠

乒談
2025-05-25 00:29:46
0:4!可怕的不是輸球,而是張本美和賽后表態,日乒大旗崩潰痛哭

0:4!可怕的不是輸球,而是張本美和賽后表態,日乒大旗崩潰痛哭

尋墨閣
2025-05-24 09:54:29
槍頂在命門了,以色列終于知道害怕了:整個中東地區都在調動導彈

槍頂在命門了,以色列終于知道害怕了:整個中東地區都在調動導彈

說天說地說實事
2025-05-24 15:20:18
太牛了!12歲于子迪女子400m混合泳奪冠,此前曾奪200m蝶泳冠軍

太牛了!12歲于子迪女子400m混合泳奪冠,此前曾奪200m蝶泳冠軍

直播吧
2025-05-24 20:43:08
四川某高中“漢服網紅班”班主任一審死刑,同案地理老師被判13年,12年來兩個畜牲做了些什么?

四川某高中“漢服網紅班”班主任一審死刑,同案地理老師被判13年,12年來兩個畜牲做了些什么?

譚老師地理工作室
2025-05-24 17:51:29
世乒賽國乒斬獲第2金!女單奪冠,王曼昱強勢回歸,日本單打全輸

世乒賽國乒斬獲第2金!女單奪冠,王曼昱強勢回歸,日本單打全輸

知軒體育
2025-05-25 01:51:49
莫雷加德:王楚欽在關鍵分上展示了為什么他是世界上最好的球員

莫雷加德:王楚欽在關鍵分上展示了為什么他是世界上最好的球員

懂球帝
2025-05-24 21:46:10
大部分男人找所謂的婚外情,其實就是圖女人的身體和性

大部分男人找所謂的婚外情,其實就是圖女人的身體和性

加油丁小文
2025-05-22 10:26:36
梁靖崑,雖敗猶榮!狂追6個賽點輸在最后一球,雙膝跪地震撼動容

梁靖崑,雖敗猶榮!狂追6個賽點輸在最后一球,雙膝跪地震撼動容

嘴炮體壇
2025-05-25 01:30:59
男單“全軍覆沒”!人民日報11字發文,王楚欽的失敗早就有跡可循

男單“全軍覆沒”!人民日報11字發文,王楚欽的失敗早就有跡可循

凡知
2025-04-22 15:26:14
殲10CE展臺已被擠爆,多國代表團追問采購價格,印度徹底破防了

殲10CE展臺已被擠爆,多國代表團追問采購價格,印度徹底破防了

說天說地說實事
2025-05-24 20:37:26
4-0!孫穎莎10連勝伊藤美誠,連續3屆世乒賽進決賽,國乒鎖定冠軍

4-0!孫穎莎10連勝伊藤美誠,連續3屆世乒賽進決賽,國乒鎖定冠軍

環太平洋老正太
2025-05-24 18:44:41
外表極其怪異,焊縫長達1300公里,土衛八是一艘廢棄飛船?

外表極其怪異,焊縫長達1300公里,土衛八是一艘廢棄飛船?

觀察宇宙
2025-05-24 11:34:42
賴清德被大陸高贊,國民黨高層瞬間反應,專家直言:賴完蛋了!

賴清德被大陸高贊,國民黨高層瞬間反應,專家直言:賴完蛋了!

李摻窮游天下
2025-05-24 10:05:30
2025-05-25 05:40:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10522文章數 142319關注度
往期回顧 全部

科技要聞

不止蘋果?特朗普:三星不在美國造 也加稅

頭條要聞

朱媛媛系在福建拍戲時病發 同組演員:當時她咳得很厲害

頭條要聞

朱媛媛系在福建拍戲時病發 同組演員:當時她咳得很厲害

體育要聞

世乒賽混雙三連冠!莎頭舉國旗比“3”

娛樂要聞

歌手2025第二期排名:居然是他淘汰了

財經要聞

不得不說,特朗普殺瘋了

汽車要聞

一見傾心!東風全新SUV定妝圖曝光,顏值氣場并存

態度原創

健康
教育
時尚
本地
手機

唇皰疹和口腔潰瘍是"同伙"嗎?

教育要聞

TTS新傳論文帶讀:這篇文章真的把社交媒體性別對立講得好清楚!!!

入夏后中年女人這樣打扮:裙子過膝,鞋子帶跟,美得高級優雅

本地新聞

巴黎沒有倍兒甜,但天津巧克力腦袋倍兒多

手機要聞

澎湃OS再次公布進展通報:Beta版問題大修復,細節還在打磨中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 理塘县| 赤水市| 应城市| 出国| 平谷区| 昔阳县| 淮南市| 方山县| 永平县| 龙口市| 临海市| 固始县| 吴川市| 隆回县| 哈巴河县| 襄城县| 长沙市| 宜章县| 镇平县| 临桂县| 周宁县| 太康县| 济宁市| 金坛市| 鹤岗市| 山东省| 定南县| 九江县| 涟水县| 武功县| 云南省| 油尖旺区| 昌宁县| 习水县| 灌阳县| 舒兰市| 彩票| 吉首市| 明星| 洪洞县| 县级市|