99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

解決擴(kuò)展和遷移難題,華為新加坡提出InstructRAG,提升高達(dá)19%

0
分享至




大語言模型(LLM)已成為規(guī)劃復(fù)雜任務(wù)的強(qiáng)大工具。雖然現(xiàn)有方法通常依賴于 “思考 - 行動(dòng) - 觀察”(TAO)過程,但這些方法受限于 LLM 固有的知識(shí)局限性。檢索增強(qiáng)生成 (RAG) 則利用外部數(shù)據(jù)庫(kù),將 LLM 生成與檢索到的信息相結(jié)合。而將 RAG 應(yīng)用于實(shí)際任務(wù)規(guī)劃仍然面臨著兩個(gè)方面的挑戰(zhàn):

1. 可擴(kuò)展性:通過遍歷現(xiàn)有指令并將其組合成新的序列來擴(kuò)展指令圖的范圍的能力,幫助 LLM 完成沒有預(yù)定義路徑的任務(wù)。

2. 可遷移性:開發(fā)能夠快速適應(yīng)新任務(wù)的技術(shù),使模型能夠從有限的示例中有效地學(xué)習(xí)。

針對(duì)大模型任務(wù)規(guī)劃中的可擴(kuò)展性與可遷移性挑戰(zhàn),華為2012中央軟件院新加坡團(tuán)隊(duì)王政博士主導(dǎo)提出了InstructRAG方案,通過多智能體協(xié)同的元強(qiáng)化學(xué)習(xí)架構(gòu),實(shí)現(xiàn)了:1)基于強(qiáng)化學(xué)習(xí)的指令圖拓?fù)鋽U(kuò)展;2)元學(xué)習(xí)驅(qū)動(dòng)的少樣本任務(wù)遷移。在跨領(lǐng)域的復(fù)雜任務(wù)測(cè)試中(包括多跳推理、具身決策、在線購(gòu)物和科學(xué)問答),相較現(xiàn)有最優(yōu)方法取得19.2%的性能提升,并在50%噪聲干擾下僅表現(xiàn)出11.1%的性能衰減,展現(xiàn)出較強(qiáng)的復(fù)雜場(chǎng)景適用性。



  • 論文標(biāo)題:InstructRAG: Leveraging Retrieval-Augmented Generation on Instruction Graphs for LLM-Based Task Planning
  • 論文鏈接:https://arxiv.org/abs/2504.13032

InstructRAG 框架主要包含三個(gè)主要組件:

1. Instruction Graph:用于組織過去指令路徑的圖;

2. RL-Agent:通過強(qiáng)化學(xué)習(xí)擴(kuò)展圖覆蓋范圍的智能體;

3. ML-Agent:使用元學(xué)習(xí)提升任務(wù)泛化能力的智能體。



核心思路

指令圖(Instruction Graph)

有向圖 G (V, E) 組織過去的指令路徑(正確動(dòng)作的序列)。節(jié)點(diǎn)(V)表示圖中指令集 I,對(duì)相似的指令進(jìn)行聚類。邊 (E)表示任務(wù)集 T,記錄路徑中涉及的任務(wù)和相關(guān)問題。該圖是通過迭代插入來自過去成功路徑的指令來構(gòu)建的,使用近似最近鄰 (AKNN) 搜索和閾值確定是否創(chuàng)建新節(jié)點(diǎn)或添加到現(xiàn)有節(jié)點(diǎn)。指令的組合能夠創(chuàng)造出解決以前未曾見過的問題的新途徑。

強(qiáng)化學(xué)習(xí)智能體(RL-Agent)

在指令圖中選擇節(jié)點(diǎn)的過程可以被看作馬爾可夫決策過程(MDP),作者使用強(qiáng)化學(xué)習(xí) (Reinforcement Learning) 訓(xùn)練的智能體,遍歷指令圖并識(shí)別給定任務(wù)的候選指令路徑,可有效探索指令圖的可擴(kuò)展性。

1. 狀態(tài)(state): 輸入問題與各種圖元素之間的余弦相似度。

2. 行動(dòng)(action):將當(dāng)前節(jié)點(diǎn)包含在路徑中或排除它。

3. 獎(jiǎng)勵(lì)(reward):端到端性能指標(biāo)(例如 F1 Score)。

4. 策略學(xué)習(xí)(policy learning):該智能體使用策略梯度方法進(jìn)行優(yōu)化,并使用歷史數(shù)據(jù)進(jìn)行熱啟動(dòng)以加速訓(xùn)練。這種方法可以通過找到最優(yōu)指令路徑來實(shí)現(xiàn)有效的檢索增強(qiáng)。

元學(xué)習(xí)智能體(ML-Agent)

ML-Agent 是使用元學(xué)習(xí)(Meta Learning)訓(xùn)練的智能體,用來增強(qiáng)可遷移性。它會(huì)從 RL-Agent 提供的候選路徑中選擇最相關(guān)的路徑并為 LLM 生成提示。其模型架構(gòu)包括:1. 共享自注意力層的問題編碼器和路徑編碼器,2. 從 Transformer 激活中獲取的特征表示。

ML-Agent 的訓(xùn)練包含著兩個(gè)階段:

1. 預(yù)訓(xùn)練:優(yōu)化問題路徑對(duì)齊(QPA)和問題路徑匹配(QPM)兩個(gè)任務(wù)。

2. 微調(diào):端到端優(yōu)化規(guī)劃的性能。

這種方法允許模型通過僅使用幾個(gè)示例進(jìn)行更新來推廣到新任務(wù),從而增強(qiáng)檢索增強(qiáng)生成的多智能體協(xié)作。

InstructRAG 整體框架

1. 訓(xùn)練階段:使用來自可見訓(xùn)練任務(wù)的 support set 和 query set 協(xié)作迭代訓(xùn)練 RL-Agent 和 ML-Agent。

2. 少量樣本學(xué)習(xí)階段:使用來自支持集的少量樣本示例,智能體的參數(shù)可以快速適應(yīng)未見過的任務(wù)。

3. 測(cè)試階段:使用未知任務(wù)上的 query set 來評(píng)估模型適應(yīng)的有效性。

這個(gè)整體框架通過 RL-Agent 增強(qiáng)可擴(kuò)展性,通過 ML-Agent 增強(qiáng)可遷移性。

實(shí)驗(yàn)結(jié)果

本文的實(shí)驗(yàn)在四個(gè)廣泛使用的數(shù)據(jù)集上進(jìn)行:

  • HotpotQA:多跳推理任務(wù);
  • ALFWorld:模擬環(huán)境中的具體任務(wù);
  • Webshop:網(wǎng)上購(gòu)物網(wǎng)頁導(dǎo)航任務(wù);
  • ScienceWorld:基礎(chǔ)科學(xué)推理任務(wù)。

使用了 GLM-4,GPT-4o mini 和 DeepSeek-V2 三個(gè) LLM,baseline 包括 ReAct,WKM,Reflexion,GenGround 和 RAP。

評(píng)估指標(biāo)分別為 HotPotQA 的 F1 Score,ALFWorld 的 Success Rate 以及 WebShop 和 ScienceWorld 的 Reward Score。

1. 對(duì)未見過任務(wù)的表現(xiàn):



InstructRAG 在三個(gè) LLM 上指標(biāo)明顯優(yōu)于所有 baseline,相較于最佳 baseline RAP,分別在 HotpotQA,ALFWorld 和 Webshop 上提升了 19.2%,9.3% 和 6.1%。

2. 跨數(shù)據(jù)集泛化:



通過將訓(xùn)練好的模型從 HotpotQA 應(yīng)用于 ScienceWorld 數(shù)據(jù)集中的全新任務(wù),InstructRAG 也表現(xiàn)出了強(qiáng)大的泛化能力。

3. 對(duì)已見過任務(wù)的表現(xiàn):



實(shí)驗(yàn)結(jié)果表明 InstructRAG 在可見的訓(xùn)練任務(wù)上的表現(xiàn)優(yōu)于 RAP。

4. 抗噪聲能力:



即使噪聲率為 50%,InstructRAG 的性能僅下降了 11.1%,而 RAP 的性能下降了 27.2%。這表明 InstructRAG 具有強(qiáng)大的抗噪聲能力。

5. 在 HotpotQA 上驗(yàn)證可擴(kuò)展性和可遷移性的消融實(shí)驗(yàn):



缺少了任何一個(gè)組件,InstructRAG 在 HotpotQA 上的 F1 score 都會(huì)有所下降,這表明每個(gè)組件的存在都對(duì)其性能有重大貢獻(xiàn)。

6. 少樣本學(xué)習(xí)的影響:



如圖中 (a)-(b) 所示,任務(wù)比例從 0.2 變化到 1.0,隨著任務(wù)數(shù)量增加,有效性保持穩(wěn)定,這表明在不同任務(wù)之間具有較強(qiáng)的遷移性。由于包含了額外的訓(xùn)練數(shù)據(jù),運(yùn)行時(shí)間隨著任務(wù)的增加而增加。此外,對(duì)于每個(gè)任務(wù),樣本比例從 0.2 變化到 1.0。如圖中 (c) 和 (d) 所示,有效性改善,并在約 0.8 的樣本比例處收斂,而隨著更多樣本用于訓(xùn)練,運(yùn)行時(shí)間也在增加。

總結(jié)

綜上,該工作提出了一種系統(tǒng)化的方法,利用 RAG 進(jìn)行任務(wù)規(guī)劃,解決了可擴(kuò)展性和可遷移性的問題。InstructRAG 集成了指令圖,RL-Agent 和 ML-Agent,優(yōu)化端到端任務(wù)規(guī)劃性能。在四個(gè)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,InstructRAG 的性能卓越,與現(xiàn)有的方法相比,提升高達(dá) 19.2%。該框架展現(xiàn)出卓越的抗噪魯棒性,并能夠使用少量樣本快速適應(yīng)新任務(wù)。未來的工作將集中于進(jìn)一步增強(qiáng) InstructRAG 的泛化能力。

團(tuán)隊(duì)介紹

該工作由華為新加坡中央軟件院團(tuán)隊(duì)獨(dú)立完成,團(tuán)隊(duì)以深耕 AI 基礎(chǔ)軟件作為目標(biāo),聚焦大模型基礎(chǔ)軟件技術(shù)創(chuàng)新研究,包括 RAG、AI Agent、多模態(tài)等前沿基礎(chǔ)技術(shù)研究和能力構(gòu)建,致力于構(gòu)建基于強(qiáng)大算力和大模型的應(yīng)用技術(shù),以推動(dòng) AI 基礎(chǔ)軟件的發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上海又一知名“康養(yǎng)度假”集團(tuán)爆雷

上海又一知名“康養(yǎng)度假”集團(tuán)爆雷

深度知局
2025-05-22 17:34:12
他晉升副部!此前在國(guó)務(wù)院部委管理的國(guó)家局任職

他晉升副部!此前在國(guó)務(wù)院部委管理的國(guó)家局任職

上觀新聞
2025-05-22 09:29:05
日本國(guó)門鈴木彩艷積極增重,目前體重已達(dá)到200斤

日本國(guó)門鈴木彩艷積極增重,目前體重已達(dá)到200斤

懂球帝
2025-05-23 18:20:10
曾吊打保時(shí)捷的神車,一年賣14輛車

曾吊打保時(shí)捷的神車,一年賣14輛車

大貓財(cái)經(jīng)Pro
2025-05-23 18:33:58
比失去更痛苦的事!51歲朱媛媛知道活不了,故早在戲中和我們道別

比失去更痛苦的事!51歲朱媛媛知道活不了,故早在戲中和我們道別

楊哥歷史
2025-05-23 10:21:48
絕了,四川隊(duì)絕了!真會(huì)給CBA抹黑……

絕了,四川隊(duì)絕了!真會(huì)給CBA抹黑……

籃球?qū)崙?zhàn)寶典
2025-05-23 22:18:55
嚴(yán)為民:跳水了?好極了!

嚴(yán)為民:跳水了?好極了!

新浪財(cái)經(jīng)
2025-05-23 17:32:08
舊將:曼聯(lián)僅2人值得信任 加納喬完全不在乎球隊(duì)&曼聯(lián)已爛到根上

舊將:曼聯(lián)僅2人值得信任 加納喬完全不在乎球隊(duì)&曼聯(lián)已爛到根上

直播吧
2025-05-23 15:21:08
破天荒!惠州一樓盤業(yè)主表決通過,降低物業(yè)費(fèi)、取消公攤費(fèi)等決議

破天荒!惠州一樓盤業(yè)主表決通過,降低物業(yè)費(fèi)、取消公攤費(fèi)等決議

火山詩(shī)話
2025-05-23 14:19:28
多哈世乒賽女單?決賽:王曼昱4-0完勝?gòu)埍久篮停M(jìn)半決賽

多哈世乒賽女單?決賽:王曼昱4-0完勝?gòu)埍久篮停M(jìn)半決賽

雷速體育
2025-05-23 22:14:15
員工因800元工資討要未果并被打后縱火燒廠?四川宜賓警方辟謠

員工因800元工資討要未果并被打后縱火燒廠?四川宜賓警方辟謠

界面新聞
2025-05-23 22:11:05
不顧中國(guó)警告,東盟刺頭出現(xiàn),棄華為產(chǎn)稀土,中方大棒說來就來

不顧中國(guó)警告,東盟刺頭出現(xiàn),棄華為產(chǎn)稀土,中方大棒說來就來

漣漪讀史
2025-05-23 14:08:46
深度科普:到底是誰啟動(dòng)了宇宙大爆炸?或許需穿越到高維度找答案

深度科普:到底是誰啟動(dòng)了宇宙大爆炸?或許需穿越到高維度找答案

宇宙時(shí)空
2025-05-22 15:50:22
陜西著名中醫(yī)腫瘤專家突然病逝!年僅59歲,幾天前還在給病人看病

陜西著名中醫(yī)腫瘤專家突然病逝!年僅59歲,幾天前還在給病人看病

火山詩(shī)話
2025-05-23 06:25:27
杭州“將軍酒”傳銷頭目一輛奔馳S480被拍賣,22人搶,109萬成交

杭州“將軍酒”傳銷頭目一輛奔馳S480被拍賣,22人搶,109萬成交

天天話事
2025-05-23 15:04:30
世乒賽女單4強(qiáng):王藝迪2人爆冷,孫穎莎3人抗日成功圍剿伊藤美誠(chéng)

世乒賽女單4強(qiáng):王藝迪2人爆冷,孫穎莎3人抗日成功圍剿伊藤美誠(chéng)

二哥聊球
2025-05-23 23:13:25
降薪擔(dān)任替補(bǔ)俱樂部拒絕,魔笛無奈離開皇馬,齊達(dá)內(nèi)才是人間清醒

降薪擔(dān)任替補(bǔ)俱樂部拒絕,魔笛無奈離開皇馬,齊達(dá)內(nèi)才是人間清醒

姜大叔侃球
2025-05-23 09:09:43
北京一姑娘,“將生菜吃成老樁”火了,網(wǎng)友:種一次吃三年,值!

北京一姑娘,“將生菜吃成老樁”火了,網(wǎng)友:種一次吃三年,值!

西莫的藝術(shù)宮殿
2025-05-23 13:31:49
起猛了,印度和美國(guó)開撕了?

起猛了,印度和美國(guó)開撕了?

李砍柴
2025-05-22 23:45:29
巴鐵又出事了!殲10C能擋住敵機(jī)入侵,卻擋不住暗處黑手

巴鐵又出事了!殲10C能擋住敵機(jī)入侵,卻擋不住暗處黑手

鐵錘簡(jiǎn)科
2025-05-23 19:05:44
2025-05-24 00:03:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10522文章數(shù) 142318關(guān)注度
往期回顧 全部

科技要聞

特朗普:iPhone不在美國(guó)制造就收25%關(guān)稅

頭條要聞

美媒最新披露:馬斯克在特朗普核心圈地位顯著下滑

頭條要聞

美媒最新披露:馬斯克在特朗普核心圈地位顯著下滑

體育要聞

臺(tái)下掌聲一片!65歲安帥揮手告別:感謝皇馬

娛樂要聞

趙麗穎否認(rèn)戀情,與趙德胤沒在一起?

財(cái)經(jīng)要聞

特朗普威脅自6月1日起對(duì)歐盟征收50%關(guān)稅

汽車要聞

續(xù)航720km/充電10分鐘補(bǔ)能500公里 理想i8信息曝光

態(tài)度原創(chuàng)

教育
房產(chǎn)
手機(jī)
數(shù)碼
公開課

教育要聞

冪的運(yùn)算題目也挺難,看老師怎么解題

房產(chǎn)要聞

連續(xù)17次提前交付!海口這座頂流紅盤,業(yè)主贏麻了!

手機(jī)要聞

榮耀400系列將于5月底發(fā)布 配備1.45mm窄邊框直屏

數(shù)碼要聞

掌靜脈識(shí)別VS人臉識(shí)別VS指紋識(shí)別:華為智能門鎖 2 Pro安全又便捷

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 邮箱| 巴里| 小金县| 贵港市| 渭源县| 偃师市| 若尔盖县| 乌什县| 永靖县| 同江市| 苏尼特左旗| 卓资县| 尚义县| 新津县| 平度市| 汉川市| 桃江县| 抚松县| 三都| 保亭| 勐海县| 青田县| 禹州市| 沾化县| 容城县| 历史| 阳西县| 鲁甸县| 禹州市| 蛟河市| 山阴县| 永德县| 黑龙江省| 乌拉特中旗| 嘉定区| 昭平县| 山东| 盐边县| 双江| 佛冈县| 西和县|