99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

NAACL 2025 | 知識增強下的智能體規劃

0
分享至

大型語言模型(LLMs)在復雜推理任務中展現了強大潛力,但在處理需要與環境交互的任務時,仍存在一定的不足。這主要是因為智能體缺乏內置的動作知識,導致無法有效規劃任務路徑,從而引發所謂的“規劃幻覺”問題。為了應對這一挑戰,本文提出了KnowAgent框架,通過引入外部動作知識來增強智能體的軌跡生成能力,從而緩解規劃幻覺。

KnowAgent的核心思想在于利用一個整合了特定任務動作規劃的知識庫來指導模型的動作生成。通過將這些知識轉化為文本,模型能夠更深入地理解動作規則,并通過一個知識型自我學習階段持續優化動作規劃。實驗證明,KnowAgent在多個數據集上表現出色,且能夠有效減少規劃幻覺。該方法的成功還證明了從大型語言模型中提取精煉動作知識的可行性,為未來的研究與應用提供了新的方向。


論文題目: KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents 論文鏈接: https://arxiv.org/abs/2403.03101 代碼鏈接: https://github.com/zjunlp/KnowAgent

一、引言

大型語言模型(LLMs)在復雜推理任務中展現了極大的潛力,但在處理更復雜的挑戰時,尤其是在通過生成可執行動作與環境進行交互時,仍顯不足。這主要是因為智能體缺乏內置的動作知識,導致它們在任務解決過程中無法有效地指導規劃軌跡,從而引發規劃幻覺。


為了解決這一問題,我們提出了KnowAgent,旨在通過利用外部動作知識來增強軌跡合成,緩解其中出現的規劃幻覺問題。我們的方法包括幾個關鍵步驟。首先,我們提出了動作知識庫,其中整合了與特定任務相關的動作規劃知識。該數據庫可以作為信息的外部儲備,指導模型的動作生成過程。然后,通過將動作知識轉化為文本,我們使模型能夠深入理解這些知識,并進行軌跡合成。最后,通過一個知識型自我學習階段,模型在迭代中不斷優化其對動作知識的理解和應用。

這一過程不僅增強了智能體的規劃能力,也提升了其在復雜情境中的應用潛力。在HotpotQA和ALFWorld數據集的實驗中,KnowAgent具有不錯的性能表現。此外,我們也分析證明了該方法在減少規劃幻覺方面的有效性,并展示了從大型語言模型中提取精煉動作知識的可行性,從而減少人工并為后續應用拓展提供新的方向。

二、方法


如圖所示,我們的方法首先定義了動作知識這一概念。接著,我們讓模型利用這些知識生成規劃路徑,并通過知識型自我學習機制不斷優化這些路徑,從而迭代地增強模型能力。

1. 動作知識的定義

動作知識由定義的動作集合和控制動作轉換的規則組成。這些規則基于動作之間的關系或特定任務的需求,描述了動作轉換的邏輯和順序。不同任務的動作知識被整合成一個動作知識庫(Action KB),在動作生成和決策制定中起到關鍵作用,有助于減少規劃幻覺。由于任務中涉及的動作知識非常多樣,完全依靠人力手動構建既耗時又費力。為此,我們引入了GPT-4,讓人類和模型協作提高構建效率。

2. 動作知識的注入

圖中展示了從動作知識到文本的轉換過程。首先,我們通過識別任務特定需求的動作,利用先前的數據集分析和LLMs的內在知識,建立動作知識庫。然后將這些信息轉化為文本格式,以便后續操作。例,引用HotpotQA中的一條動作規則 - Search: (Search, Retrieve, Lookup, Finish)。這條規則指出,搜索可以通往多種路徑:繼續作為搜索、更改為檢索或查找,或進展到結束。利用動作知識,模型使用這些見解來簡化任務的規劃過程。為了促進軌跡的合成,我們設計了特有的prompt,以補充基本任務描述,提供給大模型更多規劃信息。

3. 基于知識的自學習進行規劃路徑優化

在這一階段,我們引入了知識驅動的自我學習。目標是通過迭代微調,幫助模型更深入地理解行動知識。這個過程從初始訓練集和未訓練模型開始生成初始軌跡,經過過濾后用于進一步訓練形成新模型。新模型在初始數據集上再評估,生成新的軌跡,這些軌跡與初始軌跡一起經過過濾和合并后用于進一步微調模型。從而在迭代過程中使模型能力得到進一步提升。

三、實驗分析


KnowAgent在不同的規模模型和數據集中有著較好的表現。同時,我們也在ALFWorld上進行了額外實驗,將未經過微調的KnowAgent*與ReAct進行比較。結果也驗證了動作知識本身的有效性。

對于實驗結果,我們進行了以下分析:


  1. 動作知識的增強作用:如圖所示,在HotpotQA數據集上使用Llama系列模型進行的消融實驗證明了動作知識的效果。無論迭代次數多少,使用動作知識的模型表現優于未使用動作知識的模型。一個有趣的現象是,隨著迭代次數的增加,兩者的性能差距顯著擴大,表明引入動作知識的優勢愈發明顯。這可以歸因于動作知識與自我學習之間的良性循環:在動作知識的引導下,模型能夠合成高質量的軌跡用于迭代訓練,這反過來幫助模型更好地吸收動作知識,合成更優質的軌跡。



  1. 迭代訓練對模型能力的提升:圖中對不同模型的迭代訓練效果進行了分析。增加迭代次數從一次到兩次顯著提升性能,繼續增加到四次雖然仍有提升,但收益逐漸減少。與以往研究相符,論證了迭代自學習能有效增強模型對訓練數據的理解。這也反映了“溫故而知新”的學習原則。我們還探索了其他基礎模型如Vicuna-7b和Mistral-7b,結果表明方法在不同預訓練和微調模型中具有適用性。此外,不同模型間的性能差異揭示了它們在吸收和利用結構化外部知識上的能力差異。


  1. 動作知識對規劃幻覺的緩解:表中展示了不同方法生成的無效和順序錯誤動作的統計數據。FireAct僅涉及搜索和完成動作,因此被排除在分析之外。結果顯示,整合動作知識顯著減少了錯誤動作的頻率和無效路徑的可能性,從而提高了特定任務的模型表現。

  2. 錯誤分析:在分析KnowAgent的能力時,我們發現了其局限性,尤其是在處理復雜查詢和總結長文本時。它在有效提取關鍵信息方面存在無法準確響應的問題。核心問題在于其處理長上下文時推理和記憶能力的不足。因此,生成的回答可能不正確或與提出的問題不符。在HotpotQA中,我們識別出兩種主要錯誤類型:不一致錯誤和總結錯誤,具體細節和其他相關分析我們在文章中有進一步的討論。

四、總結

在這項研究中,我們介紹了KnowAgent,這一框架旨在通過將外部動作知識納入合成軌跡來減輕規劃幻覺。我們的方法利用這些知識來引導模型的動作生成,并通過知識型自我學習階段實現持續改進。通過對各種模型的實驗,結果表明KnowAgent超越或與其他基準方法持平,展示了整合外部動作知識以簡化規劃過程和提高性能的優勢。


作者:朱雨琦 來源:公眾號【ZJUKG 】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區(

www.techbeat.net
) 。 社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章,并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。

將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

銀河史記
2025-06-25 15:00:03
阿里大變動,蔣凡離接班人又近了一步?

阿里大變動,蔣凡離接班人又近了一步?

新10億商業參考
2025-06-25 18:51:08
你見過最無知的人是什么樣?網友:尊重他人命運,這種人該被淘汰

你見過最無知的人是什么樣?網友:尊重他人命運,這種人該被淘汰

解讀熱點事件
2025-06-25 00:05:08
這一次,戴蛤蟆頭套賣不出貨的小楊哥,把人走茶涼體現得淋漓盡致

這一次,戴蛤蟆頭套賣不出貨的小楊哥,把人走茶涼體現得淋漓盡致

查爾菲的筆記
2025-06-24 21:15:53
大瓜!唐嫣羅晉也離了?模范夫妻男方長期不回家,休息也不在上海

大瓜!唐嫣羅晉也離了?模范夫妻男方長期不回家,休息也不在上海

扒星人
2025-06-24 15:00:04
央視曝光!又一款陳年老酒暴雷,酒精勾兌、年份造假,溢價超40倍

央視曝光!又一款陳年老酒暴雷,酒精勾兌、年份造假,溢價超40倍

寒士之言本尊
2025-06-24 16:08:29
傾家蕩產也不能治愈?提醒:這6種病根本無法根治,別白花冤枉錢

傾家蕩產也不能治愈?提醒:這6種病根本無法根治,別白花冤枉錢

39健康網
2025-06-24 20:02:57
這瓶“沒貼標簽”的水,出自山姆和農夫山泉的聯手

這瓶“沒貼標簽”的水,出自山姆和農夫山泉的聯手

中國商報
2025-06-25 13:58:08
真慘!河南高考新鮮出爐:本科達線人數不到44萬,達線率不足33%

真慘!河南高考新鮮出爐:本科達線人數不到44萬,達線率不足33%

二月侃事
2025-06-25 16:47:23
李夢宣布不再參加比賽,女籃主帥宮魯鳴回應歡迎其回歸!

李夢宣布不再參加比賽,女籃主帥宮魯鳴回應歡迎其回歸!

杜蘭特
2025-06-25 10:36:04
白玉蘭“視帝”投票排名,靳東僅排第4,于和偉第3,第一憑什么?

白玉蘭“視帝”投票排名,靳東僅排第4,于和偉第3,第一憑什么?

頭號劇委會
2025-06-24 18:38:56
爆!掘金總裁罕見攤牌:頂薪能給,但你也能走人!2.12億頂薪或成“最后談判”

爆!掘金總裁罕見攤牌:頂薪能給,但你也能走人!2.12億頂薪或成“最后談判”

煙潯渺渺
2025-06-25 11:39:47
東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學習

東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學習

星光看娛樂
2025-06-25 13:20:52
匈牙利總理:澤連斯基不會以任何形式出席北約峰會

匈牙利總理:澤連斯基不會以任何形式出席北約峰會

參考消息
2025-06-25 14:51:23
新華社消息|以軍稱對伊朗西部軍事目標發動新一輪打擊

新華社消息|以軍稱對伊朗西部軍事目標發動新一輪打擊

新華社
2025-06-22 15:33:30
俄空軍司令科貝拉乘直升機視察前線被烏軍擊落,當場喪生

俄空軍司令科貝拉乘直升機視察前線被烏軍擊落,當場喪生

環球熱點快評
2025-06-24 09:03:00
還有更猛的交易要來!Shams告訴主持人今晚千萬別睡覺

還有更猛的交易要來!Shams告訴主持人今晚千萬別睡覺

雷速體育
2025-06-25 20:36:29
伊朗總統:12天戰爭結束 重建工作開啟

伊朗總統:12天戰爭結束 重建工作開啟

新華社
2025-06-25 04:00:03
反腐神話:投資七千萬的紅旗渠工程,十年七萬人,零貪腐零瀆職!

反腐神話:投資七千萬的紅旗渠工程,十年七萬人,零貪腐零瀆職!

百科密碼
2025-06-25 15:39:35
“300元路由器中標三峽學院85萬元防火墻項目”:調查已超30個工作日,尚在走處理程序

“300元路由器中標三峽學院85萬元防火墻項目”:調查已超30個工作日,尚在走處理程序

大風新聞
2025-06-24 17:56:03
2025-06-25 21:16:49
將門創投 incentive-icons
將門創投
加速及投資技術驅動型初創企業
2156文章數 591關注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內飾

態度原創

時尚
健康
房產
藝術
公開課

挑對耳環=開掛!這15款巨in巨高級,太顯臉小了!

呼吸科專家破解呼吸道九大謠言!

房產要聞

三亞頂豪!內部資料曝光!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 晋宁县| 容城县| 义乌市| 太白县| 正安县| 五台县| 隆回县| 威宁| 汉阴县| 曲沃县| 达孜县| 塘沽区| 汾阳市| 手机| 巩义市| 汝南县| 罗山县| 崇左市| 长宁县| 眉山市| 项城市| 玉屏| 巴彦淖尔市| 衡水市| 开封县| 大石桥市| 铁力市| 剑河县| 万州区| 洮南市| 新平| 威远县| 新野县| 宁晋县| 金华市| 新化县| 镇雄县| 慈利县| 德清县| 望谟县| 沁水县|