99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型亂試錯、盲調用?KnowSelf讓智能體有「知識邊界感知」能力

0
分享至




在 AI 領域,大模型智能體的發展日新月異。我們今天要介紹的這篇 ACL 2025 論文——《Agentic Knowledgeable Self-awareness》,聚焦于如何提升智能體的「知識邊界感知」能力,使其在復雜任務規劃中更加得心應手,為智能體的可靠應用提供了新思路。



  • 論文標題:Agentic Knowledgeable Self-awareness
  • 論文鏈接:https://arxiv.org/abs/2504.03553
  • 代碼鏈接:https://github.com/zjunlp/KnowSelf

30 秒速讀版本

KnowSelf 聚焦于大模型智能體在決策過程中所面臨的「知識邊界感知」問題。受人類決策機制啟發,本文指出智能體應具備三類行為模式的自主決策能力:快速反應(快思考)、深度推理(慢思考),以及主動調用外部工具(本文以外部知識增強為例)。

KnowSelf 通過學習自身的知識邊界,使智能體能在不同情境下自主判斷是否具備足夠知識進行生成和推理,以減少無效試錯與知識濫用。實驗表明,KnowSelf 可提升智能體的知識調用準確率、任務規劃效率和跨任務泛化能力。

研究背景:智能體規劃的困境

大模型智能體在諸多領域展現出巨大潛力,但現有智能體規劃方法存在弊端。傳統方法多采用「盲目灌輸」模式,將標準軌跡、外部反饋和領域知識無差別地注入智能體模型,完全忽視了人類決策過程中至關重要的「自我認知」原則。

這種「無腦式」灌輸導致智能體在面對意外信號時極易崩潰,陷入模式崩塌困境,且過度試錯與盲目知識融合在實際場景中往往不可行,還會大幅推高模型推理成本。

人類在決策時,會根據面臨的情境動態評估自身狀態,靈活調整策略。比如,當我們遇到簡單問題時,能迅速做出判斷并行動;遇到棘手問題,會放慢思考節奏,深入分析;而面對超出自身能力范圍的問題,會主動尋求外部知識或幫助。

然而,當前大模型智能體普遍缺乏這種「知識邊界感知」能力,導致規劃行為低效且脆弱。

核心方法:KnowSelf 框架

為破解這一難題,論文提出了智能體「知識邊界感知」的思路,并基于此設計了數據驅動 KnowSelf 方法,讓大模型智能體能夠自主調節知識的運用。



  • 知識系統構建

對于外部工具(知識),并采用了一種簡單高效知識收集方法,以極低成本完成知識庫的離線構建。該知識系統由知識庫和知識選擇模塊組成,其中知識庫包含一系列知識條目,知識選擇模塊能依據智能體歷史軌跡從知識庫中精準挑選所需知識。這種設計兼顧了知識系統的實用性和高效性。

  • 情境判斷標準

論文基于智能體的能力,將情境劃分為三類:快速思考(Fast Thinking)、慢速思考(Slow Thinking)和知識型思考(Knowledgeable Thinking)。并提出了啟發式情境判斷標準,用于標記智能體自我探索軌跡中的特殊標記,從而針對智能體的能力構建出訓練數據,為后續訓練奠定基礎。

  • 快思考:智能體無需多慮,能直接給出正確行動
  • 慢思考:智能體雖能給出正確行動,但需經過多步思考與反思
  • 知識型思考:智能體自身無法提供正確行動,必須借助外部知識輔助思考
  • 自我認知訓練

KnowSelf 采用雙階段訓練過程,先通過監督式微調(SFT),讓智能體模型初步掌握自我認知規劃模式;再引入 RPO 損失函數,進一步強化自我認知能力。在這一體系下,智能體會生成特定特殊標記,表明其對情境的判斷,在推理過程中實現知識查詢與反思的精準調控。

實驗成果

本文在兩個模擬大模型智能體規劃數據集 ALFWorld 和 WebShop 上,對 KnowSelf 進行了全面評估,涵蓋 Llama-8B 和 Gemma-2B 兩個不同規模的模型。實驗結果顯示,KnowSelf 憑借極少的反思和知識使用,性能優于多種基線方法。





與無知識基線方法對比,KnowSelf 在 Llama-8B 和 Gemma-2B 模型上均展現出卓越性能。與知識增強型基線方法相比,KnowSelf 僅用少量知識,就超越了所有的 100% 知識增強基線方法,充分證明了并非知識越多越好,精準的知識引入機制才是關鍵。

進一步分析:深入探索智能體自我認知

  • 智能體規劃模式過擬合



本文通過消融實驗,發現僅在標準軌跡上訓練的模型更易陷入模式擬合,而引入反思和知識邊界感知后,智能體規劃能力提升。這表明,在許多情況下,智能體并非不能做出正確決策,而是受限于規劃模式。此外,過度引入知識可能會對性能產生負面影響,因此凸顯了精準知識引入機制的重要性。

  • 智能體規劃泛化能力



在泛化能力測試中,KnowSelf 在 ALFWorld 的三項挑戰性任務上表現優異,優于基于提示的基線方法 Reflexion。這表明 KnowSelf 能有效打破傳統規劃軌跡訓練的局限,使模型具備跨任務情境感知能力,在未見過的任務上能靈活運用反思和知識引入策略。

  • 模型與數據規模影響



隨著模型規模擴大和自我認知訓練數據量增加,KnowSelf 性能穩步提升。當自我認知訓練數據相對比例低于 40% 時,模型性能可能出現波動甚至下降,推測模型需達到一定自我認知水平才能穩定發揮效能。

  • 智能體自我認知機制機理



本文在 Transformer 模型的各層計算不同情境標記的平均概率,發現 Reflection 標記概率始終為零,Knowledge 標記和 Action 標記在模型最后幾層才出現。這表明智能體在內部決策時,僅在最后幾層隱藏層才決定是否調用外部知識,且調用知識的決策可能更晚出現,暗示智能體在 Token 空間內通過隱式獎勵引導進行探索,最終做出決策。

結論與展望

本文提出的 KnowSelf 方法為智能體規劃提供了新思路,初步探索了智能體知識邊界感知這一問題。在后 R1 時代,隨著 Search-R1、ReSearch、Deep Researcher 等工作的出現,基于 RL 的智能體自主知識獲取工作展現了巨大的前景,KnowSelf 還只是在這個時代之前的初步產物,相信隨著技術的發展,基于 RL 的智能體自我認知能迸發更大的活力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
母親幫兒買房舉債115萬,丈夫、兒子、兒媳皆不認賬!法院判母親獨自承擔

母親幫兒買房舉債115萬,丈夫、兒子、兒媳皆不認賬!法院判母親獨自承擔

環球網資訊
2025-05-21 07:23:07
攤牌了?無視工信部的“最后通牒”,蘋果堅決表示:我就是行規

攤牌了?無視工信部的“最后通牒”,蘋果堅決表示:我就是行規

時尚的弄潮
2025-05-21 00:20:43
業主到外地看病期間小區停電,冰箱食物腐壞家中異味難除誰擔責?律師給出分析

業主到外地看病期間小區停電,冰箱食物腐壞家中異味難除誰擔責?律師給出分析

大風新聞
2025-05-21 18:47:05
你的善良決定你風水!張蘭發聲疑似回懟S媽“看見就煩,快還錢”

你的善良決定你風水!張蘭發聲疑似回懟S媽“看見就煩,快還錢”

天天熱點見聞
2025-05-21 18:33:57
日本博主:100年前中國人把瓶子插入日本婦女私處,挖日本兒童眼睛

日本博主:100年前中國人把瓶子插入日本婦女私處,挖日本兒童眼睛

不掉線電波
2024-09-20 19:12:56
2-0奪冠!中國隊終于贏了,6年,等了整整6年,這一刻等得太久

2-0奪冠!中國隊終于贏了,6年,等了整整6年,這一刻等得太久

夢史
2024-12-17 11:43:11
山竹上市遇冷,為何很少人吃了?水果商販:4個原因很無奈

山竹上市遇冷,為何很少人吃了?水果商販:4個原因很無奈

餐飲新紀元
2025-05-20 07:11:32
好消息:廣東省東西向高鐵新線有望近兩年開工!估算投資423億元

好消息:廣東省東西向高鐵新線有望近兩年開工!估算投資423億元

南粵橘城
2025-05-20 18:16:16
300人對壘3萬俾路支武裝,我國重裝合成營有多強大?

300人對壘3萬俾路支武裝,我國重裝合成營有多強大?

南冥那只貓
2025-04-11 23:52:33
震驚!幾十年前大饑荒竟改變基因,中國糖尿病患者激增

震驚!幾十年前大饑荒竟改變基因,中國糖尿病患者激增

野薔薇觀察所
2025-05-20 16:45:00
面向全球發出警告:誰敢配合美國,封殺華為昇騰芯片,雖遠必誅

面向全球發出警告:誰敢配合美國,封殺華為昇騰芯片,雖遠必誅

素衣讀史
2025-05-21 16:47:19
華為折疊本10秒賣光背后:中國用兩塊“鋼”捅破西方技術鐵幕

華為折疊本10秒賣光背后:中國用兩塊“鋼”捅破西方技術鐵幕

Thurman在昆明
2025-05-21 15:05:09
搞笑,知情人士透露一位裁判發短信嘲諷對雷霆在西決首戰的吹罰

搞笑,知情人士透露一位裁判發短信嘲諷對雷霆在西決首戰的吹罰

好火子
2025-05-22 04:38:34
國乒連續輸球引不滿!雙打損失慘重,外國選手:王楚欽是奪冠熱門

國乒連續輸球引不滿!雙打損失慘重,外國選手:王楚欽是奪冠熱門

羅掌柜體育
2025-05-21 09:50:23
曹穎帶貨兩年成交額就超5億,如今患癌,擔心沒人像親媽般對兒子

曹穎帶貨兩年成交額就超5億,如今患癌,擔心沒人像親媽般對兒子

萱小蕾o
2025-05-18 17:43:01
紀實:海口32歲副機長失聯,目擊證人站出來,女友悲痛發聲說出實情

紀實:海口32歲副機長失聯,目擊證人站出來,女友悲痛發聲說出實情

蕭竹輕語
2025-04-21 20:23:45
林高遠林詩棟橫掃韓國組合進八強!全場堅定戰術,林高遠堅決了!

林高遠林詩棟橫掃韓國組合進八強!全場堅定戰術,林高遠堅決了!

籃球資訊達人
2025-05-22 00:38:27
喜大普奔!曾暴打蕾哈娜的布朗,終于要進去了?!暴力傾向死性不改,終于...

喜大普奔!曾暴打蕾哈娜的布朗,終于要進去了?!暴力傾向死性不改,終于...

英國那些事兒
2025-05-21 23:23:28
烏克蘭前總統亞努科維奇的助手被清除!俄特工刺殺澤連斯基未果

烏克蘭前總統亞努科維奇的助手被清除!俄特工刺殺澤連斯基未果

項鵬飛
2025-05-21 22:29:02
很多單位已經發不出工資!這種現象,可能才剛開始,2025年怎么辦

很多單位已經發不出工資!這種現象,可能才剛開始,2025年怎么辦

社保小達人
2024-12-13 12:25:02
2025-05-22 06:28:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10509文章數 142318關注度
往期回顧 全部

科技要聞

網易直擊IO大會:Gemini接管一切 眼鏡炸場

頭條要聞

歐洲領導人徹底失望:特朗普24小時不到就背棄我們

頭條要聞

歐洲領導人徹底失望:特朗普24小時不到就背棄我們

體育要聞

打破三大魔咒!廣廈終于將冠軍帶回浙江

娛樂要聞

中國國家話劇院發訃告:沉痛悼念朱媛媛

財經要聞

年虧百億、裁員自救!“AI四小龍”難了

汽車要聞

價格下調 2025聰明款ID.4 X限時13.99萬起

態度原創

教育
藝術
游戲
時尚
健康

教育要聞

5月25日開始報名!2025南京陽光招生平臺報名登記提醒!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

《瘋狂動物城 2》公開先導預告 / 《劍星》續作計劃 2027 年之前發售

趙麗穎的短發美上熱搜!夏天想換發型一定不要錯過這篇

唇皰疹和口腔潰瘍是"同伙"嗎?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 电白县| 东莞市| 卫辉市| 宣城市| 新蔡县| 广平县| 响水县| 蒙城县| 凤山县| 江口县| 贞丰县| 织金县| 泗水县| 佛山市| 邹平县| 江源县| 秀山| 星子县| 宁海县| 运城市| 汉沽区| 塘沽区| 泸溪县| 固镇县| 芷江| 黔西县| 连江县| 衡阳市| 延津县| 酒泉市| 京山县| 翁牛特旗| 轮台县| 临湘市| 柳林县| 万源市| 鄂伦春自治旗| 十堰市| 尚义县| 秭归县| 乌鲁木齐市|