99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

380篇文獻!首份Agentic大模型最新技術綜述

0
分享至

來源:Paper Agent

Agentic LLMs是指那些能夠作為智能Agent行動的大語言模型,它們具備推理、行動交互的能力,基于此對相關技術進行綜述,并提出了一個研究議程,指導未來研究方向。

Agentic大語言模型(LLM)分類體系的三個類別——推理、行動和交互(以紅色表示)之間的良性循環。影響某一類別的概念以綠色表示。圖中還標示了反饋循環,即推理、行動和交互產生新的數據,用于預訓練和微調LLMs。

一、推理(Reasoning)

詳細討論了代理型大語言模型(Agentic LLMs)在推理能力方面的研究進展和技術方法。推理能力是代理型LLMs的核心組成部分之一,它使模型能夠進行邏輯思考、問題解決和決策制定:

1. 多步推理方法

多步推理方法是提升LLMs推理能力的重要技術。這些方法通過將復雜問題分解為多個中間步驟來逐步解決問題,從而提高模型的準確性和可靠性。主要方法包括:

  • 鏈式思考(Chain of Thought):通過逐步解決問題的中間步驟,顯著提高了模型在數學問題上的準確率。例如,通過提示模型先重述問題中的信息,再逐步解答,可以顯著提高其在數學問題上的表現。


  • 自我一致性(Self Consistency):通過生成多個可能的推理路徑,并通過多數投票選擇最一致的答案,進一步提高了模型的性能。

  • 搜索樹(Tree of Thoughts):通過創建一個外部控制算法,調用模型以探索所有可能的推理步驟,從而系統地探索問題的解空間。

2. 自我反思

自我反思是推理能力的另一個重要方面,它允許模型評估和改進自己的結果。主要方法包括:

  • 提示改進(Prompt-Improvement):通過外部算法使用LLM評估其自身的預測,并創建新的提示以改進其結果。例如,Progressive Hint Prompting(PHP)通過逐步提供提示來改進模型的輸出。

  • LLMs用于自我反思:通過讓LLM評估其自身的輸出,并通過反饋和改進來提高結果的質量。例如,Self Refine方法通過迭代反饋和改進來優化模型的輸出。

3. 檢索增強

檢索增強方法通過在推理時檢索額外的信息來解決LLMs缺乏及時信息的問題。這些方法包括:

  • 自適應檢索(Adaptive Retrieval):LLMs可以根據需要決定何時檢索信息,從而提高其在特定任務中的表現。

  • 檢索增強生成(Retrieval Augmentation):通過將預訓練的LLMs與外部知識庫結合,使其能夠訪問最新的信息,從而提高其在問答等任務中的表現。

二、行動(Acting)

詳細探討了代理型大語言模型(Agentic LLMs)在執行具體行動方面的能力和研究進展。這一節的核心內容集中在如何使LLMs能夠通過工具、機器人和多模態交互來實現具體的行動任務:

1. 行動模型

行動模型是使LLMs能夠理解和執行具體任務的基礎。討論了如何通過世界模型(World Models)和多模態視覺-語言-行動模型(Vision-Language-Action Models, VLA)來增強LLMs的行動能力。

  • 世界模型(World Models):世界模型是代理型LLMs在復雜環境中學習和行動的基礎。這些模型通過與環境的交互來學習最優策略,例如在機器人運動、視頻游戲和開放世界游戲中的應用。例如,WorldCoder通過編寫Python程序來構建世界模型,解釋其與環境的交互。

  • 多模態視覺-語言-行動模型(VLA Models):這些模型結合了視覺信息和語言指令,使機器人能夠執行復雜的任務。例如,CLIPort通過視覺導航模型和語言指令來指導機器人完成任務,而RT-2模型則通過將網絡知識轉移到機器人控制中,實現了零樣本泛化。

2. 機器人和工具

討論了如何使LLMs能夠通過機器人和工具來執行具體任務,從而提高其實用性。

  • 機器人規劃(Robot Planning):通過將語言模型與機器人的物理能力相結合,使機器人能夠理解并執行語言指令。例如,Say Can通過結合語言模型和機器人動作的價值函數,確保機器人執行的行動是安全且可行的。

  • 行動工具(Action Tools):LLMs可以通過調用外部工具(如API)來執行任務。例如,Toolformer通過訓練LLM決定何時調用API、傳遞什么參數以及如何整合結果,從而擴展了LLM的功能。

  • 計算機和瀏覽器工具(Computer and Browser Tools):使LLMs能夠直接與計算機環境交互,例如通過瀏覽器或操作系統界面執行任務。例如,OmniParser V2通過視覺解析屏幕元素,使LLMs能夠與圖形用戶界面(GUI)進行交互。

  • 對抗性提示生成(Adversarial Prompt Generation):通過生成多樣化的對抗性提示,提高LLMs在復雜環境中的魯棒性。例如,Rainbow Teaming使用進化算法生成多樣化的對抗性提示。

3. 助手

討論了如何將LLMs應用于各種助手場景,從而提高其在實際應用中的價值。

  • 對話助手(Conversational Assistants):通過自然語言交互,LLMs可以提供多種服務,例如教育、會議支持和任務調度。例如,AssistantGPT結合了LLM、工具調用和記憶,支持多種操作。

  • 醫療助手(Medical Assistants):LLMs在醫療領域表現出色,能夠生成醫療報告、提供診斷建議,并在醫學教育中發揮作用。例如,MedCo通過多智能體框架生成患者友好的醫療報告。

  • 交易助手(Trading Assistants):LLMs可以作為金融交易助手,提供市場分析和交易建議。例如,FinAgent是一個多模態的交易助手,能夠從多種數據源中提取信息并進行技術分析。

  • 科學助手(Science Assistants):LLMs可以自動化科學研究流程,從實驗設計到論文撰寫。例如,AI Scientist框架能夠自動化從想法生成到論文撰寫的整個過程。

三、交互(Interacting)

詳細探討了代理型大語言模型(Agentic LLMs)在交互能力方面的研究進展和技術方法:如何使LLMs能夠與其他智能體(包括人類和其他LLMs)進行有效交互,從而實現更復雜的社會行為和協作任務。

1. LLMs的社會能力

討論了傳統LLMs在社會和交互能力方面的基礎,包括對話、戰略行為和心理理論(Theory of Mind)。

  • 對話(Conversation):LLMs在自然語言交互方面取得了顯著進展,能夠生成語法正確且功能上符合上下文的句子。然而,LLMs在不同領域的表現仍存在差異,且整體性能低于人類水平。通過多輪對話和上下文理解,LLMs的對話能力得到了提升。

  • 戰略行為(Strategic Behavior):LLMs在經濟博弈中的表現因游戲類型而異。例如,在囚徒困境等重復博弈中,LLMs表現出較高的合作性,但在需要協調的博弈中表現較差。研究表明,LLMs在博弈中的行為可以通過額外的提示信息進行調整。

  • 心理理論(Theory of Mind):LLMs在心理理論任務中的表現逐漸接近人類水平,能夠理解他人的心理狀態并據此進行推理。然而,LLMs在復雜情境下的心理理論能力仍需進一步研究。

2. 基于角色的交互

討論了LLMs在多智能體環境中通過角色扮演進行交互的能力,包括戰略行為、團隊合作和任務解決。

  • 多LLM環境中的戰略行為(Strategic Behavior in Multi-LLM Environments):通過多智能體博弈和角色扮演,LLMs能夠展示出復雜的戰略行為。例如,在社會推理游戲中,LLMs能夠通過角色扮演和交互來提高其戰略推理能力。


  • 基于角色的任務解決和團隊合作(Role-Based Task Solving and Team Work):LLMs可以通過角色扮演和團隊合作來解決復雜任務。例如,CAMEL框架通過讓兩個LLMs扮演不同角色(如編碼者和審稿人)來合作完成任務。

3. 模擬開放社會

討論了LLMs在開放社會中的交互能力,包括社會規范的形成、社會動態和集體行為。

  • 社會規范的形成(Emergent Social Norms):LLMs能夠通過自然語言交互形成和遵守社會規范。例如,通過多智能體模擬,LLMs能夠自發地形成和遵守復雜的社交規范。

  • 開放世界代理(Open-World Agents):LLMs可以通過多智能體交互生成新的數據,從而實現自我學習和持續改進。例如,WebArena通過模擬真實世界的網絡環境,使LLMs能夠進行開放式的交互和學習。

Agentic Large Language Models, a survey
https://askeplaat.github.io/agentic-llm-survey-site/
https://arxiv.org/pdf/2503.23037

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
毛主席親問粟裕:頂撞你的大將撤不撤職,粟裕的回答令人敬佩

毛主席親問粟裕:頂撞你的大將撤不撤職,粟裕的回答令人敬佩

幻夢人生
2024-12-08 03:10:03
吃相難看?韓紅向貴州捐款930萬,惡心一幕發生,刀郎被網友逼捐

吃相難看?韓紅向貴州捐款930萬,惡心一幕發生,刀郎被網友逼捐

法老不說教
2025-07-02 18:15:08
69歲海關總署原黨組成員、國家口岸辦原主任黃勝強逝世

69歲海關總署原黨組成員、國家口岸辦原主任黃勝強逝世

澎湃新聞
2025-07-04 16:28:27
好消息:允許外資抄底中國樓市了!

好消息:允許外資抄底中國樓市了!

老楊聊房
2025-07-01 23:48:41
北約確定增加軍費后,大帝說要減軍費:不和北約為敵、也不打了?

北約確定增加軍費后,大帝說要減軍費:不和北約為敵、也不打了?

邵旭峰域
2025-07-02 16:26:45
霍福德+蘭代爾+比爾!勇士將開啟撿破爛模式!

霍福德+蘭代爾+比爾!勇士將開啟撿破爛模式!

田先生籃球
2025-07-04 09:41:31
老杜突然安排后事,北京時間7月3日,國際上傳來新消息

老杜突然安排后事,北京時間7月3日,國際上傳來新消息

艾米手工作品
2025-07-04 14:22:03
女跑者真實經歷分享:天熱跑步謹慎走光,小心“春光乍泄”

女跑者真實經歷分享:天熱跑步謹慎走光,小心“春光乍泄”

馬拉松跑步健身
2025-05-29 13:53:35
網約車過剩有多嚴重?5月份最新數據來了,有城市閑置近10萬輛!

網約車過剩有多嚴重?5月份最新數據來了,有城市閑置近10萬輛!

網約車焦點
2025-07-03 10:16:58
游泳世錦賽中國跳水隊名單:全紅嬋、昌雅妮傷缺,陳芋汐在列

游泳世錦賽中國跳水隊名單:全紅嬋、昌雅妮傷缺,陳芋汐在列

懂球帝
2025-07-04 17:59:24
長大后才懂,為何到了《神雕俠侶》中,郭靖誰都打不過了?

長大后才懂,為何到了《神雕俠侶》中,郭靖誰都打不過了?

武俠新世界
2025-07-01 05:45:04
4號收評:市場全天沖高回落,下周準備開啟降落傘了!

4號收評:市場全天沖高回落,下周準備開啟降落傘了!

春江財富
2025-07-04 15:26:01
兩性關系:男人年齡過了60歲,大部分男性都會出現哪種狀況?

兩性關系:男人年齡過了60歲,大部分男性都會出現哪種狀況?

伊人河畔
2025-06-30 22:29:45
輕斷食大翻車?安醫大團隊發現,限時進食或損害腸道健康,加劇腸道炎癥

輕斷食大翻車?安醫大團隊發現,限時進食或損害腸道健康,加劇腸道炎癥

醫諾維
2025-07-04 16:52:20
世界發生了3件大事,全世界意識到:必須重新評估中國的實力

世界發生了3件大事,全世界意識到:必須重新評估中國的實力

獵火照狼山
2025-06-09 19:47:06
林徽因后人:96歲女兒仍健在,孫輩都不愿姓梁,但卻個個才華橫溢

林徽因后人:96歲女兒仍健在,孫輩都不愿姓梁,但卻個個才華橫溢

漁樵文史
2025-07-04 16:24:04
上海只剩最后一家,能撐多久!曾經爆火,現在冷清得讓人心疼,大賣場“鼻祖”最后的掙扎

上海只剩最后一家,能撐多久!曾經爆火,現在冷清得讓人心疼,大賣場“鼻祖”最后的掙扎

上觀新聞
2025-07-04 14:47:43
曝小托馬斯和吉迪均想得到3000萬級合同 但市場需求并不強烈

曝小托馬斯和吉迪均想得到3000萬級合同 但市場需求并不強烈

北青網-北京青年報
2025-07-04 17:12:13
稀土高管48小時集體蒸發:一場比礦脈更危險的“人才爭奪暗戰”

稀土高管48小時集體蒸發:一場比礦脈更危險的“人才爭奪暗戰”

李砍柴
2025-07-02 23:46:21
洪森咋這么稀罕自己的老婆呢,看看文拉妮年輕時候的模樣就知道了

洪森咋這么稀罕自己的老婆呢,看看文拉妮年輕時候的模樣就知道了

西樓知趣雜談
2025-07-04 11:43:44
2025-07-04 20:04:49
人工智能研究 incentive-icons
人工智能研究
分享深度學習、CV、NLP
276文章數 130關注度
往期回顧 全部

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰報

頭條要聞

甘肅天水回應幼兒園違規使用添加劑:我們現在也很焦急

頭條要聞

甘肅天水回應幼兒園違規使用添加劑:我們現在也很焦急

體育要聞

體壇最爽打工人:37歲被裁,工資領到72歲

娛樂要聞

李宇春身上的標簽哪個才是真的?

財經要聞

茅臺從3300跌到1700 泡沫破了酒才真香

汽車要聞

純電續航180km/或30萬級 方程豹鈦7四季度上市

態度原創

旅游
教育
親子
家居
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

如果你能堅持一周,孩子越來越優秀!

親子要聞

醫學科普,育兒,蘋果水

家居要聞

合理布局 三口之家的溫馨空間

軍事要聞

俄美元首通話約1小時 討論中東局勢、俄烏談判等

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 深州市| 马龙县| 邳州市| 洱源县| 巴彦县| 新沂市| 徐州市| 虎林市| 卫辉市| 古交市| 雷州市| 南开区| 射阳县| 澄江县| 新竹县| 乐至县| 齐河县| 民县| 米脂县| 都匀市| 鸡东县| 介休市| 神农架林区| 蓬溪县| 县级市| 清河县| 绵竹市| 铜鼓县| 哈尔滨市| 五家渠市| 普兰县| 镇安县| 迁安市| 西畴县| 盖州市| 波密县| 汝阳县| 高雄县| 铜陵市| 江油市| 息烽县|