智東西
作者 陳駿達
編輯 心緣
智東西5月29日報道,近日,來自美國康奈爾大學等高校研究團隊的一篇智能體研究綜述論文爆火出圈,相關推文在社交媒體平臺X上收獲超70萬閱讀量,過萬收藏。這篇長達32頁的綜述,深度分析了Agent(智能體)研究中最容易混淆的一組核心概念——AI Agents和Agentic AI,并討論了智能體技術發展過程中幾大堵點問題的技術解決思路。
該團隊認為,AI Agents與Agentic AI存在本質區別:AI Agents是以大模型為基礎、執行特定任務的自主體,更適用于單一任務的自動化處理;而Agentic AI是由多個協作智能體組成的系統,具備更強大的復雜任務拆解、自主決策和多步驟協同能力,更接近人類的組織式智能。
從場景來看,AI Agents的典型應用包括客服自動化、郵件分類、日程助手等等。Agentic AI的典型應用包括多智能體研究助手、智能機器人協作、游戲中的多角色NPC協同等。
作為Agentic AI系統的組成模塊,AI Agents仍面臨幻覺、推理深度有限、無因果建模、上下文窗口受限等挑戰。Agentic AI系統則需要解決智能體間的協同失敗、錯誤傳播和安全風險。
為解決上述問題,開發者可以引入如RAG(檢索增強生成)、因果建模、多智能體記憶架構(如向量記憶)與更強的規劃機制(如思維樹,Tree of Thoughts)。
未來,AI Agents將通過模塊化設計和智能能力的提升,逐步演變為具備“主動智能”的智能體,Agentic AI的多智能體協作框架則會進一步成熟與精細化,形成具備高度組織能力的“系統智能”。
一、GenAI奠定現代AI Agents基礎,執行能力依賴外部組件
研究團隊在文章中首先探討了AI Agents的定義與核心特征。
AI Agents是指能夠在限定數字環境中自主感知、理解輸入、并基于目標執行任務的軟件實體。它們超越傳統自動化腳本,不再依賴固定流程,而具備一定程度的環境適應與智能行為,常用于信息檢索、客服自動化、日程管理等實際場景。AI Agents具有三大核心特征:
(1)自主性(Autonomy):具備在部署后獨立運作的能力,人類干預較少,支持大規模自動化。
(2)任務專一性(Task-Specificity):通常專注于單一、明確的任務,如郵件分類、數據庫查詢等,便于優化效率與可解釋性。
(3)反應性與適應性(Reactivity & Adaptation):能夠對用戶指令或環境狀態作出動態響應,有些系統甚至能通過反饋機制逐步優化行為。
現代AI Agents的核心通常是大語言模型(LLM)和大圖像模型(LIM)。其中,大語言模型主要支持AI Agents的自然語言理解、推理、計劃和響應生成,是AI Agents“思考”的基礎。諸如CLIP和BLIP-2等大圖像模型使AI Agents具備視覺感知能力,廣泛應用于機器人、自動駕駛、內容審核等場景。
這些模型通常通過API調用方式接入,使得開發者無需從零訓練模型即可構建AI Agents。
文章中用農業無人機的案例展現了AI Agents感知、推理與行動三位一體的運作方式。AI Agents可通過圖像識別功能識別果園中的病果或壞枝,并在無人干預的情況下觸發報警或處理機制。
雖然生成式AI模型為現代AI Agents奠定了技術基礎,但其仍然存在重要局限,例如主動性或目標意識差、無持續記憶與狀態更新能力、無法直接與外部系統交互等。
為彌補生成式AI的不足,AI Agents引入了工具調用(Tool-Use)、函數執行、上下文記憶、任務規劃等模塊,演化成具備初步“認知結構”的系統,例如AutoGPT、LangChain等。這標志著系統架構從“內容生成”過渡到“任務執行”,是Agentic AI發展的基礎步驟。
如今的AI Agents通常由四個主要子系統構成:感知、推理、行動和學習。感知模塊負責接收來自用戶(如自然語言提示詞)或外部系統(如API、文件上傳、傳感器數據流)的輸入信號,并將其預處理為智能體推理模塊可以理解的格式。知識表征與推理(KRR)模塊是智能的核心模塊,負責對輸入數據應用符號、統計或混合邏輯進行處理。
行動選擇與執行模塊將推理得出的決策轉換為外部行動,如發送信息、更新數據庫、調用API或生成結構化輸出。AI Agents還具備基礎的學習與適應能力,如啟發式參數調整或基于歷史的上下文保留。
AI Agents的定制化通常通過領域特定的提示工程、規則注入或工作流模板實現,它與硬編碼的自動化腳本的區別在于有上下文感知的決策能力。以ReAct系統為例,其采用推理與行動的迭代框架,使智能體在執行前能進行內部“思考”。
二、AI Agent可擴展性有限,Agentic AI成下一代AI基礎設施
盡管AI Agents已經在自動化特定任務方面取得了突破,但這類系統在復雜、多步驟或協作場景中的可擴展性受到限制。這些限制最終催生了更先進的范式——Agentic AI。
從定義上來看,Agentic AI系統由多個AI Agents組成,Agentic AI系統的自主性要高于單個Agent,能夠管理多步驟的復雜任務,并處理需要協作的任務。Agentic AI還涉及多智能體之間的信息共享,與AI Agents相比,能夠在更廣泛的任務和環境中進行學習和適應。
Agentic AI系統繼承了AI Agents的模塊化結構,但在此基礎上引入了分布式智能、智能體間通信和遞歸規劃等增強能力。文獻中總結了多項關鍵架構改進,這些改進構成了Agentic AI相較于AI Agents的本質區別:
(1)專責智能體協作體系(Ensemble of Specialized Agents):Agentic AI不再是單一智能體運行,而是由多個專責智能體組成,每個負責不同功能,如摘要、檢索、規劃等。這些智能體通過消息隊列、黑板機制或共享內存等方式進行通信。例如MetaGPT采用模擬公司部門(如CEO、CTO、工程師)角色的方式構建智能體,角色模塊化、可復用、職責清晰。
(2)高級推理與規劃能力(Advanced Reasoning and Planning):Agentic AI系統內嵌遞歸推理機制,如ReAct、思維鏈(Chain-of-Thought, CoT)和思維樹(Tree of Thoughts)等框架。這些機制允許智能體將復雜任務分解為多個推理階段,評估中間結果,并動態調整行動計劃,從而提升系統應對不確定性或任務失敗的能力。
(3)持久化記憶架構(Persistent Memory Architectures):與傳統智能體不同,Agentic AI具備持久記憶子系統,能夠在多個任務周期或智能體會話間保留知識。記憶類型包括情景記憶(記錄任務相關的交互歷史)、語義記憶(長期事實或結構化數據)以及向量記憶(用于檢索增強生成,RAG)。例如AutoGen智能體使用草稿本記錄中間計算結果,支持任務的逐步推進。
(4)編排層 / 元智能體(Orchestration Layers / Meta-Agents):Agentic AI的一項關鍵創新是引入了編排器或元智能體,負責協調各子智能體的生命周期、管理依賴關系、分配角色并解決沖突。這類元智能體通常包含任務管理器、評估器或協調者角色。例如在ChatDev系統中,一個虛擬CEO元智能體將子任務分配給不同部門智能體,并整合它們的輸出形成統一的策略響應。
這些架構方面的調整使Agentic AI能夠勝任需要持續上下文、多智能協作、多模態協調及策略適應的復雜任務場景。典型應用包括:多個智能體協同完成檢索、摘要、文稿撰寫的研究助理(如AutoGen流水線);或監控物流、供應商績效與動態定價模型的智能供應鏈系統。
研究團隊認為,Agentic AI正在成為下一代AI基礎設施,其能力不僅限于執行預設流程,更能構建、調整和管理復雜目標,實現最小人工干預下的自主運行。
三、AI Agents繼承大模型短板,Agentic AI缺乏統一標準
在當下令人眼花繚亂的智能體應用中,究竟哪些屬于AI Agents,又有哪些屬于Agentic AI呢?這篇綜述為我們歸納了AI Agents與Agentic AI的典型應用場景。
AI Agents目前廣泛應用于客服自動化、企業內部搜索、電子郵件分類與優先級管理、內容推薦以及日程安排等場景。
廣為人知的AI Agents包括Manus、NotebookLM、 ChatGPT深度搜索等。此外,智能營銷產品Salesforce Einstein、智能協作與內容生成平臺Notion AI、個性化內容推薦系統(如亞馬遜、YouTube、Spotify的推薦系統)和日程安排助手Reclaim AI等也屬于AI Agents。
▲業內有代表性的AI Agents
Agentic AI具備更高層次的認知和任務協作能力,目前的應用包括科研助手、多機器人協調系統、醫療輔助診斷系統、網絡安全風險處理系統等。
不過,無論是從客觀的基準測試還是用戶的主觀體驗來看,AI Agents和Agentic AI距離無需人類干預的高度自主化系統仍有一定距離。
現有的AI Agents主要存在因果推理能力差、幻覺較多、推理深度較淺、知識更新滯后等問題,其中部分問題是從大語言模型繼承而來的。AI Agents還缺乏自主目標設定能力、反思能力、上下文記憶、持久性控制,這些問題導致其在長期規劃和故障恢復方面表現不佳。
Agentic AI面臨的挑戰更多出現在智能體的協作環節,包括智能體間的錯誤傳播(單個子智能體的錯誤在系統中被層層放大)、系統穩定性差等問題。Agentic AI系統的基礎研究尚處早期階段,缺乏統一的標準架構、通信協議與可驗證機制,難以進行跨平臺集成與通用化開發,可擴展性因此受限。
四、從RAG到自我批判架構,堵點問題10大解法
這篇論文還總結了解決AI Agents與Agentic AI所面臨的多樣問題的10大解決方案。
(1)檢索增強生成(RAG):通過結合實時數據檢索,RAG能夠減少AI Agents的幻覺問題,并擴展其靜態知識庫。例如,在企業搜索和客戶支持中,RAG可以確保生成的響應基于外部事實。
在多Agent系統中,RAG作為共享的“事實基礎”,能確保Agent之間的一致性,并減少因上下文不一致導致的錯誤傳播。
(2)工具增強的推理(Tool-Augmented Reasoning):AI Agents如果能通過調用外部API、運行本地腳本或訪問結構化數據庫,就可以轉變為交互式的問題解決者。
在多Agent系統中,工具增強的推理讓每個Agent可以根據其角色調用特定的API,支持更清晰的行為邊界,并減少任務交接中的模糊性。
(3)Agent行為循環(Agentic Loop):Agent行為循環指的是推理、行動、觀察這三者間的迭代。通過引入迭代循環,Agent可實現更謹慎、更適應上下文的行為。例如,Agent在生成摘要之前會驗證檢索到的數據。
在多Agent系統中,這種循環對于協作一致性至關重要。每個Agent的觀察結果需要與其他Agent的輸出進行協調。要實現這一點,共享內存和一致的日志記錄是關鍵。
(4)記憶架構(Memory Architectures):記憶架構的升級可以幫助AI Agents解決長期規劃和會話連續性的問題。例如,Agents可以回憶之前的動作和反饋,從而實現個性化和適應性決策。
Agentic AI需要更復雜的記憶模型來管理分布式狀態。此類模型允許每個Agent可以維護本地內存,同時訪問共享的全局內存,以支持長期的系統級規劃。
目前,研究者正探索情景記憶(Episodic Memory)、語義記憶(Semantic Memory)和向量記憶(VectorMemory)等不同架構。
(5)角色專業化的多Agent編排(Multi-Agent Orchestration with Role Specialization):即使在單Agent系統中,開發者也可以通過將任務分解為子組件(例如,規劃者、總結者)并進行模擬分隔推理,來實現輕量級的編排。
在Agentic AI系統中,編排是一項核心技術。元Agent或編排者在專業化的Agent之間分配任務,每個Agent都有不同的能力。
(6)自反思與自我批判機制(Reflexive and Self-Critique Mechanisms):引入自我評估能力后,Agent在完成任務時可以使用二次推理過程來審查自己的輸出,從而提高魯棒性和減少錯誤率。
這項能力也可以擴展到Agent之間的相互評估。例如,一個驗證Agent可以審計總結Agent的工作,確保協作質量控制。
(7)程序化提示工程管線(Programmatic Prompt Engineering Pipelines):自動化任務模板、上下文填充和檢索增強變量等技術可以減少手動調整提示詞的不穩定性。這些動態提示詞可以根據任務類型、AI Agents角色或用戶查詢進行結構化。
在Agentic AI系統中,每個Agent類型(例如,規劃者、檢索者、總結者)可以根據其功能生成或使用結構化的提示詞。
(8)因果建模與基于模擬的規劃(Causal Modeling and Simulation-Based Planning):通過嵌入因果推斷,AI Agents將能夠區分相關性和因果關系,從而更穩健地進行干預模擬和規劃。而在Agentic AI系統中,因果推理對于安全協調和錯誤恢復至關重要。
(9)監控、審計與可解釋性管線(Monitoring, Auditing, and Explainability Pipelines):通過記錄提示詞、工具調用、內存更新和輸出,日志系統可以對AI Agents進行事后分析和性能調整。這些記錄有助于開發人員跟蹤故障、優化行為,并確保符合使用指南。
在Agentic AI系統中,日志和可解釋性同樣至關重要。審計跟蹤對于識別哪個Agent導致錯誤以及在什么條件下發生錯誤是十分關鍵的。
(10)治理感知架構(Governance-Aware Architectures):開發者可以為AI Agents引入基于角色的訪問控制、沙箱和身份解析,以確保Agent在其范圍內行動,并且其決策可以被審計或撤銷。
在Agentic AI系統中,這一治理感知架構必須擴展到角色、Agent和工作流中,角色隔離可以防止AI Agents超出權限,而責任機制可以為決策分配責任并跟蹤因果關系。
結語:AI Agents與Agentic AI的未來:從被動響應到自主進化
研究團隊認為,未來,AI Agents的發展將朝著更加自主化、智能化的方向演進。它們不再局限于被動響應,而是能基于上下文和目標主動推理,具備主動智能(Proactive Intelligence)。
通過深度集成外部工具(Tool Integration)和因果推理能力(Causal Reasoning),AI Agents可以更高效地處理復雜問題。持續學習(Continuous Learning)機制讓它們能不斷優化自身表現,而信任與安全(Trust & Safety)機制的完善則確保其輸出可靠、無偏見。
與此同時,Agentic AI將推動多智能體擴展(Multi-Agent Scaling)和統一編排(Unified Orchestration),讓多個AI Agents高效協作,解決更宏大的挑戰。持久記憶(Persistent Memory)和模擬規劃(Simulation Planning)讓AI具備長期任務管理能力,而倫理治理(Ethical Governance)則確保其發展符合人類價值觀。
文章還特別提到了清華大學、北京通用人工智能研究院與賓夕法尼亞州立大學提出的的AZR(絕對零數據推理)框架的突破。這一框架有望讓AI擺脫對人類標注數據的依賴,通過自我生成任務和驗證反饋實現完全自主進化。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.