作者:王磊
有一類新的自主 AI 系統,稱為深度研究 (DR) 代理。這些代理旨在通過利用動態推理、自適應長期規劃、多跳信息檢索、迭代工具使用和結構化分析報告的生成的組合來處理復雜的多輪次信息研究任務。在一篇論文中,研究人員對構成 Deep Research 代理的基礎技術和架構組件進行了詳細分析。
他們首先回顧信息獲取策略,將基于 API 的檢索方法與基于瀏覽器的探索進行對比。然后,我們研究了模塊化工具使用框架,包括代碼執行、多模態輸入處理和模型上下文協議 (MCP) 的集成,以支持可擴展性和生態系統開發。為了將現有方法系統化,他們提出了一種區分靜態和動態工作流程的分類法,并根據規劃策略和代理組合對代理架構進行分類,包括單代理和多代理配置。
它們對當前基準進行了批判性評估,突出了關鍵限制,例如對外部知識的訪問受限、順序執行效率低下以及評估指標與 DR 代理的實際目標之間的不一致。最后,他們概述了未來研究的開放挑戰和有希望的方向。
基于 API 的檢索是一種快速、高效、結構化且可擴展的方法,它允許 DR 代理以相對較少的時間和計算成本訪問外部知識源。例如,Gemini DR 利用多源接口(最著名的是 Google Search API 和 arXiv API)在成百上千個網頁上執行大規模檢索,從而顯著擴大了其信息覆蓋范圍。Grok DeepSearch 聲稱,通過新聞媒體源、維基百科 API 和 X 的本機界面維護連續索引,并按需激活查詢驅動代理以生成目標子查詢并實時獲取相關頁面,從而確保其知識庫的新鮮度和深度。
基于瀏覽器的檢索通過模擬的類人瀏覽器交互,為 DR 代理提供了對多模式和非結構化 Web 內容的動態、靈活和交互式訪問。例如,Manus AI 的瀏覽代理為每個研究會話運行一個沙盒 Chromium 實例,以編程方式打開新選項卡、發出搜索查詢、單擊結果鏈接、滾動頁面直到滿足內容閾值、必要時填寫表單元素、執行頁面內 JavaScript 以顯示延遲加載的部分,以及下載文件或 PDF 進行本地分析。盡管 OpenAI DR、Grok DeepSearch 和 Gemini 2.5 DR 沒有公開披露其瀏覽功能的實現細節,但它們處理交互式小部件、動態呈現的內容和多步驟導航的能力強烈表明,它們也在幕后使用了類似的無頭瀏覽器框架。
工具使用:為代理提供擴展功能
為了擴展 DR 代理在復雜研究任務中與外部環境交互的能力,特別是通過主動調用和處理各種工具和數據源,各種 DR 代理引入了三個核心工具模塊:
代碼解釋器、數據分析、多模態處理以及模型上下文協議。
代碼解釋器。代碼解釋器功能使 DR 代理能夠在推理期間執行腳本,從而允許它們執行數據處理、算法驗證和模型模擬。大多數 DR 代理(CoSearchAgent 除外)都嵌入了腳本執行環境。它們通常依靠 Python 實用程序(如 Aider 和 Java 實用程序)來編排動態腳本、進行文獻驅動的分析并執行實時計算推理。
數據分析。通過集成數據分析模塊,DR 代理通過計算摘要統計數據、生成交互式可視化和進行定量模型評估,將原始檢索轉化為結構化見解,從而加速假設檢驗和決策。許多商業 DR 代理已經在本地或通過遠程服務實施了分析功能,例如圖表、表格生成和統計分析。但是,這些系統中的大多數尚未公開披露其實現的技術細節。相比之下,學術研究通常提供具體的例子:CoSearchAgent 將基于 SQL 的查詢集成到團隊通信平臺中,以運行匯總分析并生成報告;AutoGLM 直接從基于表格的 Web 界面中提取和分析結構化數據集;Search-o1 的 Reason-in-Documents 組件在提取關鍵指標進行下游評估之前,會細化冗長的檢索文本。
多模態處理和生成。多模態處理和生成工具使 DR 代理能夠在統一的推理管道中集成、分析和生成異構數據,例如文本、圖像、音頻和視頻,從而豐富其上下文理解并擴大其輸出范圍。只有一部分成熟的商業和開源項目,例如 Manus、OWL、AutoAgent、AutoGLM、OpenAI、Gemini、Perplexity 和 Grok DeepSearch,支持此功能,而大多數學術原型尚未實現它,這通常是由于計算成本高。作為典型的開源研究,OWL 和 Openmanus 擴展了他們的管道,包括與 GitHub、Notion 和 Google Maps 等平臺的交互,并利用 Sympy 和 Excel 等數字庫進行組合數據分析和多模態媒體處理。
使用計算機的深度研究代理。最近,通過集成計算機輔助任務執行功能(即計算機使用),DR 代理的邊界逐漸擴大。例如,智普 AI 引入了 AutoGLM Rumination,這是一個基于 RL 的系統,結合了自我反射和迭代細化機制,可顯著增強多步推理和高級函數調用能力。具體來說,AutoGLM Rumination 可以自主地與 Web 環境交互、執行代碼、調用外部 API,并有效地完成復雜的任務,包括數據檢索、分析和結構化生成綜合報告。
與 OpenAI 的 DR 比較:OpenAI DR 主要關注復雜的推理和信息檢索,而 AutoGLM Rumination 在實際執行中表現出卓越的自主性。這種增強的自主性使其能夠將抽象的分析見解轉化為具體的作任務,例如與 Web
界面的自動交互和實時數據處理。此外,AutoGLM Rumination 通過將高級推理功能與基于瀏覽器的真實交互無縫集成,解決模擬瀏覽環境中固有的限制。因此,代理可以可靠地訪問用戶身份驗證的資源,包括 CNKI、小紅書和微信公眾號等平臺。這種集成顯著提高了代理在信息獲取和執行實際任務方面的自主性和適應性。
非參數持續學習方法,尤其是基于案例的推理 (CBR),目前是 LLM 驅動的代理系統中的主流方法。基于 CBR 的方法使代理能夠動態地從外部案例庫中檢索、調整和重用結構化的問題解決軌跡。與依賴于靜態數據庫的傳統基于 RAG 的方法不同,CBR 有助于在線上下文適應和有效的任務級泛化。這種靈活性凸顯了它作為具有復雜架構的 DR 代理的可擴展且實用的優化解決方案的潛力。DS-Agent 是一個開創性的 LLM 驅動代理,它將 CBR 引入自動化數據科學工作流程,采用從構建的案例庫中進行近似在線檢索。同樣,LAM 將 CBR 技術應用于功能測試生成,在模塊化系統設計中將軌跡級檢索與 LLM 規劃相結合。
LLM 驅動的 DR 代理系統中的自我進化范式為結構化推理和動態檢索提供了巨大的前景,并為高效的知識重用和持續學習開辟了新的途徑。盡管這些方法尚未得到廣泛關注,但它們解決了基于參數的方法固有的高數據和計算需求,因此代表了未來研究和實際部署的一個有吸引力的方向。
為了充分實現 DR 代理中自我進化的潛力,未來的研究應該沿著兩個互補的方向擴展自我進化方法
(i) 全面的基于案例的推理框架。基于案例的推理方法利用分層體驗跟蹤,包括規劃軌跡和結構化工具調用日志,并采用高級檢索和選擇機制來實現精細的、特定于上下文的適應。
(ii) 自主工作流程的演變有望提高效率和靈活性。通過將代理工作流表示為可變結構(如樹或圖形),研究人員可以應用進化算法或自適應圖形優化來動態探索、修改和完善執行計劃。同時追求這兩個方向將加強框架的穩健性,并減少對數據和計算資源的依賴。
結論
LLM 驅動的 Deep Research Agent 代表了自動化研究支持的新興范式,集成了迭代信息檢索、長篇內容生成、自主規劃和復雜工具利用等先進技術。在這項調查中,我們系統地回顧了 DR 代理的最新進展,從信息檢索和報告生成的角度將現有方法分為基于提示、基于微調和基于強化學習的方法。非參數方法利用 LLM 和精心設計的提示來實現高效且具有成本效益的部署,使其適用于快速原型設計。相比之下,微調和強化學習方法顯式優化了模型參數,顯著提高了智能體的推理和決策能力。
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.