新智元報道
編輯:LRST
【新智元導讀】在信息爆炸的時代,傳統關鍵詞搜索已難以滿足復雜知識需求。最新研究提出Agentic Deep Research,由大語言模型驅動,可自動規劃檢索路徑、多輪迭代獲取證據、邏輯推理指導搜索決策并輸出研究報告級答案,可能徹底顛覆傳統搜索范式。
在信息爆炸的時代,我們每一天都在搜索、提問、獲取答案。但你是否想過:傳統搜索真的能滿足我們越來越復雜的知識需求嗎?
在剛剛過去的WWDC大會上,蘋果首次公開探索將ChatGPT等AI助手整合進系統層,撼動了長期綁定的默認搜索引擎Google!
這不僅是一次產品變革,更是一場信息入口的權力轉移。
與此同時,傳統搜索巨頭的市場份額出現下滑趨勢,而基于大模型的智能助手如ChatGPT、Claude、Perplexity等平臺,日活躍用戶數卻持續走高。
這些信號釋放出一個明確趨勢:
我們獲取信息的方式,正在從「關鍵詞搜索+人工篩選」轉向「提出問題→自動研究→得出結論」。
正是在這樣的變革背景下,由UIC、UIUC、清華、北大、UCLA、UCSD等多家頂尖機構聯合發布的最新論文提出Agentic Deep Research:一種由大語言模型驅動的深度信息獲取與推理系統,可能徹底顛覆傳統搜索范式。
論文鏈接:https://arxiv.org/pdf/2506.18959
項目主頁:https://github.com/DavidZWZ/Awesome-Deep-Research
進入「Agentic Deep Research」時代
過去,搜索引擎依靠關鍵詞匹配。
今天,ChatGPT、Claude 等LLM讓我們對答案的交互方式發生了改變。然而,這些模式仍難以勝任復雜的、需要多步推理與跨域整合的「深度研究型任務」。
2025年初,OpenAI 曾在官方更新中首次提出了「Deep Research」的概念,并這樣描述:
Introducing Deep Research: An agent that uses reasoning to synthesize large amounts of online information and complete multi-step research tasks for you.
在此基礎上,研究人員提出的Agentic Deep Research(智能體型深度研究),進一步將這一理念系統化、技術化:LLM成為自主的信息研究智能體,具備推理-搜索-綜合三位一體的閉環能力。
Agentic Deep Research包括自動規劃檢索路徑、多輪迭代獲取證據、邏輯推理指導搜索決策、多源信息融合輸出研究報告級答案
從「回答一個問題」到「像研究者一樣系統性完成復雜任務」,這正是 Agentic Deep Research 的目標。
從關鍵詞匹配到智能深研
信息檢索作為現代知識獲取的基石,長期依賴于傳統的關鍵詞匹配式搜索引擎(如 Google、Bing)。
這類系統依靠網頁爬取、索引構建和靜態排序機制,擅長處理事實型或導航性查詢。
然而,面對跨領域、推理性強的復雜問題,其缺乏上下文理解與多步整合能力,常常導致用戶需要手動篩選碎片化結果并自行構建結論,造成巨大的認知負擔。
隨著大型語言模型(LLMs)的崛起,信息檢索進入了「語言理解驅動」的新階段。基于ChatGPT、Claude等LLM的問答系統突破了關鍵詞限制,能夠通過自然語言對話直接生成答案,顯著提高了交互效率。
然而,這類純粹基于參數內存的生成模型仍存在兩大硬傷:一是知識時效性受限于訓練數據的時間范圍,二是易出現「幻覺」(hallucination)問題,輸出內容可能缺乏真實依據。
為緩解上述問題,Retrieval-Augmented Generation(RAG)應運而生。RAG通過在生成前檢索外部知識庫,引入事實證據來增強回答的準確性與廣度。
這一范式在事實性問答、開放領域QA等任務中展現出顯著優勢,代表了信息檢索與生成的首次融合。
但當前主流的RAG仍大多采用靜態、一輪的「檢索-生成」流程,在面對需要跨步思考、動態計劃的問題時表現乏力,無法有效模擬人類專家「邊查資料邊思考」的調研過程。
為突破這一局限,最新研究提出了Deep Research這一全新Agent范式。該范式將LLM賦予類人「研究者」能力,使其在面對復雜任務時能夠:自主規劃搜索路徑、動態發起查詢請求、迭代推理分析,并結合外部工具完成完整的深度信息綜合。
檢索與推理在這一框架下不再是孤立的模塊,而是形成了一個交替協作的反饋閉環,真正模擬了專家式的研究行為。
因此,從傳統Web Search → LLM Chatbot → LLM with RAG → Agentic Deep Research,我們正見證信息獲取范式的一次深層躍遷——從「靜態查找」,走向「智能研究」。
基準成績與TTS Law的雙重支撐
在大規模實證評測中,研究人員將5個通用LLM(如GPT、Claude-3.5)、4個強調推理能力的LLM(如DeepSeek-R1、OpenAI O1)以及1個典型Agentic Deep Research模型(OpenAI Deep Research智能體)同臺比較,選取BrowseComp、BrowseComp-ZH和Humanity’s Last Exam (HLE) 三個高難基準。
結果顯示,標準LLM在BrowseComp系列的正確率通常不足10%,在HLE也難以突破20%;
而具備推理-檢索閉環的 Deep Research 智能體分別取得51.5%、42.9% 和26.6%的顯著優勢,充分驗證了「推理驅動檢索」對復雜任務的增益效果。
與此同時,論文對GitHub公開倉庫的星標趨勢進行統計,發現DeepResearcher、R1-Searcher、DeerFlow等項目的星標曲線自2025年初起明顯快于傳統RAG類庫,顯示出社區對該范式的高度關注與快速迭代能力。
更重要的是,這些性能躍升與作者提出的Test-Time Scaling Law (TTSLaw)相互印證。
通過統計在AIME24數學推理集與MuSiQue多跳問答集上的實驗數據,論文發現:當增加推理步數或擴展檢索輪次時,模型在各自任務上的得分皆表現出近線性增益,并在三維坐標系中差值形成一條清晰的對角增益平面。
這一規律不僅解釋了Deep Research智能體在BrowseComp/HLE等基準中為何能大幅超越單輪RAG和純推理LLM,也為系統落地提供了可操作的預算分配準則:
事實密集型查詢傾向于分配更多token進行檢索,邏輯密集型問題則需預留充足的推理深度,從而在固定成本下獲得最優性能。
綜上,基準成績的顯著提升證明了Agentic Deep Research的有效性,TTSLaw則揭示了其中的可預測增長機制;
二者相輔相成,為未來構建高效、可控、成本可量化的深度研究智能體奠定了堅實的理論和實證基礎。
開源生態也在聚焦這個方向
與此同時,Agentic Deep Research不僅在概念上描繪了下一代信息檢索的藍圖,除了OpenAI、Google等大廠加大投入,更在學術界與開源社區中迅速形成廣泛共識與實踐響應。
從研究熱度來看,2025年間涌現出大量圍繞「reasoning-enhanced retrieval」、「deep research agent」、「reinforcement learning search agents」等主題的論文,代表性工作包括DeepResearcher、Search-R1、R1-Searcher等,系統性地推動了推理能力驅動的信息獲取技術演化。
這些研究不再滿足于傳統監督學習下的固定流程,而是借助強化學習、環境交互與任務反饋機制,使語言模型具備自主探索、策略規劃與動態修正的能力。
更值得注意的是,在開源社區中也迅速形成了繁榮的生態體系。
多個深研智能體系統如deepresearch、DeerFlow、ODS(Open Deep Search) 等開源項目,短時間內獲得了數千顆GitHub star,反映出從開發者到研究者廣泛的關注與參與熱情。
根據論文中對開源趨勢的統計分析,Agentic Deep Research項目整體呈現出持續上升的星標增長曲線,且領先于同時間段的傳統RAG類項目。
這一趨勢不僅說明該范式具備強技術吸引力,也表明整個社區正在形成一個由產品驅動、研究反饋、社區共建的良性循環。
因此,無論是從模型能力的突破、技術路徑的清晰度,還是從生態系統的活躍程度來看,Agentic Deep Research正在從前沿理論走向主流范式的關鍵躍遷階段,預示著「讓AI完成研究任務」的時代已不再遙遠。
通向「AI研究員」的演化路線
論文還提出多個關鍵前沿議題,包括Human-in-the-loop監督機制、跨模態多源信息融合、多智能體協同研究系統、Token預算自適應調控的高效推理搜索、面向法律、生物、醫學的垂直領域深研系統。
這不只是搜索范式的進化,更是人類在LLM時代與信息交互方式的重塑。
參考資料:
https://arxiv.org/pdf/2506.18959
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.