李曉熙目前就讀于中國(guó)人民大學(xué)高瓴人工智能學(xué)院,博士二年級(jí),導(dǎo)師為竇志成教授,研究方向主要包括檢索增強(qiáng)生成、大語(yǔ)言模型推理等。在國(guó)際頂級(jí)會(huì)議和期刊如 AAAI,SIGIR,TOIS 等發(fā)表多篇論文,代表工作包括 Search-o1, WebThinker, RetroLLM, GenIR-Survey, CorpusLM, UniGen 等。共同第一作者還包括人大高瓴博士生金佳杰和董冠廷。本文的通信作者為人大竇志成教授。
大型推理模型(如 OpenAI-o1、DeepSeek-R1)展現(xiàn)了強(qiáng)大的推理能力,但其靜態(tài)知識(shí)限制了在復(fù)雜知識(shí)密集型任務(wù)及全面報(bào)告生成中的表現(xiàn)。為應(yīng)對(duì)此挑戰(zhàn),深度研究智能體WebThinker賦予 LRM 在推理中自主搜索網(wǎng)絡(luò)、導(dǎo)航網(wǎng)頁(yè)及撰寫報(bào)告的能力。WebThinker 集成了深度網(wǎng)頁(yè)探索器,使 LRM 能自主搜索、導(dǎo)航并提取信息;自主思考 - 搜索 - 寫作策略無(wú)縫融合推理、信息收集與實(shí)時(shí)報(bào)告寫作;并結(jié)合強(qiáng)化學(xué)習(xí)訓(xùn)練優(yōu)化工具調(diào)用。實(shí)驗(yàn)表明,WebThinker 在 GPQA、GAIA、WebWalkerQA、HLE 等復(fù)雜推理基準(zhǔn)及 Glaive 研究報(bào)告生成任務(wù)中展現(xiàn)出強(qiáng)大性能,顯著提升了 LRM 在復(fù)雜場(chǎng)景下的適用性與可靠性,為構(gòu)建更強(qiáng)大、通用的深度研究系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。
- 論文標(biāo)題: WebThinker: Empowering Large Reasoning Models with Deep Research Capability
- 論文鏈接: https://arxiv.org/abs/2504.21776
- 代碼倉(cāng)庫(kù): https://github.com/RUC-NLPIR/WebThinker
Demo
1. OpenAI 有哪些模型?它們有什么區(qū)別?
視頻鏈接:https://mp.weixin.qq.com/s/B-X0WTAiV-FNbt0nm2O1Lw
2. 2025 年我能投稿哪些 AI 頂會(huì)?
視頻鏈接:https://mp.weixin.qq.com/s/B-X0WTAiV-FNbt0nm2O1Lw
研究動(dòng)機(jī):賦予推理模型深度研究能力
大型推理模型如 OpenAI-o1 和 DeepSeek-R1 在數(shù)學(xué)、編程和科學(xué)等領(lǐng)域展現(xiàn)了卓越的推理能力。然而,當(dāng)面對(duì)需要廣泛獲取實(shí)時(shí)網(wǎng)絡(luò)信息的復(fù)雜任務(wù)時(shí),這些僅依賴內(nèi)部參數(shù)知識(shí)的模型往往力不從心。特別是在需要深度網(wǎng)絡(luò)信息檢索和生成全面、準(zhǔn)確的科學(xué)報(bào)告時(shí),這一局限性尤為明顯。
WebThinker 應(yīng)運(yùn)而生,它是一個(gè)深度研究智能體,使 LRMs 能夠在推理過(guò)程中自主搜索網(wǎng)絡(luò)、導(dǎo)航網(wǎng)頁(yè),并撰寫研究報(bào)告。這種技術(shù)的目標(biāo)是革命性的:讓用戶通過(guò)簡(jiǎn)單的查詢就能在互聯(lián)網(wǎng)的海量信息中進(jìn)行深度搜索、挖掘和整合,從而為知識(shí)密集型領(lǐng)域(如金融、科學(xué)、工程)的研究人員大幅降低信息收集的時(shí)間和成本。
推理中自主調(diào)用工具:擺脫傳統(tǒng)預(yù)定義 RAG 工作流
現(xiàn)有的開源深度搜索智能體通常采用檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG)技術(shù),依循預(yù)定義的工作流程,這限制了 LRM 探索更深層次網(wǎng)頁(yè)信息的能力,也阻礙了 LRM 與搜索引擎之間的緊密交互。
WebThinker 突破了傳統(tǒng) RAG 工作流的限制,實(shí)現(xiàn)了范式的升級(jí):
1.傳統(tǒng) RAG: 僅進(jìn)行淺層搜索,缺乏思考深度和連貫性
2.進(jìn)階 RAG: 使用預(yù)定義工作流,包括查詢拆解、多輪 RAG 等,但仍缺乏靈活性
3.WebThinker: 在連續(xù)深思考過(guò)程中自主調(diào)用工具,實(shí)現(xiàn)端到端任務(wù)執(zhí)行
WebThinker 使 LRM 能夠在單次生成中自主執(zhí)行操作,無(wú)需遵循預(yù)設(shè)的工作流程,從而實(shí)現(xiàn)真正的端到端任務(wù)執(zhí)行。
WebThinker 框架:自主的深度搜索與報(bào)告撰寫
WebThinker 框架包含兩種主要運(yùn)行模式:
1.問(wèn)題解決模式:賦予 LRM 深度網(wǎng)頁(yè)探索器(Deep Web Explorer)功能,當(dāng)遇到知識(shí)缺口時(shí),LRM 可以自主發(fā)起網(wǎng)絡(luò)搜索,通過(guò)點(diǎn)擊鏈接或按鈕導(dǎo)航網(wǎng)頁(yè),并在繼續(xù)推理前提取相關(guān)信息。
2.報(bào)告生成模式:實(shí)現(xiàn)自主思考 - 搜索 - 寫作(Autonomous Think-Search-and-Draft)策略,將推理、信息搜索和報(bào)告撰寫無(wú)縫整合。LRM 可以使用專門的工具來(lái)草擬、檢查和編輯報(bào)告部分,確保最終報(bào)告全面、連貫且基于收集的證據(jù)。
整個(gè)過(guò)程是端到端的,LRM 可以在思考過(guò)程中自主搜索、深度探索網(wǎng)頁(yè)和撰寫研究報(bào)告,擺脫了傳統(tǒng)預(yù)定義工作流的局限。
核心組件:
1. 深度網(wǎng)頁(yè)探索:解決復(fù)雜推理問(wèn)題
這一模塊使 LRM 能夠進(jìn)行網(wǎng)絡(luò)搜索和導(dǎo)航,深度收集、遍歷和提取網(wǎng)頁(yè)上的高質(zhì)量信息:
1.搜索能力:能夠基于當(dāng)前查詢生成搜索意圖,從搜索引擎獲取初步結(jié)果
2.導(dǎo)航能力:能夠點(diǎn)擊鏈接或按鈕,深入探索初始搜索結(jié)果之外的內(nèi)容
3.信息提取:基于當(dāng)前查詢的搜索結(jié)果,LRM 可以發(fā)起后續(xù)搜索并遍歷更深層次的鏈接,直到收集所有相關(guān)信息
2. 自主的思考 - 搜索 - 寫作:生成完整的研究報(bào)告
該策略將報(bào)告撰寫與 LRM 的推理和搜索過(guò)程深度整合:不同于在搜索后一次性生成整個(gè)報(bào)告,WebThinker 使模型能夠?qū)崟r(shí)撰寫和尋求必要知識(shí)。具體來(lái)說(shuō),WebThinker 為 LRM 配備三種專門工具:(1)撰寫特定章節(jié)內(nèi)容;(2)檢查當(dāng)前報(bào)告已寫內(nèi)容;(3)編輯 / 修改報(bào)告。這些工具使 LRM 能夠通過(guò)保持全面性、連貫性和對(duì)推理過(guò)程中新發(fā)現(xiàn)信息的適應(yīng)性來(lái)自主增強(qiáng)報(bào)告質(zhì)量
3. 基于強(qiáng)化學(xué)習(xí)的訓(xùn)練策略:全面提升 LRM 調(diào)用研究工具的能力
為了進(jìn)一步釋放 LRM 骨干模型的深度研究潛力,WebThinker 開發(fā)了基于強(qiáng)化學(xué)習(xí)的訓(xùn)練策略:
1. 利用配備工具的 LRM 從復(fù)雜任務(wù)中采樣大規(guī)模推理軌跡
2. 根據(jù)推理的準(zhǔn)確性、工具使用準(zhǔn)確性、以及最終輸出答案或報(bào)告的質(zhì)量,構(gòu)建在線直接偏好優(yōu)化(DPO)訓(xùn)練的偏好對(duì)
3. 通過(guò)迭代、在線策略訓(xùn)練,模型逐步提高感知、推理和有效交互研究工具的能力
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果:真實(shí)世界的復(fù)雜推理任務(wù)
WebThinker 在四個(gè)知識(shí)密集型復(fù)雜推理基準(zhǔn)上進(jìn)行了評(píng)估:
1.GPQA:PhD 級(jí)別的科學(xué)問(wèn)題回答數(shù)據(jù)集,覆蓋物理、化學(xué)和生物學(xué)
2.GAIA:評(píng)估 AI 助手在復(fù)雜信息檢索任務(wù)上的能力
3.WebWalkerQA:專注于深度網(wǎng)絡(luò)信息檢索,需要導(dǎo)航和提取信息
4.人類最終考試(HLE):極具挑戰(zhàn)性的跨學(xué)科問(wèn)題數(shù)據(jù)集
從實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn):
1.基礎(chǔ)推理模型和傳統(tǒng) RAG 的局限:基礎(chǔ)推理模型雖然在某些任務(wù)上表現(xiàn)不錯(cuò),但在需要實(shí)時(shí)外部知識(shí)的場(chǎng)景中明顯力不從心;傳統(tǒng) RAG 方法雖有改進(jìn),但在復(fù)雜任務(wù)中提升有限;
2.自主搜索的優(yōu)勢(shì):而引入自主搜索能力的模型則帶來(lái)了顯著提升。WebThinker 憑借其深度網(wǎng)頁(yè)探索器,能夠更全面地獲取和整合網(wǎng)絡(luò)信息,在所有基準(zhǔn)測(cè)試中都取得了明顯優(yōu)勢(shì)。
3.RL 訓(xùn)練的改進(jìn):特別是經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的 WebThinker-32B-RL 版本,不僅在同等參數(shù)量模型中達(dá)到了最佳表現(xiàn),甚至在某些任務(wù)上超越了參數(shù)量更大的專有模型。
實(shí)驗(yàn)結(jié)果:科學(xué)研究報(bào)告生成
在 Glaive 科學(xué)報(bào)告生成任務(wù)的評(píng)估中:
1.生成報(bào)告的質(zhì)量:從完整性、徹底性、事實(shí)性和連貫性四個(gè)維度評(píng)估,WebThinker 生成的研究報(bào)告均獲得高分,整體表現(xiàn)優(yōu)于傳統(tǒng) RAG 方法和其他先進(jìn)的深度研究系統(tǒng);
2.生成報(bào)告的信息邊界:特別在報(bào)告的完整性和徹底性方面表現(xiàn)尤為突出,通過(guò) t-SNE 可視化分析可見(jiàn),WebThinker 生成的報(bào)告內(nèi)容覆蓋更廣,視角更多元,能夠從多個(gè)維度深入探索和綜合信息,為用戶提供更全面、更深入的調(diào)研。
實(shí)驗(yàn)結(jié)果:適配 DeepSeek-R1 系列模型
通過(guò)在不同規(guī)模的 DeepSeek-R1 模型上進(jìn)行實(shí)驗(yàn)(7B, 14B, 32B),驗(yàn)證了 WebThinker 框架的適應(yīng)性。在不同模型規(guī)模下,都能顯著提升各類任務(wù)的性能,遠(yuǎn)超直接推理和標(biāo)準(zhǔn) RAG 方法,展現(xiàn)了該框架在增強(qiáng) LRM 深度研究能力方面的通用性和有效性。
實(shí)驗(yàn)結(jié)果:消融實(shí)驗(yàn)
消融實(shí)驗(yàn)評(píng)估了 WebThinker 各關(guān)鍵組件的貢獻(xiàn)。結(jié)果顯示,深度網(wǎng)頁(yè)探索器以及自主 「思考 - 搜索 - 寫作」 策略中的報(bào)告生成組件(尤其是自主報(bào)告起草)是確保高性能問(wèn)題解決和高質(zhì)量報(bào)告生成的基石,其缺失會(huì)導(dǎo)致性能顯著下降。強(qiáng)化學(xué)習(xí)訓(xùn)練則主要增強(qiáng)了問(wèn)題解決能力,對(duì)報(bào)告生成的影響相對(duì)有限。
總結(jié)與未來(lái)展望
WebThinker 框架成功地賦予了大型推理模型深度研究能力,解決了它們?cè)谥R(shí)密集型真實(shí)世界任務(wù)中的局限性。通過(guò)深度網(wǎng)頁(yè)探索器和自主思考 - 搜索 - 寫作策略,WebThinker 使 LRM 能夠自主探索網(wǎng)絡(luò)并通過(guò)連續(xù)推理過(guò)程生成全面輸出。
未來(lái),為持續(xù)提升深度研究模型的能力,仍有很多方向值得探索:
1.多模態(tài)深度搜索:WebThinker 基于文本推理模型,難以處理圖像等其他模態(tài)的信息。未來(lái)可以擴(kuò)展到圖像、視頻等多模態(tài)內(nèi)容的深度研究,來(lái)利用網(wǎng)頁(yè)中的多模態(tài)信息。
2.工具學(xué)習(xí)與擴(kuò)展:當(dāng)前支持有限的研究工具,未來(lái)可以通過(guò)工具學(xué)習(xí)來(lái)不斷優(yōu)化工具使用策略,并擴(kuò)展更多工具,來(lái)支持更復(fù)雜的任務(wù)。
3.GUI 網(wǎng)頁(yè)探索:通過(guò) GUI 網(wǎng)頁(yè)探索能力,讓模型能夠更好地理解和操作網(wǎng)頁(yè)界面,實(shí)現(xiàn)更復(fù)雜的交互任務(wù),如訂機(jī)票、指定旅游路線圖、等等。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.