網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

「邊思考、邊搜索、邊寫作」WebThinker開啟AI搜索&研究新紀(jì)元！

2025-05-16 10:21:17　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

李曉熙目前就讀于中國(guó)人民大學(xué)高瓴人工智能學(xué)院，博士二年級(jí)，導(dǎo)師為竇志成教授，研究方向主要包括檢索增強(qiáng)生成、大語(yǔ)言模型推理等。在國(guó)際頂級(jí)會(huì)議和期刊如 AAAI，SIGIR，TOIS 等發(fā)表多篇論文，代表工作包括 Search-o1, WebThinker, RetroLLM, GenIR-Survey, CorpusLM, UniGen 等。共同第一作者還包括人大高瓴博士生金佳杰和董冠廷。本文的通信作者為人大竇志成教授。

大型推理模型（如 OpenAI-o1、DeepSeek-R1）展現(xiàn)了強(qiáng)大的推理能力，但其靜態(tài)知識(shí)限制了在復(fù)雜知識(shí)密集型任務(wù)及全面報(bào)告生成中的表現(xiàn)。為應(yīng)對(duì)此挑戰(zhàn)，深度研究智能體WebThinker賦予 LRM 在推理中自主搜索網(wǎng)絡(luò)、導(dǎo)航網(wǎng)頁(yè)及撰寫報(bào)告的能力。WebThinker 集成了深度網(wǎng)頁(yè)探索器，使 LRM 能自主搜索、導(dǎo)航并提取信息；自主思考 - 搜索 - 寫作策略無(wú)縫融合推理、信息收集與實(shí)時(shí)報(bào)告寫作；并結(jié)合強(qiáng)化學(xué)習(xí)訓(xùn)練優(yōu)化工具調(diào)用。實(shí)驗(yàn)表明，WebThinker 在 GPQA、GAIA、WebWalkerQA、HLE 等復(fù)雜推理基準(zhǔn)及 Glaive 研究報(bào)告生成任務(wù)中展現(xiàn)出強(qiáng)大性能，顯著提升了 LRM 在復(fù)雜場(chǎng)景下的適用性與可靠性，為構(gòu)建更強(qiáng)大、通用的深度研究系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。

論文標(biāo)題: WebThinker: Empowering Large Reasoning Models with Deep Research Capability
論文鏈接: https://arxiv.org/abs/2504.21776
代碼倉(cāng)庫(kù): https://github.com/RUC-NLPIR/WebThinker

Demo

1. OpenAI 有哪些模型？它們有什么區(qū)別？

視頻鏈接：https://mp.weixin.qq.com/s/B-X0WTAiV-FNbt0nm2O1Lw

2. 2025 年我能投稿哪些 AI 頂會(huì)？

視頻鏈接：https://mp.weixin.qq.com/s/B-X0WTAiV-FNbt0nm2O1Lw

研究動(dòng)機(jī)：賦予推理模型深度研究能力

大型推理模型如 OpenAI-o1 和 DeepSeek-R1 在數(shù)學(xué)、編程和科學(xué)等領(lǐng)域展現(xiàn)了卓越的推理能力。然而，當(dāng)面對(duì)需要廣泛獲取實(shí)時(shí)網(wǎng)絡(luò)信息的復(fù)雜任務(wù)時(shí)，這些僅依賴內(nèi)部參數(shù)知識(shí)的模型往往力不從心。特別是在需要深度網(wǎng)絡(luò)信息檢索和生成全面、準(zhǔn)確的科學(xué)報(bào)告時(shí)，這一局限性尤為明顯。

WebThinker 應(yīng)運(yùn)而生，它是一個(gè)深度研究智能體，使 LRMs 能夠在推理過(guò)程中自主搜索網(wǎng)絡(luò)、導(dǎo)航網(wǎng)頁(yè)，并撰寫研究報(bào)告。這種技術(shù)的目標(biāo)是革命性的：讓用戶通過(guò)簡(jiǎn)單的查詢就能在互聯(lián)網(wǎng)的海量信息中進(jìn)行深度搜索、挖掘和整合，從而為知識(shí)密集型領(lǐng)域（如金融、科學(xué)、工程）的研究人員大幅降低信息收集的時(shí)間和成本。

推理中自主調(diào)用工具：擺脫傳統(tǒng)預(yù)定義 RAG 工作流

現(xiàn)有的開源深度搜索智能體通常采用檢索增強(qiáng)生成（Retrieval-Augmented Generation, RAG）技術(shù)，依循預(yù)定義的工作流程，這限制了 LRM 探索更深層次網(wǎng)頁(yè)信息的能力，也阻礙了 LRM 與搜索引擎之間的緊密交互。

WebThinker 突破了傳統(tǒng) RAG 工作流的限制，實(shí)現(xiàn)了范式的升級(jí)：

1.傳統(tǒng) RAG: 僅進(jìn)行淺層搜索，缺乏思考深度和連貫性

2.進(jìn)階 RAG: 使用預(yù)定義工作流，包括查詢拆解、多輪 RAG 等，但仍缺乏靈活性

3.WebThinker: 在連續(xù)深思考過(guò)程中自主調(diào)用工具，實(shí)現(xiàn)端到端任務(wù)執(zhí)行

WebThinker 使 LRM 能夠在單次生成中自主執(zhí)行操作，無(wú)需遵循預(yù)設(shè)的工作流程，從而實(shí)現(xiàn)真正的端到端任務(wù)執(zhí)行。

WebThinker 框架：自主的深度搜索與報(bào)告撰寫

WebThinker 框架包含兩種主要運(yùn)行模式：

1.問(wèn)題解決模式：賦予 LRM 深度網(wǎng)頁(yè)探索器（Deep Web Explorer）功能，當(dāng)遇到知識(shí)缺口時(shí)，LRM 可以自主發(fā)起網(wǎng)絡(luò)搜索，通過(guò)點(diǎn)擊鏈接或按鈕導(dǎo)航網(wǎng)頁(yè)，并在繼續(xù)推理前提取相關(guān)信息。

2.報(bào)告生成模式：實(shí)現(xiàn)自主思考 - 搜索 - 寫作（Autonomous Think-Search-and-Draft）策略，將推理、信息搜索和報(bào)告撰寫無(wú)縫整合。LRM 可以使用專門的工具來(lái)草擬、檢查和編輯報(bào)告部分，確保最終報(bào)告全面、連貫且基于收集的證據(jù)。

整個(gè)過(guò)程是端到端的，LRM 可以在思考過(guò)程中自主搜索、深度探索網(wǎng)頁(yè)和撰寫研究報(bào)告，擺脫了傳統(tǒng)預(yù)定義工作流的局限。

核心組件：

1. 深度網(wǎng)頁(yè)探索：解決復(fù)雜推理問(wèn)題

這一模塊使 LRM 能夠進(jìn)行網(wǎng)絡(luò)搜索和導(dǎo)航，深度收集、遍歷和提取網(wǎng)頁(yè)上的高質(zhì)量信息：

1.搜索能力：能夠基于當(dāng)前查詢生成搜索意圖，從搜索引擎獲取初步結(jié)果

2.導(dǎo)航能力：能夠點(diǎn)擊鏈接或按鈕，深入探索初始搜索結(jié)果之外的內(nèi)容

3.信息提取：基于當(dāng)前查詢的搜索結(jié)果，LRM 可以發(fā)起后續(xù)搜索并遍歷更深層次的鏈接，直到收集所有相關(guān)信息

2. 自主的思考 - 搜索 - 寫作：生成完整的研究報(bào)告

該策略將報(bào)告撰寫與 LRM 的推理和搜索過(guò)程深度整合：不同于在搜索后一次性生成整個(gè)報(bào)告，WebThinker 使模型能夠?qū)崟r(shí)撰寫和尋求必要知識(shí)。具體來(lái)說(shuō)，WebThinker 為 LRM 配備三種專門工具：（1）撰寫特定章節(jié)內(nèi)容；（2）檢查當(dāng)前報(bào)告已寫內(nèi)容；（3）編輯 / 修改報(bào)告。這些工具使 LRM 能夠通過(guò)保持全面性、連貫性和對(duì)推理過(guò)程中新發(fā)現(xiàn)信息的適應(yīng)性來(lái)自主增強(qiáng)報(bào)告質(zhì)量

3. 基于強(qiáng)化學(xué)習(xí)的訓(xùn)練策略：全面提升 LRM 調(diào)用研究工具的能力

為了進(jìn)一步釋放 LRM 骨干模型的深度研究潛力，WebThinker 開發(fā)了基于強(qiáng)化學(xué)習(xí)的訓(xùn)練策略：

1. 利用配備工具的 LRM 從復(fù)雜任務(wù)中采樣大規(guī)模推理軌跡

2. 根據(jù)推理的準(zhǔn)確性、工具使用準(zhǔn)確性、以及最終輸出答案或報(bào)告的質(zhì)量，構(gòu)建在線直接偏好優(yōu)化（DPO）訓(xùn)練的偏好對(duì)

3. 通過(guò)迭代、在線策略訓(xùn)練，模型逐步提高感知、推理和有效交互研究工具的能力

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果：真實(shí)世界的復(fù)雜推理任務(wù)

WebThinker 在四個(gè)知識(shí)密集型復(fù)雜推理基準(zhǔn)上進(jìn)行了評(píng)估：

1.GPQA：PhD 級(jí)別的科學(xué)問(wèn)題回答數(shù)據(jù)集，覆蓋物理、化學(xué)和生物學(xué)

2.GAIA：評(píng)估 AI 助手在復(fù)雜信息檢索任務(wù)上的能力

3.WebWalkerQA：專注于深度網(wǎng)絡(luò)信息檢索，需要導(dǎo)航和提取信息

4.人類最終考試（HLE）：極具挑戰(zhàn)性的跨學(xué)科問(wèn)題數(shù)據(jù)集

從實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn)：

1.基礎(chǔ)推理模型和傳統(tǒng) RAG 的局限：基礎(chǔ)推理模型雖然在某些任務(wù)上表現(xiàn)不錯(cuò)，但在需要實(shí)時(shí)外部知識(shí)的場(chǎng)景中明顯力不從心；傳統(tǒng) RAG 方法雖有改進(jìn)，但在復(fù)雜任務(wù)中提升有限；

2.自主搜索的優(yōu)勢(shì)：而引入自主搜索能力的模型則帶來(lái)了顯著提升。WebThinker 憑借其深度網(wǎng)頁(yè)探索器，能夠更全面地獲取和整合網(wǎng)絡(luò)信息，在所有基準(zhǔn)測(cè)試中都取得了明顯優(yōu)勢(shì)。

3.RL 訓(xùn)練的改進(jìn)：特別是經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的 WebThinker-32B-RL 版本，不僅在同等參數(shù)量模型中達(dá)到了最佳表現(xiàn)，甚至在某些任務(wù)上超越了參數(shù)量更大的專有模型。

實(shí)驗(yàn)結(jié)果：科學(xué)研究報(bào)告生成

在 Glaive 科學(xué)報(bào)告生成任務(wù)的評(píng)估中：

1.生成報(bào)告的質(zhì)量：從完整性、徹底性、事實(shí)性和連貫性四個(gè)維度評(píng)估，WebThinker 生成的研究報(bào)告均獲得高分，整體表現(xiàn)優(yōu)于傳統(tǒng) RAG 方法和其他先進(jìn)的深度研究系統(tǒng)；

2.生成報(bào)告的信息邊界：特別在報(bào)告的完整性和徹底性方面表現(xiàn)尤為突出，通過(guò) t-SNE 可視化分析可見(jiàn)，WebThinker 生成的報(bào)告內(nèi)容覆蓋更廣，視角更多元，能夠從多個(gè)維度深入探索和綜合信息，為用戶提供更全面、更深入的調(diào)研。

實(shí)驗(yàn)結(jié)果：適配 DeepSeek-R1 系列模型

通過(guò)在不同規(guī)模的 DeepSeek-R1 模型上進(jìn)行實(shí)驗(yàn)（7B, 14B, 32B），驗(yàn)證了 WebThinker 框架的適應(yīng)性。在不同模型規(guī)模下，都能顯著提升各類任務(wù)的性能，遠(yuǎn)超直接推理和標(biāo)準(zhǔn) RAG 方法，展現(xiàn)了該框架在增強(qiáng) LRM 深度研究能力方面的通用性和有效性。

實(shí)驗(yàn)結(jié)果：消融實(shí)驗(yàn)

消融實(shí)驗(yàn)評(píng)估了 WebThinker 各關(guān)鍵組件的貢獻(xiàn)。結(jié)果顯示，深度網(wǎng)頁(yè)探索器以及自主「思考 - 搜索 - 寫作」策略中的報(bào)告生成組件（尤其是自主報(bào)告起草）是確保高性能問(wèn)題解決和高質(zhì)量報(bào)告生成的基石，其缺失會(huì)導(dǎo)致性能顯著下降。強(qiáng)化學(xué)習(xí)訓(xùn)練則主要增強(qiáng)了問(wèn)題解決能力，對(duì)報(bào)告生成的影響相對(duì)有限。

總結(jié)與未來(lái)展望

WebThinker 框架成功地賦予了大型推理模型深度研究能力，解決了它們?cè)谥R(shí)密集型真實(shí)世界任務(wù)中的局限性。通過(guò)深度網(wǎng)頁(yè)探索器和自主思考 - 搜索 - 寫作策略，WebThinker 使 LRM 能夠自主探索網(wǎng)絡(luò)并通過(guò)連續(xù)推理過(guò)程生成全面輸出。

未來(lái)，為持續(xù)提升深度研究模型的能力，仍有很多方向值得探索：

1.多模態(tài)深度搜索：WebThinker 基于文本推理模型，難以處理圖像等其他模態(tài)的信息。未來(lái)可以擴(kuò)展到圖像、視頻等多模態(tài)內(nèi)容的深度研究，來(lái)利用網(wǎng)頁(yè)中的多模態(tài)信息。

2.工具學(xué)習(xí)與擴(kuò)展：當(dāng)前支持有限的研究工具，未來(lái)可以通過(guò)工具學(xué)習(xí)來(lái)不斷優(yōu)化工具使用策略，并擴(kuò)展更多工具，來(lái)支持更復(fù)雜的任務(wù)。

3.GUI 網(wǎng)頁(yè)探索：通過(guò) GUI 網(wǎng)頁(yè)探索能力，讓模型能夠更好地理解和操作網(wǎng)頁(yè)界面，實(shí)現(xiàn)更復(fù)雜的交互任務(wù)，如訂機(jī)票、指定旅游路線圖、等等。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.