99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

「邊思考、邊搜索、邊寫作」WebThinker開啟AI搜索&研究新紀(jì)元!

0
分享至



李曉熙目前就讀于中國(guó)人民大學(xué)高瓴人工智能學(xué)院,博士二年級(jí),導(dǎo)師為竇志成教授,研究方向主要包括檢索增強(qiáng)生成、大語(yǔ)言模型推理等。在國(guó)際頂級(jí)會(huì)議和期刊如 AAAI,SIGIR,TOIS 等發(fā)表多篇論文,代表工作包括 Search-o1, WebThinker, RetroLLM, GenIR-Survey, CorpusLM, UniGen 等。共同第一作者還包括人大高瓴博士生金佳杰和董冠廷。本文的通信作者為人大竇志成教授。

大型推理模型(如 OpenAI-o1、DeepSeek-R1)展現(xiàn)了強(qiáng)大的推理能力,但其靜態(tài)知識(shí)限制了在復(fù)雜知識(shí)密集型任務(wù)及全面報(bào)告生成中的表現(xiàn)。為應(yīng)對(duì)此挑戰(zhàn),深度研究智能體WebThinker賦予 LRM 在推理中自主搜索網(wǎng)絡(luò)、導(dǎo)航網(wǎng)頁(yè)及撰寫報(bào)告的能力。WebThinker 集成了深度網(wǎng)頁(yè)探索器,使 LRM 能自主搜索、導(dǎo)航并提取信息;自主思考 - 搜索 - 寫作策略無(wú)縫融合推理、信息收集與實(shí)時(shí)報(bào)告寫作;并結(jié)合強(qiáng)化學(xué)習(xí)訓(xùn)練優(yōu)化工具調(diào)用。實(shí)驗(yàn)表明,WebThinker 在 GPQA、GAIA、WebWalkerQA、HLE 等復(fù)雜推理基準(zhǔn)及 Glaive 研究報(bào)告生成任務(wù)中展現(xiàn)出強(qiáng)大性能,顯著提升了 LRM 在復(fù)雜場(chǎng)景下的適用性與可靠性,為構(gòu)建更強(qiáng)大、通用的深度研究系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。



  • 論文標(biāo)題: WebThinker: Empowering Large Reasoning Models with Deep Research Capability
  • 論文鏈接: https://arxiv.org/abs/2504.21776
  • 代碼倉(cāng)庫(kù): https://github.com/RUC-NLPIR/WebThinker

Demo

1. OpenAI 有哪些模型?它們有什么區(qū)別?



視頻鏈接:https://mp.weixin.qq.com/s/B-X0WTAiV-FNbt0nm2O1Lw

2. 2025 年我能投稿哪些 AI 頂會(huì)?



視頻鏈接:https://mp.weixin.qq.com/s/B-X0WTAiV-FNbt0nm2O1Lw

研究動(dòng)機(jī):賦予推理模型深度研究能力

大型推理模型如 OpenAI-o1 和 DeepSeek-R1 在數(shù)學(xué)、編程和科學(xué)等領(lǐng)域展現(xiàn)了卓越的推理能力。然而,當(dāng)面對(duì)需要廣泛獲取實(shí)時(shí)網(wǎng)絡(luò)信息的復(fù)雜任務(wù)時(shí),這些僅依賴內(nèi)部參數(shù)知識(shí)的模型往往力不從心。特別是在需要深度網(wǎng)絡(luò)信息檢索和生成全面、準(zhǔn)確的科學(xué)報(bào)告時(shí),這一局限性尤為明顯。

WebThinker 應(yīng)運(yùn)而生,它是一個(gè)深度研究智能體,使 LRMs 能夠在推理過(guò)程中自主搜索網(wǎng)絡(luò)、導(dǎo)航網(wǎng)頁(yè),并撰寫研究報(bào)告。這種技術(shù)的目標(biāo)是革命性的:讓用戶通過(guò)簡(jiǎn)單的查詢就能在互聯(lián)網(wǎng)的海量信息中進(jìn)行深度搜索、挖掘和整合,從而為知識(shí)密集型領(lǐng)域(如金融、科學(xué)、工程)的研究人員大幅降低信息收集的時(shí)間和成本。

推理中自主調(diào)用工具:擺脫傳統(tǒng)預(yù)定義 RAG 工作流

現(xiàn)有的開源深度搜索智能體通常采用檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG)技術(shù),依循預(yù)定義的工作流程,這限制了 LRM 探索更深層次網(wǎng)頁(yè)信息的能力,也阻礙了 LRM 與搜索引擎之間的緊密交互。



WebThinker 突破了傳統(tǒng) RAG 工作流的限制,實(shí)現(xiàn)了范式的升級(jí):

1.傳統(tǒng) RAG: 僅進(jìn)行淺層搜索,缺乏思考深度和連貫性

2.進(jìn)階 RAG: 使用預(yù)定義工作流,包括查詢拆解、多輪 RAG 等,但仍缺乏靈活性

3.WebThinker: 在連續(xù)深思考過(guò)程中自主調(diào)用工具,實(shí)現(xiàn)端到端任務(wù)執(zhí)行

WebThinker 使 LRM 能夠在單次生成中自主執(zhí)行操作,無(wú)需遵循預(yù)設(shè)的工作流程,從而實(shí)現(xiàn)真正的端到端任務(wù)執(zhí)行。

WebThinker 框架:自主的深度搜索與報(bào)告撰寫



WebThinker 框架包含兩種主要運(yùn)行模式:

1.問(wèn)題解決模式:賦予 LRM 深度網(wǎng)頁(yè)探索器(Deep Web Explorer)功能,當(dāng)遇到知識(shí)缺口時(shí),LRM 可以自主發(fā)起網(wǎng)絡(luò)搜索,通過(guò)點(diǎn)擊鏈接或按鈕導(dǎo)航網(wǎng)頁(yè),并在繼續(xù)推理前提取相關(guān)信息。

2.報(bào)告生成模式:實(shí)現(xiàn)自主思考 - 搜索 - 寫作(Autonomous Think-Search-and-Draft)策略,將推理、信息搜索和報(bào)告撰寫無(wú)縫整合。LRM 可以使用專門的工具來(lái)草擬、檢查和編輯報(bào)告部分,確保最終報(bào)告全面、連貫且基于收集的證據(jù)。

整個(gè)過(guò)程是端到端的,LRM 可以在思考過(guò)程中自主搜索、深度探索網(wǎng)頁(yè)和撰寫研究報(bào)告,擺脫了傳統(tǒng)預(yù)定義工作流的局限。

核心組件:

1. 深度網(wǎng)頁(yè)探索:解決復(fù)雜推理問(wèn)題

這一模塊使 LRM 能夠進(jìn)行網(wǎng)絡(luò)搜索和導(dǎo)航,深度收集、遍歷和提取網(wǎng)頁(yè)上的高質(zhì)量信息:

1.搜索能力:能夠基于當(dāng)前查詢生成搜索意圖,從搜索引擎獲取初步結(jié)果

2.導(dǎo)航能力:能夠點(diǎn)擊鏈接或按鈕,深入探索初始搜索結(jié)果之外的內(nèi)容

3.信息提取:基于當(dāng)前查詢的搜索結(jié)果,LRM 可以發(fā)起后續(xù)搜索并遍歷更深層次的鏈接,直到收集所有相關(guān)信息

2. 自主的思考 - 搜索 - 寫作:生成完整的研究報(bào)告

該策略將報(bào)告撰寫與 LRM 的推理和搜索過(guò)程深度整合:不同于在搜索后一次性生成整個(gè)報(bào)告,WebThinker 使模型能夠?qū)崟r(shí)撰寫和尋求必要知識(shí)。具體來(lái)說(shuō),WebThinker 為 LRM 配備三種專門工具:(1)撰寫特定章節(jié)內(nèi)容;(2)檢查當(dāng)前報(bào)告已寫內(nèi)容;(3)編輯 / 修改報(bào)告。這些工具使 LRM 能夠通過(guò)保持全面性、連貫性和對(duì)推理過(guò)程中新發(fā)現(xiàn)信息的適應(yīng)性來(lái)自主增強(qiáng)報(bào)告質(zhì)量

3. 基于強(qiáng)化學(xué)習(xí)的訓(xùn)練策略:全面提升 LRM 調(diào)用研究工具的能力

為了進(jìn)一步釋放 LRM 骨干模型的深度研究潛力,WebThinker 開發(fā)了基于強(qiáng)化學(xué)習(xí)的訓(xùn)練策略:

1. 利用配備工具的 LRM 從復(fù)雜任務(wù)中采樣大規(guī)模推理軌跡

2. 根據(jù)推理的準(zhǔn)確性、工具使用準(zhǔn)確性、以及最終輸出答案或報(bào)告的質(zhì)量,構(gòu)建在線直接偏好優(yōu)化(DPO)訓(xùn)練的偏好對(duì)

3. 通過(guò)迭代、在線策略訓(xùn)練,模型逐步提高感知、推理和有效交互研究工具的能力

實(shí)驗(yàn)結(jié)果



實(shí)驗(yàn)結(jié)果:真實(shí)世界的復(fù)雜推理任務(wù)

WebThinker 在四個(gè)知識(shí)密集型復(fù)雜推理基準(zhǔn)上進(jìn)行了評(píng)估:

1.GPQA:PhD 級(jí)別的科學(xué)問(wèn)題回答數(shù)據(jù)集,覆蓋物理、化學(xué)和生物學(xué)

2.GAIA:評(píng)估 AI 助手在復(fù)雜信息檢索任務(wù)上的能力

3.WebWalkerQA:專注于深度網(wǎng)絡(luò)信息檢索,需要導(dǎo)航和提取信息

4.人類最終考試(HLE):極具挑戰(zhàn)性的跨學(xué)科問(wèn)題數(shù)據(jù)集





從實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn):

1.基礎(chǔ)推理模型和傳統(tǒng) RAG 的局限:基礎(chǔ)推理模型雖然在某些任務(wù)上表現(xiàn)不錯(cuò),但在需要實(shí)時(shí)外部知識(shí)的場(chǎng)景中明顯力不從心;傳統(tǒng) RAG 方法雖有改進(jìn),但在復(fù)雜任務(wù)中提升有限;

2.自主搜索的優(yōu)勢(shì):而引入自主搜索能力的模型則帶來(lái)了顯著提升。WebThinker 憑借其深度網(wǎng)頁(yè)探索器,能夠更全面地獲取和整合網(wǎng)絡(luò)信息,在所有基準(zhǔn)測(cè)試中都取得了明顯優(yōu)勢(shì)。

3.RL 訓(xùn)練的改進(jìn):特別是經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的 WebThinker-32B-RL 版本,不僅在同等參數(shù)量模型中達(dá)到了最佳表現(xiàn),甚至在某些任務(wù)上超越了參數(shù)量更大的專有模型。

實(shí)驗(yàn)結(jié)果:科學(xué)研究報(bào)告生成



在 Glaive 科學(xué)報(bào)告生成任務(wù)的評(píng)估中:

1.生成報(bào)告的質(zhì)量:從完整性、徹底性、事實(shí)性和連貫性四個(gè)維度評(píng)估,WebThinker 生成的研究報(bào)告均獲得高分,整體表現(xiàn)優(yōu)于傳統(tǒng) RAG 方法和其他先進(jìn)的深度研究系統(tǒng);

2.生成報(bào)告的信息邊界:特別在報(bào)告的完整性和徹底性方面表現(xiàn)尤為突出,通過(guò) t-SNE 可視化分析可見(jiàn),WebThinker 生成的報(bào)告內(nèi)容覆蓋更廣,視角更多元,能夠從多個(gè)維度深入探索和綜合信息,為用戶提供更全面、更深入的調(diào)研。

實(shí)驗(yàn)結(jié)果:適配 DeepSeek-R1 系列模型



通過(guò)在不同規(guī)模的 DeepSeek-R1 模型上進(jìn)行實(shí)驗(yàn)(7B, 14B, 32B),驗(yàn)證了 WebThinker 框架的適應(yīng)性。在不同模型規(guī)模下,都能顯著提升各類任務(wù)的性能,遠(yuǎn)超直接推理和標(biāo)準(zhǔn) RAG 方法,展現(xiàn)了該框架在增強(qiáng) LRM 深度研究能力方面的通用性和有效性。

實(shí)驗(yàn)結(jié)果:消融實(shí)驗(yàn)



消融實(shí)驗(yàn)評(píng)估了 WebThinker 各關(guān)鍵組件的貢獻(xiàn)。結(jié)果顯示,深度網(wǎng)頁(yè)探索器以及自主 「思考 - 搜索 - 寫作」 策略中的報(bào)告生成組件(尤其是自主報(bào)告起草)是確保高性能問(wèn)題解決和高質(zhì)量報(bào)告生成的基石,其缺失會(huì)導(dǎo)致性能顯著下降。強(qiáng)化學(xué)習(xí)訓(xùn)練則主要增強(qiáng)了問(wèn)題解決能力,對(duì)報(bào)告生成的影響相對(duì)有限。

總結(jié)與未來(lái)展望

WebThinker 框架成功地賦予了大型推理模型深度研究能力,解決了它們?cè)谥R(shí)密集型真實(shí)世界任務(wù)中的局限性。通過(guò)深度網(wǎng)頁(yè)探索器和自主思考 - 搜索 - 寫作策略,WebThinker 使 LRM 能夠自主探索網(wǎng)絡(luò)并通過(guò)連續(xù)推理過(guò)程生成全面輸出。

未來(lái),為持續(xù)提升深度研究模型的能力,仍有很多方向值得探索:

1.多模態(tài)深度搜索:WebThinker 基于文本推理模型,難以處理圖像等其他模態(tài)的信息。未來(lái)可以擴(kuò)展到圖像、視頻等多模態(tài)內(nèi)容的深度研究,來(lái)利用網(wǎng)頁(yè)中的多模態(tài)信息。

2.工具學(xué)習(xí)與擴(kuò)展:當(dāng)前支持有限的研究工具,未來(lái)可以通過(guò)工具學(xué)習(xí)來(lái)不斷優(yōu)化工具使用策略,并擴(kuò)展更多工具,來(lái)支持更復(fù)雜的任務(wù)。

3.GUI 網(wǎng)頁(yè)探索:通過(guò) GUI 網(wǎng)頁(yè)探索能力,讓模型能夠更好地理解和操作網(wǎng)頁(yè)界面,實(shí)現(xiàn)更復(fù)雜的交互任務(wù),如訂機(jī)票、指定旅游路線圖、等等。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
江蘇一女子曬出120平的家,因太會(huì)布置而走紅,真的太有品味了

江蘇一女子曬出120平的家,因太會(huì)布置而走紅,真的太有品味了

時(shí)尚舒適家
2025-05-15 09:36:23
母子雙雙確診,1人去世!醫(yī)生:身上這個(gè)黑點(diǎn)不是痣,嚴(yán)重可致命

母子雙雙確診,1人去世!醫(yī)生:身上這個(gè)黑點(diǎn)不是痣,嚴(yán)重可致命

DrX說(shuō)
2025-05-15 12:33:56
魔獸有人5月10日凌晨買了直升服務(wù)!49年入國(guó)軍?

魔獸有人5月10日凌晨買了直升服務(wù)!49年入國(guó)軍?

艾星攻略閣
2025-05-17 15:30:37
又一個(gè)董小姐?選美冠軍靠造假入港大被抓,假學(xué)歷為何仍屢禁不止?

又一個(gè)董小姐?選美冠軍靠造假入港大被抓,假學(xué)歷為何仍屢禁不止?

留學(xué)生日?qǐng)?bào)
2025-05-17 21:40:35
廣東男籃簽約新動(dòng)態(tài):鋒線小將留隊(duì),黃榮奇續(xù)C類合同

廣東男籃簽約新動(dòng)態(tài):鋒線小將留隊(duì),黃榮奇續(xù)C類合同

智凌縱橫
2025-05-17 19:10:24
伊朗要棄核,可憐又可嘆。

伊朗要棄核,可憐又可嘆。

大劉說(shuō)說(shuō)
2025-05-16 18:03:08
黃楊鈿甜父親稱耳環(huán)是高仿貨,被網(wǎng)友打臉:你家這樣的假貨有一柜子?

黃楊鈿甜父親稱耳環(huán)是高仿貨,被網(wǎng)友打臉:你家這樣的假貨有一柜子?

可達(dá)鴨面面觀
2025-05-16 20:27:02
這就是人心!網(wǎng)友上線反駁S媽最新發(fā)文,恭賀汪小菲馬筱梅大婚

這就是人心!網(wǎng)友上線反駁S媽最新發(fā)文,恭賀汪小菲馬筱梅大婚

春序娛樂(lè)
2025-05-16 10:30:15
《折腰》原著情色尺度超大!劇版還原「下藥名場(chǎng)面」劉宇寧腹肌全看光

《折腰》原著情色尺度超大!劇版還原「下藥名場(chǎng)面」劉宇寧腹肌全看光

ETtoday星光云
2025-05-17 18:10:15
終于登頂3-0,上海隊(duì)爆發(fā)18分鐘3球,狂飆3連勝,大連主場(chǎng)2連敗

終于登頂3-0,上海隊(duì)爆發(fā)18分鐘3球,狂飆3連勝,大連主場(chǎng)2連敗

北門兒
2025-05-17 20:15:13
有重大立功表現(xiàn)!搞權(quán)色、錢色交易,道德敗壞的王一新,被判了

有重大立功表現(xiàn)!搞權(quán)色、錢色交易,道德敗壞的王一新,被判了

政知新媒體
2025-05-16 17:56:02
83歲高明近況曝光!與孫女家中吃飯露笑顏,客廳飯廳都很小很樸實(shí)

83歲高明近況曝光!與孫女家中吃飯露笑顏,客廳飯廳都很小很樸實(shí)

河山銳新聞
2025-05-17 10:23:05
常吃這兩種水果,能夠降低高血壓死亡風(fēng)險(xiǎn)

常吃這兩種水果,能夠降低高血壓死亡風(fēng)險(xiǎn)

環(huán)球網(wǎng)資訊
2025-05-17 18:41:15
北青體育:謝文能、林良銘兩名停賽球員將隨國(guó)足前往印尼

北青體育:謝文能、林良銘兩名停賽球員將隨國(guó)足前往印尼

直播吧
2025-05-17 17:26:10
外交部部長(zhǎng)助理兼禮賓司司長(zhǎng)洪磊接受美國(guó)新任駐華大使遞交國(guó)書副本

外交部部長(zhǎng)助理兼禮賓司司長(zhǎng)洪磊接受美國(guó)新任駐華大使遞交國(guó)書副本

上觀新聞
2025-05-16 20:09:04
5月17日周六《新聞聯(lián)播》要聞20條

5月17日周六《新聞聯(lián)播》要聞20條

財(cái)聯(lián)社
2025-05-17 20:13:04
突然失去了中國(guó)的遮擋,歐日印越開始難受了!

突然失去了中國(guó)的遮擋,歐日印越開始難受了!

阿鳧愛(ài)吐槽
2025-05-17 10:24:40
CBA總決賽G5半場(chǎng):廣廈52-47北京,巴里-布朗19分,杰曼12分

CBA總決賽G5半場(chǎng):廣廈52-47北京,巴里-布朗19分,杰曼12分

懂球帝
2025-05-17 20:49:21
網(wǎng)傳花旗銀行中國(guó)裁員近200人,5、6月合同到期不續(xù)約,直接賠償

網(wǎng)傳花旗銀行中國(guó)裁員近200人,5、6月合同到期不續(xù)約,直接賠償

火山詩(shī)話
2025-05-17 10:29:28
國(guó)乒男單首勝!梁靖崑4-1擊敗“神秘之師”選手,晉級(jí)世乒賽64強(qiáng)

國(guó)乒男單首勝!梁靖崑4-1擊敗“神秘之師”選手,晉級(jí)世乒賽64強(qiáng)

全言作品
2025-05-17 20:07:41
2025-05-17 22:16:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10495文章數(shù) 142316關(guān)注度
往期回顧 全部

科技要聞

王樹國(guó):梁文鋒如果讀博 還有DeepSeek嗎?

頭條要聞

男子自駕被落石砸中身亡 母親:兩孫女還不知爸爸去世

頭條要聞

男子自駕被落石砸中身亡 母親:兩孫女還不知爸爸去世

體育要聞

三年過(guò)去了,布倫森的打臉還沒(méi)停

娛樂(lè)要聞

汪小菲婚禮在亭子里辦儀式好熱鬧

財(cái)經(jīng)要聞

關(guān)鍵時(shí)刻,央媽出手了

汽車要聞

小米汽車回應(yīng)前保險(xiǎn)杠變形 免費(fèi)取送車和修復(fù)

態(tài)度原創(chuàng)

旅游
親子
手機(jī)
數(shù)碼
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

多地新冠感染勢(shì)頭又起,兒童呼吸道疾病防治引關(guān)注,精準(zhǔn)用藥是關(guān)鍵

手機(jī)要聞

盧偉冰:搭載小米自研玄戒 O1 芯片的不僅僅是手機(jī)

數(shù)碼要聞

RTX 5060京東首發(fā)攻略:2499元抄底價(jià)+20%補(bǔ)貼

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 荃湾区| 辰溪县| 湖北省| 旬邑县| 恩平市| 泾阳县| 宜宾县| 勐海县| 望谟县| 大厂| 昌黎县| 宁国市| 汪清县| 阿拉善盟| 吕梁市| 宁城县| 佛学| 双江| 红河县| 宕昌县| 南江县| 阳江市| 乌鲁木齐市| 乌海市| 盐津县| 高青县| 讷河市| 嘉义市| 桂阳县| 龙海市| 呼和浩特市| 阿克苏市| 丽江市| 绥滨县| 深水埗区| 云梦县| 故城县| 思南县| 海门市| 吉木萨尔县| 龙游县|