99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

聯網搜索Agent,7B媲美R1,華為盤古DeepDiver開域信息獲取新解法

0
分享至



機器之心發布

機器之心編輯部

大型語言模型 (LLM) 的發展日新月異,但實時「內化」與時俱進的知識仍然是一項挑戰。如何讓模型在面對復雜的知識密集型問題時,能夠自主決策獲取外部知識的策略?

華為諾亞方舟實驗室研究團隊提出了 Pangu DeepDiver 模型,通過 Search Intensity Scaling 實現了 LLM 搜索引擎自主交互的全新范式,使得 Pangu 7B 模型在開域信息獲取能力上可以接近百倍參數的 DeepSeek-R1,并優于 DeepResearcher、R1-Searcher 等業界同期工作!



論文鏈接 :https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-deepdiver-report.pdf

arxiv 鏈接:https://arxiv.org/abs/2505.24332

該項研究的主要發現如下:(1)對于復雜信息獲取任務,端到端 Agentic RL 訓練相比直接蒸餾老師軌跡能更好地實現 Search Intensity Scaling,從而帶來平均 10 PCT 效果提升;(2)基于真實互聯網搜索 API 和數據集進行訓練,相比基于 Wikipedia,能夠學到更多有效推理模式;(3)基于 Search Intensity Scaling,DeepDiver 的檢索和推理能力可以從客觀題泛化至主觀生成任務。

下文將詳細解讀 DeepDiver 的創新之處,包括其數據構建方法,Agentic RL 訓練過程,以及 Search Intensity Scaling 如何帶來顯著性能提升。

為什么要提出 DeepDiver?

當前 RAG 技術主要分為兩大流派:

  • Prompt-based 方法:如 FLARE [1]、Search-o1 [2] 等,通過復雜 prompt 流程指導模型,優勢在于即插即用,但缺乏靈活性和智能性。
  • SFT-based 方法:如 Self-RAG [3]、AutoRAG [4] 等,通過構建人工合成數據教會模型拆解問題、生成檢索詞,但行為方式、獲取信息的策略完全取決于 SFT 數據分布,泛化能力有限。

隨著 DeepSeek-R1 [5] 和 OpenAI-o1 的崛起,基于強化學習的 RAG 方法逐漸受到關注。然而,ReSearch [6]、Search-r1 [7] 等工作主要基于 Wikipedia 語料構建,存在兩大問題:

  • LLM 預訓練已內化大量 Wiki 知識,使得模型不需真正檢索就能回答問題
  • Wiki 環境過于「干凈」,缺乏真實互聯網的噪聲和信息沖突,這使得目前主流的基于 wiki 環境的 LLM 會主動地學習如何收集關鍵信息,但如何解決沖突,如何在真實互聯網環境中去噪驗證信息真實度,以及如何反思和糾正內容等高階能力則會被忽略。

這些受限的訓練語料和環境,阻礙了 LLM 學習動態地決定何時何地進行搜索,以及如何根據需求調整搜索深度和頻率。研究團隊將這種缺失的能力定義為Search Intensity Scaling (SIS)—— 一種在充滿模糊、信息沖突的高噪音環境下,LLM 為了突破困境而涌現出的信息檢索能力,通過 SIS,模型會根據問題難易程度動態的調整搜索頻率和深度,而不是妥協于驗證不足的答案上。為此,研究團隊認為只有在真實互聯網環境下,用真實互聯網數據進行探索式訓練,才能使模型涌現真正的高階信息檢索和推理能力。



圖 1:四種關鍵信息搜索行為示意圖:

(a) 收集關鍵信息,(b) 解決沖突,(c) 驗證與去噪,(d) 反思與糾正

WebPuzzle

真實互聯網環境下的高質量數據集

為了讓模型能夠使用真實的互聯網數據進行訓練,本文提出了 WebPuzzle。

來看幾個 WebPuzzle 中的問題示例:

他是一名 NBA 狀元秀球員,他曾效力于 76 人、掘金、活塞等隊,他入選了最佳新秀一陣,然而他沒拿到過總冠軍,他有超過 170 + 次數的兩雙數據,他是誰?
-- 答案: Joe Smith (艾佛森并不滿足兩雙數據的描述)
她憑借多個經典古裝角色深入人心,她曾經簽約了海外的唱片公司推出過多語種音樂專輯,她主演的某部古裝劇更因播放量創紀錄被國家館藏機構收錄,更令她憑此劇斬獲某電視節最高獎項,她是誰?
-- 答案:劉亦菲
2020 年 10 月至 2024 年 4 月期間,華為公司與孝感市政府進行了幾次合作洽談?每次洽談的主要領導是誰?
-- 答案:2 次洽談,第一次是 2020 年時任市委書記、市長吳海濤與湖北公司總經理孟少云。第二次是 2024 年市委副書記、市長吳慶華與華為技術有限公司高級副總裁楊瑞凱。

嘗試用搜索引擎解答這個問題,會發現需要多輪搜索和推理才能得出正確答案。

數據收集與處理

WebPuzzle 主要從兩個數據源采集:

  • Wiki 猜謎類數據:研究團隊收集了大部分 LLM 的 cutoff knowledge date 后的 Wiki 語料,在語料中選取特定實體作為謎底,然后羅列出與該實體有關的特性作為謎面,再將其中部分特性隱藏化、模糊化(如示例中的「超過 170 + 次數」,「簽約了海外的唱片公司」分別代表「172 次兩雙數據」,「簽約了日本的唱片公司」),增加解題難度。
  • 真實用戶問題:基于現網真實用戶問題及其搜索返回結果,構建多篇網頁交叉驗證的問題。



圖 2:WebPuzzle 數據構建流程,包括候選生成和難度標注兩個主要階段

測試集經過了人工標注后,最終版 WebPuzzle 包含 24k 訓練樣本和 275 條高質量評測樣本,涵蓋不同難度等級的跨頁問答和猜謎題目。

DeepDiver 訓練流程

迭代檢索與強化學習在真實互聯網環境下的結合

DeepDiver 基于迭代式 RAG 框架構建,該框架要求模型在收到用戶請求后,自行在多個輪次交替式的推理和搜索,具體來說,在每個輪次中:

1. 推理 (Reasoning):針對歷史輪次進行反思、推理、總結

2. 決策:根據推理的內容,決策當前輪次是搜索 (Search) 或回答 (Answer)

整體訓練流程分為兩個主要階段:

冷啟動階段 (Cold-start SFT)

通過蒸餾 teacher 模型的回復,使模型掌握基本的解題套路。使用 5.2k 高質量數據對模型進行初步訓練,包括:

  • 2k WebPuzzle 數據
  • 2.2k 通用推理數據 (數學、邏輯推理等)
  • 1k 真實用戶問題與搜索結果拼接數據

強化學習階段 (Reinforcement Learning)

在冷啟動模型的基礎上,使用 GRPO 算法讓模型自主探索,對高質量探索路徑給予獎勵。這一過程完全由 outcomereward 信號引導,沒有 distillation 或 SFT 范式的 step-wise 數據干預。



圖 3:DeepDiver 訓練流程概覽,包括 rollout 生成和 GRPO 模型更新

Reward 機制設計

DeepDiver 采用了兩種互補的獎勵函數設計:

1. 寬松獎勵 (訓練初期):使用 0-10 分評分標準,模型輸出滿足部分條件 (得分≥6) 即可獲得獎勵,穩定訓練初期。

2. 嚴格獎勵 (訓練后期):模型回答需通過三輪嚴格評估,每輪由三個不同 LLM grader 校驗,只有至少 2 輪校驗通過的情況下才會給予獎勵。實驗展示出嚴格獎勵在訓練后期有助于突破訓練瓶頸。

針對搜索引擎使用,研究團隊設計了額外獎勵機制:當一組 rollouts 中所有不使用搜索的嘗試都失敗,而如果有使用搜索的嘗試成功時,給予這些 rollout 額外獎勵,糾正模型過度依賴內部知識的傾向。

實驗結果

7B DeepDiver 媲美 671B DeepSeek-R1

主要評測結果

研究團隊在 WebPuzzle 及多個基準上進行了評測,包括 C-simpleQA [8]、FRAMES-zh [9] 和 Bamboogle-zh [10],結果令人振奮:



表 1:各模型在不同數據集上的表現對比,括號中的數字表示搜索輪次

三大關鍵發現:

1.DeepDiver 大幅優于蒸餾模型:在 WebPuzzle 上,DeepDiver-Pangu-7B 達 38.1%,遠遠超過了蒸餾版本的模型,提升明顯;使用了同樣訓練方法的 DeepDiver-Qwen2.5-7B 準確率達 37.6%,比 R1 蒸餾版提升近 8 個百分點;這說明了基于真實互聯網的強化學習環境和訓練語料能夠大幅提升模型的信息索取能力。

2.Search Intensity Scaling 帶來性能飛躍:DeepDiver 展現出明顯的 Search Intensity Scaling Up 的趨勢,DeepDiver 為了彌補自己內部知識的不足,使用的平均搜索輪次會顯著高于 baseline,直接推動準確率提升。

3.優異的跨任務泛化能力:雖然模型主要在 WebPuzzle 上訓練,但在其他數據集上同樣表現卓越,驗證了整個 DeepDiver 框架和 SIS 帶來的強大的泛化能力。



圖 4:訓練階段搜索輪次與獎勵值的相關性,搜索強度增加伴隨訓練獎勵上升

深入分析

Search Intensity Scaling 的魅力

排除知識記憶因素的公平對比

在主試驗中,研究團隊發現 DeepDiver 在非 WebPuzzle 的榜單上盡管提升明顯,但是仍然落后于 DeepSeek R1, QwQ 等模型。該團隊提出一個問題,DeepDiver 落后于這些模型到底是因為 Information Seeking 的能力不如這些 Baseline,還是因為這些 Baseline 的參數量較大,預訓練階段已經內化了這些榜單的知識源?

為驗證 DeepDiver 在信息檢索方面的真實能力,他們設計了「公平對比」實驗:排除模型僅靠內部知識就能回答的問題,只比較需要外部檢索的問題上的表現。



圖 5:排除內部知識可解問題后的評估結果對比

結果表明,在難以通過內部知識解決的問題上,DeepDiver 超越或匹敵所有基線模型,甚至包括 DeepSeek-R1。這證實了 DeepDiver 在 WebPuzzle 完整數據集上未能全面超越 671B 基線模型的主要原因,是參數規模而非檢索能力限制。而對于檢索能力本身而言,DeepDiver 則表現出了非常強大的能力,能夠讓 7B 模型與超大規模 LLM 性能相當。

與基于 Wiki 環境和語料的訓練方法的同期工作的對比

為了與同期工作進行對比,盡管 DeepDiver 完全使用中文訓練,研究團隊仍在英文基準測試中借助英文搜索引擎進行了評估,并與同期工作進行比較,如下表所示,其中 R1-Searcher 是基于 Wiki 環境和語料訓練,DeepResearcher 是基于 Wiki 語料和真實搜索環境訓練:



表 2:英文評估數據集上使用英文搜索引擎環境的對比結果

結果顯示,基于真實互聯網語料和環境訓練的 DeepDiver,盡管沒有在訓練中接觸英文訓練語料和搜索環境,DeepDiver 憑借 SIS 在絕大多數任務上仍超越了基于 Wiki 訓練的基線模型,凸顯了 SIS 的強大性能和解決難題時的適應能力。

搜索強度與問題難度的關系

DeepDiver 展現出卓越的搜索強度自適應能力,隨著問題難度增加,模型會增加搜索輪次:



表 3:WebPuzzle 不同子集的性能表現

特別是與 DeepSeek-R1 相比,DeepDiver 在超難子集上取得顯著領先:平均 2.6 輪搜索帶來 3.7 個百分點的優勢,而 DeepSeek-R1 僅使用 1.59 輪搜索就妥協于一個不那么令人滿意的結果。

兩階段獎勵函數設計的關鍵作用

在訓練過程中,研究團隊發現后期性能常陷入瓶頸。通過對比不同獎勵函數的效果,他們得出重要結論:



圖 6:不同獎勵函數的訓練效果,寬松獎勵穩定初期訓練,嚴格獎勵突破后期瓶頸

寬松獎勵有助于穩定強化學習初期階段,而嚴格獎勵則能在后期突破性能瓶頸。切換到嚴格獎勵后,WebPuzzle 上的得分提高了近 9 個百分點(從 29.1% 升至 37.6%)。

開放式長文問答任務的驚人泛化

DeepDiver 僅在 WebPuzzle 封閉式問題上訓練,但能夠出色泛化到開放式問答任務:



表 4:ProxyQA 數據集上的表現對比

在長文生成評測基準 ProxyQA 上,DeepDiver 得分達 32.72%,比 R1 蒸餾模型高出 9.47 個百分點,同時生成更長、更全面的回答,展現出卓越的知識密集型長文生成能力。在沒有 cherry picking 的情況也能一眼看出 DeepDiver 和蒸餾模型生成結果的區別。

Information-Seeking 各類行為分析和統計

研究團隊詳細統計了不同模型在各類數據集上的信息搜索行為:



表 5:多個模型在 WebPuzzle 和基于 wiki 數據集上的行為統計

結果表明,WebPuzzle 比現有 Wiki 數據集更具挑戰性,需要更復雜的信息搜索行為。而 DeepDiver 模型相比其他基線模型表現出更多樣化和復雜的信息搜索行為,展示了在真實網絡環境中訓練的優勢。

未來展望與局限性

盡管 DeepDiver 獲得了正向的實驗結果,但研究團隊仍然認識到以下幾點局限和未來研究方向:

1.WebPuzzle 的持續演化:隨著 LLM 預訓練的不斷擴展,如何持續構建有效的 benchmark 來適配與時俱進的 LLM,是一項長期挑戰。

2. 開放式任務的 RL 框架優化:為開放式問題設計更有效的 RL 框架,解決長文生成等任務的獎勵設計難題。

3. 冷啟動 SFT 與 RL 的動態銜接:探索自適應流程,讓 LLM 按需動態地從 SFT 切換到 RL,提升訓練效率。

4. 工具生態的擴展:除搜索引擎外,擴充瀏覽器引擎、Python 解釋器、本地知識庫等工具,進一步增強信息獲取能力。

5. 模型規模和序列長度的擴展:基于昇騰平臺,在更大模型規模上進行驗證,推動產品應用和落地部署。

6. SIS 影響機制的系統性分析:探究基座模型能力、訓練數據構成、算法設計等多種關鍵因素對實現 SIS 效果的影響規律,深入分析和進行消融實驗。

總結

DeepDiver 系統地探討了 LLM 在真實互聯網環境下解決知識密集型問題的能力。通過強化學習與真實互聯網搜索引擎的結合,該研究實現了 Search Intensity Scaling,使模型能根據任務難度自適應調整搜索強度。在 WebPuzzle 和多項基準測試中,7B 規模的 DeepDiver 展現出與 671B DeepSeek-R1 相當的表現,驗證了該方法的有效性。Agentic RL 訓練技術在 Agent 發展中逐步顯現出重要價值,本工作提供了搜索引擎環境下的具體參考。

References:

[1] Jiang, Z., Xu, F. F., Gao, L., Sun, Z., Liu, Q., Dwivedi-Yu, J., ... & Neubig, G. (2023, December). Active retrieval augmented generation. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (pp. 7969-7992).

[2] Li, X., Dong, G., Jin, J., Zhang, Y., Zhou, Y., Zhu, Y., ... & Dou, Z. (2025). Search-o1: Agentic search-enhanced large reasoning models. arXiv preprint arXiv:2501.05366.

[3] Asai, A., Wu, Z., Wang, Y., Sil, A., & Hajishirzi, H. (2023, October). Self-rag: Learning to retrieve, generate, and critique through self-reflection. In The Twelfth International Conference on Learning Representations.

[4] Kim, D., Kim, B., Han, D., & Eibich, M. (2024). AutoRAG: automated framework for optimization of retrieval augmented generation pipeline. arXiv preprint arXiv:2410.20878.

[5] Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948.

[6] Chen, M., Li, T., Sun, H., Zhou, Y., Zhu, C., Wang, H., ... & Chen, W. (2025). Research: Learning to reason with search for llms via reinforcement learning. arXiv preprint arXiv:2503.19470, 2 (3).

[7] Jin, B., Zeng, H., Yue, Z., Yoon, J., Arik, S., Wang, D., ... & Han, J. (2025). Search-r1: Training llms to reason and leverage search engines with reinforcement learning. arXiv preprint arXiv:2503.09516.

[8] He, Y., Li, S., Liu, J., Tan, Y., Wang, W., Huang, H., ... & Zheng, B. (2024). Chinese simpleqa: A chinese factuality evaluation for large language models. arXiv preprint arXiv:2411.07140.

[9] Krishna, S., Krishna, K., Mohananey, A., Schwarcz, S., Stambler, A., Upadhyay, S., & Faruqui, M. (2024). Fact, fetch, and reason: A unified evaluation of retrieval-augmented generation. arXiv preprint arXiv:2409.12941.

[10] Press, O., Zhang, M., Min, S., Schmidt, L., Smith, N. A., & Lewis, M. (2022). Measuring and narrowing the compositionality gap in language models. arXiv preprint arXiv:2210.03350.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
剛剛地震了!5.9級!福建多地有震感

剛剛地震了!5.9級!福建多地有震感

今日海滄
2025-06-11 19:55:53
癌癥去世的人越來越多?醫生:寧可打打麻將,也要少做這5件事

癌癥去世的人越來越多?醫生:寧可打打麻將,也要少做這5件事

九天攬月1
2025-06-05 22:04:46
CCTV5直播!6月11日賽程:王楚欽戰樊振東,孫穎莎戰王藝迪,林詩棟戰小胖

CCTV5直播!6月11日賽程:王楚欽戰樊振東,孫穎莎戰王藝迪,林詩棟戰小胖

好乒乓
2025-06-11 10:07:23
恒河線讓印度人破防,國內專家提醒:若再挑釁,下場比1962年更慘

恒河線讓印度人破防,國內專家提醒:若再挑釁,下場比1962年更慘

一個有靈魂的作者
2025-06-11 18:18:57
發現了沒有,凡是選擇燃油車的人,他們基本都有這三種情況

發現了沒有,凡是選擇燃油車的人,他們基本都有這三種情況

小嵩
2025-06-11 10:04:46
突發!美食品巨頭或出售哈根達斯250家中國門店,入華已29年

突發!美食品巨頭或出售哈根達斯250家中國門店,入華已29年

北美商業電訊
2025-06-11 17:41:33
涼茶里加布洛芬,中藥里加安眠藥,套路都一樣

涼茶里加布洛芬,中藥里加安眠藥,套路都一樣

歷史總在押韻
2025-06-10 00:35:34
中美談判,美財長中途離場,美方穩不住,特朗普對中國的判斷沒錯

中美談判,美財長中途離場,美方穩不住,特朗普對中國的判斷沒錯

影孖看世界
2025-06-11 20:49:39
石破天驚!特朗普的真正秘密終于曝光!

石破天驚!特朗普的真正秘密終于曝光!

一個壞土豆
2025-06-10 20:11:05
阿根廷哥倫比亞賽后沖突,奧塔門迪怒懟里奧斯:傻瓜,把發帶摘了

阿根廷哥倫比亞賽后沖突,奧塔門迪怒懟里奧斯:傻瓜,把發帶摘了

雷速體育
2025-06-11 11:00:23
韋東奕漲粉速度獲世界紀錄認證!他衣著整潔接受采訪:輿論已影響到自己,不想再做任何回應

韋東奕漲粉速度獲世界紀錄認證!他衣著整潔接受采訪:輿論已影響到自己,不想再做任何回應

揚子晚報
2025-06-11 21:03:25
中國建設銀行安徽省分行原黨委委員、副行長范紹杰被開除黨籍

中國建設銀行安徽省分行原黨委委員、副行長范紹杰被開除黨籍

澎湃新聞
2025-06-11 17:44:11
洋馬,百萬級網紅下海,顏值出眾的女神—Tru Kait,網友:愛了

洋馬,百萬級網紅下海,顏值出眾的女神—Tru Kait,網友:愛了

說真話的小陳
2025-06-11 09:13:31
湖人與凱爾特人交易震動西部,爵士意外收獲首輪選秀權。

湖人與凱爾特人交易震動西部,爵士意外收獲首輪選秀權。

清風吹離
2025-06-11 11:19:21
半年沒訓練,回來就贏世界第一!樊振東有多強?3-2給林詩棟上課

半年沒訓練,回來就贏世界第一!樊振東有多強?3-2給林詩棟上課

嘴炮體壇
2025-06-11 12:43:36
臺胞心聲:臺灣的基建只是大陸三線城市的水平

臺胞心聲:臺灣的基建只是大陸三線城市的水平

金牛傳音
2025-06-11 09:34:55
兒子剛走出高考考場,媽媽竟然對兒子大喊:我兩個老死不要往來了

兒子剛走出高考考場,媽媽竟然對兒子大喊:我兩個老死不要往來了

南南說娛
2025-06-11 09:36:38
中美談判已結束,中方坦然公布結果,美方三將恐怕很難交差

中美談判已結束,中方坦然公布結果,美方三將恐怕很難交差

朗威游戲說
2025-06-11 15:50:27
巴鐵買空警500的消息傳來,俄羅斯網友憤怒了,要求俄軍也買20架

巴鐵買空警500的消息傳來,俄羅斯網友憤怒了,要求俄軍也買20架

獵火照狼山
2025-06-11 17:39:01
俄烏沖突,正朝著我們原本不敢想象的方向發展,中國的國運要來了

俄烏沖突,正朝著我們原本不敢想象的方向發展,中國的國運要來了

阿芒娛樂說
2025-06-11 19:04:46
2025-06-11 22:24:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10622文章數 142336關注度
往期回顧 全部

科技要聞

華為Pura80 Ultra最高定價10999元

頭條要聞

媒體:國足在亞洲不是三流 是不入流

頭條要聞

媒體:國足在亞洲不是三流 是不入流

體育要聞

一位中國老板,復興了歐洲百年俱樂部

娛樂要聞

那爾那茜定向委培違約事件 持續發酵

財經要聞

中美經貿磋商機制首次會議在英國倫敦舉行

汽車要聞

5萬級5座純電微型車 奇瑞QQ多米正式上市

態度原創

本地
健康
旅游
公開課
軍事航空

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

減重專家破解減肥九大謠言!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

加州請求阻止特朗普政府派兵被駁回

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 芮城县| 龙胜| 科尔| 定州市| 松阳县| 长阳| 靖州| 焦作市| 贵阳市| 渝中区| 册亨县| 泌阳县| 连山| 兴城市| 酒泉市| 文安县| 色达县| 宜章县| 五大连池市| 通辽市| 潼关县| 都昌县| 叙永县| 高平市| 宜良县| 阿城市| 兴义市| 乐都县| 石台县| 安龙县| 同心县| 友谊县| 城口县| 红桥区| 胶州市| 元谋县| 永和县| 莱芜市| 德钦县| 仪陇县| 深泽县|