99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

通義實驗室最新成果WebDancer:自主智能Deep Research的新時代

0
分享至



作者介紹: 本文作者來自通義實驗室 RAG 團隊,致力于面向下一代 RAG 技術進行基礎研究。該團隊 WebWalker 工作近期也被 ACL 2025 main conference 錄用。



  • 論文:https://arxiv.org/pdf/2505.22648
  • 代碼:https://github.com/Alibaba-NLP/WebAgent

一、背景:信息檢索的新需求與挑戰

在當今信息爆炸的時代,解決復雜問題不再僅僅是簡單的知識檢索,而是需要深入的信息挖掘和多步推理。從醫學研究到科技創新,從商業決策到學術探索,每一個領域都呼喚著能夠自主思考、自主決策的智能體。Deep Research 等系統已經為我們展示了自主多步研究的巨大潛力,但構建這樣的智能體并非易事。它們需要在復雜的網絡環境中感知、決策、行動,還要面對任務復雜度高、泛化能力弱等諸多挑戰。

但打造這樣一個 Deep Research 類智能體智能體,并不簡單!

  • 它得能看懂網頁,能做多步決策;
  • 它得能適應開放動態環境;
  • 它得能自主提問、自主行動、自主修正……

在這種背景下,WebDancer 的出現,走出了一條復現 Deep Research 類智能體的可行路徑。

自主信息檢索智能體的構建,或者如何復現 Deep Research 類的模型一直面臨著兩大棘手難題:高質量訓練數據的稀缺與開放環境訓練的復雜性。這兩大難題如同兩座大山,阻擋了眾多研究者和開發者前進的步伐。然而,WebDancer 的出現,就像一把鋒利的寶劍,成功地劈開了這兩座大山,為自主智能的發展開辟了一條全新的道路。

以下是一些運行的 case:


我們可以看到 WebDancer 可以完成多步的信息檢索,包含多步思考和 action 執行,在運行過程中進行完成自主的任務拆解、知識回溯和反復驗證。

二、訓練數據難獲得:WebDancer 的創新突破

(一)數據稀缺的困境

在自主信息檢索領域,高質量的訓練數據至關重要,OpenAI 的 Deep Research 積累了大量的 browsing data。然而,現實情況是,現有的問答數據集大多淺薄且單一,往往只能解決一兩步的簡單問題。這些數據集不僅數量有限,而且難以反映真實世界中的復雜信息需求。例如,GAIA 數據集僅有 466 個樣本,WebWalkerQA 也只有 680 個樣本,遠遠不足以支持有效的訓練。此外,許多數據集只有測試集或驗證集,缺乏足夠的訓練數據,這使得智能體的訓練面臨巨大的挑戰。

(二)WebDancer 的數據合成策略

面對數據稀缺的困境,WebDancer 采取了創新的數據合成策略,成功地解決了這一難題。WebDancer 通過兩種主要方式構建了高質量的深度信息檢索問答數據集:CRAWLQA 和 E2HQA。

  • CRAWLQA:通過爬取網頁信息,模擬人類瀏覽行為,從權威網站中提取有價值的知識,生成復雜的問答對。這種方法不僅能夠獲取大量數據,還能確保數據的多樣性和真實性。
  • E2HQA:通過逐步增強簡單問題的復雜度,從易到難構建問答對,激勵智能體從弱到強逐步進化。這種方法不僅能夠生成復雜的多步問題,還能確保問題的邏輯性和連貫性。

通過這兩種方法,WebDancer 成功地構建了海量的樣本,極大地豐富了訓練數據。這些數據不僅數量龐大,而且質量上乘,為智能體的訓練提供了堅實的基礎。

(三)ReAct 大道至簡,模型內化 agentic 能力

獲得 QA 對之后,我們使用廣泛使用的 ReAct 框架,用閉源的 GPT-4o 和開源的 QwQ 模型進行長短思維鏈蒸餾,獲得高質量的 agentic 數據。

為什么使用 ReAct,是因為這種方式足夠大道至簡,滿足我們對 Agentic Model 的需求,即只需要給其工具,就可以自主思考、執行、研究。

(四)數據過濾與質量提升

有了大量的數據,如何確保數據的質量呢?WebDancer 采用了多階段的數據過濾策略,確保了數據的高質量。具體來說,WebDancer 通過以下三個階段進行數據過濾:

  • 有效性控制 :直接丟棄不符合指令的數據。
  • 正確性驗證 :只保留正確結果的數據。
  • 質量評估 :通過規則過濾掉重復或冗余的數據點,確保數據的多樣性和邏輯性。

通過這些嚴格的過濾策略,WebDancer 確保了訓練數據的高質量,為智能體的高效學習提供了保障。



二、開放網絡環境難訓練:WebDancer 的高效解決方案

(一)開放環境訓練的挑戰

在開放環境中訓練智能體是一項極具挑戰性的任務。開放環境不僅動態變化,而且部分可觀測,這使得智能體的訓練變得極其復雜。例如,網絡環境中的信息不斷更新,智能體需要不斷適應新的信息和新的任務需求。此外,開放環境中的任務往往需要多步推理和復雜的決策,這對智能體的泛化能力和適應能力提出了更高的要求。

(二)WebDancer 的兩階段訓練策略

為了應對開放環境訓練的挑戰,WebDancer 采用了兩階段訓練策略:監督微調(SFT)和強化學習(RL)。

監督微調(SFT):SFT 階段是智能體的 “冷啟動” 階段。通過在高質量軌跡數據上進行微調,智能體能夠快速適應任務需求,掌握如何在復雜的環境中進行推理和決策。SFT 階段不僅提升了智能體的初始性能,還為后續的強化學習打下了堅實的基礎。

強化學習(RL):RL 階段是智能體性能的 “優化器”。通過與環境的交互,智能體不斷試錯,學習如何在復雜多變的環境中做出最優決策。WebDancer 采用了先進的 DAPO 算法,這種算法能夠動態采樣,充分利用未被充分利用的數據對,從而提高數據效率和策略的魯棒性。

(三)高效的數據利用與動態采樣

在開放環境中,數據的高效利用至關重要。WebDancer 通過動態采樣機制,確保了數據的高效利用。具體來說,DAPO 算法能夠動態調整采樣策略,優先采樣那些未被充分利用的數據對。這種方法不僅提高了數據的利用率,還增強了智能體的泛化能力。

(四)降低強化學習成本

強化學習階段的高計算成本和時間開銷一直是開放環境訓練的一大難題。WebDancer 通過優化算法和硬件資源的高效利用,顯著降低了強化學習的成本。具體來說,WebDancer 采用了高效的 rollout 機制和并行計算技術,將每次回滾的時間和成本降低到了最低。



三、實驗與結果:WebDancer 的卓越表現

WebDancer 的創新策略在 GAIA 和 WebWalkerQA 這兩個極具挑戰性的信息檢索基準測試中得到了充分驗證。

(一)GAIA 數據集

GAIA 數據集旨在評估通用人工智能助手在復雜信息檢索任務上的表現。WebDancer 在 GAIA 數據集上的表現尤為突出,不僅在 Level 1、Level 2 和 Level 3 的任務中均取得了高分,還在平均分上遙遙領先。這表明 WebDancer 能夠在不同難度的任務中保持穩定的高性能,展現了其強大的泛化能力。

(二)WebWalkerQA 數據集

WebWalkerQA 數據集專注于深度網絡信息檢索。WebDancer 在 WebWalkerQA 數據集上的表現同樣出色,尤其是在中等難度和高難度任務中,其性能提升更為明顯。這表明 WebDancer 不僅能夠處理簡單的問題,更能應對復雜的挑戰,真正實現了從簡單到復雜的跨越。

主實驗結果



我們分別用短思維鏈數據訓練了 Qwen-2.5-7B 和 Qwen-2.5-32B 模型,長思維鏈數據訓練了 QwQ 模型。實驗結果顯示,WebDancer 在這些基準測試中取得了顯著的成績,超越了 GPT-4o 等強大的基線模型。

在更具有挑戰的信息檢索任務上的性能



WebDancer 還在 BrowseComp(En.)和 BrowseComp-zh(Zh.)這兩個更具挑戰性的基準測試中進行了評估。在這些測試中,WebDancer 同樣展現出了強大的性能,進一步證明了其在處理復雜信息檢索任務方面的魯棒性和有效性。

實驗分析

我們也做了細致的分析實驗為后續研究者提供方向。



  • 分析實驗 1: RL 能對普通的 Instruction model 有顯著的提升,并且能顯著提高 Pass@1 的正確采樣效率,使之接近 Pass@3,但對 QwQ 這類 Reasoning 模型提升不是很顯著,只能提升采樣的穩定性,這可能和整個 agentic 軌跡長有關。



  • 分析實驗 2: Agentic 數據在于精而不在于多。我們最后僅適用 6k 條長思維鏈的數據在 QwQ 模型上就能在 GAIA 上獲得很好的效果。



  • 分析實驗 3: 長短思維鏈 pattern 在不同模型上不好輕易轉化學習。雖然長思維鏈在 instruction model 和 reasoning model 都能得到很好的效果,但是會帶來很高的非法率,通常是由重復導致的,在小一點的模型上該現象更明顯。

四、未來展望:WebDancer 的新征程

盡管 WebDancer 已經取得了令人矚目的成就,但它的發展之路還遠未結束。未來,WebDancer 將在多個方向上繼續探索和創新。

(一)更多工具的集成

目前,WebDancer 僅集成了兩種基本的信息檢索工具,未來計劃引入更多復雜的工具,如瀏覽器建模和 Python 沙盒環境。這些工具將使智能體能夠執行更復雜的任務,如網頁瀏覽、數據抓取、API 調用等,從而拓展智能體的能力邊界,使其能夠應對更廣泛的挑戰。

(二)任務泛化與基準擴展

目前的實驗主要集中在短答案信息檢索任務上,未來 WebDancer 將擴展到開放域的長文本寫作任務。這將對智能體的推理能力和生成能力提出更高的要求,需要設計更可靠和更有效的獎勵信號。同時,WebDancer 也將參與更多基準測試,以驗證其在不同任務類型和領域中的泛化能力。

五、討論:Post-train Agentic Models

相比于一些驅動于強大的具有很強的 agentic 能力的閉源模型,例如 gpt-o4,claude 的 promtpting 工程框架,本研究的側重點在從頭訓練一個具有強大 agent 能力的模型,這對于實現 agent model 的開源以及推進我們對 agent 在開放系統中如何產生和 scale 的基本理解至關重要。我們使用的的原生 ReAct 框架秉持著簡潔性,體現了大道至簡的原則。

Agentic models 是指那些在交互式環境中,天生支持推理、決策以及多步驟工具使用的 foundation models。這些模型僅通過任務描述的提示,就能展現出諸如規劃、自我反思以及行動執行等突發性能力(emergent capabilities)。

近期的 DeepSearch 和 Deep Research 等系統,展示了強大的底層模型如何作為智能體的核心,通過其對工具調用和迭代推理的天然支持,實現自主的網絡交互。然而,由于網絡環境本質上是動態的且部分可觀察的,強化學習在提升智能體的適應性和魯棒性方面發揮了關鍵作用。在本研究中,我們的目標是通過有針對性的后訓練(post-training),在開源模型中激發自主智能體的能力。

六、結語:WebDancer,開啟自主智能的新時代

WebDancer 的出現,不僅是信息檢索領域的一個重大突破,更是自主智能發展的一個重要里程碑。它通過系統化的訓練范式,從數據構建到算法設計,為構建長期信息檢索智能體,開源模型復現 Deep Research 提供了清晰的指導。WebDancer 的成功,讓我們看到了自主智能體在未來科學研究、教育和生產力提升中的巨大潛力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
洞房夜新娘說上聯“兩座高山守玉門”,新郎對下聯后,她:沒羞沒臊

洞房夜新娘說上聯“兩座高山守玉門”,新郎對下聯后,她:沒羞沒臊

蕭竹輕語
2025-06-20 17:21:16
普京:已得到以色列的保證

普京:已得到以色列的保證

魯中晨報
2025-06-21 21:13:06
狂降14萬!又一中產“神車”跌成白菜價,老車主慘遭集體背刺!

狂降14萬!又一中產“神車”跌成白菜價,老車主慘遭集體背刺!

芳芳歷史燴
2025-06-21 16:32:59
伊朗突發5.5級地震,距福爾多核設施約280公里,專家:與所謂的核試驗無關,系自然發

伊朗突發5.5級地震,距福爾多核設施約280公里,專家:與所謂的核試驗無關,系自然發

魯中晨報
2025-06-21 19:41:09
太美了!夏思凝奪連奪季軍曬照:田徑女神穿旗袍訓練服又美又颯

太美了!夏思凝奪連奪季軍曬照:田徑女神穿旗袍訓練服又美又颯

李喜林籃球絕殺
2025-06-21 17:25:41
46歲殷桃與男友壓馬路,小腹隆起走路姿勢有孕味,男友長相普通

46歲殷桃與男友壓馬路,小腹隆起走路姿勢有孕味,男友長相普通

娛樂圈圈圓
2025-06-20 17:30:24
厚底跑鞋鼻祖,hoka 歐尼歐尼再現“一鞋難求”經典之作!

厚底跑鞋鼻祖,hoka 歐尼歐尼再現“一鞋難求”經典之作!

超級數學建模
2025-06-20 22:40:10
美女網紅律師“翻車”,線上線下“兩張臉”?網友:美顏開大了

美女網紅律師“翻車”,線上線下“兩張臉”?網友:美顏開大了

電影爛番茄
2025-06-19 20:58:44
罷免書已遞交,佩通坦開始自救,60萬泰軍作出選擇,中國不可不防

罷免書已遞交,佩通坦開始自救,60萬泰軍作出選擇,中國不可不防

獵火照狼山
2025-06-21 21:48:12
足協杯!2-1,奧斯卡、恩里克驚艷破門:率云南玉昆晉級八強

足協杯!2-1,奧斯卡、恩里克驚艷破門:率云南玉昆晉級八強

側身凌空斬
2025-06-21 20:56:31
郭碧婷自爆生產過程,為二胎吃盡苦頭,網友:絕對是個狠人

郭碧婷自爆生產過程,為二胎吃盡苦頭,網友:絕對是個狠人

魚樂大使
2025-06-19 15:26:19
“電報”創始人、億萬富翁帕維爾·杜羅夫立遺囑:30年后100多個孩子都可繼承財產

“電報”創始人、億萬富翁帕維爾·杜羅夫立遺囑:30年后100多個孩子都可繼承財產

現代快報
2025-06-21 15:46:24
費德勒追隨納達爾迷上新運動;德約:費德勒是三巨頭最有天賦的

費德勒追隨納達爾迷上新運動;德約:費德勒是三巨頭最有天賦的

網球之家
2025-06-21 23:07:20
經紀人金暢:王鈺棟身價在市場上毫無意義,出三倍浙江也不賣

經紀人金暢:王鈺棟身價在市場上毫無意義,出三倍浙江也不賣

懂球帝
2025-06-21 11:26:29
中方警告全球:不得配合!美媒直言:中國超越的“分水嶺”已到

中方警告全球:不得配合!美媒直言:中國超越的“分水嶺”已到

粵語音樂噴泉
2025-06-20 11:08:17
英媒獨家:貝蒂斯與曼聯商談安東尼轉會,球員愿降薪30%

英媒獨家:貝蒂斯與曼聯商談安東尼轉會,球員愿降薪30%

雷速體育
2025-06-21 21:47:38
剛剛,河南宣布:鳳凰傳奇洛陽站演唱會取消!超165萬人想看的天津站也已取消,“因曾毅身體原因”,鳳凰傳奇道歉

剛剛,河南宣布:鳳凰傳奇洛陽站演唱會取消!超165萬人想看的天津站也已取消,“因曾毅身體原因”,鳳凰傳奇道歉

每日經濟新聞
2025-06-21 20:21:17
4位名人炮轟郭德綱:欺詐觀眾,貪污公款,圈錢無下限,句句狠辣

4位名人炮轟郭德綱:欺詐觀眾,貪污公款,圈錢無下限,句句狠辣

一娛三分地
2025-06-19 20:34:17
中東局勢最新進展:6月21日下午最新消息

中東局勢最新進展:6月21日下午最新消息

第一校尉
2025-06-21 15:05:57
普京下最后通牒:烏方必須“無條件投降”,被俄羅斯全面控制

普京下最后通牒:烏方必須“無條件投降”,被俄羅斯全面控制

亡海中的彼岸花
2025-06-21 19:21:00
2025-06-21 23:48:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10687文章數 142343關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

數碼
旅游
親子
游戲
教育

數碼要聞

電視“鴻蒙”時刻?疑似搭載旗艦手機芯片,革新百年電視產業!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

孕期缺乏這種元素,可能發生性別逆轉?

韓國虛幻5重磅動作新作來了!上架多平臺 2026發售

教育要聞

2025北京高招變數大!這些志愿填報的坑,千萬別踩!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 濉溪县| 汨罗市| 民勤县| 铜川市| 武安市| 浦县| 石渠县| 宁河县| 穆棱市| 开化县| 邵武市| 无棣县| 伊春市| 枣强县| 台中市| 郓城县| 大洼县| 额尔古纳市| 朝阳市| 景泰县| 纳雍县| 江津市| 遵义县| 十堰市| 利津县| 九台市| 红桥区| 喜德县| 平顶山市| 西乌珠穆沁旗| 禄劝| 梅州市| 镇平县| 巴林左旗| 隆子县| 襄汾县| 勐海县| 长葛市| 新民市| 淅川县| 泸西县|