99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

阿里發布信息檢索Agent,可自主上網查資料,GAIA基準超越GPT-4o

0
分享至

不圓 發自 凹非寺
量子位 | 公眾號 QbitAI

Agent能“看懂網頁”,像人類一樣上網?

阿里發布WebDancer,就像它的名字一樣,為“網絡舞臺”而生。

只要輸入指令,它就可以幫你上網搜索、做攻略,實現自主信息檢索代理和類似深度研究模型的推理。

傳統模型只能按固定流程思考,而WebDancer作為一個端到端的自主信息搜索智能體,具備多步推理、工具使用和泛化能力。



WebDancer在GAIA和WebWalkerQA上分別取得了61.1%和54.6%的Pass@3分數,優于基線模型和部分開源框架。

模型和方法均已開源,網友直呼想試:



WebDancer的秘密武器

不同于其它的推理問答模型,WebDancer要像人類一樣思考、理解并操作,可不是一件簡單的事情。

使用GAIA、WebWalkerQA和日常使用情況對WebDancer進行演示,可以看到,WebDancer能夠執行多步驟和復雜推理的長期任務,例如網頁遍歷、信息搜索和問答。

它的“秘密武器”是一種四階段訓練范式,包括瀏覽數據構建、軌跡采樣、針對有效冷啟動的監督微調以及用于改進泛化能力的強化學習。

阿里開源了這個訓練框架,使除了WebDancer以外的智能代理也能夠自主獲取自主搜索和推理技能:

1、瀏覽數據構建



這一步的目標是創建覆蓋真實的網頁環境、需要多步交互的復雜QA對。

可以分為兩個網絡數據生成流程,如上圖所示。

在CRAWLQA中,需要先收集知識性網站(ArXiv、GitHub、Wiki等)的主URL,然后在主頁上系統地點擊和收集通過子鏈接可訪問的子頁面,模擬人類行為。

使用預定義規則,就可以利用GPT4o根據收集到的信息生成QA對(1.0版)了。

對于E2HQA(Easy-to-Hard QA)來說,將初始的簡單問題Q1通過實體檢索→信息擴展→問題重構的步驟,使任務在復雜性上逐步擴展,從簡單的實例到更具挑戰性的實例。

依然是使用GPT-4o重寫問題,直到迭代達到n,QA對足夠成熟。

2、軌跡采樣



這一步要從QA對中生成高質量的思維-動作-觀察(Thought-Action-Observation)執行軌跡。

WebDancer的代理框架基于ReAct,這是語言代理最流行的方法,一個ReAct軌跡由多個思維-動作-觀察輪次組成:

在思維階段,模型會根據輸入生成推理鏈,然后在動作階段將參數為結構化JSON,最后在觀察階段返回結果(如網頁摘要或搜索片段)

思維階段生成的思維鏈對智能體執行十分重要,WebDancer采用了雙路徑采樣的方法,可分為短思維鏈和長思維鏈兩條路徑:

  • 短思維鏈適用于單步驟任務,直接使用GPT-4o生成簡潔軌跡;
  • 長思維鏈適用于多步驟任務,使用專用推理模型(LRMs、QwQ-Plus)生成帶長鏈推理的軌跡。



因為LRM、QwQ-Plus在訓練過程中沒有接觸過多步推理輸入,在進一步推理時,WebDancer排除了之前的思維,但它們作為有價值的監督信號保留在了生成的軌跡中。

隨后,WebDancer采用了一個基于漏斗的三階段軌跡過濾框架,僅保留滿足以下三個標準的軌跡:信息非冗余、目標一致性以及邏輯推理準確性。

3、有監督微調



在獲得ReAct格式的優質軌跡后,就可以將其無縫整合到智能體的有監督微調(Supervised Fine-Tuning,SFT)訓練階段,這個步驟可以教會模型基礎的任務分解與工具調用能力,同時盡可能保留其原有的推理能力。

在SFT階段,要先將軌跡轉換為標記化輸入,明確分隔符,然后計算Thought和Action部分的損失(忽略Observation噪聲),損失公式如下:



其中tc

是任務上下文,



為完整的智能體執行軌跡,每個



代表思考/行動/觀察,



過濾掉對應外部反饋的標記,確保損失是在代理的自主決策步驟上計算的。

SFT階段為后續的RL階段提供了強大的初始化。

4、強化學習

這一步的目標是優化代理在真實網絡環境中的決策能力和泛化能力。

在SFT階段的基礎上,本階段采用解耦裁剪動態采樣策略優化算法(Decoupled Clip and Dynamic Sampling Policy Optimization,DAPO)來精調策略模型。

DAPO是一種基于獎勵模型R的策略優化算法,其工作原理如下:

首先,對于每個包含部分答案



的階段軌跡



,算法生成一組候選執行序列



。通過最大化以下目標更新策略:



隨后,過采樣并過濾準確率為1或0的提示(prompts),確保智能體聚焦于高質量信號的學習。

最后,采用新舊策略的概率比替代固定KL懲罰項:





獎勵設計在RL訓練過程中起著至關重要的作用,WebDancer的獎勵機制主要由兩種類型的獎勵組成,分別為格式獎勵和答案獎勵,權重分別為0.1和0.9。

最終獎勵函數為:

有效性分析



在GAIA和WebWalkerQA這兩個成熟的基準數據集上測試WebDancer,結果顯示,WebDancer在GAIA上達到46.6%的平均準確率,WebWalkerQA上達到43.2%,優于基線模型和部分開源智能體框架。

可以看到,不具備代理能力的框架(No Agency)在GAIA和WebWalkerQA基準測試中均表現不佳,這突出了主動信息搜索和代理決策對于這些任務的重要性。

閉源代理系統OpenAI DR通過端到端強化學習訓練實現了最高分,在開源框架中,基于原生強推理模型(如QwQ-32B)構建的代理方法始終優于非代理對應方法,證明了在代理構建中利用推理專用模型的有效性。



在兩個更具挑戰性的數據集BrowseComp(英文)和BrowseComp-zh(中文)上測試WebDancer,均表現出持續強勁的性能,突顯了其在處理困難推理和信息搜索任務中的魯棒性和有效性。



鑒于智能體環境的動態性和復雜性,以及GAIA測試集相對較小且變化較大的特點,對Pass@3和Cons@3進行細粒度分析。

值得注意的是,經過RL后的Pass@1性能與SFT基線的Pass@3相當,表明RL能夠更有效地采樣正確響應。

對于語言推理模型(LRMs),雖然經過RL后Pass@1、Pass@3或Cons@3沒有顯著提升,但在一致性方面有明顯的改善;這可能是過長軌跡導致的稀疏獎勵信號所致。

參考鏈接:
https://x.com/_akhaliq/status/1937997314737553873
論文:https://arxiv.org/abs/2505.22648
github:https://github.com/Alibaba-NLP/WebAgent/tree/main/WebDancer
模型:https://huggingface.co/Alibaba-NLP/WebDancer-32B

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
第43屆香港金像獎,這次算是“涼透”了,吳鎮宇的話說對了

第43屆香港金像獎,這次算是“涼透”了,吳鎮宇的話說對了

八卦南風
2025-04-29 15:49:18
42歲技術總監被辭僅得8萬,秒退所有工作群,次日217個未接來電

42歲技術總監被辭僅得8萬,秒退所有工作群,次日217個未接來電

磊子講史
2025-06-21 16:39:29
扛住了!醫學專家首談凱特王妃:能活下來已是“奇跡”

扛住了!醫學專家首談凱特王妃:能活下來已是“奇跡”

南南說娛
2025-06-27 14:06:36
83歲蔡瀾去世,遺體已火化,最后露面消瘦憔悴,臉色發暗

83歲蔡瀾去世,遺體已火化,最后露面消瘦憔悴,臉色發暗

180視角
2025-06-27 16:36:03
別罵了!楊瀚森剛進NBA就被下放真相曝光,姚明當年也這樣!

別罵了!楊瀚森剛進NBA就被下放真相曝光,姚明當年也這樣!

春序娛樂
2025-06-27 17:16:38
熱搜第一!網紅“小四爺”,涉嫌詐騙被警方帶走,案件由江蘇警方辦理

熱搜第一!網紅“小四爺”,涉嫌詐騙被警方帶走,案件由江蘇警方辦理

揚子晚報
2025-06-27 10:19:19
“假球”都解釋不了,中國三人男籃闖進世界杯8強,劇情太狗血

“假球”都解釋不了,中國三人男籃闖進世界杯8強,劇情太狗血

真理是我親戚
2025-06-27 15:27:29
以色列證實地面部隊進入伊朗!德黑蘭確認最高指揮官身亡

以色列證實地面部隊進入伊朗!德黑蘭確認最高指揮官身亡

項鵬飛
2025-06-26 22:11:12
北約峰會結束,澤連斯基就公開點名中國,歐盟計劃對美國發起報復

北約峰會結束,澤連斯基就公開點名中國,歐盟計劃對美國發起報復

博覽歷史
2025-06-27 10:19:45
假農民、真罪犯、耍大牌!揭秘《星光大道》冠軍們的墮落軌跡

假農民、真罪犯、耍大牌!揭秘《星光大道》冠軍們的墮落軌跡

冷紫葉
2025-06-26 12:13:22
22年隱痛終手術!貝克漢姆修復舊傷,維多利亞曬術后照力挺丈夫

22年隱痛終手術!貝克漢姆修復舊傷,維多利亞曬術后照力挺丈夫

雷速體育
2025-06-27 15:59:07
眾星發文悼念蔡瀾,其遺信公布

眾星發文悼念蔡瀾,其遺信公布

環球網資訊
2025-06-27 17:33:33
3個到期合同+1個雙向湖人目前正式名單中仍然沒有任何中鋒!

3個到期合同+1個雙向湖人目前正式名單中仍然沒有任何中鋒!

直播吧
2025-06-27 19:19:40
稀土高管集體辭職,關鍵技術頻頻出事,國家終于出手!

稀土高管集體辭職,關鍵技術頻頻出事,國家終于出手!

一個有靈魂的作者
2025-06-27 07:57:50
去了趟伊朗,偏見被徹底打破!揭開你所不知道的真實面貌!

去了趟伊朗,偏見被徹底打破!揭開你所不知道的真實面貌!

天下霸奇
2025-06-19 09:14:46
中美正式簽署諒解備忘錄,美要求中國先交付稀土,美國就取消反制

中美正式簽署諒解備忘錄,美要求中國先交付稀土,美國就取消反制

說說史事
2025-06-27 14:53:40
2025養老金調整無進展,人社部卻連發三條動態,真令人浮想聯翩

2025養老金調整無進展,人社部卻連發三條動態,真令人浮想聯翩

社保精算師
2025-06-27 17:33:19
運氣!英國女子嫌人工授精太貴,購買針筒自行操作,竟一次成功

運氣!英國女子嫌人工授精太貴,購買針筒自行操作,竟一次成功

二月侃事
2025-06-27 11:43:57
女孩被120強制帶走后死亡 廣西貴港警方辟謠

女孩被120強制帶走后死亡 廣西貴港警方辟謠

閃電新聞
2025-06-26 15:10:02
丈夫將懷孕9個月的妻子丟高速,2小時后,一條新聞令他追悔莫及

丈夫將懷孕9個月的妻子丟高速,2小時后,一條新聞令他追悔莫及

曉悅流年
2025-06-25 14:56:43
2025-06-27 19:35:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10746文章數 176172關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

香港四大才子之一蔡瀾去世 被金庸譽為"真正瀟灑的人"

頭條要聞

香港四大才子之一蔡瀾去世 被金庸譽為"真正瀟灑的人"

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

炸裂!榜一大姐深夜怒錘頂流

財經要聞

美元跌跌不休 外資押注人民幣匯率補漲

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

手機
家居
親子
游戲
公開課

手機要聞

做有質量的纖薄 榮耀Magic V5鉸鏈材料達到超級鋼強度

家居要聞

明亮寬敞 空間合理安排

親子要聞

湖南一老師吐槽幼兒園一只鴨100個人左右吃,家長們火冒三丈

羊蹄山之魂賀死亡擱淺2發售:你彈吉他我彈三味線!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 屏南县| 海兴县| 榆树市| 礼泉县| 云林县| 潮安县| 山丹县| 海兴县| 无为县| 资源县| 澄迈县| 普定县| 易门县| 景洪市| 临沧市| 五指山市| 濮阳县| 兴和县| 泽州县| 东城区| 玉溪市| 缙云县| 顺昌县| 奈曼旗| 宜兰县| 平塘县| 吉首市| 赣榆县| 阿鲁科尔沁旗| 仙游县| 井研县| 龙南县| 墨脱县| 龙井市| 杭州市| 安仁县| 阿图什市| 中江县| 通河县| 日照市| 延边|