智東西AI前瞻(公眾號(hào):zhidxcomAI)
作者 江宇
編輯 漠影
智東西AI前瞻7月8日?qǐng)?bào)道,昨日,阿里巴巴通義實(shí)驗(yàn)室正式開源其最新網(wǎng)絡(luò)智能體WebSailor,該智能體在多個(gè)高難度任務(wù)評(píng)測(cè)中刷新了開源系統(tǒng)的最好成績(jī),成為首個(gè)在BrowseComp等基準(zhǔn)上逼近閉源系統(tǒng)能力的開源方案。
WebSailor可在開放網(wǎng)頁(yè)環(huán)境中自主跳轉(zhuǎn)頁(yè)面、查找信息、整合多源線索并完成推理,適用于處理路徑不明確、問(wèn)題模糊、需多步判斷的復(fù)雜檢索任務(wù)。
7月3日,WebSailor技術(shù)報(bào)告在Hugging Face Papers當(dāng)日熱度榜中排名第一,成為當(dāng)天關(guān)注度最高的AI論文之一。
該項(xiàng)目的模型代碼、訓(xùn)練方法與評(píng)測(cè)數(shù)據(jù)集也已同步在GitHub開源。
GitHub地址:https://github.com/Alibaba-NLP/WebAgent
一、評(píng)測(cè)表現(xiàn):首次在BrowseComp任務(wù)中追近閉源模型
WebSailor-72B版本在三大公開評(píng)測(cè)集上表現(xiàn)突出:
1、BrowseComp-en:12.0%
2、BrowseComp-zh:30.1%
3、GAIA(信息檢索子集):55.4%
其中,BrowseComp是由OpenAI發(fā)布的網(wǎng)頁(yè)智能體評(píng)測(cè)集,覆蓋1266個(gè)難度極高的檢索任務(wù),考察模型在開放網(wǎng)頁(yè)上的搜索、篩選、整合和推理能力。
在BrowseComp等評(píng)測(cè)中,WebSailor在開源智能體中實(shí)現(xiàn)斷層領(lǐng)先,超過(guò)DeepSeek R1等開源方案,并首次在多個(gè)指標(biāo)上逼近Grok-3、Doubao-Search等閉源方案。
值得注意的是,盡管訓(xùn)練聚焦高難任務(wù),WebSailor在面向初級(jí)問(wèn)答的SimpleQA子集上也展現(xiàn)出泛化能力。
在該任務(wù)中,WebSailor-72B取得93.5%的準(zhǔn)確率,超過(guò)包括WebDancer、WebThinker、DeepSeek等多種方案。
WebSailor在多個(gè)維度評(píng)測(cè)中均位列開源智能體第一,進(jìn)一步縮小了與OpenAI DeepResearch等閉源系統(tǒng)的差距。
二、打造高不確定性任務(wù)集,提升Agent復(fù)雜推理能力
WebSailor的核心突破在于其完整的后訓(xùn)練(post-training)方案,貫穿數(shù)據(jù)生成、冷啟動(dòng)調(diào)優(yōu)、強(qiáng)化學(xué)習(xí)三大階段:
1、高不確定性任務(wù)合成
通義團(tuán)隊(duì)構(gòu)建了名為SailorFog-QA的問(wèn)答數(shù)據(jù)集,旨在模擬高不確定性、模糊路徑的信息檢索任務(wù),采用以下方式生成問(wèn)題樣本:
- 通過(guò)“隨機(jī)游走”模擬網(wǎng)頁(yè)跳轉(zhuǎn)行為,在真實(shí)網(wǎng)頁(yè)中構(gòu)建復(fù)雜知識(shí)圖譜;
- 利用“圖結(jié)構(gòu)采樣 + 信息模糊化”處理,制造多跳、非線性、起點(diǎn)不明的問(wèn)題,提升任務(wù)不確定性。
2、冷啟動(dòng)微調(diào)(RFT)
該智能體基于Qwen-2.5(3B、7B、32B、72B)系列模型進(jìn)行初始化,并通過(guò)對(duì)專家路徑的壓縮重構(gòu),生成清晰的中間推理步驟,從而增強(qiáng)其在復(fù)雜任務(wù)路徑中的可控性與穩(wěn)定性。
3、高效強(qiáng)化學(xué)習(xí)算法:DUPO
WebSailor引入強(qiáng)化學(xué)習(xí)新算法Duplicating Sampling Policy Optimization(DUPO),采用雙階段動(dòng)態(tài)采樣策略:
- RL前期:剔除過(guò)于簡(jiǎn)單的問(wèn)題,集中訓(xùn)練高難度軌跡;
- RL訓(xùn)練中:重復(fù)采樣困難軌跡結(jié)果,并加入當(dāng)前批次以高效迭代。
該策略在提升效果的同時(shí),將復(fù)雜Agent的強(qiáng)化學(xué)習(xí)訓(xùn)練速度提升2–3倍。
三、產(chǎn)品線布局:從基準(zhǔn)構(gòu)建,到原生瀏覽器智能體
WebSailor是通義實(shí)驗(yàn)室“Web智能體”系列的第三項(xiàng)重要發(fā)布:
- WebWalker(2025年1月):主攻網(wǎng)頁(yè)任務(wù)評(píng)測(cè)基準(zhǔn)構(gòu)建,提升評(píng)測(cè)標(biāo)準(zhǔn)化與復(fù)現(xiàn)性;
- WebDancer(2025年5月):關(guān)注自主檢索Agent策略學(xué)習(xí),強(qiáng)化信息搜集與自決能力;
- WebSailor(2025年7月):整合任務(wù)構(gòu)建、調(diào)優(yōu)與強(qiáng)化學(xué)習(xí)方法,首次在開源系統(tǒng)中實(shí)現(xiàn)對(duì)閉源系統(tǒng)的能力追近。
通義團(tuán)隊(duì)稱,后續(xù)將繼續(xù)擴(kuò)展該系列,構(gòu)建“基于瀏覽器的原生智能體框架”,適配更多開放式、跨模態(tài)的復(fù)雜推理場(chǎng)景。
結(jié)語(yǔ):朝“開源版DeepResearch”邁進(jìn)一步
從大規(guī)模任務(wù)合成到高效強(qiáng)化學(xué)習(xí),從Benchmarks構(gòu)建到模型開源,WebSailor正逐步進(jìn)化。
雖然距離OpenAI等閉源系統(tǒng)仍有差距,但其在復(fù)雜任務(wù)上的大幅進(jìn)展,正在為“開源Agent可用化”提供新的可能性。
如果說(shuō)DeepResearch代表了閉源網(wǎng)絡(luò)Agent的能力上限,那么WebSailor的誕生,或許意味著開源世界正開始接近那道分水嶺。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.