昨日凌晨,阿里巴巴正式開源了一款名為WebAgent的創(chuàng)新型自主搜索AI代理。無論是學(xué)術(shù)研究、商業(yè)分析還是日常信息獲取,搜索一直是從海量網(wǎng)絡(luò)數(shù)據(jù)中提取準(zhǔn)確且有價(jià)值內(nèi)容的重要手段。然而,傳統(tǒng)搜索工具往往只能返回表層的信息結(jié)果,難以滿足用戶更復(fù)雜、多樣的需求。
相比之下,WebAgent具備端到端的自主信息檢索能力以及多步驟的推理分析功能。它能夠像人類一樣主動(dòng)感知網(wǎng)絡(luò)環(huán)境,做出判斷并執(zhí)行相關(guān)操作。舉例來說,當(dāng)用戶需要查詢某一領(lǐng)域的最新科研進(jìn)展時(shí),WebAgent會(huì)自動(dòng)訪問多個(gè)學(xué)術(shù)數(shù)據(jù)庫,篩選并挑選出最相關(guān)的文獻(xiàn)資料,隨后基于用戶指示進(jìn)行深入分析與內(nèi)容提煉。
不僅如此,WebAgent還能夠識(shí)別文獻(xiàn)中的關(guān)鍵信息,通過多步推理整合不同文獻(xiàn)的觀點(diǎn),生成一份系統(tǒng)全面且精準(zhǔn)的研究報(bào)告,極大提升了信息檢索的深度和質(zhì)量。
開源地址:https://github.com/Alibaba-NLP/WebAgent
WebDancer框架由四個(gè)主要部分組成,涵蓋從數(shù)據(jù)構(gòu)建到訓(xùn)練優(yōu)化的全過程,旨在打造能夠自主執(zhí)行復(fù)雜信息檢索任務(wù)的智能體。整個(gè)系統(tǒng)的起點(diǎn)是瀏覽數(shù)據(jù)的構(gòu)建,因?yàn)楦哔|(zhì)量的訓(xùn)練數(shù)據(jù)對(duì)智能體的學(xué)習(xí)效果和泛化能力至關(guān)重要。為突破傳統(tǒng)數(shù)據(jù)集的不足,WebDancer采用了兩種創(chuàng)新性的數(shù)據(jù)合成策略。
其中一種是CRAWLQA方法,它通過模擬人類瀏覽網(wǎng)頁的方式,遞歸爬取知名網(wǎng)站的首頁及其子頁面,收集大量豐富的信息。接著,利用先進(jìn)模型對(duì)這些內(nèi)容進(jìn)行處理,生成內(nèi)容深刻且多樣化的問答對(duì)。這些問答對(duì)不僅涵蓋多種類型的問題,還通過多步驟推理和復(fù)雜目標(biāo)拆解,顯著提升了任務(wù)的難度和復(fù)雜性。
另一種數(shù)據(jù)生成方式是E2HQA,該方法采用迭代增強(qiáng)策略,將基礎(chǔ)的問答對(duì)逐漸演化為需要多步推理才能解決的復(fù)雜問題。具體來說,它從簡(jiǎn)單的事實(shí)性問題開始,逐步引入新的信息和相關(guān)子問題,最終形成多層次、多步驟的問題結(jié)構(gòu)。這兩種數(shù)據(jù)構(gòu)建策略共同為WebDancer提供了豐富且多樣化的訓(xùn)練樣本,提升了模型在不同任務(wù)上的學(xué)習(xí)能力和表現(xiàn)。
隨后進(jìn)入軌跡采樣階段。此階段基于ReAct框架,結(jié)合拒絕采樣技術(shù)來生成高質(zhì)量的行為軌跡。ReAct框架的核心理念是將推理與執(zhí)行緊密結(jié)合,形成一個(gè)循環(huán)的互動(dòng)過程,智能體會(huì)生成自由形式的思考內(nèi)容以及結(jié)構(gòu)化的行動(dòng)指令,借此與外部環(huán)境交互并獲取反饋。
為了保證軌跡的有效性和連貫性,WebDancer采用了兩種推理方式:短推理和長(zhǎng)推理。短推理借助大型模型直接輸出簡(jiǎn)明的推理路徑,而長(zhǎng)推理則通過專門的推理模型,分步構(gòu)建出更復(fù)雜細(xì)致的推理過程。
這兩種策略生成的軌跡經(jīng)過嚴(yán)格篩選,以保證其質(zhì)量和相關(guān)性。篩選環(huán)節(jié)涵蓋了有效性檢測(cè)、準(zhǔn)確性核驗(yàn)以及整體質(zhì)量評(píng)估,確保最終選用的軌跡能夠?yàn)橹悄荏w訓(xùn)練提供可靠且有價(jià)值的指導(dǎo)。
完成數(shù)據(jù)準(zhǔn)備后,WebDancer進(jìn)入監(jiān)督微調(diào)(SFT)階段。該階段旨在利用高質(zhì)量的軌跡數(shù)據(jù)對(duì)智能體進(jìn)行初步訓(xùn)練,使其能夠適應(yīng)信息檢索任務(wù)的具體形式和環(huán)境特點(diǎn)。
在監(jiān)督微調(diào)過程中,WebDancer對(duì)軌跡中的思考過程、行動(dòng)步驟和觀察結(jié)果進(jìn)行了詳細(xì)標(biāo)注,并通過損失函數(shù)來優(yōu)化模型參數(shù)。為了增強(qiáng)模型的魯棒性,訓(xùn)練時(shí)排除了外部反饋的干擾,促使模型更加專注于自身的決策能力。這一階段的訓(xùn)練為智能體奠定了堅(jiān)實(shí)的基礎(chǔ),使其在之后的強(qiáng)化學(xué)習(xí)環(huán)節(jié)中能夠更好地應(yīng)對(duì)復(fù)雜任務(wù)。
強(qiáng)化學(xué)習(xí)(RL)階段是WebDancer框架中的核心環(huán)節(jié)。在此過程中,智能體通過不斷與環(huán)境互動(dòng),逐步學(xué)習(xí)如何在復(fù)雜任務(wù)中做出最優(yōu)選擇。WebDancer采用了專門為智能體訓(xùn)練設(shè)計(jì)的DAPO算法。
該算法通過動(dòng)態(tài)采樣的方法,充分挖掘和利用之前未被充分利用的問答數(shù)據(jù),從而提升數(shù)據(jù)使用效率和策略的穩(wěn)定性。智能體在多輪嘗試與反饋中不斷調(diào)整和改進(jìn)決策策略,最終實(shí)現(xiàn)了高效的多步推理與信息檢索能力。
我們相信人工智能為普通人提供了一種“增強(qiáng)工具”,并致力于分享全方位的AI知識(shí)。在這里,您可以找到最新的AI科普文章、工具評(píng)測(cè)、提升效率的秘籍以及行業(yè)洞察。 歡迎關(guān)注“福大大架構(gòu)師每日一題”,讓AI助力您的未來發(fā)展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.