99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

小模型媲美大模型,阿里通義開源「推理+搜索」預訓練新框架

0
分享至

  • 通義實驗室 投稿
    量子位 | 公眾號 QbitAI

為提升大模型“推理+搜索”能力,阿里通義實驗室出手了。

最新研究開源全新通用預訓練框架——MaskSearch,在域內及跨域開放域問答任務上均較基線方法取得顯著性能提升。

小模型甚至能媲美大模型表現。



在推理+搜索方向,通義實驗室搜索團隊已提出ZeroSearch、OmniSearch等工作,通過在特定的下游任務進行強化學習訓練,讓大模型在與環(huán)境交互的過程中學習使用搜索引擎。

該團隊認為,僅在特定任務上訓練會導致模型的泛化能力受限,難以適應更多場景下的檢索推理任務。

受BERT模型在預訓練過程中使用的掩碼(Mask)預測任務啟發(fā),MaskSearch引入了檢索增強型掩碼預測任務

也就是讓模型使用搜索工具,預測文本中被遮蔽的部分,在預訓練過程中有效學習通用的任務分解、推理等智能體策略,同時熟練掌握搜索引擎的使用方法,為其后續(xù)適配多領域任務奠定基礎。

不僅如此,MaskSearch可以兼容監(jiān)督微調(SFT)和強化學習(RL)兩種訓練方法。

通過加入預訓練的二階段訓練,MaskSearch相比只在下游任務進行訓練的基線方法,在多個開放域問答數據集上有明顯效果提升。



MaskSearch長啥樣?

接下來,一起來深入探究MaskSearch的核心架構與運作機制。



★任務定義

檢索增強型掩碼預測(RAMP)作為 MaskSearch 的預訓練任務,其核心要義在于:

在輸入的文本序列中,對關鍵信息進行掩碼處理,模型需主動借助外部知識庫 ,調用搜索工具來預測這些被掩蓋的文本片段。

為了提升被掩碼部分的難度,除了在過去掩碼預測任務中常被遮蔽的命名實體(如人名、地名、組織名等)、日期和數字,MaskSearch還考慮了以下幾類關鍵信息:

  • 本體知識:文本中涉及的分類體系或知識體系中的關鍵概念;
  • 特定術語:針對特定領域或主題的專業(yè)術語;
  • 數值:文本中涉及的具體數值,如統(tǒng)計數據、測量值等。

這不僅增加了任務的難度,還促使模型在檢索和推理過程中更加精細化地處理信息,從而提升其在多領域任務中的適應能力和泛化能力。

★訓練方法

監(jiān)督微調

為了生成用于監(jiān)督微調(Supervised Finetuning, SFT)的思維鏈(CoT)數據,作者提出一種結合Agent合成與蒸餾(Distillation)的數據生成方法,具體包括:

  • Agent合成: 首先,搭建多智能體系統(tǒng),納入規(guī)劃、搜索改寫、觀察分析等角色,協(xié)同進行思維鏈的生成任務。最終由一個LLM負責答案判斷,僅保留正確答案的思維鏈。
  • 蒸餾:為了快速擴展數據集并保持高質量,使用已有數據訓練后的教師模型,直接生成推理軌跡,并逐步迭代教師模型,從而逐步提升數據質量。

強化學習

強化學習部分,作者采用了動態(tài)采樣策略優(yōu)化(DAPO)算法,構建混合獎勵(Hybrid Reward)系統(tǒng)——格式獎勵檢查模型輸出是否符合指定格式,回答獎勵則評估生成答案與標準答案的一致性。

作者探索了多種回答獎勵函數,最終選擇基于模型的獎勵函數,使用Qwen2.5-72B-Instruct模型作為評判,為生成答案和標準答案的一致性進行打分。

課程學習

為了幫助從易到難依次學習,作者提出依據掩碼數量對訓練樣本進行難度分級,讓模型首先通過簡單樣本學習基礎推理技能,然后逐步提升能力以應對更具挑戰(zhàn)性的場景。

實驗結果如何?

★主要結果

作者通過基于不同大小的Qwen和LLaMA模型的實驗證明,兩階段MaskSearch訓練框架顯著提升了大模型的搜索和推理能力。

遵循以RAMP作為預訓練任務,HotpotQA數據集作為下游任務的訓練流程,MaskSearch在領域內(in-domain)數據集上穩(wěn)定提升模型召回率;在Bamboogle等領域外數據集上,性能提升更為顯著,小模型甚至能媲美大模型表現,驗證了RAMP作為可擴展學習信號的有效性。



實驗進一步驗證了監(jiān)督學習(SFT)與強化學習(RL)兩種訓練方式與MaskSearch框架的兼容性。

其中,RL在RAMP任務上展現出更高性能上限,尤其在HotpotQA等領域內任務中,在所有大小的Qwen模型都取得了最優(yōu)效果。

這表明RL通過動態(tài)采樣策略和混合獎勵機制,能更精準優(yōu)化模型的多步搜索與推理流程,為提升檢索增強模型的適應性提供了更強的訓練范式。

★Scaling性能

在監(jiān)督學習的場景下,作者通過不同訓練步數實驗驗證 MASKSEARCH 的可擴展性:

小模型(如1B)經預訓練后性能提升顯著,而大模型(如 7B)受限于自進化數據的多樣性,性能增益相對平緩,但召回率分數仍相對僅微調模型有所增長。



這證明 RAMP 對不同規(guī)模模型均有持續(xù)提升的潛力,也表明數據質量和多樣性是決定 SFT 方法模型性能上限的關鍵因素。

★監(jiān)督課程學習效果

此外,實驗驗證了基于掩碼數量設計的課程學習訓練策略。

具體方法是訓練時按掩碼數量分層采樣數據,每個數量對應10K訓練樣本,配合6K HotpotQA數據維持任務平衡。當掩碼數量從1逐步增至4時,Qwen2.5-7B模型在驗證集上的得分明顯增加,且顯著高于將不同數量掩碼的數據混合訓練時的表現。



此外,在下游任務上課程學習也有進一步提升模型訓練后表現的效果,驗證了難度梯度設計對推理能力構建的促進作用。

★更多分析

1、掩碼策略影響

掩碼策略是影響RAMP預訓練任務難度的另一重要因素。

作者對比了隨機掩碼與基于困惑度(PPL)的難度導向掩碼策略,也就是通過計算模型恢復掩碼時的損失值(即困惑度),優(yōu)先選擇恢復難度高的部分進行遮蔽。

實驗顯示,PPL策略在FanoutQA數據集上提升模型召回率,但在其它數據集中也會因過度追求難度導致性能下降,表明任務難度仍需要與模型當前搜索和推理能力相匹配。



因此,結合課程學習的訓練策略平衡難度,能夠在整體上獲得更優(yōu)效果。

2、RL獎勵函數影響

在強化學習訓練過程中,不同獎勵函數對模型性能影響各異。

以Qwen2.5-7b模型為例,基于token級召回率的獎勵函數促使模型為提升召回率,向答案中堆砌大量無關信息,致使回答長度大幅增加,相較于其它RL獎勵函數實際性能顯著下滑。

盡管引入懲罰項以抑制回答長度,能在一定程度上減少信息冗余,但模型仍可在有限長度內通過枚舉方式鉆規(guī)則漏洞。



相較而言,基于模型的獎勵函數表現出最佳性能,在模型生成的回答長度、token級召回率以及經Qwen72b模型評判的分數上,均優(yōu)于其它兩種獎勵方法,有效規(guī)避獎勵欺騙問題,且RL訓練全程表現出卓越的穩(wěn)定性和高效性。

總之,MaskSearch致力于提升大型語言模型(LLM)的智能體推理+搜索能力。該框架依托檢索增強型掩碼預測(RAMP)預訓練任務,賦能模型自主執(zhí)行多步搜索與推理,填補文本中的掩碼空白,實現外部知識的深度整合。經監(jiān)督微調(SFT)與強化學習(RL)雙重訓練路徑錘煉,并引入課程學習策略,MaskSearch在域內及跨域開放域問答任務上均較基線方法取得顯著性能提升。

Paper: https://arxiv.org/abs/2505.20285
GitHub: https://github.com/Alibaba-NLP/MaskSearch

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
開了四年的“特斯拉”,突然要花15萬換電池?車主:莫名其妙

開了四年的“特斯拉”,突然要花15萬換電池?車主:莫名其妙

瀟湘晨報
2025-06-01 11:07:20
英媒:斯塔默稱將恢復英國“戰(zhàn)備狀態(tài)”,提升武器產能至戰(zhàn)時水平

英媒:斯塔默稱將恢復英國“戰(zhàn)備狀態(tài)”,提升武器產能至戰(zhàn)時水平

環(huán)球網資訊
2025-06-01 20:17:35
55家媒體怒贊哈佛女留學生,網民為啥唱反調?

55家媒體怒贊哈佛女留學生,網民為啥唱反調?

韜聞
2025-06-01 11:16:01
小沈陽演唱會口碑翻車,觀眾喊退票提前離場,力捧18歲女兒被吐槽

小沈陽演唱會口碑翻車,觀眾喊退票提前離場,力捧18歲女兒被吐槽

電影偵探社
2025-06-01 17:58:03
太不容易了!鄭欽文取勝后直接倒地慶祝 耗時2小時47分鐘艱難取勝

太不容易了!鄭欽文取勝后直接倒地慶祝 耗時2小時47分鐘艱難取勝

直播吧
2025-06-01 22:25:22
首位在哈佛畢業(yè)典禮上演講的中國大陸留學生,原想露臉卻露了屁股

首位在哈佛畢業(yè)典禮上演講的中國大陸留學生,原想露臉卻露了屁股

將軍箭
2025-06-01 22:54:05
國米內訌!4000萬歐冠功臣憤怒拍肩+質問主帥:憑啥決賽不讓我上

國米內訌!4000萬歐冠功臣憤怒拍肩+質問主帥:憑啥決賽不讓我上

我愛英超
2025-06-01 23:11:00
小沈陽演唱會成家庭卡拉OK,現場歌迷憤然離場

小沈陽演唱會成家庭卡拉OK,現場歌迷憤然離場

草莓解說體育
2025-06-02 02:03:01
突發(fā)!烏稱擊中多架俄戰(zhàn)略轟炸機

突發(fā)!烏稱擊中多架俄戰(zhàn)略轟炸機

環(huán)球時報國際
2025-06-01 22:59:58
鄭欽文逆天體能!激戰(zhàn)167分鐘后采訪“凡爾賽”:再打2盤也沒問題

鄭欽文逆天體能!激戰(zhàn)167分鐘后采訪“凡爾賽”:再打2盤也沒問題

我愛英超
2025-06-01 22:55:51
污蔑!荷蘭防相妄稱中國想“偷”芯片

污蔑!荷蘭防相妄稱中國想“偷”芯片

看看新聞Knews
2025-06-01 14:24:10
陳震:尊界S800只是選擇了適合我的配置!庫里南賣掉,換了閃靈!

陳震:尊界S800只是選擇了適合我的配置!庫里南賣掉,換了閃靈!

悠閑歷史
2025-06-01 23:05:00
俞灝明官宣結婚后,王曉晨終于發(fā)聲!曬美照與玫瑰花,幸福爆表

俞灝明官宣結婚后,王曉晨終于發(fā)聲!曬美照與玫瑰花,幸福爆表

西瓜愛娛娛
2025-06-01 11:21:25
街頭巷尾的信號:老百姓咋知道快打仗了?

街頭巷尾的信號:老百姓咋知道快打仗了?

文雅筆墨
2025-06-01 15:43:20
一覺醒來,陶晶瑩老公李李仁的天塌了!估計他要有心臟病都氣犯病

一覺醒來,陶晶瑩老公李李仁的天塌了!估計他要有心臟病都氣犯病

小娛樂悠悠
2025-06-01 16:52:46
20歲少女影院接客,擦拭紙巾扔一地,價格曝光,一細節(jié)信息量大

20歲少女影院接客,擦拭紙巾扔一地,價格曝光,一細節(jié)信息量大

博士觀察
2025-06-01 18:33:11
新華社消息|俄偵查委員會:布良斯克和庫爾斯克地區(qū)兩座橋梁被炸事件是恐怖襲擊

新華社消息|俄偵查委員會:布良斯克和庫爾斯克地區(qū)兩座橋梁被炸事件是恐怖襲擊

新華社
2025-06-01 17:40:55
U16國足首奪冠!單場狂轟5球,逆轉戰(zhàn)勝澳大利亞,連刷3紀錄

U16國足首奪冠!單場狂轟5球,逆轉戰(zhàn)勝澳大利亞,連刷3紀錄

奧拜爾
2025-06-01 21:34:11
2-0,世界第1完勝苦主,晉級法網8強,將與中國選手鄭欽文爭4強

2-0,世界第1完勝苦主,晉級法網8強,將與中國選手鄭欽文爭4強

側身凌空斬
2025-06-02 00:12:19
貝佐斯對桑切斯真的是生理性喜歡,又一次在35億游輪上壓著她狂吻

貝佐斯對桑切斯真的是生理性喜歡,又一次在35億游輪上壓著她狂吻

毒舌小紅帽
2025-06-01 16:40:13
2025-06-02 07:20:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10599文章數 176159關注度
往期回顧 全部

科技要聞

熱搜!雷軍疑回應余承東

頭條要聞

選舉臨近 尹錫悅、文在寅、樸槿惠、李明博均出面站臺

頭條要聞

選舉臨近 尹錫悅、文在寅、樸槿惠、李明博均出面站臺

體育要聞

一邊倒的歐冠決賽,青春無敵的新科冠軍

娛樂要聞

等等小花給鄧超拍雜志 插畫由小花繪制

財經要聞

油價繼續(xù)下跌?歐佩克宣布將再度增產

汽車要聞

零跑汽車5月交付量達45,067臺 穩(wěn)居新勢力前三

態(tài)度原創(chuàng)

房產
家居
游戲
本地
公開課

房產要聞

金地華南落子海南自貿港22萬㎡標桿項目,夯實代建行業(yè)領軍者地位

家居要聞

原木純白 邂逅自然本真

外媒稱《血源》是最意難平?續(xù)作到底有沒有戲?

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 琼中| 广饶县| 上犹县| 司法| 新安县| 柳州市| 称多县| 沙坪坝区| 偃师市| 嘉鱼县| 敦煌市| 介休市| 会理县| 贡嘎县| 台中市| 承德县| 成都市| 昔阳县| 称多县| 广安市| 望谟县| 桂东县| 酉阳| 银川市| 屏边| 彩票| 若尔盖县| 恩施市| 吴江市| 崇明县| 鄂尔多斯市| 昭通市| 阜南县| 林西县| 凤山市| 石泉县| 北流市| 衡东县| 禹城市| 鸡西市| 东城区|