- 通義實驗室 投稿
量子位 | 公眾號 QbitAI
為提升大模型“推理+搜索”能力,阿里通義實驗室出手了。
最新研究開源全新通用預訓練框架——MaskSearch,在域內及跨域開放域問答任務上均較基線方法取得顯著性能提升。
小模型甚至能媲美大模型表現。
在推理+搜索方向,通義實驗室搜索團隊已提出ZeroSearch、OmniSearch等工作,通過在特定的下游任務進行強化學習訓練,讓大模型在與環(huán)境交互的過程中學習使用搜索引擎。
該團隊認為,僅在特定任務上訓練會導致模型的泛化能力受限,難以適應更多場景下的檢索推理任務。
受BERT模型在預訓練過程中使用的掩碼(Mask)預測任務啟發(fā),MaskSearch引入了檢索增強型掩碼預測任務
也就是讓模型使用搜索工具,預測文本中被遮蔽的部分,在預訓練過程中有效學習通用的任務分解、推理等智能體策略,同時熟練掌握搜索引擎的使用方法,為其后續(xù)適配多領域任務奠定基礎。
不僅如此,MaskSearch可以兼容監(jiān)督微調(SFT)和強化學習(RL)兩種訓練方法。
通過加入預訓練的二階段訓練,MaskSearch相比只在下游任務進行訓練的基線方法,在多個開放域問答數據集上有明顯效果提升。
MaskSearch長啥樣?
接下來,一起來深入探究MaskSearch的核心架構與運作機制。
★任務定義
檢索增強型掩碼預測(RAMP)作為 MaskSearch 的預訓練任務,其核心要義在于:
在輸入的文本序列中,對關鍵信息進行掩碼處理,模型需主動借助外部知識庫 ,調用搜索工具來預測這些被掩蓋的文本片段。
為了提升被掩碼部分的難度,除了在過去掩碼預測任務中常被遮蔽的命名實體(如人名、地名、組織名等)、日期和數字,MaskSearch還考慮了以下幾類關鍵信息:
- 本體知識:文本中涉及的分類體系或知識體系中的關鍵概念;
- 特定術語:針對特定領域或主題的專業(yè)術語;
- 數值:文本中涉及的具體數值,如統(tǒng)計數據、測量值等。
這不僅增加了任務的難度,還促使模型在檢索和推理過程中更加精細化地處理信息,從而提升其在多領域任務中的適應能力和泛化能力。
★訓練方法
監(jiān)督微調
為了生成用于監(jiān)督微調(Supervised Finetuning, SFT)的思維鏈(CoT)數據,作者提出一種結合Agent合成與蒸餾(Distillation)的數據生成方法,具體包括:
- Agent合成: 首先,搭建多智能體系統(tǒng),納入規(guī)劃、搜索改寫、觀察分析等角色,協(xié)同進行思維鏈的生成任務。最終由一個LLM負責答案判斷,僅保留正確答案的思維鏈。
- 蒸餾:為了快速擴展數據集并保持高質量,使用已有數據訓練后的教師模型,直接生成推理軌跡,并逐步迭代教師模型,從而逐步提升數據質量。
強化學習
強化學習部分,作者采用了動態(tài)采樣策略優(yōu)化(DAPO)算法,構建混合獎勵(Hybrid Reward)系統(tǒng)——格式獎勵檢查模型輸出是否符合指定格式,回答獎勵則評估生成答案與標準答案的一致性。
作者探索了多種回答獎勵函數,最終選擇基于模型的獎勵函數,使用Qwen2.5-72B-Instruct模型作為評判,為生成答案和標準答案的一致性進行打分。
課程學習
為了幫助從易到難依次學習,作者提出依據掩碼數量對訓練樣本進行難度分級,讓模型首先通過簡單樣本學習基礎推理技能,然后逐步提升能力以應對更具挑戰(zhàn)性的場景。
實驗結果如何?
★主要結果
作者通過基于不同大小的Qwen和LLaMA模型的實驗證明,兩階段MaskSearch訓練框架顯著提升了大模型的搜索和推理能力。
遵循以RAMP作為預訓練任務,HotpotQA數據集作為下游任務的訓練流程,MaskSearch在領域內(in-domain)數據集上穩(wěn)定提升模型召回率;在Bamboogle等領域外數據集上,性能提升更為顯著,小模型甚至能媲美大模型表現,驗證了RAMP作為可擴展學習信號的有效性。
實驗進一步驗證了監(jiān)督學習(SFT)與強化學習(RL)兩種訓練方式與MaskSearch框架的兼容性。
其中,RL在RAMP任務上展現出更高性能上限,尤其在HotpotQA等領域內任務中,在所有大小的Qwen模型都取得了最優(yōu)效果。
這表明RL通過動態(tài)采樣策略和混合獎勵機制,能更精準優(yōu)化模型的多步搜索與推理流程,為提升檢索增強模型的適應性提供了更強的訓練范式。
★Scaling性能
在監(jiān)督學習的場景下,作者通過不同訓練步數實驗驗證 MASKSEARCH 的可擴展性:
小模型(如1B)經預訓練后性能提升顯著,而大模型(如 7B)受限于自進化數據的多樣性,性能增益相對平緩,但召回率分數仍相對僅微調模型有所增長。
這證明 RAMP 對不同規(guī)模模型均有持續(xù)提升的潛力,也表明數據質量和多樣性是決定 SFT 方法模型性能上限的關鍵因素。
★監(jiān)督課程學習效果
此外,實驗驗證了基于掩碼數量設計的課程學習訓練策略。
具體方法是訓練時按掩碼數量分層采樣數據,每個數量對應10K訓練樣本,配合6K HotpotQA數據維持任務平衡。當掩碼數量從1逐步增至4時,Qwen2.5-7B模型在驗證集上的得分明顯增加,且顯著高于將不同數量掩碼的數據混合訓練時的表現。
此外,在下游任務上課程學習也有進一步提升模型訓練后表現的效果,驗證了難度梯度設計對推理能力構建的促進作用。
★更多分析
1、掩碼策略影響
掩碼策略是影響RAMP預訓練任務難度的另一重要因素。
作者對比了隨機掩碼與基于困惑度(PPL)的難度導向掩碼策略,也就是通過計算模型恢復掩碼時的損失值(即困惑度),優(yōu)先選擇恢復難度高的部分進行遮蔽。
實驗顯示,PPL策略在FanoutQA數據集上提升模型召回率,但在其它數據集中也會因過度追求難度導致性能下降,表明任務難度仍需要與模型當前搜索和推理能力相匹配。
因此,結合課程學習的訓練策略平衡難度,能夠在整體上獲得更優(yōu)效果。
2、RL獎勵函數影響
在強化學習訓練過程中,不同獎勵函數對模型性能影響各異。
以Qwen2.5-7b模型為例,基于token級召回率的獎勵函數促使模型為提升召回率,向答案中堆砌大量無關信息,致使回答長度大幅增加,相較于其它RL獎勵函數實際性能顯著下滑。
盡管引入懲罰項以抑制回答長度,能在一定程度上減少信息冗余,但模型仍可在有限長度內通過枚舉方式鉆規(guī)則漏洞。
相較而言,基于模型的獎勵函數表現出最佳性能,在模型生成的回答長度、token級召回率以及經Qwen72b模型評判的分數上,均優(yōu)于其它兩種獎勵方法,有效規(guī)避獎勵欺騙問題,且RL訓練全程表現出卓越的穩(wěn)定性和高效性。
總之,MaskSearch致力于提升大型語言模型(LLM)的智能體推理+搜索能力。該框架依托檢索增強型掩碼預測(RAMP)預訓練任務,賦能模型自主執(zhí)行多步搜索與推理,填補文本中的掩碼空白,實現外部知識的深度整合。經監(jiān)督微調(SFT)與強化學習(RL)雙重訓練路徑錘煉,并引入課程學習策略,MaskSearch在域內及跨域開放域問答任務上均較基線方法取得顯著性能提升。
Paper: https://arxiv.org/abs/2505.20285
GitHub: https://github.com/Alibaba-NLP/MaskSearch
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.