網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

小模型媲美大模型，阿里通義開源「推理+搜索」預訓練新框架

2025-05-31 12:05:19　來源: 量子位

北京舉報

分享至

通義實驗室投稿
量子位 | 公眾號 QbitAI

為提升大模型“推理+搜索”能力，阿里通義實驗室出手了。

最新研究開源全新通用預訓練框架——MaskSearch，在域內(nèi)及跨域開放域問答任務上均較基線方法取得顯著性能提升。

小模型甚至能媲美大模型表現(xiàn)。

在推理+搜索方向，通義實驗室搜索團隊已提出ZeroSearch、OmniSearch等工作，通過在特定的下游任務進行強化學習訓練，讓大模型在與環(huán)境交互的過程中學習使用搜索引擎。

該團隊認為，僅在特定任務上訓練會導致模型的泛化能力受限，難以適應更多場景下的檢索推理任務。

受BERT模型在預訓練過程中使用的掩碼（Mask）預測任務啟發(fā)，MaskSearch引入了檢索增強型掩碼預測任務

也就是讓模型使用搜索工具，預測文本中被遮蔽的部分，在預訓練過程中有效學習通用的任務分解、推理等智能體策略，同時熟練掌握搜索引擎的使用方法，為其后續(xù)適配多領域任務奠定基礎。

不僅如此，MaskSearch可以兼容監(jiān)督微調(diào)（SFT）和強化學習（RL）兩種訓練方法。

通過加入預訓練的二階段訓練，MaskSearch相比只在下游任務進行訓練的基線方法，在多個開放域問答數(shù)據(jù)集上有明顯效果提升。

MaskSearch長啥樣？

接下來，一起來深入探究MaskSearch的核心架構與運作機制。

★任務定義

檢索增強型掩碼預測（RAMP）作為 MaskSearch 的預訓練任務，其核心要義在于：

在輸入的文本序列中，對關鍵信息進行掩碼處理，模型需主動借助外部知識庫，調(diào)用搜索工具來預測這些被掩蓋的文本片段。

為了提升被掩碼部分的難度，除了在過去掩碼預測任務中常被遮蔽的命名實體（如人名、地名、組織名等）、日期和數(shù)字，MaskSearch還考慮了以下幾類關鍵信息：

本體知識：文本中涉及的分類體系或知識體系中的關鍵概念；
特定術語：針對特定領域或主題的專業(yè)術語；
數(shù)值：文本中涉及的具體數(shù)值，如統(tǒng)計數(shù)據(jù)、測量值等。

這不僅增加了任務的難度，還促使模型在檢索和推理過程中更加精細化地處理信息，從而提升其在多領域任務中的適應能力和泛化能力。

★訓練方法

監(jiān)督微調(diào)

為了生成用于監(jiān)督微調(diào)（Supervised Finetuning, SFT）的思維鏈（CoT）數(shù)據(jù)，作者提出一種結(jié)合Agent合成與蒸餾（Distillation）的數(shù)據(jù)生成方法，具體包括：

Agent合成: 首先，搭建多智能體系統(tǒng)，納入規(guī)劃、搜索改寫、觀察分析等角色，協(xié)同進行思維鏈的生成任務。最終由一個LLM負責答案判斷，僅保留正確答案的思維鏈。
蒸餾：為了快速擴展數(shù)據(jù)集并保持高質(zhì)量，使用已有數(shù)據(jù)訓練后的教師模型，直接生成推理軌跡，并逐步迭代教師模型，從而逐步提升數(shù)據(jù)質(zhì)量。

強化學習

強化學習部分，作者采用了動態(tài)采樣策略優(yōu)化（DAPO）算法，構建混合獎勵（Hybrid Reward）系統(tǒng)——格式獎勵檢查模型輸出是否符合指定格式，回答獎勵則評估生成答案與標準答案的一致性。

作者探索了多種回答獎勵函數(shù)，最終選擇基于模型的獎勵函數(shù)，使用Qwen2.5-72B-Instruct模型作為評判，為生成答案和標準答案的一致性進行打分。

課程學習

為了幫助從易到難依次學習，作者提出依據(jù)掩碼數(shù)量對訓練樣本進行難度分級，讓模型首先通過簡單樣本學習基礎推理技能，然后逐步提升能力以應對更具挑戰(zhàn)性的場景。

實驗結(jié)果如何？

★主要結(jié)果

作者通過基于不同大小的Qwen和LLaMA模型的實驗證明，兩階段MaskSearch訓練框架顯著提升了大模型的搜索和推理能力。

遵循以RAMP作為預訓練任務，HotpotQA數(shù)據(jù)集作為下游任務的訓練流程，MaskSearch在領域內(nèi)（in-domain）數(shù)據(jù)集上穩(wěn)定提升模型召回率；在Bamboogle等領域外數(shù)據(jù)集上，性能提升更為顯著，小模型甚至能媲美大模型表現(xiàn)，驗證了RAMP作為可擴展學習信號的有效性。

實驗進一步驗證了監(jiān)督學習（SFT）與強化學習（RL）兩種訓練方式與MaskSearch框架的兼容性。

其中，RL在RAMP任務上展現(xiàn)出更高性能上限，尤其在HotpotQA等領域內(nèi)任務中，在所有大小的Qwen模型都取得了最優(yōu)效果。

這表明RL通過動態(tài)采樣策略和混合獎勵機制，能更精準優(yōu)化模型的多步搜索與推理流程，為提升檢索增強模型的適應性提供了更強的訓練范式。

★Scaling性能

在監(jiān)督學習的場景下，作者通過不同訓練步數(shù)實驗驗證 MASKSEARCH 的可擴展性：

小模型（如1B）經(jīng)預訓練后性能提升顯著，而大模型（如 7B）受限于自進化數(shù)據(jù)的多樣性，性能增益相對平緩，但召回率分數(shù)仍相對僅微調(diào)模型有所增長。

這證明 RAMP 對不同規(guī)模模型均有持續(xù)提升的潛力，也表明數(shù)據(jù)質(zhì)量和多樣性是決定 SFT 方法模型性能上限的關鍵因素。

★監(jiān)督課程學習效果

此外，實驗驗證了基于掩碼數(shù)量設計的課程學習訓練策略。

具體方法是訓練時按掩碼數(shù)量分層采樣數(shù)據(jù)，每個數(shù)量對應10K訓練樣本，配合6K HotpotQA數(shù)據(jù)維持任務平衡。當掩碼數(shù)量從1逐步增至4時，Qwen2.5-7B模型在驗證集上的得分明顯增加，且顯著高于將不同數(shù)量掩碼的數(shù)據(jù)混合訓練時的表現(xiàn)。

此外，在下游任務上課程學習也有進一步提升模型訓練后表現(xiàn)的效果，驗證了難度梯度設計對推理能力構建的促進作用。

★更多分析

1、掩碼策略影響

掩碼策略是影響RAMP預訓練任務難度的另一重要因素。

作者對比了隨機掩碼與基于困惑度（PPL）的難度導向掩碼策略，也就是通過計算模型恢復掩碼時的損失值（即困惑度），優(yōu)先選擇恢復難度高的部分進行遮蔽。

實驗顯示，PPL策略在FanoutQA數(shù)據(jù)集上提升模型召回率，但在其它數(shù)據(jù)集中也會因過度追求難度導致性能下降，表明任務難度仍需要與模型當前搜索和推理能力相匹配。

因此，結(jié)合課程學習的訓練策略平衡難度，能夠在整體上獲得更優(yōu)效果。

2、RL獎勵函數(shù)影響

在強化學習訓練過程中，不同獎勵函數(shù)對模型性能影響各異。

以Qwen2.5-7b模型為例，基于token級召回率的獎勵函數(shù)促使模型為提升召回率，向答案中堆砌大量無關信息，致使回答長度大幅增加，相較于其它RL獎勵函數(shù)實際性能顯著下滑。

盡管引入懲罰項以抑制回答長度，能在一定程度上減少信息冗余，但模型仍可在有限長度內(nèi)通過枚舉方式鉆規(guī)則漏洞。

相較而言，基于模型的獎勵函數(shù)表現(xiàn)出最佳性能，在模型生成的回答長度、token級召回率以及經(jīng)Qwen72b模型評判的分數(shù)上，均優(yōu)于其它兩種獎勵方法，有效規(guī)避獎勵欺騙問題，且RL訓練全程表現(xiàn)出卓越的穩(wěn)定性和高效性。

總之，MaskSearch致力于提升大型語言模型（LLM）的智能體推理+搜索能力。該框架依托檢索增強型掩碼預測（RAMP）預訓練任務，賦能模型自主執(zhí)行多步搜索與推理，填補文本中的掩碼空白，實現(xiàn)外部知識的深度整合。經(jīng)監(jiān)督微調(diào)（SFT）與強化學習（RL）雙重訓練路徑錘煉，并引入課程學習策略，MaskSearch在域內(nèi)及跨域開放域問答任務上均較基線方法取得顯著性能提升。

Paper: https://arxiv.org/abs/2505.20285
GitHub: https://github.com/Alibaba-NLP/MaskSearch

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.