99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

小模型媲美大模型,阿里通義開源「推理+搜索」預訓練新框架

0
分享至

  • 通義實驗室 投稿
    量子位 | 公眾號 QbitAI

為提升大模型“推理+搜索”能力,阿里通義實驗室出手了。

最新研究開源全新通用預訓練框架——MaskSearch,在域內(nèi)及跨域開放域問答任務上均較基線方法取得顯著性能提升。

小模型甚至能媲美大模型表現(xiàn)。



在推理+搜索方向,通義實驗室搜索團隊已提出ZeroSearch、OmniSearch等工作,通過在特定的下游任務進行強化學習訓練,讓大模型在與環(huán)境交互的過程中學習使用搜索引擎。

該團隊認為,僅在特定任務上訓練會導致模型的泛化能力受限,難以適應更多場景下的檢索推理任務。

受BERT模型在預訓練過程中使用的掩碼(Mask)預測任務啟發(fā),MaskSearch引入了檢索增強型掩碼預測任務

也就是讓模型使用搜索工具,預測文本中被遮蔽的部分,在預訓練過程中有效學習通用的任務分解、推理等智能體策略,同時熟練掌握搜索引擎的使用方法,為其后續(xù)適配多領域任務奠定基礎。

不僅如此,MaskSearch可以兼容監(jiān)督微調(diào)(SFT)和強化學習(RL)兩種訓練方法。

通過加入預訓練的二階段訓練,MaskSearch相比只在下游任務進行訓練的基線方法,在多個開放域問答數(shù)據(jù)集上有明顯效果提升。



MaskSearch長啥樣?

接下來,一起來深入探究MaskSearch的核心架構與運作機制。



★任務定義

檢索增強型掩碼預測(RAMP)作為 MaskSearch 的預訓練任務,其核心要義在于:

在輸入的文本序列中,對關鍵信息進行掩碼處理,模型需主動借助外部知識庫 ,調(diào)用搜索工具來預測這些被掩蓋的文本片段。

為了提升被掩碼部分的難度,除了在過去掩碼預測任務中常被遮蔽的命名實體(如人名、地名、組織名等)、日期和數(shù)字,MaskSearch還考慮了以下幾類關鍵信息:

  • 本體知識:文本中涉及的分類體系或知識體系中的關鍵概念;
  • 特定術語:針對特定領域或主題的專業(yè)術語;
  • 數(shù)值:文本中涉及的具體數(shù)值,如統(tǒng)計數(shù)據(jù)、測量值等。

這不僅增加了任務的難度,還促使模型在檢索和推理過程中更加精細化地處理信息,從而提升其在多領域任務中的適應能力和泛化能力。

★訓練方法

監(jiān)督微調(diào)

為了生成用于監(jiān)督微調(diào)(Supervised Finetuning, SFT)的思維鏈(CoT)數(shù)據(jù),作者提出一種結(jié)合Agent合成與蒸餾(Distillation)的數(shù)據(jù)生成方法,具體包括:

  • Agent合成: 首先,搭建多智能體系統(tǒng),納入規(guī)劃、搜索改寫、觀察分析等角色,協(xié)同進行思維鏈的生成任務。最終由一個LLM負責答案判斷,僅保留正確答案的思維鏈。
  • 蒸餾:為了快速擴展數(shù)據(jù)集并保持高質(zhì)量,使用已有數(shù)據(jù)訓練后的教師模型,直接生成推理軌跡,并逐步迭代教師模型,從而逐步提升數(shù)據(jù)質(zhì)量。

強化學習

強化學習部分,作者采用了動態(tài)采樣策略優(yōu)化(DAPO)算法,構建混合獎勵(Hybrid Reward)系統(tǒng)——格式獎勵檢查模型輸出是否符合指定格式,回答獎勵則評估生成答案與標準答案的一致性。

作者探索了多種回答獎勵函數(shù),最終選擇基于模型的獎勵函數(shù),使用Qwen2.5-72B-Instruct模型作為評判,為生成答案和標準答案的一致性進行打分。

課程學習

為了幫助從易到難依次學習,作者提出依據(jù)掩碼數(shù)量對訓練樣本進行難度分級,讓模型首先通過簡單樣本學習基礎推理技能,然后逐步提升能力以應對更具挑戰(zhàn)性的場景。

實驗結(jié)果如何?

★主要結(jié)果

作者通過基于不同大小的Qwen和LLaMA模型的實驗證明,兩階段MaskSearch訓練框架顯著提升了大模型的搜索和推理能力。

遵循以RAMP作為預訓練任務,HotpotQA數(shù)據(jù)集作為下游任務的訓練流程,MaskSearch在領域內(nèi)(in-domain)數(shù)據(jù)集上穩(wěn)定提升模型召回率;在Bamboogle等領域外數(shù)據(jù)集上,性能提升更為顯著,小模型甚至能媲美大模型表現(xiàn),驗證了RAMP作為可擴展學習信號的有效性。



實驗進一步驗證了監(jiān)督學習(SFT)與強化學習(RL)兩種訓練方式與MaskSearch框架的兼容性。

其中,RL在RAMP任務上展現(xiàn)出更高性能上限,尤其在HotpotQA等領域內(nèi)任務中,在所有大小的Qwen模型都取得了最優(yōu)效果。

這表明RL通過動態(tài)采樣策略和混合獎勵機制,能更精準優(yōu)化模型的多步搜索與推理流程,為提升檢索增強模型的適應性提供了更強的訓練范式。

★Scaling性能

在監(jiān)督學習的場景下,作者通過不同訓練步數(shù)實驗驗證 MASKSEARCH 的可擴展性:

小模型(如1B)經(jīng)預訓練后性能提升顯著,而大模型(如 7B)受限于自進化數(shù)據(jù)的多樣性,性能增益相對平緩,但召回率分數(shù)仍相對僅微調(diào)模型有所增長。



這證明 RAMP 對不同規(guī)模模型均有持續(xù)提升的潛力,也表明數(shù)據(jù)質(zhì)量和多樣性是決定 SFT 方法模型性能上限的關鍵因素。

★監(jiān)督課程學習效果

此外,實驗驗證了基于掩碼數(shù)量設計的課程學習訓練策略。

具體方法是訓練時按掩碼數(shù)量分層采樣數(shù)據(jù),每個數(shù)量對應10K訓練樣本,配合6K HotpotQA數(shù)據(jù)維持任務平衡。當掩碼數(shù)量從1逐步增至4時,Qwen2.5-7B模型在驗證集上的得分明顯增加,且顯著高于將不同數(shù)量掩碼的數(shù)據(jù)混合訓練時的表現(xiàn)。



此外,在下游任務上課程學習也有進一步提升模型訓練后表現(xiàn)的效果,驗證了難度梯度設計對推理能力構建的促進作用。

★更多分析

1、掩碼策略影響

掩碼策略是影響RAMP預訓練任務難度的另一重要因素。

作者對比了隨機掩碼與基于困惑度(PPL)的難度導向掩碼策略,也就是通過計算模型恢復掩碼時的損失值(即困惑度),優(yōu)先選擇恢復難度高的部分進行遮蔽。

實驗顯示,PPL策略在FanoutQA數(shù)據(jù)集上提升模型召回率,但在其它數(shù)據(jù)集中也會因過度追求難度導致性能下降,表明任務難度仍需要與模型當前搜索和推理能力相匹配。



因此,結(jié)合課程學習的訓練策略平衡難度,能夠在整體上獲得更優(yōu)效果。

2、RL獎勵函數(shù)影響

在強化學習訓練過程中,不同獎勵函數(shù)對模型性能影響各異。

以Qwen2.5-7b模型為例,基于token級召回率的獎勵函數(shù)促使模型為提升召回率,向答案中堆砌大量無關信息,致使回答長度大幅增加,相較于其它RL獎勵函數(shù)實際性能顯著下滑。

盡管引入懲罰項以抑制回答長度,能在一定程度上減少信息冗余,但模型仍可在有限長度內(nèi)通過枚舉方式鉆規(guī)則漏洞。



相較而言,基于模型的獎勵函數(shù)表現(xiàn)出最佳性能,在模型生成的回答長度、token級召回率以及經(jīng)Qwen72b模型評判的分數(shù)上,均優(yōu)于其它兩種獎勵方法,有效規(guī)避獎勵欺騙問題,且RL訓練全程表現(xiàn)出卓越的穩(wěn)定性和高效性。

總之,MaskSearch致力于提升大型語言模型(LLM)的智能體推理+搜索能力。該框架依托檢索增強型掩碼預測(RAMP)預訓練任務,賦能模型自主執(zhí)行多步搜索與推理,填補文本中的掩碼空白,實現(xiàn)外部知識的深度整合。經(jīng)監(jiān)督微調(diào)(SFT)與強化學習(RL)雙重訓練路徑錘煉,并引入課程學習策略,MaskSearch在域內(nèi)及跨域開放域問答任務上均較基線方法取得顯著性能提升。

Paper: https://arxiv.org/abs/2505.20285
GitHub: https://github.com/Alibaba-NLP/MaskSearch

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
高蛋白飲食竟會加速衰老!最新研究:吃太多蛋白或促進DNA損傷,加速衰老,并縮短壽命

高蛋白飲食竟會加速衰老!最新研究:吃太多蛋白或促進DNA損傷,加速衰老,并縮短壽命

醫(yī)諾維
2025-06-07 16:14:32
阿斯報吐槽國足:14億人找不出23個世界杯球員,擴軍仍然無緣

阿斯報吐槽國足:14億人找不出23個世界杯球員,擴軍仍然無緣

直播吧
2025-06-07 19:44:08
“難怪小學女老師,十個有九個單身”,一段聊天記錄,揭露了真相

“難怪小學女老師,十個有九個單身”,一段聊天記錄,揭露了真相

妍妍教育日記
2025-06-03 20:00:38
狂攬183億!中國冰箱出口“一哥”,出貨量超1400萬臺,悶聲發(fā)財

狂攬183億!中國冰箱出口“一哥”,出貨量超1400萬臺,悶聲發(fā)財

品牌觀察官
2025-06-04 20:52:19
萬斯就特朗普和馬斯克爭吵發(fā)聲

萬斯就特朗普和馬斯克爭吵發(fā)聲

參考消息
2025-06-07 17:04:05
《護寶尋蹤》辛柏青反派原型盜墓祖師爺姚玉忠:專家百人不如我!

《護寶尋蹤》辛柏青反派原型盜墓祖師爺姚玉忠:專家百人不如我!

TVB的四小花
2025-06-08 07:18:34
為什么還有人懷念這個“不存在的國家”?懷念美好,是人性的本能

為什么還有人懷念這個“不存在的國家”?懷念美好,是人性的本能

紅色鑒史官
2025-06-07 19:15:02
毀掉孩子最快的方法,就是放縱他做這 3 件事,家長千萬別不理

毀掉孩子最快的方法,就是放縱他做這 3 件事,家長千萬別不理

小書蟲媽媽
2025-06-02 11:23:45
我?guī)痛謇锕褘D通下水道,她卻羞紅臉說:還有個下水道也需要你幫忙

我?guī)痛謇锕褘D通下水道,她卻羞紅臉說:還有個下水道也需要你幫忙

紀實文錄
2025-04-12 11:58:09
拿到離婚證,我偷偷收回給婆婆的8套海景房,不著家的公公反而大笑

拿到離婚證,我偷偷收回給婆婆的8套海景房,不著家的公公反而大笑

風起青萍之未
2025-06-05 19:02:24
購物卡送禮被定偷稅!稅局緊急提醒!6月起,購物卡必須這么處理!

購物卡送禮被定偷稅!稅局緊急提醒!6月起,購物卡必須這么處理!

祥順財稅俱樂部
2025-06-08 09:13:49
好消息:江蘇省這座過江通道離年底開工又近一步!總投資450億元

好消息:江蘇省這座過江通道離年底開工又近一步!總投資450億元

南粵橘城
2025-06-08 10:32:46
薩巴倫卡連兩項大滿貫丟冠:留6大遺憾沮喪蒙頭 落淚祝賀高芙奪冠

薩巴倫卡連兩項大滿貫丟冠:留6大遺憾沮喪蒙頭 落淚祝賀高芙奪冠

醉臥浮生
2025-06-08 00:29:08
沈陽18棟別墅400萬起拍,被執(zhí)行人欠繳土地出讓金和滯納金九千萬

沈陽18棟別墅400萬起拍,被執(zhí)行人欠繳土地出讓金和滯納金九千萬

紅星資本局
2025-06-07 15:17:05
“超級夏天”來了!世界氣象組織警告:2025年或破高溫記錄,未來5年地球?qū)⒂觥爸旅邷亍?>
    </a>
        <h3>
      <a href=農(nóng)夫也瘋狂
2025-06-08 10:58:55
達成協(xié)議!切爾西48小時內(nèi)簽下“億元先生”!1.5億“頂星”來投

達成協(xié)議!切爾西48小時內(nèi)簽下“億元先生”!1.5億“頂星”來投

頭狼追球
2025-06-08 10:55:52
收到中方邀請后,川普確定將會開啟訪華行程,還提前對華遞橄欖枝

收到中方邀請后,川普確定將會開啟訪華行程,還提前對華遞橄欖枝

明月聊史
2025-06-07 16:24:57
“五胡亂華”有多黑暗?顛覆你的認知,教科書都不敢細說這段歷史

“五胡亂華”有多黑暗?顛覆你的認知,教科書都不敢細說這段歷史

大千世界觀
2025-06-07 09:00:14
2025年高考數(shù)學全國卷試題評析來了

2025年高考數(shù)學全國卷試題評析來了

新京報
2025-06-07 18:14:04
特朗普被曝曾在愛潑斯坦的豪宅與多名女孩共處一室,她們赤著身子

特朗普被曝曾在愛潑斯坦的豪宅與多名女孩共處一室,她們赤著身子

譯言
2025-06-07 22:06:45
2025-06-08 13:00:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10613文章數(shù) 176163關注度
往期回顧 全部

科技要聞

馬斯克“越過紅線”,美政府急尋SpaceX替代品

頭條要聞

洛杉磯沖突加劇 特朗普派出2000名國民警衛(wèi)隊

頭條要聞

洛杉磯沖突加劇 特朗普派出2000名國民警衛(wèi)隊

體育要聞

冠軍高芙:只要專注自己 太陽就會照常升起

娛樂要聞

結(jié)婚15年紀念!孫儷發(fā)長文談夫妻感情

財經(jīng)要聞

暴漲超9%!白銀狂飆,“搶奪”黃金光環(huán)!

汽車要聞

復古造型樂趣依舊 寶馬R12 nineT又帥又好騎

態(tài)度原創(chuàng)

游戲
藝術
時尚
房產(chǎn)
教育

《殺手暗殺世界》將新增合作模式:早期開發(fā)中

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

從穿搭到生活,放松一點更時髦

房產(chǎn)要聞

與亞沙共鑒,新城藝境|三亞新地標盛大啟幕暨限量藏品全球首發(fā)

教育要聞

我是李旭老師,我來守護你的高考最后一周!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 上虞市| 怀安县| 凉城县| 宣城市| 潍坊市| 山阳县| 晋江市| 洪江市| 莲花县| 德江县| 哈巴河县| 板桥市| 大城县| 广昌县| 开江县| 佛坪县| 隆子县| 刚察县| 芦山县| 丰城市| 越西县| 娄底市| 漳浦县| 锡林浩特市| 兰溪市| 芷江| 临洮县| 兴仁县| 上思县| 东山县| 额济纳旗| 尚志市| 高平市| 宽城| 丹巴县| 西平县| 吉林省| 永平县| 嘉祥县| 永安市| 景东|