99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

搜索智能體RAG落地不佳?UIUC開源s3,僅需2.4k樣本,訓練快效果好

0
分享至



當前,Agentic RAG(Retrieval-Augmented Generation)正逐步成為大型語言模型訪問外部知識的關鍵路徑。但在真實實踐中,搜索智能體的強化學習訓練并未展現出預期的穩定優勢。一方面,部分方法優化的目標與真實下游需求存在偏離,另一方面,搜索器與生成器間的耦合也影響了泛化與部署效率。

我們(UIUC & Amazon)提出的s3(Search-Select-Serve)是一種訓練效率極高、結構松耦合、生成效果導向的 RL 范式。該方法使用名為Gain Beyond RAG (GBR)的獎勵函數,衡量搜索器是否真的為生成帶來了有效提升。實驗表明,s3 在使用僅2.4k 訓練樣本的情況下,便在多個領域問答任務中超越了數據規模大百倍的強基線(如 Search-R1、DeepRetrieval)。



  • 論文標題:s3: You Don’t Need That Much Data to Train a Search Agent via RL
  • 論文鏈接:https://arxiv.org/pdf/2505.14146
  • 代碼倉庫:https://github.com/pat-jj/s3



研究動機

RAG 的發展軌跡:從靜態檢索到 Agentic 策略



我們將 RAG 系統的發展分為三階段:

1.Classic RAG:使用固定 query、BM25 等 retriever,生成器對結果無反饋;

2.Pre-RL-Zero Active RAG:引入多輪 query 更新,如 IRCoT、Self-RAG 等,部分通過 prompt 引導 LLM 檢索新信息。Self-RAG 進一步通過蒸餾大型模型的行為,訓練小模型模擬多輪搜索行為;

3.RL-Zero 階段:強化學習開始用于驅動檢索行為,代表方法如:

  1. DeepRetrieval:以 Recall、NDCG 等搜索指標為優化目標,專注于檢索器本身的能力;
  2. Search-R1:將檢索與生成聯合建模,以最終答案是否 Exact Match 作為強化信號,優化整合式的搜索 - 生成策略。

盡管 RL 方法在思路上更具主動性與交互性,但在實際落地中仍面臨諸多挑戰。

當前 RL-based Agentic RAG 落地表現不佳的原因

我們對當前 Agentic RAG 方案效果不穩定、訓練難、遷移能力弱的原因,歸納為三點:

1. 優化目標偏離真實下游任務

Search-R1 等方法采用Exact Match (EM)作為主要獎勵指標,即答案是否與參考答案字面一致。這一指標過于苛刻、對語義變體不敏感,在訓練初期信號稀疏,容易導致模型優化「答案 token 對齊」而非搜索行為本身

例如,對于問題「美國第 44 任總統是誰?」,

  • 回答「Barack Obama」:?
  • 回答「The 44th president was Barack Obama.」:?(EM=0)

這種不合理的信號會誘導模型在生成階段做格式補償,從而無法反映搜索策略本身是否有效

2. 檢索與生成耦合,干擾搜索優化

將生成納入訓練目標(如 Search-R1),雖然可以提升整體答案準確率,但也會帶來問題:

  • 無法判斷性能提升究竟來自「更好的搜索」,還是「更強的語言生成對齊能力」;
  • 對 LLM 參數依賴強,不利于模型遷移或集成;
  • 微調大模型成本高,限制了訓練效率和模塊替換的靈活性。



3. 現有評價標準無法準確衡量搜索貢獻

EM、span match 等傳統 QA 指標主要關注輸出結果,與搜索質量關聯有限。而 search-oriented 指標(如 Recall@K)雖可度量 retriever 性能,卻無法體現這些信息是否真的被模型「用好」。這些偏差直接導致現有 RL Agentic RAG 方法在評估、訓練和泛化上均存在瓶頸。

s3 - 專注搜索效果優化的 search agent RL 訓練框架



s3 的出發點很簡單

如果我們真正關心的是「搜索提升了生成效果」,那就應該只訓練搜索器、凍結生成器,并以生成結果提升為獎勵

這便是「Gain Beyond RAG(GBR)」的定義:



即:用 s3 搜索到的上下文喂給 Frozen Generator 之后的生成效果,相比初始的 top-k 檢索結果是否更好。值得注意的是,s3 訓練時始終初始化于相同的原始 query,從而能清晰對比 s3 檢索對結果帶來的真實「增益」。

準確率(Acc)評估標準

我們采用了更語義友好的Generation Accuracy(GenAcc)指標。它結合了兩種機制:

  1. Span Match:判斷生成答案是否包含參考答案的任意 token span
  2. LLM Judge:由一個輕量 LLM 判斷答案是否語義正確

兩者只要任意一個通過,則視為正確。這一指標在人工對比中與人類判斷一致率高達96.4%,相比之下,EM 僅為15.8%

訓練與優化 - 僅需 2.4k 樣本即可完成 ppo 訓練:

我們采用 PPO 進行策略優化。為了提升訓練效率:

  • 我們預篩除掉了「naive RAG 就能答對」的樣本;
  • 將訓練樣本集中在需要真正檢索的新信息的任務上;
  • Generator 完全凍結,訓練代價完全集中在 Searcher。



s3 訓練總時間只需 114 分鐘(vs Search-R1 的 3780 分鐘),數據也減少約 70 倍。

實驗分析

General QA w/ RAG

實驗一:通用 QA 任務,s3 優于 Search-R1 和 DeepRetrieval。



我們在六個通用數據集上評估了 Direct Inference、Naive RAG、IRCoT、DeepRetrieval、Search-o1、Search-R1 以及 s3 的性能。實驗中,我們使用了不同的下游 LLM,包括 Qwen2.5-7B-Instruct,Qwen2.5-14B-Instruct 和 Claude-3-Haiku。

盡管 s3 僅使用了 2.4k 條 NQ+HotpotQA 訓練數據(training source 和 Search-R1 一樣),它在其中五個數據集上實現了最優表現,展現出顯著的泛化能力。

Medical QA w/ RAG

實驗二:醫學 QA 任務,s3 展現驚人的跨領域能力



我們隨后在五個醫學領域的 QA 數據集上進一步評估了模型性能,測試使用了兩個語料庫:Wikipedia2018(與通用測試一致)和 MedCorp(ACL 2024)。結果顯示,Search-R1 在其訓練語料上表現良好,但在語料變更后顯現出過擬合趨勢;相比之下,s3 能穩定遷移至不同的數據集與語料庫,凸顯出其基于 searcher-only 優化策略的強泛化能力。

reward 優化曲線



圖 5 展示了我們的 reward 曲線,可以看出 s3 在接近 10 個訓練步驟(batch size 為 120)內便迅速「收斂」。這一現象支持兩個推斷:(1)預訓練語言模型本身已具備一定的搜索能力,我們只需通過合理的方式「激活」這種能力;(2)在一定范圍內,適當增加每輪搜索的文檔數量和最大輪次數,有助于提升最終性能。

消融實驗



在不同配置下,移除組件對性能的影響(平均準確率)。我們使用了三組設定進行對比,結果表明 s3 的設計在準確性與效率之間達到了最優平衡。

我們進一步通過消融實驗,驗證了 s3 框架中兩個關鍵設計的必要性:

  • 「從原始問題開始檢索」是方向正確的保障:我們發現,以用戶原始問題作為第一輪檢索的起點,有助于模型明確搜索目標、建立有效的檢索路徑。若不設置這一初始點,搜索策略往往偏離主題,導致性能顯著下降。
  • 「文檔選擇」機制顯著降低 token 消耗:該機制允許模型在每輪檢索后主動篩選信息,從而避免將所有檢索結果一股腦送入生成器。通過這一設計,s3 的輸入 token 平均減少了 2.6 至 4.2 倍,不僅提升了效率,也減少了噪聲干擾,對生成效果有正面作用。

總體來看,s3 設計中的「起點初始化 + 動態選擇」是支撐其高效、強泛化性能的關鍵。即使在某些數據集上通過增加輸入內容能獲得短期增益,s3 原始結構在訓練效率、推理速度與生成準確率上依然展現出更穩定的優勢。

FAQ

Q1:為什么我們報告的 Search-R1 結果與原論文不一致?

A1:Search-R1 原文使用 Exact Match(EM)作為 reward 和評估指標,并對模型進行了針對性微調。將這種針對 EM 優化的模型,與其他 zero-shot 方法比較,略顯不公平,也難以衡量搜索本身的效果。因此我們采用更語義友好的 Generation Accuracy(GenAcc),結合 span 匹配和 LLM 判斷,與人類評估一致率達 96.4%。相比之下,EM 只能捕捉字面一致,反而容易誤導模型優化方向。

Q2:s3 為什么不訓練生成器?這樣是否限制了模型性能?

A2:我們設計 s3 的核心理念是:如果我們想真正優化搜索效果,不應讓生成器被訓練,否則會混淆「搜索變好」與「語言模型變強」帶來的增益。凍結生成器不僅提升了訓練效率(節省大模型微調成本),也便于模型遷移到不同任務與生成器,真正做到「搜索能力即插即用」。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
曝艾克森回國內,找到新工作,踢業余聯賽,前同事:他走路都費勁

曝艾克森回國內,找到新工作,踢業余聯賽,前同事:他走路都費勁

小金體壇大視野
2025-06-17 08:39:47
男學霸高考后泰山跳崖自盡,遺言催人淚下:如有來生,再也不見

男學霸高考后泰山跳崖自盡,遺言催人淚下:如有來生,再也不見

嘉琪Feel
2025-06-17 10:06:10
【教育關注】高考出現“神仙卷面”,字跡工整漂亮,閱卷老師:看到就想打滿分!

【教育關注】高考出現“神仙卷面”,字跡工整漂亮,閱卷老師:看到就想打滿分!

廣東教育TV
2025-06-16 14:17:13
救星來了?韓媒曝曼奇尼成國足主帥候選:冒險!但他對此感到興奮

救星來了?韓媒曝曼奇尼成國足主帥候選:冒險!但他對此感到興奮

kio魚
2025-06-17 11:48:17
張子宇出戰亞洲杯引熱議!媒體人:難道要一個18歲的孩子保冠軍?

張子宇出戰亞洲杯引熱議!媒體人:難道要一個18歲的孩子保冠軍?

狼叔評論
2025-06-17 13:09:09
荔枝的“死對頭”,醫生提醒:二者萬不可同吃,吃荔枝禁忌要牢記

荔枝的“死對頭”,醫生提醒:二者萬不可同吃,吃荔枝禁忌要牢記

阿龍美食記
2025-06-16 15:19:56
小學生“倒數第一”試卷又火了,老師:這孩子智商太高,我教不了

小學生“倒數第一”試卷又火了,老師:這孩子智商太高,我教不了

育兒成長法1
2025-06-16 09:35:20
同學為那爾那茜發聲,拋開那爾那茜139分進上戲,她還是很努力的

同學為那爾那茜發聲,拋開那爾那茜139分進上戲,她還是很努力的

芊手若
2025-06-16 16:23:42
一家三口先后離世!提醒:冰箱久放7種食物,是癌癥“幫兇”

一家三口先后離世!提醒:冰箱久放7種食物,是癌癥“幫兇”

小蜜情感說
2025-06-14 11:00:34
迪馬利亞點射&曬照慶祝,大馬丁銳評:你踢得也太慢了

迪馬利亞點射&曬照慶祝,大馬丁銳評:你踢得也太慢了

直播吧
2025-06-17 11:54:18
太冤枉!“扁擔女孩”找到暑假工后,老板卻因12元時薪被大眾吐槽

太冤枉!“扁擔女孩”找到暑假工后,老板卻因12元時薪被大眾吐槽

墨印齋
2025-06-16 11:00:22
小米拼了!大批YU7現身小米工廠,保證上市交付

小米拼了!大批YU7現身小米工廠,保證上市交付

熱點科技
2025-06-17 13:52:41
法媒:因伊朗局勢,國際米蘭已經完全與塔雷米失聯

法媒:因伊朗局勢,國際米蘭已經完全與塔雷米失聯

懂球帝
2025-06-17 05:32:06
大反轉,詹姆斯突爆爭議發言!喬丹很欣慰,球迷:錯怪了副goat了

大反轉,詹姆斯突爆爭議發言!喬丹很欣慰,球迷:錯怪了副goat了

阿泰希特
2025-06-17 10:52:28
記者:高洪波重返國足執教完全沒可能,伊萬回國就在家看中超直播

記者:高洪波重返國足執教完全沒可能,伊萬回國就在家看中超直播

雷速體育
2025-06-17 10:37:27
某人壽保險之無恥,連《人民日報》都看不下去了

某人壽保險之無恥,連《人民日報》都看不下去了

難得君
2025-03-28 00:18:41
高考錄取狀態出現“這4個字”,大概率不會被錄取,25考生盡早了解

高考錄取狀態出現“這4個字”,大概率不會被錄取,25考生盡早了解

妍妍教育日記
2025-06-14 11:49:09
驚!深圳蓮花山突然掉落蓮霧,官方緊急提醒:別搶,違者坐牢!

驚!深圳蓮花山突然掉落蓮霧,官方緊急提醒:別搶,違者坐牢!

深析古今
2025-06-17 14:18:55
紫牛熱點|“優衣庫鏡子”沖上熱搜,店家回應:是普通鏡子,色差由于光的折射

紫牛熱點|“優衣庫鏡子”沖上熱搜,店家回應:是普通鏡子,色差由于光的折射

揚子晚報
2025-06-17 07:34:06
歐洲議員中國高鐵上發帖引熱議

歐洲議員中國高鐵上發帖引熱議

環球網資訊
2025-06-16 07:08:28
2025-06-17 15:31:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10659文章數 142339關注度
往期回顧 全部

科技要聞

日賺1億、存貨1544億,比亞迪的實力與枷鎖

頭條要聞

伊朗電視臺遇襲 堅持譴責以色列的主播獲贊"女英雄"

頭條要聞

伊朗電視臺遇襲 堅持譴責以色列的主播獲贊"女英雄"

體育要聞

FMVP之爭?杰倫40+6創紀錄 決戰連獻關鍵分

娛樂要聞

52歲楊坤戀情疑曝光,前女友已去世

財經要聞

618國補貼錢反漲價 美的深陷價格魔術漩渦

汽車要聞

高級感拉滿 極氪9X全新配色“極晝白”亮相

態度原創

家居
房產
旅游
健康
教育

家居要聞

輕奢簡約 大戶型三代之家

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

呼吸科專家破解呼吸道九大謠言!

教育要聞

復讀提了267分!昌樂二中助你逆襲!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 万山特区| 石家庄市| 通城县| 房山区| 北川| 加查县| 绍兴市| 弥勒县| 大城县| 巴中市| 观塘区| 新兴县| 安顺市| 铁力市| 武汉市| 迭部县| 疏附县| 肃宁县| 仲巴县| 南城县| 盖州市| 青阳县| 呼伦贝尔市| 江城| 酉阳| 贵定县| 贡觉县| 子洲县| 永平县| 康马县| 荆州市| 秦皇岛市| 泾源县| 玉屏| 大荔县| 攀枝花市| 开江县| 梅州市| 株洲市| 广元市| 甘南县|