網易首頁 > 網易號 > 正文申請入駐

超越RAG！R1-Searcher融合搜推，借強化學習破LLMs推理局限！

2025-03-27 20:16:52　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn開源社區

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在，歡迎加入共同成長。wisemodel社區上線，最新上線4090資源不限量，價格實惠，靈活方便，支持在線微調訓練模型，及和，并。

現有的大型推理模型（LRMs）已經展示了強化學習（RL）在增強大型語言模型（LLMs）復雜推理能力方面的潛力。雖然它們在數學和編程等具有挑戰性的任務上表現出色，但它們通常依賴于內部知識來解決問題，這在處理時效性強或知識密集型問題時可能顯得不足，從而導致不準確性和幻覺現象。

為了解決這一問題，研究團隊提出了R1-Searcher，這是一種新穎的基于結果的兩階段強化學習方法，旨在增強LLMs的搜索能力。該方法允許LLMs在推理過程中自主調用外部搜索系統以獲取額外知識。它的框架完全依賴于強化學習，無需過程獎勵或冷啟動時的蒸餾。現已上線始智AI-wisemodel開源社區，歡迎體驗。

模型地址

https://wisemodel.cn/models/CuteXxSong/Llama-3.1-8B-instruct-RAG-RL

https://wisemodel.cn/models/CuteXxSong/Qwen-2.5-7B-base-RAG-RL

01.

模型概述

大型推理模型（LRMs），例如OpenAI-o1、DeepSeek-R1和Kimi-k1.5，已經展示了強化學習（RL）在增強大型語言模型（LLMs）推理能力方面的顯著影響。

然而，由于這些模型主要依賴內部知識，它們在處理開放式任務時可能會遇到困難，尤其是在涉及知識密集型問題、本地數據庫中的私有信息以及時效性問題時。

這種依賴可能導致不準確性和幻覺現象。因此，使LLMs在推理過程中能夠訪問外部信息以實現更審慎的推理是至關重要的。

文章介紹了R1-Searcher，這是一種新穎的框架，旨在通過強化學習（RL）增強LLMs的RAG能力。核心動機是通過模型探索外部檢索環境，激勵LLMs的檢索能力。

為此，研究團隊設計了一種基于結果獎勵的兩階段RL方法，使模型能夠通過定制的獎勵設計，在推理過程中自由探索如何調用外部檢索系統以獲取相關知識。

研究團隊的方法完全依賴于基于結果獎勵的RL，允許模型通過探索和學習自主學習，無需任何蒸餾或通過SFT進行冷啟動。為了支持LLMs與外部檢索環境在訓練過程中的探索，研究團隊進一步提出了一種基于Reinforce++的改進RL訓練方法，該方法結合了 RAG-based Rollout 和 Retrieval Mask-Based Loss Calculation兩種改進以適應檢索增強生成的場景。

02.

方法簡介

團隊使用兩階段結果監督強化學習，整體基于Reinforce++算法。在第一階段，模型被訓練以有效利用外部檢索系統，在第二階段，模型被訓練在推理過程中整合檢索，以準確解答問題。研究團隊通過獎勵設計實現兩階段訓練：

第一階段，reward由retrieval-reward和format-reward組成，如果模型在推理過程中進行了檢索，就會得到retrieval-reward，旨在讓模型學會調用工具的格式；

第二階段，retrieval-reward被替換為answer-reward，讓模型更自由地進行探索，answer-reward是標準答案和預測答案的F1-Score，旨在讓模型學會正確調用工具解決問題。

另外，研究團隊對Reinforce++算法進行了修改以適應檢索增強生成場景。研究團隊的目標是讓模型在面對不確定性時能夠自主獲取外部知識，從而有效整合推理和檢索。

為了無縫整合檢索到的文檔并確保模型優化的合理性，研究團隊對原始算法進行了兩項改進：RAG-based Rollout和Retrieval Mask-based Loss Calculation。

RAG-based Rollout：研究團隊使用標簽...來引導模型在生成過程中調用外部檢索系統。捕捉到模型需要進行檢索時，推理暫停并進行檢索。檢索到的文檔被封裝在...標簽中，并整合到模型的推理過程中。這種方法確保檢索無縫融入推理過程，使模型能夠基于檢索到的文檔繼續推理，而不被打斷。

Retrieval Mask-based Loss Calculation：當模型執行檢索時，檢索到的文檔作為環境觀察的一部分被整合到推理過程中。然而，模型并不需要自主生成這些文檔。為了減少環境的影響，研究團隊將...指定為特殊標記，并在訓練中對其進行掩碼處理。這可以防止這些外部標記影響損失計算，確保檢索到的文檔不會干擾模型的內在推理和生成過程。

03.

實驗結果

團隊獨特的R1-Searcher方法，在多跳問答任務領域展現出非凡實力，具有多方面突出特點。

多跳問答性能飛躍：相比于最好的基線ReARTeR，R1-Searcher使用相同的LLaMA-3.1-8B-Instruct作為backbone，實現了顯著的性能提升：在HotpotQA上提升了48.2%，在2WikiMultiHopQA上提升了21.7%，在Bamboogle上提升了4.0%（LLM-as-Judge）。這表明團隊的方法可以有效地促進模型在推理過程中進行準確的檢索調用。

RL學習全新路徑：從基礎LLM開始進行RL學習，無需冷啟動，研究團隊從頭開始使用強大的基礎模型（如Qwen-2.5-7B-Base）進行RL學習。

令人驚訝的是，團隊能夠取得更好的結果，并在大多數領域內和領域外的數據集上獲得最佳性能，甚至超過了閉源的LLM，如GPT-4o-mini。這些結果展示了研究團隊的兩階段RL方法在指導LLMs學習過程中的有效性。

泛化能力出色保持：研究團隊僅使用HotpotQA和2WikiMultiHopQA訓練集中的8148個樣本進行RL訓練。該模型不僅在這些領域內數據集上表現出色，還在領域外數據集（如Musique和Bamboogle）上展示了強大的泛化能力。

這表明模型通過在RL訓練期間的探索，有效地學習了檢索并將其與推理相結合，從而在需要檢索的新測試數據集上實現穩健的性能。

另外，為了評估模型對于聯網搜索泛化能力，研究團隊在最新提出的Bamboogle任務上進行聯網搜索的測試，這種設定在RL訓練期間并未遇到。

如下圖所示，研究團隊的模型相較于使用相同Qwen-2.5-7B-Base作為backbone的本地檢索系統，性能提升了18.2%。

此外，與使用相同在線搜索但骨干模型更大的32B的Search-o1相比，研究團隊的模型性能提升了11.4%。這表明該模型能夠適應在線搜索場景，并且R1-Searcher使模型能夠在推理過程中檢索信息，而不僅僅是記憶響應格式。

04.

更多討論

針對以下問題進行了更詳細的實驗和分析，完整的分析請看原論文：

GRPO和Reinforce++算法的比較

結論：GRPO的生成solution更長和檢索頻率更高。GRPO在領域外測試數據集（如Bamboogle）上也展現出更好的性能；而Reinforce++在領域內測試集（如HotpotQA和2Wiki）上表現更優。

RL和SFT的比較

結論：RL在領域內和領域外的測試集上均優于SFT。SFT能夠幫助模型生成檢索查詢，但這些查詢的時機和相關性不如通過RL訓練生成的查詢。

Reward的設計對訓練的影響

結論：基于F1的答案獎勵能夠產生更長的回答長度和更優的最終結果；基于EM的獎勵在訓練過程中導致回答長度較短，并且在測試時表現不如基于CEM或F1的獎勵；基于CEM的獎勵會生成帶有不必要信息的偏長的answer。

數據難度分布和數據多樣性對訓練的影響

結論：使用混合數據集訓練的模型在檢索次數和生成回答長度上都有所增加，并且在測試集上取得了更高的分數；訓練數據中混入較高難度的數據可以在領域內和領域外的測試集上均取得更好的效果。

05.

案例展示

編輯丨趙雅鑫

----- END -----

wisemodel相關：

系統升級：

大賽報名：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發，熟悉K8S、模型訓練和推理等技術，以及熟悉開發者生態運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.