99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

顛覆傳統信息搜索,DeepRetrieval讓模型端到端地學會搜索!

0
分享至




在信息檢索系統中,搜索引擎的能力只是影響結果的一個方面,真正的瓶頸往往在于:用戶的原始 query 本身不夠好

尤其在專業搜索場景(如文獻、數據庫查詢)中,用戶往往無法用精確、完整的表達描述他們的需求。

那么問題來了:能不能教大模型優化原始 query 的表達方式,從而讓已有檢索系統的能力被最大化激發?

來自 UIUC 的 Jiawei Han 和 Jimeng Sun 團隊的一項最新工作DeepRetrieval就是針對這個問題提出了系統性解法,只需3B 的 LLM即可實現 50 個點以上的提升。



  • 論文標題:DeepRetrieval: Hacking Real Search Engines and Retrievers with Large Language Models via Reinforcement Learning
  • 論文地址:https://arxiv.org/pdf/2503.00223
  • 開源代碼:https://github.com/pat-jj/DeepRetrieval
  • 開源模型:https://huggingface.co/DeepRetrieval

一句話概括:DeepRetrieval 是一個基于強化學習(RL)的 query 優化系統,訓練 LLM 在不同檢索任務中優化原始查詢,以最大化真實系統的檢索效果。

它不是訓練一個新的 retriever,也不是讓模型直接回答問題,而是:

在不改變現有搜索系統的前提下,通過優化原始 query,讓「提問方式」變得更聰明,從而獲取更好的結果。

更多有意義的討論請讀原文正文和附錄的 Discussion 部分。



方法細節



方法要點

  • 輸入:原始查詢 q
  • 輸出:改寫后的查詢 q′(自然語言、布爾表達式或 SQL)
  • 環境反饋:使用 q′ 去檢索系統中查詢 → 返回結果 → 與 groundtruth 對比,計算 reward,reward 為 task-specific 檢索表現(如 Recall@K、NDCG@K、SQL accuracy)使用 PPO 進行訓練,并加入格式獎勵(format correctness)與 KL-regularization 保證訓練穩定,優化目標如下:



其中,π_ref 是參考策略(reference policy),通常指的是在強化學習開始之前的初始模型。β 是一個合適的 KL 懲罰系數,用于控制正則化的強度。KL 散度項的作用是懲罰當前策略與參考策略之間的過大偏離,從而在強化學習訓練過程中保證策略更新的穩定性

實驗結果

真實搜索引擎的文獻搜索



首先在真實的搜索引擎上進行實驗,文中用到了專業搜索引擎 PubMed 和 ClinicalTrials.gov。無需改動搜索引擎或其它任何檢索器,僅通過端到端地優化 query 表達,DeepRetrieval 就可以讓結果獲得 10 倍提升,遠超各個商業大模型和之前的 SOTA 方法 LEADS(蒸餾 + SFT 方法)。

Evidence-Seeking 檢索:通用搜索引擎的革新潛力

DeepRetrieval 在 Evidence-Seeking 檢索任務上的優異表現令人矚目。如表 1 所示,結合簡單 BM25,這個僅有 3B 參數的模型在 SQuAD、TriviaQA 和 NQ 數據集上超越了 GPT-4o 和 Claude-3.5 等大型商業模型。

Evidence-Seeking 任務的核心是找到支持特定事實性問題答案的確切文檔證據,在通用搜索引擎環境中,這一能力尤為關鍵。作者團隊指出,將 DeepRetrieval 應用到 Google、Bing 等通用搜索引擎的 Evidence-Seeking 場景將帶來顯著優勢:

  • 精準定位事實文檔:通用搜索引擎包含海量信息,用戶難以構建能精確定位證據段落的查詢。DeepRetrieval 可將簡單問題轉化為包含關鍵術語、同義詞和限定符的復雜查詢,顯著提高找到權威證據的概率。
  • 克服知識時效性限制:模型能夠將「2024 年奧運會金牌榜前三名」等超出 LLM 知識截止日期的問題轉化為精確搜索表達,使檢索系統能夠找到最新事實證據。
  • 多源驗證能力:通過優化查詢幫助搜索引擎找到多個獨立來源的事實證據,從而交叉驗證信息準確性,這是純 LLM 問答無法實現的關鍵優勢。

作者團隊表示會將這部分的延伸作為 DeepRetrieval未來主要的探索方向之一

Classic IR(Sparse / Dense)



在 BM25 和 dense retriever 下,DeepRetrieval 提供了平均 5~10 點 NDCG 提升,并且:BM25 + DeepRetrieval 和多數 dense baseline 水平相當

結合極快的檢索速度(BM25 vs dense:352s vs 12,232s),展示了一個現實可部署、性能不俗的高效方案。

SQL 檢索任務

在 SQL 檢索任務中,DeepRetrieval 擺脫了對 groundtruth SQL 的依賴,直接利用生成 SQL 的執行成功率優化模型,通過生成更精準的 SQL 語句,使得模型在 Spider、BIRD 等數據集上的執行正確率均超過對比模型(包括 GPT-4o 和基于 SFT 的大模型)。



探索勝于模仿:RL 為何超越 SFT

DeepRetrieval 的實驗揭示了強化學習(RL)在搜索優化上相比監督微調(SFT)的獨特優勢。實驗數據令人信服:在文獻搜索上,RL 方法的 DeepRetrieval(65.07%)超過 SFT 方法 LEADS(24.68%)近三倍;在 SQL 任務上,從零開始的 RL 訓練(無需任何 gold SQL 語句的監督)也優于使用 GPT-4o 蒸餾數據的 SFT 模型。

這種顯著差異源于兩種方法的本質區別:SFT 是「模仿學習」,試圖復制參考查詢,而 RL 是「直接優化」,通過環境反饋學習最優查詢策略。SFT 方法的局限在于參考查詢本身可能不是最優的,即使是人類專家或大模型也難以直觀設計出最適合特定搜索引擎的查詢表達。

論文中的案例分析進一步證實了這一點。例如,在 PubMed 搜索中,DeepRetrieval 生成的查詢如「((DDAVP) AND (Perioperative Procedures OR Blood Transfusion OR Desmopressin OR Anticoagulant)) AND (Randomized Controlled Trial)」融合了醫學領域的專業術語和 PubMed 搜索引擎偏好的布爾結構,這種組合很難通過簡單模仿預定義的查詢模板獲得。

相反,RL 允許模型通過嘗試與錯誤來探索查詢空間,發現人類甚至未考慮的有效模式,并直接針對最終目標(如 Recall 或執行準確率)進行優化。這使 DeepRetrieval 能夠生成高度適合特定搜索引擎特性的查詢,適應不同檢索環境的獨特需求。

這一發現具有重要啟示:在追求最佳檢索性能時,讓模型通過反饋學習如何與檢索系統「對話」,比簡單模仿既定模式更為有效,這也解釋了為何參數量較小的 DeepRetrieval 能在多項任務上超越擁有更多參數的商業模型。

模型 Think&Query 長度分析



通過分析 DeepRetrieval 在訓練過程中模型思考鏈和查詢長度的變化,可以發現以下關鍵洞見

思考鏈長度演變

與「aha moment」相反,DeepRetrieval 的思考鏈長度隨訓練呈下降趨勢,而非增長。這與 DeepSeek-R1 報告的「aha moment」現象形成鮮明對比,后者的思考鏈會隨訓練進展變得更長。圖 4(a) 清晰地展示了 Qwen 模型思考鏈從初始約 150 tokens 逐漸降至穩定的 50 tokens 左右,而 Llama 模型的思考鏈更短,甚至降至接近 25 tokens。

查詢長度特征

實驗揭示了思考過程對查詢長度的顯著影響。無思考過程的模型容易陷入次優解,如圖 4(b) 所示,Qwen 無思考版本生成極長查詢(500-600 tokens),表現出過度擴展的傾向。相比之下,有思考過程的模型保持更為適中的查詢長度,Qwen 約 150 tokens,Llama 約 100 tokens。有趣的是,不同模型采用不同長度策略,但能達到相似性能,表明查詢生成存在多樣有效路徑。

性能與思考過程關系

思考過程對檢索性能有決定性影響。圖 4(c) 表明,具備思考能力的模型性能顯著提升,有思考的模型 Recall@3K 能達到 65%,而無思考模型僅 50% 左右。此外,訓練效率也明顯提高,有思考的模型更快達到高性能并保持穩定。論文附錄 D.1 的分析表明,思考過程幫助模型避免簡單地通過增加查詢長度和重復術語來提升性能,而是引導模型學習更有效的語義組織策略。

關鍵結論

DeepRetrieval 展示了思考過程在信息檢索中扮演「探索促進器」的關鍵角色。與數學或編程問題不同,檢索任務不需要像「aha moment」那樣的突然頓悟現象。相反,檢索優化遵循「先詳細思考,后逐漸精簡」的模式,模型在內化有效策略后,不再需要冗長思考。這表明檢索任務中思考鏈的主要功能是探索,一旦策略穩定便可簡化。

這種分析表明,適當的思考過程設計對于構建高效的檢索優化系統至關重要,能夠在不增加模型參數的情況下顯著提升性能,為未來的 LLM 應用于搜索任務提供了重要設計思路。

結論

DeepRetrieval 的貢獻在于揭示了一個常被忽視但至關重要的事實:檢索效果的上限不僅在于檢索器本身,更在于如何「提問」

通過強化學習教 LLM 改寫原始查詢,DeepRetrieval 不僅擺脫了對人工標注數據和大模型蒸餾的依賴,還在多個任務上證明了改寫 query 的巨大潛力。這項工作為搜索與信息檢索領域帶來了新的思考:未來的檢索優化,不僅是提升引擎算法,更是如何讓用戶「問得更好」,從而激發出檢索系統的全部潛力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
許健華第二場直播流量大跌,在線人數跌破5萬,網友不吃這一套了

許健華第二場直播流量大跌,在線人數跌破5萬,網友不吃這一套了

動物奇奇怪怪
2025-05-05 15:49:45
《哪吒2》票房沖破158億:即將超越《泰坦尼克號》

《哪吒2》票房沖破158億:即將超越《泰坦尼克號》

3DM游戲
2025-05-03 16:16:03
呼吸也開始收費了?某小區收空氣費遭質疑,物業:他們是愿意交的

呼吸也開始收費了?某小區收空氣費遭質疑,物業:他們是愿意交的

奇思妙想草葉君
2025-05-04 23:55:19
我給縣長開了十年車,知道縣長藏了一屋子鈔票后,我做出了一個舉動

我給縣長開了十年車,知道縣長藏了一屋子鈔票后,我做出了一個舉動

荔枝人物記
2025-04-12 15:12:00
跑不掉了!不掛牌保時捷超車撞傷騎手,已被刑拘,更多細節曝光

跑不掉了!不掛牌保時捷超車撞傷騎手,已被刑拘,更多細節曝光

南南說娛
2025-05-05 10:35:19
曬被子后有“太陽味”?科學家:不是螨蟲烤焦,而是因為這個

曬被子后有“太陽味”?科學家:不是螨蟲烤焦,而是因為這個

紀中百大事
2025-05-04 14:15:02
啥事沒有!汪小菲馬筱梅牽手出門吃大餐,健身成果初顯,又帥了

啥事沒有!汪小菲馬筱梅牽手出門吃大餐,健身成果初顯,又帥了

鑫鑫說說
2025-05-05 10:10:48
一個人越來越有錢,靠的不是吃苦,而是做好這8點

一個人越來越有錢,靠的不是吃苦,而是做好這8點

第一桶金學派
2025-05-05 18:04:54
張柏芝開12年前的路虎外出,內飾老化嚴重!被兒子吐槽車子太破爛

張柏芝開12年前的路虎外出,內飾老化嚴重!被兒子吐槽車子太破爛

小咪侃娛圈
2025-05-04 09:03:54
皇馬緊追巴薩,他成進攻端剎車片?

皇馬緊追巴薩,他成進攻端剎車片?

西哇體育
2025-05-05 19:05:37
汪小菲妻子海量不雅照曝光,穿著大膽疑整容,父母真實職業曝光

汪小菲妻子海量不雅照曝光,穿著大膽疑整容,父母真實職業曝光

古希臘掌管月桂的神
2025-05-04 10:02:38
塑料姐妹花,掀爆世紀大戰

塑料姐妹花,掀爆世紀大戰

于小戈
2025-05-04 18:09:59
男生18cm有啥壞處?妹子現場演示長短對比太生動,看完動圖秒懂哈哈

男生18cm有啥壞處?妹子現場演示長短對比太生動,看完動圖秒懂哈哈

經典段子
2025-04-14 23:34:48
五一被罵慘的六大景區:泰山榜上有名,洛陽讓人失望,第一很過分

五一被罵慘的六大景區:泰山榜上有名,洛陽讓人失望,第一很過分

趣文說娛
2025-05-05 14:19:04
鄭智、陳濤、周挺等名宿現身梭魚灣,觀看大連英博vs北京國安

鄭智、陳濤、周挺等名宿現身梭魚灣,觀看大連英博vs北京國安

直播吧
2025-05-05 15:53:17
23歲朝鮮姑娘遠嫁上海,7年寄回50萬,回家探親時卻傻眼了

23歲朝鮮姑娘遠嫁上海,7年寄回50萬,回家探親時卻傻眼了

五元講堂
2025-04-29 12:11:33
隨著勇士淘汰火箭,西部已經定型,總冠軍將在這兩支球隊中產生

隨著勇士淘汰火箭,西部已經定型,總冠軍將在這兩支球隊中產生

星Xin辰大海
2025-05-05 16:24:57
美巨頭恢復中國進口,自行承擔關稅成本,但這消息卻高興不起來

美巨頭恢復中國進口,自行承擔關稅成本,但這消息卻高興不起來

忠誠TALK
2025-05-04 22:40:50
天天打掃,為什么家里還有那么多毛絮?學會這么做,家會很干凈的

天天打掃,為什么家里還有那么多毛絮?學會這么做,家會很干凈的

室內設計師有料兒
2025-04-29 10:46:20
四川2市公安局主要領導調整

四川2市公安局主要領導調整

金臺資訊
2025-05-05 17:18:11
2025-05-05 20:08:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10436文章數 142301關注度
往期回顧 全部

科技要聞

這3款新 iPhone,可能會改變蘋果的未來

頭條要聞

特朗普突然就對華關稅發聲 承認對中國"非常強硬"

頭條要聞

特朗普突然就對華關稅發聲 承認對中國"非常強硬"

體育要聞

當年的阿森納小球童,要踢歐冠決賽了

娛樂要聞

馬麗崩潰哭訴上熱搜,評論區罵聲一片

財經要聞

人民幣暴漲近900點!發生了什么?

汽車要聞

小米SU7的真實續航到底有多少?

態度原創

藝術
家居
房產
游戲
健康

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

黑白紋理 簡約低調空間

房產要聞

最強書包官宣落位!海口這個片區,將徹底引爆!

有驚無險!WE后期逆轉FPX,完成橫掃!

唇皰疹和口腔潰瘍是"同伙"嗎?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宁阳县| 原阳县| 岳西县| 新巴尔虎左旗| 乌鲁木齐市| 富宁县| 绥滨县| 澄江县| 会宁县| 上栗县| 玛曲县| 泾阳县| 荃湾区| 宣武区| 托里县| 嘉义县| 塘沽区| 乳源| 墨玉县| 敦煌市| 潞西市| 雅安市| 龙门县| 三明市| 绥棱县| 涞源县| 工布江达县| 肃北| 大方县| 湖北省| 新巴尔虎左旗| 高碑店市| 永昌县| 溆浦县| 临猗县| 定边县| 惠水县| 涿州市| 扎囊县| 济南市| 青龙|