拜拜，昂貴的谷歌搜索 API！阿里開源 RL 框架讓大模型自給自足、成本直降88%，網(wǎng)友：游戲規(guī)則變了

2025-05-09 13:24:03　來源: AI前線

北京舉報

分享至

整理 | 華衛(wèi)

近日，阿里巴巴的研究人員在 Hugging Face 上發(fā)布了一種名為“ZeroSearch”的新技術(shù)，可以大大降低訓練 AI 系統(tǒng)進行信息搜索的成本和復雜度，完全消除對昂貴商業(yè)搜索引擎 API 的需求。

研究人員表示，“強化學習（RL）訓練需要頻繁進行部署，可能會涉及到數(shù)十萬次搜索請求，這會產(chǎn)生巨額的 API 費用，嚴重限制了可擴展性。”

據(jù)介紹，這項新技術(shù)是一種強化學習框架，允許大語言模型（LLM）通過模擬的方式開發(fā)高級搜索功能，而無需在訓練過程中與真實的搜索引擎進行交互。并且，其表現(xiàn)優(yōu)于基于真實搜索引擎的模型，同時產(chǎn)生的 API 成本為零。既能讓企業(yè)更好地控制 AI 系統(tǒng)學習檢索信息的方式，又可以為其節(jié)省大量的 API 費用。

該技術(shù)適用于多個模型系列，包括 Qwen-2.5 和 LLaMA-3.2，且無論是基礎模型還是經(jīng)過指令調(diào)整的模型都能應用，無需單獨的監(jiān)督預熱階段，并與近端策略優(yōu)化（PPO）、組相對策略優(yōu)化（GRPO）等各種 RL 算法兼容。目前，研究人員已在 GitHub 和 Hugging Face 上提供了他們的代碼、數(shù)據(jù)集和預訓練模型，允許其他研究人員和公司能夠應用這一方法。

項目鏈接：

https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0

有網(wǎng)友評價，“ZeroSearch 是 LLM 的游戲規(guī)則改變者。”還有人說，“這似乎是 RAG 應該發(fā)展的方向。”

以極低的成本超越谷歌

要開發(fā)能夠自主搜索信息的 AI 助手會面臨兩大挑戰(zhàn)：一是在訓練過程中，搜索引擎返回的文檔質(zhì)量不可預測；二是訓練高級 AI 系統(tǒng)通常需要對大型科技公司控制的服務進行昂貴的 API 調(diào)用，尤其是向谷歌這樣的商業(yè)搜索引擎進行數(shù)十萬次 API 調(diào)用，成本高得令人望而卻步。

在針對七個問答數(shù)據(jù)集所進行的全面實驗中，ZeroSearch 的性能表現(xiàn)不僅與使用真實搜索引擎訓練的模型相當，而且在很多情況下還超越了它們。結(jié)果表明，ZeroSearch 使用 3B LLM 作為模擬搜索引擎，就可以有效地提升策略模型的搜索能力；一個擁有 70 億參數(shù)的檢索模塊能達到可與谷歌搜索相媲美的性能，而一個擁有 140 億參數(shù)的模塊甚至超過了谷歌搜索的表現(xiàn)。

更重要的是，ZeroSearch 表現(xiàn)出強大的可擴展性：增加 GPU 的數(shù)量可以顯著加快模擬 LLM 的生成吞吐量，從而實現(xiàn)高效的大規(guī)模部署。

并且，ZeroSearch 在基礎模型和指令優(yōu)化模型中都能很好地泛化。在這兩種模型類型下，ZeroSearch 都能穩(wěn)步提高獎勵性能，這突出了它的通用性。

“這證明了在強化學習的架構(gòu)中，使用一個經(jīng)過良好訓練的 LLM 來替代真實搜索引擎是可行的。” 研究人員指出。

值得注意的是，ZeroSearch 在成本方面的節(jié)省也相當可觀。根據(jù)研究人員的分析，通過 SerpAPI 使用 Google 搜索引擎對大約 64000 個搜索查詢進行訓練，成本約為 586.70 美元；而在四個 A100 GPU 上使用一個擁有 140 億參數(shù)的模擬大型語言模型進行訓練，成本僅為 70.80 美元，降低了 88%。

由此來看，ZeroSearch 所能解決的問題意義重大。不過，研究人員也指出，ZeroSearch 也有一定的局限性。部署模擬搜索 LLM 需要訪問 GPU 服務器，雖然比商業(yè) API 使用更具成本效益，但這會帶來額外的基礎設施成本。

不用搜索引擎怎么進行搜索？

據(jù)介紹，ZeroSearch 的方法始于一個輕量級的監(jiān)督微調(diào)過程，將 LLM 轉(zhuǎn)化為一個能夠生成相關(guān)和不相關(guān)文檔以響應查詢的檢索模塊，可以作為模擬搜索引擎，生成相關(guān)和嘈雜的文檔以響應查詢。

研究人員解釋道：“我們的關(guān)鍵認知是，LLM 在大規(guī)模預訓練期間已經(jīng)獲得了廣泛的世界知識，并且能夠在給定搜索查詢的情況下生成相關(guān)文檔，真實搜索引擎和模擬 LLM 之間的主要區(qū)別在于返回內(nèi)容的文本樣式。但是，通過輕量級監(jiān)督微調(diào)，即使是相對較小的 LLM 也可以有效地模擬真實搜索引擎的行為。”

除了消除 API 成本之外，使用 LLM 生成文檔的一個重要優(yōu)勢是能夠控制文檔質(zhì)量。具體來說，在監(jiān)督微調(diào)過程中，通過提示設計區(qū)分導致正確或錯誤答案的文檔，使模擬 LLM 只需調(diào)整提示中的幾個單詞即可學習生成相關(guān)或嘈雜的文檔。

在強化學習訓練期間，該系統(tǒng)采用了研究人員所說的“基于課程搜索模擬的推出策略”。在推出過程中，策略模型會執(zhí)行交互式推理并生成搜索查詢，然后將查詢輸入模擬 LLM 以生成相應的文檔。為了逐步增加訓練的難度，該系統(tǒng)在強化學習訓練期間引入了一種基于課程學習的部署機制，這種機制下生成文檔的質(zhì)量會隨著時間的推移而逐漸降低，以模擬越來越具有挑戰(zhàn)性的檢索場景。這允許策略模型首先學習基本的輸出格式和任務要求，然后再逐步適應更具挑戰(zhàn)性和嘈雜的檢索場景。

獎勵信號是強化學習過程中的主要監(jiān)督。在這項工作中，ZeroSearch 采用了基于 F1 分數(shù)的獎勵，該獎勵只關(guān)注答案的準確性。

對 AI 開發(fā)的未來意味著什么？

ZeroSearch 的這一突破標志著 AI 系統(tǒng)的訓練方式發(fā)生了重大轉(zhuǎn)變。其表明，AI 在不依賴搜索引擎等外部工具的情況下也能實現(xiàn)提升。

對于預算有限的小型 AI 公司和初創(chuàng)企業(yè)來說，這種方法可以創(chuàng)造公平的競爭環(huán)境。API 調(diào)用的高昂成本一直是開發(fā)復雜 AI 助手的一大進入壁壘，ZeroSearch 將這些成本降低了近 90%，使高級 AI 訓練變得更加觸手可及。除了節(jié)省成本之外，這項技術(shù)還讓開發(fā)者能夠更好地控制訓練過程。在使用真正的搜索引擎時，返回文檔的質(zhì)量是不可預測的。而借助模擬搜索，開發(fā)者能夠精確控制 AI 在訓練過程中所接觸到的信息。

隨著大語言模型的不斷發(fā)展，像 ZeroSearch 這樣的技術(shù)意味著，未來 AI 系統(tǒng)可以通過自我模擬而不是依賴外部服務來發(fā)展日益復雜的能力，這有可能會改變 AI 開發(fā)的經(jīng)濟模式，并減少對大型技術(shù)平臺的依賴。此外，傳統(tǒng)搜索引擎對 AI 開發(fā)的必要性似乎在降低。

隨著 AI 系統(tǒng)變得更加自給自足，未來幾年的技術(shù)格局可能會大不相同。

https://venturebeat.com/ai/alibabas-zerosearch-lets-ai-learn-to-google-itself-slashing-training-costs-by-88-percent/

https://arxiv.org/pdf/2505.04588

聲明：本文為 AI 前線整理，不代表平臺觀點，未經(jīng)許可禁止轉(zhuǎn)載

InfoQ 老友！請留步！極客邦 1 號客服上線工作啦！

后續(xù)我將通過微信視頻號，以視頻的形式持續(xù)更新技術(shù)話題、未來發(fā)展趨勢、創(chuàng)業(yè)經(jīng)驗、商業(yè)踩坑教訓等精彩內(nèi)容，和大家一同成長，開啟知識交流之旅歡迎掃碼關(guān)注我的微信視頻號～

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.