整理 | 華衛(wèi)
近日,阿里巴巴的研究人員在 Hugging Face 上發(fā)布了一種名為“ZeroSearch”的新技術(shù),可以大大降低訓練 AI 系統(tǒng)進行信息搜索的成本和復雜度,完全消除對昂貴商業(yè)搜索引擎 API 的需求。
研究人員表示,“強化學習(RL)訓練需要頻繁進行部署,可能會涉及到數(shù)十萬次搜索請求,這會產(chǎn)生巨額的 API 費用,嚴重限制了可擴展性。”
據(jù)介紹,這項新技術(shù)是一種強化學習框架,允許大語言模型 (LLM) 通過模擬的方式開發(fā)高級搜索功能,而無需在訓練過程中與真實的搜索引擎進行交互。并且,其表現(xiàn)優(yōu)于基于真實搜索引擎的模型,同時產(chǎn)生的 API 成本為零。既能讓企業(yè)更好地控制 AI 系統(tǒng)學習檢索信息的方式,又可以為其節(jié)省大量的 API 費用。
該技術(shù)適用于多個模型系列,包括 Qwen-2.5 和 LLaMA-3.2,且無論是基礎模型還是經(jīng)過指令調(diào)整的模型都能應用,無需單獨的監(jiān)督預熱階段,并與近端策略優(yōu)化 (PPO)、組相對策略優(yōu)化 (GRPO)等各種 RL 算法兼容。目前,研究人員已在 GitHub 和 Hugging Face 上提供了他們的代碼、數(shù)據(jù)集和預訓練模型,允許其他研究人員和公司能夠應用這一方法。
項目鏈接:
https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0
有網(wǎng)友評價,“ZeroSearch 是 LLM 的游戲規(guī)則改變者。”還有人說,“這似乎是 RAG 應該發(fā)展的方向。”
以極低的成本超越谷歌
要開發(fā)能夠自主搜索信息的 AI 助手會面臨兩大挑戰(zhàn):一是在訓練過程中,搜索引擎返回的文檔質(zhì)量不可預測;二是訓練高級 AI 系統(tǒng)通常需要對大型科技公司控制的服務進行昂貴的 API 調(diào)用,尤其是向谷歌這樣的商業(yè)搜索引擎進行數(shù)十萬次 API 調(diào)用,成本高得令人望而卻步。
在針對七個問答數(shù)據(jù)集所進行的全面實驗中,ZeroSearch 的性能表現(xiàn)不僅與使用真實搜索引擎訓練的模型相當,而且在很多情況下還超越了它們。結(jié)果表明,ZeroSearch 使用 3B LLM 作為模擬搜索引擎,就可以有效地提升策略模型的搜索能力;一個擁有 70 億參數(shù)的檢索模塊能達到可與谷歌搜索相媲美的性能,而一個擁有 140 億參數(shù)的模塊甚至超過了谷歌搜索的表現(xiàn)。
更重要的是,ZeroSearch 表現(xiàn)出強大的可擴展性:增加 GPU 的數(shù)量可以顯著加快模擬 LLM 的生成吞吐量,從而實現(xiàn)高效的大規(guī)模部署。
并且,ZeroSearch 在基礎模型和指令優(yōu)化模型中都能很好地泛化。在這兩種模型類型下,ZeroSearch 都能穩(wěn)步提高獎勵性能,這突出了它的通用性。
“這證明了在強化學習的架構(gòu)中,使用一個經(jīng)過良好訓練的 LLM 來替代真實搜索引擎是可行的。” 研究人員指出。
值得注意的是,ZeroSearch 在成本方面的節(jié)省也相當可觀。根據(jù)研究人員的分析,通過 SerpAPI 使用 Google 搜索引擎對大約 64000 個搜索查詢進行訓練,成本約為 586.70 美元;而在四個 A100 GPU 上使用一個擁有 140 億參數(shù)的模擬大型語言模型進行訓練,成本僅為 70.80 美元,降低了 88%。
由此來看,ZeroSearch 所能解決的問題意義重大。不過,研究人員也指出,ZeroSearch 也有一定的局限性。部署模擬搜索 LLM 需要訪問 GPU 服務器,雖然比商業(yè) API 使用更具成本效益,但這會帶來額外的基礎設施成本。
不用搜索引擎怎么進行搜索?
據(jù)介紹,ZeroSearch 的方法始于一個輕量級的監(jiān)督微調(diào)過程,將 LLM 轉(zhuǎn)化為一個能夠生成相關(guān)和不相關(guān)文檔以響應查詢的檢索模塊,可以作為模擬搜索引擎,生成相關(guān)和嘈雜的文檔以響應查詢。
研究人員解釋道:“我們的關(guān)鍵認知是,LLM 在大規(guī)模預訓練期間已經(jīng)獲得了廣泛的世界知識,并且能夠在給定搜索查詢的情況下生成相關(guān)文檔,真實搜索引擎和模擬 LLM 之間的主要區(qū)別在于返回內(nèi)容的文本樣式。但是,通過輕量級監(jiān)督微調(diào),即使是相對較小的 LLM 也可以有效地模擬真實搜索引擎的行為。”
除了消除 API 成本之外,使用 LLM 生成文檔的一個重要優(yōu)勢是能夠控制文檔質(zhì)量。具體來說,在監(jiān)督微調(diào)過程中,通過提示設計區(qū)分導致正確或錯誤答案的文檔,使模擬 LLM 只需調(diào)整提示中的幾個單詞即可學習生成相關(guān)或嘈雜的文檔。
在強化學習訓練期間,該系統(tǒng)采用了研究人員所說的“基于課程搜索模擬的推出策略”。在推出過程中,策略模型會執(zhí)行交互式推理并生成搜索查詢,然后將查詢輸入模擬 LLM 以生成相應的文檔。為了逐步增加訓練的難度,該系統(tǒng)在強化學習訓練期間引入了一種基于課程學習的部署機制,這種機制下生成文檔的質(zhì)量會隨著時間的推移而逐漸降低,以模擬越來越具有挑戰(zhàn)性的檢索場景。這允許策略模型首先學習基本的輸出格式和任務要求,然后再逐步適應更具挑戰(zhàn)性和嘈雜的檢索場景。
獎勵信號是強化學習過程中的主要監(jiān)督。在這項工作中,ZeroSearch 采用了基于 F1 分數(shù)的獎勵,該獎勵只關(guān)注答案的準確性。
對 AI 開發(fā)的未來意味著什么?
ZeroSearch 的這一突破標志著 AI 系統(tǒng)的訓練方式發(fā)生了重大轉(zhuǎn)變。其表明,AI 在不依賴搜索引擎等外部工具的情況下也能實現(xiàn)提升。
對于預算有限的小型 AI 公司和初創(chuàng)企業(yè)來說,這種方法可以創(chuàng)造公平的競爭環(huán)境。API 調(diào)用的高昂成本一直是開發(fā)復雜 AI 助手的一大進入壁壘,ZeroSearch 將這些成本降低了近 90%,使高級 AI 訓練變得更加觸手可及。除了節(jié)省成本之外,這項技術(shù)還讓開發(fā)者能夠更好地控制訓練過程。在使用真正的搜索引擎時,返回文檔的質(zhì)量是不可預測的。而借助模擬搜索,開發(fā)者能夠精確控制 AI 在訓練過程中所接觸到的信息。
隨著大語言模型的不斷發(fā)展,像 ZeroSearch 這樣的技術(shù)意味著,未來 AI 系統(tǒng)可以通過自我模擬而不是依賴外部服務來發(fā)展日益復雜的能力,這有可能會改變 AI 開發(fā)的經(jīng)濟模式,并減少對大型技術(shù)平臺的依賴。此外,傳統(tǒng)搜索引擎對 AI 開發(fā)的必要性似乎在降低。
隨著 AI 系統(tǒng)變得更加自給自足,未來幾年的技術(shù)格局可能會大不相同。
https://venturebeat.com/ai/alibabas-zerosearch-lets-ai-learn-to-google-itself-slashing-training-costs-by-88-percent/
https://arxiv.org/pdf/2505.04588
聲明:本文為 AI 前線整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載
InfoQ 老友!請留步!極客邦 1 號客服上線工作啦!
后續(xù)我將通過微信視頻號,以視頻的形式持續(xù)更新技術(shù)話題、未來發(fā)展趨勢、創(chuàng)業(yè)經(jīng)驗、商業(yè)踩坑教訓等精彩內(nèi)容,和大家一同成長,開啟知識交流之旅歡迎掃碼關(guān)注我的微信視頻號~
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.