作者 林易
編輯 重點君
原來,阿里一直搜索夢未斷!
就在昨晚!阿里在Github等平臺開源了ZeroSearch(零搜索)大模型搜索引擎。
簡單說,這是一種不需要與真實搜索引擎交互,就可以激勵大模型搜索能力的強化學習框架。
這種新方法,可以大幅降低訓練人工智能系統(tǒng)搜索信息的成本和復雜性,從根本上消除了對昂貴的商業(yè)搜索引擎API的需求。
ZeroSearch允許大型語言模型(LLM)通過模擬方法開發(fā)高級搜索功能,而無需在訓練過程中與真實的搜索引擎交互。可以為企業(yè)節(jié)省大量API成本,同時更好地控制AI系統(tǒng)學習檢索信息的方式。
阿里研究人員在本周發(fā)表于arXiv的論文中寫道:“強化學習[RL]訓練需要頻繁部署,可能涉及數(shù)十萬個搜索請求,這會產(chǎn)生大量的API開銷,并嚴重限制可擴展性。為了應對這些挑戰(zhàn),我們推出了ZeroSearch,這是一個強化學習框架,無需與真實搜索引擎交互即可激勵LLM的搜索能力。”
如何訓練AI在沒有搜索引擎的情況下搜索?
ZeroSearch解決的問題意義重大。目前,開發(fā)能夠自主搜索信息的AI Agent的公司面臨兩大挑戰(zhàn):一是訓練過程中搜索引擎返回的文檔質量難以預測,二是向谷歌等商業(yè)搜索引擎進行數(shù)十萬次API調用的成本高得離譜。
阿里的方法始于一個輕量級的監(jiān)督式微調過程,將大語言模型(LLM)轉換為一個檢索模塊,該模塊能夠根據(jù)查詢生成相關和不相關的文檔。在強化學習訓練過程中,該系統(tǒng)采用了研究人員所稱的“基于課程的推出策略”,逐漸降低生成文檔的質量。
研究人員解釋說:“我們的核心洞察是,LLM在大規(guī)模預訓練過程中獲得了廣泛的世界知識,能夠根據(jù)搜索查詢生成相關文檔。真實搜索引擎和模擬LLM之間的主要區(qū)別在于返回內容的文本風格。”
以極低的成本超越百度和谷歌
在七個問答數(shù)據(jù)集的全面實驗中,ZeroSearch的性能不僅匹敵,甚至經(jīng)常超越使用真實搜索引擎訓練的模型。值得注意的是,一個70億參數(shù)的檢索模塊實現(xiàn)了與谷歌搜索相當?shù)男阅埽粋€140億參數(shù)的模塊甚至超越了后者。
成本節(jié)省非常可觀。根據(jù)研究人員的分析,通過SerpAPI使用Google搜索進行約64000個搜索查詢的訓練將花費約586.70美元,而在四臺A100 GPU上使用14B參數(shù)模擬LLM的成本僅為70.80美元,節(jié)省了88%。
論文指出:“這證明了在強化學習設置中使用訓練有素的LLM替代真實搜索引擎的可行性。”
對人工智能未來發(fā)展意味著什么?
這一突破是人工智能系統(tǒng)訓練方式的重大轉變。ZeroSearch表明,人工智能無需依賴搜索引擎等外部工具即可實現(xiàn)改進。
這對人工智能行業(yè)的影響可能非常巨大。到目前為止,訓練高級人工智能系統(tǒng)通常需要調用由大型科技公司控制的服務,耗費高昂的API調用成本。ZeroSearch改變了這一現(xiàn)狀,它允許人工智能模擬搜索,而不是使用實際的搜索引擎。
對于規(guī)模較小的人工智能公司和預算有限的初創(chuàng)公司來說,這種方法可以創(chuàng)造公平的競爭環(huán)境。API調用的高成本一直是開發(fā)復雜人工智能助手的主要障礙。通過將這些成本降低近90%,ZeroSearch讓高級人工智能訓練更容易獲得。
除了節(jié)省成本之外,這項技術還能讓開發(fā)者更好地控制訓練過程。使用真實的搜索引擎時,返回文檔的質量難以預測。而通過模擬搜索,開發(fā)者可以精確控制AI在訓練過程中看到的信息。
這項技術適用于多個模型系列,包括Qwen-2.5和LLaMA-3.2,以及基礎版本和指令調整版本。研究人員已在GitHub和Hugging Face上公開了他們的代碼、數(shù)據(jù)集和預訓練模型,以便其他研究人員和公司能夠應用該方法。
最后,如果你對阿里這項技術感興趣,可一鍵傳送:
論文地址:https://arxiv.org/abs/2505.04588
開源地址:https://github.com/Alibaba-nlp/ZeroSearch
Huggingface:https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.