智東西
編譯 金碧輝
編輯 程茜
智東西5月9日消息,阿里巴巴5月7日發表于arXiv的論文透露,阿里巴巴達摩院研發的“零搜索”(ZeroSearch)技術突破性破解AI訓練成本困境。該技術能通過模擬搜索引擎訓練機制,使大模型在無需調用真實搜索引擎API的情況下自主進化檢索能力。
▲阿里巴巴達摩院研究團隊發表于arXiv的論文原文
“零搜索”技術打破依賴科技巨頭的API經濟模式,開發者可精準控制訓練數據質量。目前開源代碼已登陸GitHub和Hugging Face平臺,涵蓋Qwen-2.5、LLaMA-3.2等主流架構,支持基礎版和指令微調版模型。初創企業可用四塊A100顯卡搭建高精度訓練環境。
在包含NQ、TriviaQA、PopQA、HotpotQA等七大主流問答數據集的綜合測評中,基于“零搜索”技術訓練的140億參數大模型不僅搜索準確率力壓谷歌,更實現訓練成本直降近九成。
▲arXiv論文原文中的七大主流問答數據集的綜合測評圖表
據VentureBeat今天報道,原本需要調用商業搜索引擎API的586.70美元(折合人民幣約為4240.74元)開銷,如今僅需70.80美元(折合人民幣約為510.17元)即可完成同等量級訓練任務。這項創新讓AI模型在“自我模擬”(self-simulated)中獲得出類似搜索搜索引擎的檢索能力。
一、 “零搜索” 技術成本大降超八成,性能超越谷歌搜索
研究人員使用SerpAPI調用谷歌搜索服務作為對照組,通過模擬傳統AI訓練流程中調用商業搜索引擎API的場景,與“零搜索”技術方案進行成本對比。
研究人員測算,使用SerpAPI調用谷歌搜索處理約6.4萬次查詢,成本約為586.70美元(約合人民幣為4228.82元);而在四塊A100 GPU上運行14B參數的大語言模型,僅需70.80美元(折合人民幣約為510.43元),節省幅度高達88%。
據TechCrunch 2024年11月報道,從目前存在的一些公開信息透露,SerpAPI旨在幫助開發者繞過復雜的網頁解析流程,SerpAPI能通過API調用獲取谷歌、Bing、百度等主流搜索引擎的搜索結果數據。
SerpAPI的實際企業用戶包括Jasper.ai、Copy.ai等AI初創公司,這些企業通過API接口獲取實時搜索結果訓練對話系統,但具體成本數據未被披露。
二、阿里大模型能生成擬真文檔,較谷歌API節省88%開支
阿里巴巴的研究團隊發現,經過海量預訓練的大模型已具備擬真文檔生成能力。通過監督微調將大語言模型轉化為檢索模塊,能按需生成相關或無關文檔組合。
在強化學習階段,系統通過漸進式降低生成文檔質量的“教學方案”,迫使模型持續優化檢索精度,形成自主進化閉環。
據VentureBeat今天報道,在TriviaQA等7個主流問答數據集測試中,基于通義千問2.5、LLaMA3.2等架構的模在數學視覺推理測試中得分超過OpenAI o1,展現了強大的圖形與數學結合的分析能力。14B參數模型在事實準確性指標上超越谷歌搜索2.3個百分點,7B模型與商業引擎持平。相同訓練量下模擬方案較谷歌搜索API節省88%開支。
結語:“零搜索”技術推動AI產業進入低成本自主進化階段
阿里巴巴達摩院的突破可能是AI訓練范式的重要轉折。當大模型能在封閉系統內模擬現實世界的信息交互,用戶得以擺脫對外部服務的依賴,這對數據安全、訓練可控性及技術民主化或具有深遠意義。
從行業發展趨勢來看,“零搜索”技術有望對AI開發價值鏈產生深遠影響。隨著自模擬技術成熟,未來,或將涌現更多AI訓練方案,推動產業進入低成本自主進化的新階段。
來源:arXiv、VentureBeat
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.