99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

拜拜,昂貴的谷歌搜索 API!阿里開源 RL 框架讓大模型自給自足、成本直降88%,網(wǎng)友:游戲規(guī)則變了

0
分享至


整理 | 華衛(wèi)

近日,阿里巴巴的研究人員在 Hugging Face 上發(fā)布了一種名為“ZeroSearch”的新技術(shù),可以大大降低訓練 AI 系統(tǒng)進行信息搜索的成本和復雜度,完全消除對昂貴商業(yè)搜索引擎 API 的需求。

研究人員表示,“強化學習(RL)訓練需要頻繁進行部署,可能會涉及到數(shù)十萬次搜索請求,這會產(chǎn)生巨額的 API 費用,嚴重限制了可擴展性。”

據(jù)介紹,這項新技術(shù)是一種強化學習框架,允許大語言模型 (LLM) 通過模擬的方式開發(fā)高級搜索功能,而無需在訓練過程中與真實的搜索引擎進行交互。并且,其表現(xiàn)優(yōu)于基于真實搜索引擎的模型,同時產(chǎn)生的 API 成本為零。既能讓企業(yè)更好地控制 AI 系統(tǒng)學習檢索信息的方式,又可以為其節(jié)省大量的 API 費用。

該技術(shù)適用于多個模型系列,包括 Qwen-2.5 和 LLaMA-3.2,且無論是基礎模型還是經(jīng)過指令調(diào)整的模型都能應用,無需單獨的監(jiān)督預熱階段,并與近端策略優(yōu)化 (PPO)、組相對策略優(yōu)化 (GRPO)等各種 RL 算法兼容。目前,研究人員已在 GitHub 和 Hugging Face 上提供了他們的代碼、數(shù)據(jù)集和預訓練模型,允許其他研究人員和公司能夠應用這一方法。

項目鏈接:
https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0

有網(wǎng)友評價,“ZeroSearch 是 LLM 的游戲規(guī)則改變者。”還有人說,“這似乎是 RAG 應該發(fā)展的方向。”


以極低的成本超越谷歌

要開發(fā)能夠自主搜索信息的 AI 助手會面臨兩大挑戰(zhàn):一是在訓練過程中,搜索引擎返回的文檔質(zhì)量不可預測;二是訓練高級 AI 系統(tǒng)通常需要對大型科技公司控制的服務進行昂貴的 API 調(diào)用,尤其是向谷歌這樣的商業(yè)搜索引擎進行數(shù)十萬次 API 調(diào)用,成本高得令人望而卻步。

在針對七個問答數(shù)據(jù)集所進行的全面實驗中,ZeroSearch 的性能表現(xiàn)不僅與使用真實搜索引擎訓練的模型相當,而且在很多情況下還超越了它們。結(jié)果表明,ZeroSearch 使用 3B LLM 作為模擬搜索引擎,就可以有效地提升策略模型的搜索能力;一個擁有 70 億參數(shù)的檢索模塊能達到可與谷歌搜索相媲美的性能,而一個擁有 140 億參數(shù)的模塊甚至超過了谷歌搜索的表現(xiàn)。

更重要的是,ZeroSearch 表現(xiàn)出強大的可擴展性:增加 GPU 的數(shù)量可以顯著加快模擬 LLM 的生成吞吐量,從而實現(xiàn)高效的大規(guī)模部署。


并且,ZeroSearch 在基礎模型和指令優(yōu)化模型中都能很好地泛化。在這兩種模型類型下,ZeroSearch 都能穩(wěn)步提高獎勵性能,這突出了它的通用性。


“這證明了在強化學習的架構(gòu)中,使用一個經(jīng)過良好訓練的 LLM 來替代真實搜索引擎是可行的。” 研究人員指出。

值得注意的是,ZeroSearch 在成本方面的節(jié)省也相當可觀。根據(jù)研究人員的分析,通過 SerpAPI 使用 Google 搜索引擎對大約 64000 個搜索查詢進行訓練,成本約為 586.70 美元;而在四個 A100 GPU 上使用一個擁有 140 億參數(shù)的模擬大型語言模型進行訓練,成本僅為 70.80 美元,降低了 88%。

由此來看,ZeroSearch 所能解決的問題意義重大。不過,研究人員也指出,ZeroSearch 也有一定的局限性。部署模擬搜索 LLM 需要訪問 GPU 服務器,雖然比商業(yè) API 使用更具成本效益,但這會帶來額外的基礎設施成本。

不用搜索引擎怎么進行搜索?

據(jù)介紹,ZeroSearch 的方法始于一個輕量級的監(jiān)督微調(diào)過程,將 LLM 轉(zhuǎn)化為一個能夠生成相關(guān)和不相關(guān)文檔以響應查詢的檢索模塊,可以作為模擬搜索引擎,生成相關(guān)和嘈雜的文檔以響應查詢。


研究人員解釋道:“我們的關(guān)鍵認知是,LLM 在大規(guī)模預訓練期間已經(jīng)獲得了廣泛的世界知識,并且能夠在給定搜索查詢的情況下生成相關(guān)文檔,真實搜索引擎和模擬 LLM 之間的主要區(qū)別在于返回內(nèi)容的文本樣式。但是,通過輕量級監(jiān)督微調(diào),即使是相對較小的 LLM 也可以有效地模擬真實搜索引擎的行為。”

除了消除 API 成本之外,使用 LLM 生成文檔的一個重要優(yōu)勢是能夠控制文檔質(zhì)量。具體來說,在監(jiān)督微調(diào)過程中,通過提示設計區(qū)分導致正確或錯誤答案的文檔,使模擬 LLM 只需調(diào)整提示中的幾個單詞即可學習生成相關(guān)或嘈雜的文檔。

在強化學習訓練期間,該系統(tǒng)采用了研究人員所說的“基于課程搜索模擬的推出策略”。在推出過程中,策略模型會執(zhí)行交互式推理并生成搜索查詢,然后將查詢輸入模擬 LLM 以生成相應的文檔。為了逐步增加訓練的難度,該系統(tǒng)在強化學習訓練期間引入了一種基于課程學習的部署機制,這種機制下生成文檔的質(zhì)量會隨著時間的推移而逐漸降低,以模擬越來越具有挑戰(zhàn)性的檢索場景。這允許策略模型首先學習基本的輸出格式和任務要求,然后再逐步適應更具挑戰(zhàn)性和嘈雜的檢索場景。

獎勵信號是強化學習過程中的主要監(jiān)督。在這項工作中,ZeroSearch 采用了基于 F1 分數(shù)的獎勵,該獎勵只關(guān)注答案的準確性。

對 AI 開發(fā)的未來意味著什么?

ZeroSearch 的這一突破標志著 AI 系統(tǒng)的訓練方式發(fā)生了重大轉(zhuǎn)變。其表明,AI 在不依賴搜索引擎等外部工具的情況下也能實現(xiàn)提升。

對于預算有限的小型 AI 公司和初創(chuàng)企業(yè)來說,這種方法可以創(chuàng)造公平的競爭環(huán)境。API 調(diào)用的高昂成本一直是開發(fā)復雜 AI 助手的一大進入壁壘,ZeroSearch 將這些成本降低了近 90%,使高級 AI 訓練變得更加觸手可及。除了節(jié)省成本之外,這項技術(shù)還讓開發(fā)者能夠更好地控制訓練過程。在使用真正的搜索引擎時,返回文檔的質(zhì)量是不可預測的。而借助模擬搜索,開發(fā)者能夠精確控制 AI 在訓練過程中所接觸到的信息。

隨著大語言模型的不斷發(fā)展,像 ZeroSearch 這樣的技術(shù)意味著,未來 AI 系統(tǒng)可以通過自我模擬而不是依賴外部服務來發(fā)展日益復雜的能力,這有可能會改變 AI 開發(fā)的經(jīng)濟模式,并減少對大型技術(shù)平臺的依賴。此外,傳統(tǒng)搜索引擎對 AI 開發(fā)的必要性似乎在降低。

隨著 AI 系統(tǒng)變得更加自給自足,未來幾年的技術(shù)格局可能會大不相同。

https://venturebeat.com/ai/alibabas-zerosearch-lets-ai-learn-to-google-itself-slashing-training-costs-by-88-percent/

https://arxiv.org/pdf/2505.04588

聲明:本文為 AI 前線整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載

InfoQ 老友!請留步!極客邦 1 號客服上線工作啦!

后續(xù)我將通過微信視頻號,以視頻的形式持續(xù)更新技術(shù)話題、未來發(fā)展趨勢、創(chuàng)業(yè)經(jīng)驗、商業(yè)踩坑教訓等精彩內(nèi)容,和大家一同成長,開啟知識交流之旅歡迎掃碼關(guān)注我的微信視頻號~

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
臺灣省選舉反轉(zhuǎn),國民黨5選一?搶在罷免賴清德前,張亞中重出江湖

臺灣省選舉反轉(zhuǎn),國民黨5選一?搶在罷免賴清德前,張亞中重出江湖

紅色鑒史官
2025-05-20 18:00:03
電影業(yè),正式倒退回2012年

電影業(yè),正式倒退回2012年

黑噪音
2025-05-04 04:51:11
已明確!15所北京高校,去雄安

已明確!15所北京高校,去雄安

算法與數(shù)學之美
2025-05-21 17:07:45
黃了?!光谷這一重磅配套,已暫時停止!

黃了?!光谷這一重磅配套,已暫時停止!

武漢生活薈
2025-05-21 18:29:35
成都銀行,再躺平就沒救了

成都銀行,再躺平就沒救了

圍觀商業(yè)
2025-05-21 17:27:21
男子和美女站著發(fā)生關(guān)系,被抓后喊冤:她不配合,我怎么能完成

男子和美女站著發(fā)生關(guān)系,被抓后喊冤:她不配合,我怎么能完成

剛哥說法365
2025-03-31 00:42:08
越扒越嚇人,她這房要塌成廢墟了

越扒越嚇人,她這房要塌成廢墟了

情感大頭說說
2025-05-22 00:13:20
電影《哪吒之魔童鬧海》延長上映至6月30日

電影《哪吒之魔童鬧海》延長上映至6月30日

瀟湘晨報
2025-05-21 15:19:06
懸念揭曉,北京首鋼外援一個不留,方碩等四將離隊,許利民留隊!

懸念揭曉,北京首鋼外援一個不留,方碩等四將離隊,許利民留隊!

體壇小快靈
2025-05-21 10:22:40
足協(xié)杯賽場傳射建功,蒯紀聞曬照慶祝:我愛你們

足協(xié)杯賽場傳射建功,蒯紀聞曬照慶祝:我愛你們

懂球帝
2025-05-22 00:42:18
抗癌時期病房照令人淚目,“國民媳婦”朱媛媛去世,眾星哀悼!

抗癌時期病房照令人淚目,“國民媳婦”朱媛媛去世,眾星哀悼!

華人生活網(wǎng)
2025-05-22 04:05:27
哈馬斯玩脫了:以色列召回談判團隊,一言不合就開打

哈馬斯玩脫了:以色列召回談判團隊,一言不合就開打

一種觀點
2025-05-21 07:59:44
最近連曝的幾個大瓜,其實都指向同一件事

最近連曝的幾個大瓜,其實都指向同一件事

深藍夜讀
2025-05-19 22:02:09
泰國貓咪襲警被捕超萌入獄照走紅 滿臉寫著不服

泰國貓咪襲警被捕超萌入獄照走紅 滿臉寫著不服

大象新聞
2025-05-21 08:52:59
實錘了!美國,這次真怕了!

實錘了!美國,這次真怕了!

大嘴說天下
2025-05-21 22:13:25
62年時三哥為啥要不斷挑釁我國?網(wǎng)友:看過解說最詳盡的一版

62年時三哥為啥要不斷挑釁我國?網(wǎng)友:看過解說最詳盡的一版

娛樂圈人物大賞
2025-05-21 00:10:10
突發(fā)!又不退市了?16天16板,還有4個地天板!8萬股東忍不住哭了

突發(fā)!又不退市了?16天16板,還有4個地天板!8萬股東忍不住哭了

風風順
2025-05-22 02:18:11
霍尊四年后重返娛樂圈輝煌,而“毀滅”他的陳露卻過得如此艱難

霍尊四年后重返娛樂圈輝煌,而“毀滅”他的陳露卻過得如此艱難

東方不敗然多多
2025-05-22 04:17:38
中國又一壯舉!打算從天空調(diào)水,耗資2500億的天河工程究竟是什么

中國又一壯舉!打算從天空調(diào)水,耗資2500億的天河工程究竟是什么

史紀文譚
2025-05-21 13:22:48
印巴沖突要因此升級?巴外長受邀訪華后,俾路支省再發(fā)生爆炸

印巴沖突要因此升級?巴外長受邀訪華后,俾路支省再發(fā)生爆炸

Ck的蜜糖
2025-05-22 05:01:17
2025-05-22 05:48:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學家,提供AI領域技術(shù)資訊。
856文章數(shù) 80關(guān)注度
往期回顧 全部

科技要聞

網(wǎng)易直擊IO大會:Gemini接管一切 眼鏡炸場

頭條要聞

歐洲領導人徹底失望:特朗普24小時不到就背棄我們

頭條要聞

歐洲領導人徹底失望:特朗普24小時不到就背棄我們

體育要聞

打破三大魔咒!廣廈終于將冠軍帶回浙江

娛樂要聞

中國國家話劇院發(fā)訃告:沉痛悼念朱媛媛

財經(jīng)要聞

年虧百億、裁員自救!“AI四小龍”難了

汽車要聞

價格下調(diào) 2025聰明款ID.4 X限時13.99萬起

態(tài)度原創(chuàng)

教育
健康
旅游
公開課
軍事航空

教育要聞

5月25日開始報名!2025南京陽光招生平臺報名登記提醒!

唇皰疹和口腔潰瘍是"同伙"嗎?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

連損3架戰(zhàn)機 美"杜魯門"號航母撤出紅海

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 图们市| 察雅县| 拜泉县| 湖口县| 美姑县| 玉龙| 邯郸县| 开平市| 淳化县| 平和县| 聂荣县| 榕江县| 芒康县| 广州市| 山阳县| 谢通门县| 沁阳市| 永城市| 万年县| 确山县| 即墨市| 平和县| 耿马| 五家渠市| 五莲县| 平湖市| 沁水县| 镇安县| 抚州市| 稷山县| 德令哈市| 延吉市| 库尔勒市| 芒康县| 建湖县| 巨鹿县| 潼关县| 闽侯县| 九寨沟县| 鹤壁市| 乌兰察布市|