來(lái)源 | 思考機(jī)器 作者 |Douwe Kiela
本文作者 Douwe Kiela,RAG 論文(Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks)作者之一。
以下為全文:
每隔幾個(gè)月,人工智能領(lǐng)域就會(huì)經(jīng)歷類似的模式。一個(gè)具有更大上下文窗口的新模型問(wèn)世,社交媒體上便會(huì)充斥著“RAG 已死”的宣言。Meta 最近的突破再次引發(fā)了這場(chǎng)討論——Llama 4 Scout 驚人的 1000 萬(wàn)(理論上)token 上下文窗口代表著一次真正的飛躍。
但這些論斷——無(wú)論是針對(duì)上下文窗口的突破、微調(diào)技術(shù)的進(jìn)步,還是模型上下文協(xié)議(MCP)的出現(xiàn)——都誤解了 RAG 的目的,以及為何它在人工智能領(lǐng)域?qū)⒂肋h(yuǎn)占有一席之地。
RAG的初衷
五年前,我在 Meta 基礎(chǔ)人工智能研究中心(FAIR,前身為 Facebook 人工智能研究中心)的團(tuán)隊(duì)提出了 RAG(Retrieval-Augmented Generation,檢索增強(qiáng)生成)的概念。RAG 的目標(biāo)是利用外部知識(shí)來(lái)增強(qiáng)模型,創(chuàng)造一種結(jié)合了參數(shù)化記憶和非參數(shù)化記憶的兩全其美的解決方案。
簡(jiǎn)單來(lái)說(shuō),RAG 通過(guò)檢索語(yǔ)言模型未經(jīng)訓(xùn)練的數(shù)據(jù)源中的相關(guān)信息,并將其注入模型的上下文中,從而擴(kuò)展了語(yǔ)言模型的知識(shí)庫(kù)。
這種方法旨在解決生成式語(yǔ)言模型的許多固有缺陷:
無(wú)法訪問(wèn)私有(企業(yè)內(nèi)部)數(shù)據(jù):模型通常基于公共數(shù)據(jù)進(jìn)行訓(xùn)練,但往往需要那些不斷變化和擴(kuò)展的專有信息。
過(guò)時(shí)的參數(shù)知識(shí):即使模型頻繁更新,其訓(xùn)練數(shù)據(jù)截止日期與當(dāng)前時(shí)間之間總會(huì)存在差距。
幻覺(jué)和歸因問(wèn)題:模型經(jīng)常編造聽(tīng)起來(lái)合理但錯(cuò)誤的信息。RAG 通過(guò)將回答基于真實(shí)來(lái)源,并提供引文讓用戶核實(shí)信息,解決了這個(gè)問(wèn)題。
聽(tīng)起來(lái)耳熟嗎?現(xiàn)在已經(jīng)不是 2020 年了,但這些同樣的問(wèn)題至今依然存在。甚至可以說(shuō),隨著組織推動(dòng) AI 系統(tǒng)處理日益復(fù)雜和關(guān)鍵的任務(wù),這些問(wèn)題變得更加突出了。核心挑戰(zhàn)依然是:我們?nèi)绾螌?qiáng)大的生成式模型與公司所依賴的海量知識(shí)庫(kù)連接起來(lái)?
為什么我們?nèi)匀恍枰猂AG(并且永遠(yuǎn)需要)
高效而精確的檢索在人工智能中將始終扮演重要角色。這一點(diǎn)在一個(gè)廣為流傳的 LinkedIn 帖子中得到了很好的闡述,但我將重申為什么我們不能僅僅將所有數(shù)據(jù)加載到模型的上下文中:自首個(gè)具備大上下文窗口的 LLM 問(wèn)世以來(lái),RAG 就一直面臨“消亡”的論調(diào)。
該 LinkedIn 帖子:
一些值得注意的 RAG“死亡宣告”包括:
2023 年 5 月:Anthropic 的 Claude,上下文窗口達(dá) 10 萬(wàn) token
2024 年 2 月:Google 的 Gemini 1.5,上下文窗口達(dá) 100 萬(wàn) token
2025 年 3 月:模型上下文協(xié)議(Model Context Protocol)讓你能直接與你的數(shù)據(jù)對(duì)話 (注:原文日期可能是筆誤)
但現(xiàn)實(shí)情況是:
即使擁有高達(dá) 200 萬(wàn) token 這樣驚人的上下文窗口,當(dāng)前的長(zhǎng)上下文 LLM 也只能處理演示性質(zhì)的數(shù)據(jù)集(toy datasets)。
例如,100 萬(wàn) token 的上下文窗口(大致)相當(dāng)于約 1500 頁(yè)文檔。
這對(duì)于演示來(lái)說(shuō)很亮眼,但對(duì)于生產(chǎn)級(jí)別的應(yīng)用而言是不足夠的。
不過(guò),讓我們假設(shè)我們擁有一個(gè)無(wú)限 token 的上下文窗口:
可擴(kuò)展性與成本:處理數(shù)百萬(wàn) token 速度緩慢,且在計(jì)算和財(cái)務(wù)上都代價(jià)高昂。即使計(jì)算成本在下降,延遲對(duì)于應(yīng)用程序來(lái)說(shuō)也可能是一個(gè)大問(wèn)題。
性能下降:LLM 仍然受困于“中間丟失”(lost in the middle)的問(wèn)題。這意味著它們無(wú)法有效利用長(zhǎng)文本中間部分的信息。通過(guò)剔除不相關(guān)文檔并避免“大海撈針”的情況,您將獲得更好的結(jié)果。
數(shù)據(jù)隱私:將 所有 數(shù)據(jù)提供給基礎(chǔ)模型可能引發(fā)嚴(yán)重的數(shù)據(jù)隱私問(wèn)題。尤其是在醫(yī)療保健或金融服務(wù)等受到嚴(yán)格監(jiān)管的行業(yè),您需要對(duì)數(shù)據(jù)強(qiáng)制執(zhí)行基于角色的訪問(wèn)控制。
底線是:您同時(shí)需要長(zhǎng)上下文 LLM 和 RAG。
但既然“RAG”這個(gè)術(shù)語(yǔ)似乎如此具有爭(zhēng)議性,那我們不妨這樣說(shuō):
我們不必非得稱之為 RAG。
我們可以就叫它檢索 (retrieval)。
或者叫上下文篩選 (context curation)。
無(wú)論您決定怎么稱呼它,能夠控制進(jìn)入上下文窗口的數(shù)據(jù)質(zhì)量,將決定最終生成輸出的質(zhì)量。
畢竟,垃圾進(jìn),垃圾出。
可擴(kuò)展性– 您的企業(yè)知識(shí)庫(kù)是以 TB 或 PB 來(lái)衡量的,而不是 token。即使有 1000 萬(wàn) token 的上下文窗口,您仍然只能看到可用信息的極小一部分。這就是為什么檢索技術(shù)的創(chuàng)新一直快速發(fā)展,混合搜索、查詢轉(zhuǎn)換、自我反思、主動(dòng)檢索以及對(duì)結(jié)構(gòu)化數(shù)據(jù)的支持等方面的進(jìn)步,都在幫助您在知識(shí)庫(kù)中找到正確的信息。
準(zhǔn)確性– 有效的上下文窗口與產(chǎn)品發(fā)布時(shí)宣傳的大相徑庭。研究一致表明,模型在遠(yuǎn)未達(dá)到其官方極限時(shí)性能就會(huì)下降。在實(shí)際測(cè)試中,同樣的模式也會(huì)出現(xiàn),模型難以準(zhǔn)確引用深埋在其上下文中的信息。這種“上下文懸崖”意味著僅僅將更多內(nèi)容塞入窗口并不會(huì)帶來(lái)更好的結(jié)果。
延遲– 將所有內(nèi)容加載到模型上下文中會(huì)導(dǎo)致響應(yīng)時(shí)間顯著變慢。對(duì)于面向用戶的應(yīng)用程序,這會(huì)造成糟糕的用戶體驗(yàn),人們會(huì)在得到答案前就放棄交互。基于檢索的方法可以通過(guò)僅添加最相關(guān)的信息來(lái)提供更快的響應(yīng)。
效率– 你會(huì)在需要回答一個(gè)簡(jiǎn)單問(wèn)題時(shí)去讀完整本教科書(shū)嗎?當(dāng)然不會(huì)!RAG 提供了相當(dāng)于直接翻到相關(guān)頁(yè)面的能力。處理更多 token 不僅更慢,而且極其低效,并且比使用 RAG 精準(zhǔn)定位所需信息要昂貴得多。
在谷歌搜索“RAG vs”,你會(huì)看到一長(zhǎng)串建議的查詢補(bǔ)全——“長(zhǎng)上下文”、“微調(diào)”、“MCP”。這種框架設(shè)定制造了一種人為的選擇,并沒(méi)有反映這些技術(shù)實(shí)際上如何協(xié)同工作的最佳方式。
實(shí)際上,這些概念沒(méi)有一個(gè)是相互排斥的,甚至不是相互沖突的——它們都以互補(bǔ)的方式幫助解決前沿模型的局限性:
RAG提供了訪問(wèn)模型知識(shí)庫(kù)之外信息的途徑
微調(diào)改善了信息處理和應(yīng)用的方式
更長(zhǎng)的上下文允許檢索更多信息供模型推理
MCP簡(jiǎn)化了 Agent 與 RAG 系統(tǒng)(及其他工具)的集成
我們?cè)谏a(chǎn)環(huán)境中看到的最復(fù)雜的 AI 系統(tǒng)結(jié)合了這些方法,根據(jù)各自的優(yōu)勢(shì)來(lái)使用每種工具,而不是宣布某一個(gè)獲勝并將其他工具拋棄。
正如一位 Twitter 用戶最近所說(shuō):“聲稱大型 LLM 上下文窗口取代了 RAG,就像說(shuō)因?yàn)橛凶銐虻膬?nèi)存(RAM)就不需要硬盤一樣。”正是如此!你的電腦有磁盤、內(nèi)存和網(wǎng)卡是有原因的。它們服務(wù)于不同的目的,并作為一個(gè)系統(tǒng)協(xié)同工作。RAG、微調(diào)和大型上下文窗口在 AI 中也是如此。
結(jié)論
我們不需要在 RAG 與長(zhǎng)上下文窗口、微調(diào)或 MCP 之間做出選擇。真正能創(chuàng)造價(jià)值的 AI 解決方案不會(huì)固守單一方法;它們會(huì)根據(jù)要解決的具體問(wèn)題混合搭配使用工具。
但下一次宣稱“RAG 已死”的論調(diào)出現(xiàn)只是時(shí)間問(wèn)題,所以,如果你將來(lái)想引用這篇文章,可以在 isragdeadyet.com 找到它。這個(gè)網(wǎng)站將作為一個(gè)活生生的證明,展現(xiàn)檢索在 AI 系統(tǒng)中持久的重要性,并且每當(dāng)下一波“RAG 已死”的帖子不可避免地出現(xiàn)時(shí),它都會(huì)更新。
如果你的系統(tǒng)無(wú)法利用你的專有數(shù)據(jù),持續(xù)提供過(guò)時(shí)信息,或者缺乏你所需的專業(yè)知識(shí),那么讓我們談?wù)劇N覀儤?gòu)建了一個(gè)將智能檢索與前沿 LLM 相結(jié)合的系統(tǒng),來(lái)解決這些長(zhǎng)期存在的難題。因?yàn)橹匾牟皇悄姆N技術(shù)在某場(chǎng)人為的競(jìng)賽中獲勝,而是構(gòu)建能夠真正解決實(shí)際問(wèn)題的方案。”
原文鏈接: https://contextual.ai/blog/is-rag-dead-yet/
最后推薦一個(gè)我正在學(xué)習(xí)的DeepSeek應(yīng)用開(kāi)發(fā)課
本課程將會(huì)涉及當(dāng)前業(yè)界最主流的 AI 應(yīng)用開(kāi)發(fā)思想、套路、工具以及框架,設(shè)計(jì)的實(shí)戰(zhàn)項(xiàng)目也會(huì)聚焦 DeepSeek 模型的某個(gè)特點(diǎn)。對(duì)于 AI 開(kāi)發(fā)老鳥(niǎo),可以與時(shí)俱進(jìn),查漏補(bǔ)缺,掌握業(yè)界前沿的開(kāi)發(fā)思想和工具;而對(duì)于 AI 開(kāi)發(fā)新手,則可以繞過(guò)過(guò)去幾年我摸爬滾打的彎路,借力 DeepSeek,快速入門 AI 應(yīng)用開(kāi)發(fā)領(lǐng)域。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.