網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

RAG原作者：我們?nèi)匀恍枰猂AG（并且永遠(yuǎn)需要）

2025-04-24 11:57:05　來(lái)源: 機(jī)器學(xué)習(xí)與Python社區(qū)

北京舉報(bào)

分享至

來(lái)源 | 思考機(jī)器作者 |Douwe Kiela

本文作者 Douwe Kiela，RAG 論文（Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks）作者之一。

以下為全文：

每隔幾個(gè)月，人工智能領(lǐng)域就會(huì)經(jīng)歷類似的模式。一個(gè)具有更大上下文窗口的新模型問(wèn)世，社交媒體上便會(huì)充斥著“RAG 已死”的宣言。Meta 最近的突破再次引發(fā)了這場(chǎng)討論——Llama 4 Scout 驚人的 1000 萬(wàn)（理論上）token 上下文窗口代表著一次真正的飛躍。

但這些論斷——無(wú)論是針對(duì)上下文窗口的突破、微調(diào)技術(shù)的進(jìn)步，還是模型上下文協(xié)議（MCP）的出現(xiàn)——都誤解了 RAG 的目的，以及為何它在人工智能領(lǐng)域?qū)⒂肋h(yuǎn)占有一席之地。

RAG的初衷

五年前，我在 Meta 基礎(chǔ)人工智能研究中心（FAIR，前身為 Facebook 人工智能研究中心）的團(tuán)隊(duì)提出了 RAG（Retrieval-Augmented Generation，檢索增強(qiáng)生成）的概念。RAG 的目標(biāo)是利用外部知識(shí)來(lái)增強(qiáng)模型，創(chuàng)造一種結(jié)合了參數(shù)化記憶和非參數(shù)化記憶的兩全其美的解決方案。

簡(jiǎn)單來(lái)說(shuō)，RAG 通過(guò)檢索語(yǔ)言模型未經(jīng)訓(xùn)練的數(shù)據(jù)源中的相關(guān)信息，并將其注入模型的上下文中，從而擴(kuò)展了語(yǔ)言模型的知識(shí)庫(kù)。

這種方法旨在解決生成式語(yǔ)言模型的許多固有缺陷：

無(wú)法訪問(wèn)私有（企業(yè)內(nèi)部）數(shù)據(jù)：模型通常基于公共數(shù)據(jù)進(jìn)行訓(xùn)練，但往往需要那些不斷變化和擴(kuò)展的專有信息。
過(guò)時(shí)的參數(shù)知識(shí)：即使模型頻繁更新，其訓(xùn)練數(shù)據(jù)截止日期與當(dāng)前時(shí)間之間總會(huì)存在差距。
幻覺(jué)和歸因問(wèn)題：模型經(jīng)常編造聽(tīng)起來(lái)合理但錯(cuò)誤的信息。RAG 通過(guò)將回答基于真實(shí)來(lái)源，并提供引文讓用戶核實(shí)信息，解決了這個(gè)問(wèn)題。

聽(tīng)起來(lái)耳熟嗎？現(xiàn)在已經(jīng)不是 2020 年了，但這些同樣的問(wèn)題至今依然存在。甚至可以說(shuō)，隨著組織推動(dòng) AI 系統(tǒng)處理日益復(fù)雜和關(guān)鍵的任務(wù)，這些問(wèn)題變得更加突出了。核心挑戰(zhàn)依然是：我們?nèi)绾螌?qiáng)大的生成式模型與公司所依賴的海量知識(shí)庫(kù)連接起來(lái)？

為什么我們?nèi)匀恍枰猂AG（并且永遠(yuǎn)需要）

高效而精確的檢索在人工智能中將始終扮演重要角色。這一點(diǎn)在一個(gè)廣為流傳的 LinkedIn 帖子中得到了很好的闡述，但我將重申為什么我們不能僅僅將所有數(shù)據(jù)加載到模型的上下文中：自首個(gè)具備大上下文窗口的 LLM 問(wèn)世以來(lái)，RAG 就一直面臨“消亡”的論調(diào)。

該 LinkedIn 帖子：

一些值得注意的 RAG“死亡宣告”包括：

2023 年 5 月：Anthropic 的 Claude，上下文窗口達(dá) 10 萬(wàn) token
2024 年 2 月：Google 的 Gemini 1.5，上下文窗口達(dá) 100 萬(wàn) token
2025 年 3 月：模型上下文協(xié)議（Model Context Protocol）讓你能直接與你的數(shù)據(jù)對(duì)話 (注：原文日期可能是筆誤)

但現(xiàn)實(shí)情況是：

即使擁有高達(dá) 200 萬(wàn) token 這樣驚人的上下文窗口，當(dāng)前的長(zhǎng)上下文 LLM 也只能處理演示性質(zhì)的數(shù)據(jù)集（toy datasets）。
例如，100 萬(wàn) token 的上下文窗口（大致）相當(dāng)于約 1500 頁(yè)文檔。
這對(duì)于演示來(lái)說(shuō)很亮眼，但對(duì)于生產(chǎn)級(jí)別的應(yīng)用而言是不足夠的。

不過(guò)，讓我們假設(shè)我們擁有一個(gè)無(wú)限 token 的上下文窗口：

可擴(kuò)展性與成本：處理數(shù)百萬(wàn) token 速度緩慢，且在計(jì)算和財(cái)務(wù)上都代價(jià)高昂。即使計(jì)算成本在下降，延遲對(duì)于應(yīng)用程序來(lái)說(shuō)也可能是一個(gè)大問(wèn)題。
性能下降：LLM 仍然受困于“中間丟失”（lost in the middle）的問(wèn)題。這意味著它們無(wú)法有效利用長(zhǎng)文本中間部分的信息。通過(guò)剔除不相關(guān)文檔并避免“大海撈針”的情況，您將獲得更好的結(jié)果。
數(shù)據(jù)隱私：將所有數(shù)據(jù)提供給基礎(chǔ)模型可能引發(fā)嚴(yán)重的數(shù)據(jù)隱私問(wèn)題。尤其是在醫(yī)療保健或金融服務(wù)等受到嚴(yán)格監(jiān)管的行業(yè)，您需要對(duì)數(shù)據(jù)強(qiáng)制執(zhí)行基于角色的訪問(wèn)控制。

底線是：您同時(shí)需要長(zhǎng)上下文 LLM 和 RAG。

但既然“RAG”這個(gè)術(shù)語(yǔ)似乎如此具有爭(zhēng)議性，那我們不妨這樣說(shuō)：
我們不必非得稱之為 RAG。
我們可以就叫它檢索 (retrieval)。
或者叫上下文篩選 (context curation)。

無(wú)論您決定怎么稱呼它，能夠控制進(jìn)入上下文窗口的數(shù)據(jù)質(zhì)量，將決定最終生成輸出的質(zhì)量。

畢竟，垃圾進(jìn)，垃圾出。

可擴(kuò)展性– 您的企業(yè)知識(shí)庫(kù)是以 TB 或 PB 來(lái)衡量的，而不是 token。即使有 1000 萬(wàn) token 的上下文窗口，您仍然只能看到可用信息的極小一部分。這就是為什么檢索技術(shù)的創(chuàng)新一直快速發(fā)展，混合搜索、查詢轉(zhuǎn)換、自我反思、主動(dòng)檢索以及對(duì)結(jié)構(gòu)化數(shù)據(jù)的支持等方面的進(jìn)步，都在幫助您在知識(shí)庫(kù)中找到正確的信息。
準(zhǔn)確性– 有效的上下文窗口與產(chǎn)品發(fā)布時(shí)宣傳的大相徑庭。研究一致表明，模型在遠(yuǎn)未達(dá)到其官方極限時(shí)性能就會(huì)下降。在實(shí)際測(cè)試中，同樣的模式也會(huì)出現(xiàn)，模型難以準(zhǔn)確引用深埋在其上下文中的信息。這種“上下文懸崖”意味著僅僅將更多內(nèi)容塞入窗口并不會(huì)帶來(lái)更好的結(jié)果。

延遲– 將所有內(nèi)容加載到模型上下文中會(huì)導(dǎo)致響應(yīng)時(shí)間顯著變慢。對(duì)于面向用戶的應(yīng)用程序，這會(huì)造成糟糕的用戶體驗(yàn)，人們會(huì)在得到答案前就放棄交互。基于檢索的方法可以通過(guò)僅添加最相關(guān)的信息來(lái)提供更快的響應(yīng)。
效率– 你會(huì)在需要回答一個(gè)簡(jiǎn)單問(wèn)題時(shí)去讀完整本教科書(shū)嗎？當(dāng)然不會(huì)！RAG 提供了相當(dāng)于直接翻到相關(guān)頁(yè)面的能力。處理更多 token 不僅更慢，而且極其低效，并且比使用 RAG 精準(zhǔn)定位所需信息要昂貴得多。

警惕錯(cuò)誤的二分法

在谷歌搜索“RAG vs”，你會(huì)看到一長(zhǎng)串建議的查詢補(bǔ)全——“長(zhǎng)上下文”、“微調(diào)”、“MCP”。這種框架設(shè)定制造了一種人為的選擇，并沒(méi)有反映這些技術(shù)實(shí)際上如何協(xié)同工作的最佳方式。

實(shí)際上，這些概念沒(méi)有一個(gè)是相互排斥的，甚至不是相互沖突的——它們都以互補(bǔ)的方式幫助解決前沿模型的局限性：

RAG提供了訪問(wèn)模型知識(shí)庫(kù)之外信息的途徑
微調(diào)改善了信息處理和應(yīng)用的方式
更長(zhǎng)的上下文允許檢索更多信息供模型推理
MCP簡(jiǎn)化了 Agent 與 RAG 系統(tǒng)（及其他工具）的集成

我們?cè)谏a(chǎn)環(huán)境中看到的最復(fù)雜的 AI 系統(tǒng)結(jié)合了這些方法，根據(jù)各自的優(yōu)勢(shì)來(lái)使用每種工具，而不是宣布某一個(gè)獲勝并將其他工具拋棄。

正如一位 Twitter 用戶最近所說(shuō)：“聲稱大型 LLM 上下文窗口取代了 RAG，就像說(shuō)因?yàn)橛凶銐虻膬?nèi)存（RAM）就不需要硬盤一樣。”正是如此！你的電腦有磁盤、內(nèi)存和網(wǎng)卡是有原因的。它們服務(wù)于不同的目的，并作為一個(gè)系統(tǒng)協(xié)同工作。RAG、微調(diào)和大型上下文窗口在 AI 中也是如此。

結(jié)論

我們不需要在 RAG 與長(zhǎng)上下文窗口、微調(diào)或 MCP 之間做出選擇。真正能創(chuàng)造價(jià)值的 AI 解決方案不會(huì)固守單一方法；它們會(huì)根據(jù)要解決的具體問(wèn)題混合搭配使用工具。

但下一次宣稱“RAG 已死”的論調(diào)出現(xiàn)只是時(shí)間問(wèn)題，所以，如果你將來(lái)想引用這篇文章，可以在 isragdeadyet.com 找到它。這個(gè)網(wǎng)站將作為一個(gè)活生生的證明，展現(xiàn)檢索在 AI 系統(tǒng)中持久的重要性，并且每當(dāng)下一波“RAG 已死”的帖子不可避免地出現(xiàn)時(shí)，它都會(huì)更新。

如果你的系統(tǒng)無(wú)法利用你的專有數(shù)據(jù)，持續(xù)提供過(guò)時(shí)信息，或者缺乏你所需的專業(yè)知識(shí)，那么讓我們談?wù)劇Ｎ覀儤?gòu)建了一個(gè)將智能檢索與前沿 LLM 相結(jié)合的系統(tǒng)，來(lái)解決這些長(zhǎng)期存在的難題。因?yàn)橹匾牟皇悄姆N技術(shù)在某場(chǎng)人為的競(jìng)賽中獲勝，而是構(gòu)建能夠真正解決實(shí)際問(wèn)題的方案。”

原文鏈接： https://contextual.ai/blog/is-rag-dead-yet/

最后推薦一個(gè)我正在學(xué)習(xí)的DeepSeek應(yīng)用開(kāi)發(fā)課

本課程將會(huì)涉及當(dāng)前業(yè)界最主流的 AI 應(yīng)用開(kāi)發(fā)思想、套路、工具以及框架，設(shè)計(jì)的實(shí)戰(zhàn)項(xiàng)目也會(huì)聚焦 DeepSeek 模型的某個(gè)特點(diǎn)。對(duì)于 AI 開(kāi)發(fā)老鳥(niǎo)，可以與時(shí)俱進(jìn)，查漏補(bǔ)缺，掌握業(yè)界前沿的開(kāi)發(fā)思想和工具；而對(duì)于 AI 開(kāi)發(fā)新手，則可以繞過(guò)過(guò)去幾年我摸爬滾打的彎路，借力 DeepSeek，快速入門 AI 應(yīng)用開(kāi)發(fā)領(lǐng)域。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.