網易首頁 > 網易號 > 正文申請入駐

RAG系統設計：揭秘語義搜索被低估的核心價值與KG驅動的架構選型策略

2025-05-14 13:55:35　來源: AI前線

北京舉報

分享至

分享嘉賓 | 尹一峰

審校 | 李忠良

策劃 | AICon 全球人工智能與開發大會

RAG 要不要做語義檢索，有很多討論，還沒有定論。在 InfoQ 舉辦的 AICon 全球人工智能與開發大會上 Hugging FaceMachine Learning Engineer 尹一峰為我們帶來了精彩專題演講“RAG 基本范式的選擇與系統設計”，深入探討基于語義搜索（Semantic Search）的 RAG 系統的重要性，揭示它為何在當前技術背景下被嚴重低估，分析語義搜索的本質及其在 RAG 系統中的關鍵作用，并分享如何基于這一本質設計出高效的系統架構。

此外，演講還將討論 KG 驅動的 RAG 系統，并指出它并非適用于所有數據類型，幫助聽眾理解如何根據不同的數據特性選擇最合適的 RAG 范式。

內容亮點：

如何設計出更有效的 RAG 系統
根據自己的數據和系統，該如何選擇 RAG 范式

以下是演講實錄（經 InfoQ 進行不改變原意的編輯整理）。

RAG 簡介

我們需要了解為什么需要 RAG（Retrieval-Augmented Generation，檢索增強生成）。原因很簡單，因為 LLM 本身存在一些問題。RAG 作為一種輔助工具，其存在是因為 LLM 本身有不足之處。

LLM 的第一個問題是訓練成本很高。這個世界在快速變化，而 LLM 的訓練成本每次都很高。對于通用模型而言，一旦訓練完成，它就會立刻過時，因為它無法知曉訓練完成后下一秒發生的事情。

目前大模型的訓練主要依賴反向傳播。反向傳播本質上是在求導，而大模型是一個黑箱，它學習時只對其上一個 step 負責。換句話說，大模型無法做到“牽一發而不動全身”，即無法在某個領域取得進步時，僅通過改變其分布而不影響其他部分。

第二個問題是幻覺（Hallucination）。由于 LLM 是一個自回歸的概率模型，只要涉及概率模型，就不可避免地會產生幻覺，這是無法徹底根除的。不過，可以通過一些方法來緩解這種癥狀。

目前，主流的模型主要是以 Transformer 架構為驅動的自回歸模型。雖然情況正在發生變化，現在 Transformer 架構的主導地位已經面臨挑戰，咱們后面會提到。

自回歸模型本質上仍然是一個數學模型。它根據 prompt 和之前的 token 來預測下一個 token，即條件概率模型。

從理論上講，可以通過調整 prompt，讓大語言模型輸出任何 token 組合，只要這些 token 在 tokenizer 之內且不太長。我們可以通過提示的形式，以條件的形式來控制輸出。

因此，RAG 的兩個主要問題——幻覺問題和分布偏移問題，都可以通過調整 prompt 來解決。RAG 的本質就是提示工程（prompt engineering），通過調整條件，使其條件不同，從而調整其概率分布，在不改變 θ 的情況下。

RAG 實際上是一種通過檢索方式來選擇用于提示工程的材料的方法。具體來說，就是需要向 Prompt 中添加內容。

實際上，任何形式的搜索都可以實現這一目的，比如使用 SQL 搜索引擎，或者像谷歌這樣的通用搜索引擎，甚至直接從數據庫中檢索等。只要能夠找到合適的文件，都可以作為 RAG 的輸入材料。

在這一過程中，不一定需要使用 ML。如果使用 ML，成本可能會更高。RAG 的核心在于通過改變條件來影響輸出分布。具體而言，輸入的新知識可以對抗分布偏移（Distribution Shift），而提供的相關文件則用于減少幻覺。

Semantic Search 到底是在做什么？

Semantic search（語義搜索）的核心在于通過特定的技術手段，實現對文件和 query 之間的語義匹配。它的起源可以追溯到理論計算機科學中的一個重要工具——metric embedding。在數學上，metric embedding 是將文件映射到一個高維的測度空間（metric space）中。

這個測度空間需要滿足泛函分析中的 Metric Distance Function（度量距離函數）的四個條件：自身距離為 0、兩個不同點的距離大于 0、距離對稱性以及三角不等式。

現代 Semantic search 并不一定局限于測度空間。在實際應用中，它可能會使用一些非測度距離，例如非常常用且出名的 Cosine Distance（余弦距離）。這是因為 Cosine Distance 雖然不符合測度空間的嚴格定義，但在語義搜索中仍然能夠有效地衡量向量之間的相似性。

在 Semantic search 中，文件被嵌入到一個高維空間中，這個嵌入過程是通過一個 embedding model 完成的。這個模型的作用是將文件映射為向量，并使得這些向量之間的距離能夠有意義地反映文件之間的語義關系，例如親密度或相似度等。

Semantic search 的本質是將文件本身作為索引（document as index）。傳統數據檢索依賴于預設的索引，但這種方法的前提是用戶必須明確知道自己需要什么。然而，在許多情況下，用戶可能并不清楚具體需要什么文件。

Semantic search 解決了這一問題，它允許直接將文件作為索引，并通過 embedding 的形式與查詢進行對比，從而最大限度地保證與查詢的適配性。

這種方式在不知道具體需要哪個文件的情況下，依然能夠找到最相關的文件，具有很大的靈活性。這種靈活性在處理低資源文件和長文件時尤為突出，采用的模式稱為 Multi-Vector Retrieval（多向量檢索）。

例如，在構建關于 Rust 代碼的向量數據庫時，會面臨一個典型問題：在 embedding 模型的訓練過程中，模型接觸到的自然語言數據量遠遠超過 Rust 代碼。

因此，embedding 模型更適合處理自然語言，而不是 Rust 代碼。然而，query 多數情況下是用自然語言提出的。這就需要一種方法，將 Rust 代碼相關的問題轉化為自然語言問題，以便模型能夠更好地適應。

具體做法是利用自然語言，例如代碼注釋、README 文檔等來對 Rust 代碼進行索引。通過這種方式，向量化的文件索引也是基于自然語言的，查詢時對比的也是這種自然語言索引。這樣一來，檢索效率和準確率都會顯著提高，當然前提是自然語言索引本身是可靠的，否則將無法達到預期效果。

對于超長文件的情況，如果需要完整檢索而不能將其分割成小塊（chunk），解決方案也很簡單。可以使用文本的總結來對長文本進行索引，然后對文本總結進行向量化索引。

正如計算機科學的偉大先驅 David Wheeler 所說，“在計算機科學中，幾乎所有的復雜問題都可以通過增加一層迂回（indirection）來解決”，這實際上就是增加了一層迂回。這種方法的普適性非常高。

同樣的方法也可以應用于多模態檢索。例如，當一個包含圖像、表格和文本的文檔進入系統時，可以將它們分開，并為每個部分生成一個標簽。然后可以通過自然語言進行檢索。

甚至可以將這種方法與多 Multi-Vector Retrieval 結合起來，使用 Multi-embedding 方式。例如，對于圖像，如果需要原始圖像，可以直接對其進行嵌入；如果需要總結，則使用其總結進行嵌入。方法多種多樣，能夠靈活應對不同類型的檢索需求。

Semantic Search 看似行將就木，原因在于其本身缺乏明確的數據結構。它本質上是一堆向量的集合，這些向量簡單地堆在一起，而沒有更深層次的組織形式。

在傳統的搜索方法中，通常會借助樹狀結構或其他形式的索引關系來優化搜索效率，但 Semantic Search 中并不存在這樣的結構。原生的 RAG 系統本身也沒有任何系統化的結構。

在 ANN（Approximate Nearest Neighbors，近似最近鄰）中所使用的結構，雖然在某種程度上可以用于檢索小型數據庫，但它并不是為了構建系統結構而設計的。

然而，正如老子所說“無為而無不為”，他什么都不是，那就什么都可以是。正是因為 Semantic Search 沒有內在的數據結構，反而為其提供了極大的靈活性。這種靈活性使得我們可以為其賦予任何合適的數據結構。

RAG 系統設計的關鍵之一，就是為 Semantic Search 提供一個數據結構，使其更貼近數據的天然結構。例如，如果數據的天然結構是一棵樹，那么就可以將系統設計成樹狀結構；如果數據的天然結構是一根草，那么就可以設計成相應的草狀結構。

系統設計

系統設計是整個工作的重中之重。在深入探討之前，需要先強調一個重要的觀點：工程是取舍的藝術（Engineering is the Art of Trade-off）。這是我僅有的 3 年工程師生涯中領悟的最重要的道理，我覺得，這也是每一位工程師都必須深刻理解的核心理念。

工程師需要明確自己能夠做出什么樣的取舍權衡（trade-off），能夠接受什么，不能接受什么，以及可以在哪些方面做出犧牲，以換取其他方面的利益。這些是必須仔細考慮的問題。接下來所有的內容都會是這個原則的拓展延伸

如何選擇 Loss Function？

在整個系統設計環節中，權衡是核心原則。以 Contrastive Loss（對比損失函數）為例。對比損失函數的公式，我們很明顯看得出他是一個 switch loss. 什么意思呢？當標簽 y=0 時，1?y=1，因此公式中的一項被觸發，而另一項則不被觸發（switch）。

此時，損失值為，即距離的平方。當 y=1 時，1?y=0，只有另一項被觸發。公式中的是一個縮放因子（scaling factor），通常不會對結果產生顯著影響。

因此，損失值為。如果大于 m，即距離大于閾值 m，那么是一個負數，小于 0，因此損失值為 0。相反，如果 DW 小于 m，則損失值為正。

換句話說，對比損失函數的關鍵在于距離。只要有距離存在，就會產生損失。這種損失會將相似的點（盡可能地拉到同一個點上，即把相似的樣本緊密地聚集在一起。

然而，往外推的機制僅在距離小于閾值 m 時起作用。如果距離超過了閾值 m，則對比損失函數不再對其產生影響。所以，一個 batch 的 loss 是 0 的時候，可能你不需要太慌張。由此可知，Contrastive loss 形成的是多個相距 m 距離的緊密聚類，適用于結構緊密，方差較小的數據。

接下來的例子是 Triplet Loss（三元組損失）。其中，d 表示距離，a 表示 anchor（錨點），p 表示 positive（正樣本）， n 表示 negative。Triplet Loss 的計算方式是：Anchor 到 Positive 的距離減去 Anchor 到 Negative 的距離，再加上一個閾值 m。

如果 Anchor 到 Positive 的距離減去 Anchor 到 Negative 的距離的絕對值小于閾值 m，那么損失值就不是 0；反之，如果這個絕對值大于或等于 m，那么損失值就是 0。

也就是說，Triplet Loss 并不關心 Negative 和 Positive 之間的距離有多遠，它只關注這兩個點與 Anchor 之間距離的差值是否小于閾值 m。如果差值小于 m，它會將樣本向外推，使其滿足條件；如果差值已經大于或等于 m，那么它就不再進行優化，損失值為 0。

在訓練使用 Triplet Loss 和 contrastive loss 的模型時，都可能會出現整個批次的損失值為 0 的情況。這時不要急于下結論，這并不一定意味著模型過擬合。可能只是巧合，該批次的數據恰好滿足了損失函數的條件。因為 Triplet Loss 只關注 positive 和 negative 與 anchor 之間的相對距離，所以它很容易滿足條件，導致模型更新較少，收斂速度相對較慢。

此外，只有當相對距離小于閾值 m 時，才會產生損失值。與對比 Contrastive Loss 不同，Triplet Loss 不會將所有相似的樣本強行聚到一個點上，因此同類內方差（Intra-Clas Variance）較大。

它形成的聚類通常是距離大致等于 m 的較大范圍的集合，而不是緊密聚集在一起。這意味著一個類別中可以包含更多元的樣本。

Triplet Loss 特別適用于類內方差較大的數據。例如，人臉數據就是一個很好的例子。很多人對人臉數據存在誤解，認為同一個人的不同人臉圖像之間的差異很小，但實際上，同一個人在不同光照、角度、表情等條件下的臉可能有非常大的差距。

這就是為什么 triplet loss 是人臉識別的默認 loss。而那些沒有看過數據整天想當然的工程師可能就會選用應對小方差的 Contrastive loss。選擇損失函數的前提是必須充分了解數據，只有真正理解數據的特性，才能明確應該采用什么樣的損失函數來指導模型訓練。對于其他各種損失函數，也可以用類似的方法進行分析。

如何選擇 Distant Function?

在選擇 Distant Function 時，需要考慮其本質是度量嵌入。從這個角度出發，幾乎所有的距離函數可以分為兩類：一是滿足度量空間（Metric Space）定義的距離函數，例如歐幾里得距離（Euclidean distance），也叫 L2 距離；二是不滿足度量空間定義的余弦距離（cosine distance）。

余弦距離不是度量距離的原因在于它不滿足度量空間的兩個基本條件：非負性（positivity）和三角不等式（triangle inequality）。大致證明如下：假設從原點出發有兩個不同的點，它們在同一條直線上，但方向相反。

這兩個點的余弦相似度是相同的，這意味著它們的“距離”為 0，這顯然不符合非負性。此外，考慮三個點 x = [1, 0]; y = [0, 1]; z = [1, 1],，余弦距離不滿足三角不等式，即兩邊之和小于第三邊。

盡管余弦距離不符合度量空間的定義，但它具有計算簡單的優勢，因為它只考慮方向，而與 Magnitude 無關。這使得余弦距離特別適合那些只關注方向的場景，例如在推薦系統中，如 Netflix 和 Spotify。

如果用戶喜歡搖滾音樂，那么所有與搖滾相關的方向都是相關的；如果用戶喜歡恐怖電影，那么所有與恐怖電影相關的方向也是相關的。在這種場景中，不需要考慮具體的數值，只需要確定方向即可。余弦距離的值域在 0 到 1 之間，也不會出現數值溢出的情況。

歐幾里得距離（Euclidean distance）與余弦距離不同，其計算相對復雜，需要考慮兩個點在空間中的實際距離。這有點類似于 Word2Vec 模型中通過訓練得到的向量空間關系，例如“king - man = queen - woman”這種語義關系。

歐幾里得距離非常適合復雜場景，比如電商推薦。在這種場景中，方向只是考慮的一個方面，還需要關注細節。

然而，歐幾里得距離可能會出現數值溢出，因為它是一個無界的距離，其值可以非常大或非常小。此外，在高維空間中，歐幾里得距離可能會導致數據稀疏。

盡管歐幾里得距離存在這些缺點，但仍然需要討論它，因為它是一個 metric distance。這意味著可以通過深度學習來模仿一個 metric space。例如，假設使用對比損失函數，并且有越南語到中文的數據，但沒有越南語到圖片的數據。

在這種情況下，如果模型訓練得當，越南語到中文之間的距離最大為 m，中文到圖片的距離也最大為 m。根據三角不等式，越南語到圖片的距離最多為 2m。因此，通過將搜索范圍擴大到 m，就可以找到想要的結果。

這是度量距離的一個非常強大的用途，即三角不等式的應用。將模型訓練到這種程度是具有極大難度的，雖然可以實現，但需要付出巨大的代價。這取決于是否愿意做出這種權衡。

如何選擇 Embedding 模型？

在選擇 Embedding 模型時，主要需要考慮的是 LLM 與 Encoder 之間的權衡。LLM 的歸納偏差（Inductive Bias）并不特別適合用于嵌入任務，但可以通過一些手段，如重復（repetition）來解決。

例如，將相同的內容輸入兩次，最后一個輸出肯定包含了之前所有上下文的信息。然而，使用 LLM 進行推理和訓練的成本更高，需要更多的訓練數據。正如 ViT 文章中提到的一句經典觀點：“大規模訓練勝過歸納偏差（Large scale training trumps inductive bias）”。

即使歸納偏差可能是錯誤的，只要訓練規模足夠大，模型仍然可以解決問題。相比之下，編碼器的歸納偏差更適合嵌入任務，因此可以用更小的模型達到相同的效果。

如下圖所示，NV embed-2 是一個擁有 70 多億參數的模型，其評分是 72.31。排名第 1。而 Stella 是一個只有 4.35 億參數的模型，其平均評分是 70.11。盡管兩者評分相差不大，但參數數量卻相差數倍。

這說明，如果真的需要那額外 2 分的性能，可以使用大模型，否則，一個小模型完全可以勝任嵌入任務。

一般來說，對于訓練良好的模型，其優先級順序為：性能 / 成本權衡（Performance/Cost trade-off）> 數據領域（Data domain）> 損失函數（Loss function）> 距離度量（Distance Metric）。

為什么呢？因為在有足夠的數據進行訓練的情況下，損失函數和距離度量是可以靈活調整的。

例如，Contrastive Loss 訓練的模型可以相對容易地改為 Triplet Loss，使用 Euclidean Distance 訓練的模型也可以相對容易地改為 Cosine Distance。但是，性能與成本之間的權衡是難以改變的，除非進行極端的優化。因此，性能 / 成本權衡是更為重要的考慮因素。

如何選擇 Vector Database?

在選擇向量數據庫（Vector Database）時，首先需要考慮的是選擇開源還是閉源的解決方案。開源的向量數據庫通常具有靈活性，因為可以直接訪問源代碼并根據需求進行修改。閉源的向量數據庫則可能在安全性方面更具優勢。此外，還需要考慮數據庫的實現語言，例如 Go、Rust、Java 或 C 等。

如果對隱私要求極高，無法使用云端服務，那么只能選擇本地部署 On-premise 的解決方案。如果可以使用云端服務，那么選擇的范圍會更廣。嵌入式模型（embedded model）是 LensDB 等系統采用的一種模式，這種模式在資源利用方面相對高效。

在索引（indexing）方面，目前主要考慮以下四種方式：哈希（hash）、樹（tree）、圖（graph）和倒排索引（inverted file index）。哈希索引的優點是檢索速度快，能夠處理大規模數據，但其準確度一般。

樹索引是 Spotify 等公司一直在使用的方案，它在低維數據上效果很好，但在高維數據上表現欠佳。圖索引（如 Hierarchical Navigable Small World，HNSW）對高維數據非常友好，且相對省內存。在不確定使用哪種索引時，圖索引是一個不錯的選擇，因為它適用于大多數場景。

倒排索引（IVF）可以通過網格狀數據結構迅速縮小搜索范圍，但其構建過程可能較長，可能需要使用乘積量化（product quantization）等手段來加速。

給 Semantic Search 一個結構

系統設計的重點之一是為 Semantic Search 提供一個結構。例如，對于類似教科書的數據，其天然結構是分層的。以微積分教科書為例，可以將其分為導數章節、鏈式法則小節等。對于代碼庫，可以將代碼文件和代碼片段進行分層。

此外，還可以進行 Context Enrichment，例如將文本分割成句子級別的塊，在精準定位到某一句后，為其添加上下文信息。這種方法適用于新聞等場景，例如在抓取關鍵事件后補充前因后果。

對于案情報告，可以抓取關鍵犯罪信息，然后向上追溯審理過程，向下查找判決結果。還有一種方法是 Parent-child chunk retrieve，即當需要檢索整個文件而非幾個片段時，可以將所有片段關聯到其所屬的文件。例如，在案情報告中抓取到犯罪信息后，可以直接檢索到完整的報告。

語義搜索可以與其他任何檢索方法結合使用。例如，可以同時使用向量索引（Vector index）和 BM25 等傳統檢索方法，將兩種方法的 Top-K 結果合并。向量索引可以是分層的，也可以是 Context Enrichment，具體取決于數據的結構和需求。

Query Transformation

人類提出的 query 往往可能存在“文不達意”的情況，為了解決這一問題，可以利用 LLM 來生成一個更適合嵌入的新查詢。此外，LLM 甚至可以被專門訓練以適應特定的任務。

例如，可以采用“step back prompting”（后退提示）的方法。假設有人提出了一個關于物理的問題：已知壓力為 p，理想氣體的溫度增加了一倍（溫度乘以 2），體積增加了 8 倍（體積乘以 8），那么壓力 p 會如何變化？在這種情況下，可以通過“step back”來思考：這個問題背后涉及哪些物理原理？需要使用哪個公式？明確了公式之后，再進一步分析問題。

如果原始查詢過于寬泛，可以將其拆分成多個更具體的子查詢，分別處理后再將結果融合在一起，從而減少混淆，最終得出更準確的結果。這種方法特別適合處理復雜的系統問題。

還有一種方法是在模型給出回答后，給予一個反饋（reward）。模型會根據這個反饋進行調整和重寫，這有點類似于“reflection”（反思）的過程，通過這種方式逐步優化回答的質量。

系統設計

系統設計可以采用 Multi-agent 架構，這種方式特別適用于復雜的系統。因為沒有任何一種數據結構能夠完美適用于所有類型的數據，這與當年提出的“沒有免費午餐定理”（No Free Lunch Theorem）依然相符，在所有可能的問題上，沒有任何一種算法能夠普遍優于其他算法。

在 Multi-agent 系統中，每個智能體都可以是一個完整的檢索系統。例如，一個智能體可能是基于 SQL 的檢索系統，另一個可能是基于最近搜索的系統，還有的可能是基于分層結構的檢索系統。

當然，這種架構還需要實現查詢路由，即需要明確將查詢發送到哪個 Agent 系統中進行處理。

KG RAG

我們之前討論了多種數據結構和系統設計方法，但似乎遺漏了一個非常重要的數據結構——實體及其關系（Entities and their relationships）。這種數據結構在自然界中非常常見，例如通過關系型數據庫來組織數據。

雖然我們確實可以用 Semantic Search 和向量數據庫來模擬這種數據結構，但實際上沒有必要這么做。因為我們已經有了更專業的工具，那就是 KG（知識圖，Knowledge Graph）。

KG 是語義搜索中一個非常重要但又容易被忽視的部分。它雖然可以通過語義搜索來實現，但這并不是語義搜索的必要功能。知識圖譜的核心價值在于它能夠清晰地描述實體之間的關系，并將整個數據庫的內容串聯起來。

例如，它可以回答“這個數據庫到底是什么主題的”這類全局性問題。知識圖譜的這種能力是其真正的閃光點。

KG 的構建過程可以分為幾個步驟。首先，從一個 Ontology 開始，然后通過充實細節將其擴展為一個完整的知識圖譜。

在構建知識圖譜時，思維方式應該是面向對象的。例如，作者（Author）和出版商（Publisher）之間的關系可以被清晰地定義。作者可以有多個子實體，例如海明威，莫言等。

KG-RAG（Knowledge Graph Retrieval-Augmented Generation，知識圖譜 RAG ）是為全局查詢和聚焦總結而設計的，而不是用于處理單個的點對點問題。這是知識圖譜的強項，因為它能夠清晰地描述實體之間的關系，并將整個數據庫的內容串聯起來。

在 KG 的構建過程中，從源文檔中提取片段后，會進行領域定制的總結，然后將片段轉化為元素，再從元素進行進一步總結，最終將元素提升為組。除了第一步之外，后續步驟都需要大量使用 LLM，因此成本非常高。KG-RAG 的成本大約是簡單向量 RAG 的 1000 倍左右。

因此，盡管 KG-RAG 在理論上非常強大，但在實際應用中，由于成本過高，導致其“叫好不叫座”，很多人覺得它很有潛力，但實際使用時卻因為成本問題而難以推廣。

為了解決這個問題，微軟的研究人員開始思考如何降低 KG-RAG 的成本。他們意識到，知識圖譜和語義搜索并不是互斥的，而是可以共存的。于是，他們提出了“Lazy Graph RAG”這種新的方法。

語義搜索可以被看作是一把“狙擊槍”，能夠直接找到最相關的幾個結果；而知識圖譜則更像是一個“breath-first search”，從一個切入點開始，能夠找到與之相關的所有信息。Lazy Graph RAG 的核心思想是利用語義搜索來彌補知識圖譜的不足。

通過這種設計，Lazy Graph RAG 能夠顯著降低索引構建的成本，將其降低到與簡單向量 RAG 相當的水平，大約是上一代產品的 0.1%。由于成本的大幅降低，Lazy Graph RAG 可以更容易地擴展到大規模應用中。低成本使得系統可以更靈活地擴展，從而更好地滿足實際需求。

KG-RAG 和 Semantic Search 在系統設計和資源利用的區別。

KG-RAG：當數據可以通過實體和關系模型清晰地表示時，KG-RAG 是最優選擇。它能夠充分利用知識圖譜的結構化優勢，處理復雜的全局查詢和總結任務。
Semantic Search：如果數據沒有現成的結構化模型，或者需要快速搭建適合特定數據的檢索系統，Semantic Search 是一個靈活且高效的選擇。通過語義搜索，可以快速定位相關內容，而無需依賴復雜的圖結構。

Lazy Graph RAG 結合了兩者的優點，通過語義搜索精準定位，再利用知識圖譜的結構化優勢進行擴展，既降低了成本，又保持了高性能。

未來的趨勢與挑戰

大模型正在快速向端設備（如手機）遷移，這一趨勢將很快實現。但無論模型如何優化，RAG 仍然是必要的。因此，需要更好的方法在手機等設備上存儲信息，并且需要更快的 RAG 實現，因為手機的 GPU 資源有限。

目前的大語言模型主要基于 Transformer 架構的自回歸（auto-regression）模型。然而，這一領域正在發生變化，出現了許多新的模型架構，如 RWKV、Mamba、TTT、Hyena 等。

這些模型正在爭奪 Transformer 的主導地位。這些新模型的一個重要特點是，它們的嵌入和生成可以由同一個模型完成。例如，RWKV 類似于經過優化的 RNN，它將之前的所有信息存儲在一個隱藏狀態（hidden state）中，而不是以 token 的形式表示。

從某種意義上說，Transformer 本質上也是一種 RNN，其隱藏狀態是之前的所有 token，并且它通過機制解決了大規模并行化的問題。將文件輸入 RWKV 模型后，可以得到一個文本生成結果，包含了之前所有信息的精華。

這意味著幾乎不需要原文，因為嵌入不僅包含了語義搜索的意義，還包含了文本本身在模型中的意義。然而，這種模型的缺點是，如果更換生成模型，需要連同嵌入模型一起更換，因為它們是一個整體。這仍然是一個權衡，取決于你能接受什么。

未來可能會出現非自回歸的生成模型，例如擴散模型（Diffusion Models）或歸一化流（Normalizing Flows），但目前這些模型還在發展階段，尚未完全成熟。自回歸模型的逐個 token 生成方式與人類生成語言的方式不同。

人類在生成語言時，通常會先確定一個主旨，然后圍繞這個主旨組織語言。而自回歸模型是基于大量數據訓練出來的，其歸納偏差是逐個 token 生成，但是這在某些任務中可能不是最優的。

不過也是應了 ViT 作者的那句話，Large scale training trumps inductive biases。但是我依然覺得，在大數據的情況下，如果能找到更合適的歸納偏差，可以顯著提升模型的效率和性能。

目前的大模型已經達到了人力和數據的極限，未來可能會有更好的發展。記住，壓縮是關鍵，訓練模型本質上是對信息的壓縮。

在當前情況下，機器學習系統設計的最佳實踐是盡量避免使用機器學習，因為它成本高昂。如果能用 SQL 解決問題，就用 SQL；如果能用 Elasticsearch 解決問題，就用 Elasticsearch；如果能用正則表達式解決問題，就不要用 LLM。

運行巨量正則表達式的成本可能只有幾分錢，而運行一個小 LLM 的成本則要高得多。盡量使用傳統方法解決傳統方法能夠解決的問題，將機器學習用于那些傳統方法無法解決的問題。不要因為機器學習很酷就濫用它，否則最終可能會因為成本過高而后悔。

AICon 2025 強勢來襲，5 月上海站、6 月北京站，雙城聯動，全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合，匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票，一同探索 AI 應用邊界！！

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.