VAST Data 正在開源其 VUA ( VAST Undivided Attention ) KVCache 軟件技術,該技術用于將生成的 AI 模型訓練與推理 token 存儲在 NVMe 連接的 SSD 中,以便高速傳輸到 GPU 內存,避免重新計算這些 token。
KVCache 是 AI 大語言模型 ( LLM ) 中在模型推理處理的注意力階段生成的 token、鍵和值向量的內存存儲。token 是依次生成的,并為模型提供上下文。在這一多階段過程中,模型一次生成一個 token,而在當前 token 之后的下一步將要求重新計算至今為止序列中的所有 token。將這些 token 保存在服務器的 GPU 以及 CPU 內存中可以避免重復計算,從而加快多步 token 的生成速度。但是,隨著大語言模型處理的參數越來越多,可用的 GPU 內存很快被填滿甚至溢出,從而限制了 KVCache 中 token 的數量,進而減慢了模型的處理速度。VUA 將從內存緩存中淘汰出來的生成 token 存儲在 NVMe 連接的 SSD 上,作為第三層緩存,這樣就可以在需要時重用它們而無需重新計算。VUA 正是提供這種 SSD 緩存 KVCache token 的軟件。
這樣的淘汰上下文可以存儲回源數據倉庫,例如云對象存儲。但 VAST 聯合創始人 Jeff Denworth 在博客中寫道: "是的,緩存可以從遠程磁盤中恢復,但這一過程如今操作笨拙且脫節,常常依賴于(并受到)緩慢的云對象存儲的影響。恢復上下文和會話所需的時間如此之長,以致一些頂尖的 AI 即服務提供商寧愿重新計算整個提示歷史,而不是從對象存儲中提取所有上下文和注意力數據。"
另一篇 VAST 的博客指出 "AI 模型正不斷進化以在模型中存儲更大范圍的上下文或知識。舉個例子,LLaMA 1 于 2023 年發布時支持 2,048 token 的上下文窗口;而快進到 Meta 上周剛宣布的 LLaMA 4,其新 AI 模型可支持高達 10,000,000 token……10,000,000 token 消耗的內存遠超過 GPU 內存所能容納的容量,因此需要更大規模的存儲與緩存方法。"
Denworth 表示 vLLM 的 GPU 和 CPU 內存分頁方案 "沒有與基于分布式 NVMe 的系統集成以提供內存層次結構中的另一層,也不是全球性的……因此 GPU 環境被劃分為小而分散的緩存。"
VAST 構建的是一個基于 Linux 的代理程序,運行在你的 GPU 服務器上,提供了一個全新的數據呈現層給 AI 框架。它構成了 "一個跨越 GPU 內存、 CPU 內存和共享、 RDMA 連接的 NVMe 存儲子系統(例如支持 Nvidia 存儲控制器 CPU 繞過并使用 GPUDirect RDMA 協議的 VAST 存儲)的分層系統。"
Denworth 解釋道:"VUA 增加了智能存儲和提供前綴的能力," 使得這些前綴 "能夠按照優先級和策略被提供。例如,與某個序列關聯的最長前綴可以優先被送往 GPU 設備,從而使得該會話的完整自注意力能夠最快被理解。" VUA 能夠通過寬扇形 V-Tree,在 SSD 上的 Element Store 數據結構中搜索數十億到數萬億個前綴,其搜索速度在毫秒級,能夠迅速穿越龐大的元數據空間。
另一種描述是稱其具有智能前綴緩存功能:"VUA 超越了基礎緩存,通過將注意力鍵拆分為若干塊并存儲在嵌套結構中,實現了利用最長前綴識別的復雜部分上下文匹配,大大提升了在 Retrieval-Augmented Generation ( RAG ) 等工作負載下的緩存命中率,在這種工作負載中,相同的基本文檔會在多個不同的提示中出現。"
VUA 系統是全球性的。每個 GPU 服務器現在都能夠共享訪問相同的擴展上下文緩存空間、同一快速搜索的元數據空間,以及相同的全局上下文、注意力數據和數據索引。
Denworth 還指出,這個 VUA "加速器在數據共享方面目前僅支持南北向(即每臺機器都能看到全局分層數據空間,但機器之間無法看到彼此的緩存……因此一旦 CPU/GPU 內存緩存未命中,必然會訪問 NVMe)。" VAST 正在考慮構建一個全球分布式緩存,使得各機器能夠在數據中心內或跨數據中心間查看對方的狀態,并基于上述前綴過濾以低延遲地檢索相關鍵和值。
VUA 現已作為開源軟件推出,提供一個基于前綴搜索的全球及 exabyte 級 KVCache,利用 NVMe SSD 實現,并在整個 GPU 集群中均可訪問。它能夠與流行的 AI 推理工作負載集成,"提供無限上下文擴展性",同時減少 "首個 token 生成時間 (TTFT) 并顯著節省 GPU 及 CPU 內存。"
VUA 不僅縮短了 TTFT,還縮短了生成每個后續 token(即每個輸出 token 的時間,TPOT)的平均時間。它 "實現了跨輪次或會話的持續對話狀態。代表先前對話的 KV 緩存可以在查詢之間存儲于非 GPU 內存中,從而釋放 GPU 資源,同時能迅速恢復上下文。"
VAST 在 vLLM 系統上測試了使用 Qwen2.5-1.5B-Instruct 模型時有無 VUA 的 TTFT,并發現加入 VUA 后測試系統在 30,000 token 水平下的處理速度提升了 292%。
文章指出,對于那些需要常見問題提示、多輪對話(實現更快的上下文切換)、長文檔問答(提升吞吐量)以及高并發場景(減少搶占)的應用來說,VUA 特別具有價值。
WEKA 和 Hammerspace
B&F 在三月的一篇文章中寫道,支持并行訪問文件系統的供應商 WEKA 宣布 "一項新的 Augmented Memory Grid 功能,能夠使 AI 模型將大型模型推理所需的內存擴展到 WEKA 數據平臺。這是一種軟件定義的擴展技術,提供 exabyte 級緩存,具有微秒級延遲和每秒多 TB 的帶寬,從而實現接近內存速度的性能表現。這提供了額外的 PB 級容量,據稱比目前固定單 TB DRAM 增量高 1,000 倍。"這與 VAST 的 VUA 類似。
數據編排器 Hammerspace 推出的 Tier Zero 功能則增加了 "將 GPU 服務器本地 NVMe 閃存驅動器作為前端,連接外部通過 GPUDirect 訪問的數據集,從而提供微秒級的存儲讀取以及檢查點寫入,加速 AI 訓練工作負載。"
并且:"通過將這些驅動器整合到其全球數據環境中,作為 Tier 1 外部存儲之前的 Tier 0 層,它們能夠比直接從外部存儲更快地將數據傳輸至 GPU,同時寫入檢查點數據的時間也比將數據發送到外部存儲的時間更短。"
Hammerspace 并未在此類 Tier 0 SSD 上提供 KVCache 功能——但如果提供,則將進一步加速 AI 推理工作負載。
VAST 表示,歡迎 "AI 社區探索、使用并為 VAST Undivided Attention 項目做出貢獻。源代碼、文檔和初步使用示例均可在 https://github.com/vast-data/vua 上獲得。" 我們了解到,將 VUA 與非 VAST 存儲一起使用可能會引入延遲或兼容性問題,因為 VUA 的性能依賴于 VAST 通過其 V-Tree 技術以常數時間搜索和提供數據的能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.