99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

VAST 的 VUA 閃存緩存 擴展 GPU 服務器內存以供 AI token 生成

0
分享至

VAST Data 正在開源其 VUA ( VAST Undivided Attention ) KVCache 軟件技術,該技術用于將生成的 AI 模型訓練與推理 token 存儲在 NVMe 連接的 SSD 中,以便高速傳輸到 GPU 內存,避免重新計算這些 token。

KVCache 是 AI 大語言模型 ( LLM ) 中在模型推理處理的注意力階段生成的 token、鍵和值向量的內存存儲。token 是依次生成的,并為模型提供上下文。在這一多階段過程中,模型一次生成一個 token,而在當前 token 之后的下一步將要求重新計算至今為止序列中的所有 token。將這些 token 保存在服務器的 GPU 以及 CPU 內存中可以避免重復計算,從而加快多步 token 的生成速度。但是,隨著大語言模型處理的參數越來越多,可用的 GPU 內存很快被填滿甚至溢出,從而限制了 KVCache 中 token 的數量,進而減慢了模型的處理速度。VUA 將從內存緩存中淘汰出來的生成 token 存儲在 NVMe 連接的 SSD 上,作為第三層緩存,這樣就可以在需要時重用它們而無需重新計算。VUA 正是提供這種 SSD 緩存 KVCache token 的軟件。

這樣的淘汰上下文可以存儲回源數據倉庫,例如云對象存儲。但 VAST 聯合創始人 Jeff Denworth 在博客中寫道: "是的,緩存可以從遠程磁盤中恢復,但這一過程如今操作笨拙且脫節,常常依賴于(并受到)緩慢的云對象存儲的影響。恢復上下文和會話所需的時間如此之長,以致一些頂尖的 AI 即服務提供商寧愿重新計算整個提示歷史,而不是從對象存儲中提取所有上下文和注意力數據。"

另一篇 VAST 的博客指出 "AI 模型正不斷進化以在模型中存儲更大范圍的上下文或知識。舉個例子,LLaMA 1 于 2023 年發布時支持 2,048 token 的上下文窗口;而快進到 Meta 上周剛宣布的 LLaMA 4,其新 AI 模型可支持高達 10,000,000 token……10,000,000 token 消耗的內存遠超過 GPU 內存所能容納的容量,因此需要更大規模的存儲與緩存方法。"

Denworth 表示 vLLM 的 GPU 和 CPU 內存分頁方案 "沒有與基于分布式 NVMe 的系統集成以提供內存層次結構中的另一層,也不是全球性的……因此 GPU 環境被劃分為小而分散的緩存。"

VAST 構建的是一個基于 Linux 的代理程序,運行在你的 GPU 服務器上,提供了一個全新的數據呈現層給 AI 框架。它構成了 "一個跨越 GPU 內存、 CPU 內存和共享、 RDMA 連接的 NVMe 存儲子系統(例如支持 Nvidia 存儲控制器 CPU 繞過并使用 GPUDirect RDMA 協議的 VAST 存儲)的分層系統。"

Denworth 解釋道:"VUA 增加了智能存儲和提供前綴的能力," 使得這些前綴 "能夠按照優先級和策略被提供。例如,與某個序列關聯的最長前綴可以優先被送往 GPU 設備,從而使得該會話的完整自注意力能夠最快被理解。" VUA 能夠通過寬扇形 V-Tree,在 SSD 上的 Element Store 數據結構中搜索數十億到數萬億個前綴,其搜索速度在毫秒級,能夠迅速穿越龐大的元數據空間。

另一種描述是稱其具有智能前綴緩存功能:"VUA 超越了基礎緩存,通過將注意力鍵拆分為若干塊并存儲在嵌套結構中,實現了利用最長前綴識別的復雜部分上下文匹配,大大提升了在 Retrieval-Augmented Generation ( RAG ) 等工作負載下的緩存命中率,在這種工作負載中,相同的基本文檔會在多個不同的提示中出現。"

VUA 系統是全球性的。每個 GPU 服務器現在都能夠共享訪問相同的擴展上下文緩存空間、同一快速搜索的元數據空間,以及相同的全局上下文、注意力數據和數據索引。

Denworth 還指出,這個 VUA "加速器在數據共享方面目前僅支持南北向(即每臺機器都能看到全局分層數據空間,但機器之間無法看到彼此的緩存……因此一旦 CPU/GPU 內存緩存未命中,必然會訪問 NVMe)。" VAST 正在考慮構建一個全球分布式緩存,使得各機器能夠在數據中心內或跨數據中心間查看對方的狀態,并基于上述前綴過濾以低延遲地檢索相關鍵和值。

VUA 現已作為開源軟件推出,提供一個基于前綴搜索的全球及 exabyte 級 KVCache,利用 NVMe SSD 實現,并在整個 GPU 集群中均可訪問。它能夠與流行的 AI 推理工作負載集成,"提供無限上下文擴展性",同時減少 "首個 token 生成時間 (TTFT) 并顯著節省 GPU 及 CPU 內存。"

VUA 不僅縮短了 TTFT,還縮短了生成每個后續 token(即每個輸出 token 的時間,TPOT)的平均時間。它 "實現了跨輪次或會話的持續對話狀態。代表先前對話的 KV 緩存可以在查詢之間存儲于非 GPU 內存中,從而釋放 GPU 資源,同時能迅速恢復上下文。"

VAST 在 vLLM 系統上測試了使用 Qwen2.5-1.5B-Instruct 模型時有無 VUA 的 TTFT,并發現加入 VUA 后測試系統在 30,000 token 水平下的處理速度提升了 292%。

文章指出,對于那些需要常見問題提示、多輪對話(實現更快的上下文切換)、長文檔問答(提升吞吐量)以及高并發場景(減少搶占)的應用來說,VUA 特別具有價值。

WEKA 和 Hammerspace

B&F 在三月的一篇文章中寫道,支持并行訪問文件系統的供應商 WEKA 宣布 "一項新的 Augmented Memory Grid 功能,能夠使 AI 模型將大型模型推理所需的內存擴展到 WEKA 數據平臺。這是一種軟件定義的擴展技術,提供 exabyte 級緩存,具有微秒級延遲和每秒多 TB 的帶寬,從而實現接近內存速度的性能表現。這提供了額外的 PB 級容量,據稱比目前固定單 TB DRAM 增量高 1,000 倍。"這與 VAST 的 VUA 類似。

數據編排器 Hammerspace 推出的 Tier Zero 功能則增加了 "將 GPU 服務器本地 NVMe 閃存驅動器作為前端,連接外部通過 GPUDirect 訪問的數據集,從而提供微秒級的存儲讀取以及檢查點寫入,加速 AI 訓練工作負載。"

并且:"通過將這些驅動器整合到其全球數據環境中,作為 Tier 1 外部存儲之前的 Tier 0 層,它們能夠比直接從外部存儲更快地將數據傳輸至 GPU,同時寫入檢查點數據的時間也比將數據發送到外部存儲的時間更短。"

Hammerspace 并未在此類 Tier 0 SSD 上提供 KVCache 功能——但如果提供,則將進一步加速 AI 推理工作負載。

VAST 表示,歡迎 "AI 社區探索、使用并為 VAST Undivided Attention 項目做出貢獻。源代碼、文檔和初步使用示例均可在 https://github.com/vast-data/vua 上獲得。" 我們了解到,將 VUA 與非 VAST 存儲一起使用可能會引入延遲或兼容性問題,因為 VUA 的性能依賴于 VAST 通過其 V-Tree 技術以常數時間搜索和提供數據的能力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
悲催!封丘醫療系統清退501人,網傳一護士將評優證書丟進垃圾桶

悲催!封丘醫療系統清退501人,網傳一護士將評優證書丟進垃圾桶

火山詩話
2025-05-03 08:47:05
特朗普麻煩大了!一覺醒來,大批美國人破防,中方決定不買了

特朗普麻煩大了!一覺醒來,大批美國人破防,中方決定不買了

上觀韜略
2025-05-03 20:55:07
奧沙利文:今年會離開英國去中東生活 若一直這樣打球那毫無意義

奧沙利文:今年會離開英國去中東生活 若一直這樣打球那毫無意義

直播吧
2025-05-03 20:17:10
庫克尷尬了,蘋果在全球,只有中國收入下滑,其它全部上漲

庫克尷尬了,蘋果在全球,只有中國收入下滑,其它全部上漲

互聯網.亂侃秀
2025-05-03 14:28:13
當服務員、擺地攤!前TVB女星在東莞打工求生:我是一個要贍養父母、交房租的普通人

當服務員、擺地攤!前TVB女星在東莞打工求生:我是一個要贍養父母、交房租的普通人

魯中晨報
2025-05-03 07:24:04
網友:榮昌火了!現在全網最“冤”的男人就是他!

網友:榮昌火了!現在全網最“冤”的男人就是他!

丫頭舫
2025-05-03 14:31:23
18歲天才炸裂中超!9場狂轟6球碾壓天價外援,青訓革命徹底爆發!

18歲天才炸裂中超!9場狂轟6球碾壓天價外援,青訓革命徹底爆發!

看透足球專欄
2025-05-03 10:20:12
7死8傷! 華人游客在美遭遇慘烈車禍! 奔馳瞬間爆燃, 家屬緊急赴美

7死8傷! 華人游客在美遭遇慘烈車禍! 奔馳瞬間爆燃, 家屬緊急赴美

北國向錫安
2025-05-03 11:01:21
節目效果拉滿!主裁判受傷無法堅持,瓦爾迪蹲下吹哨暫停比賽

節目效果拉滿!主裁判受傷無法堅持,瓦爾迪蹲下吹哨暫停比賽

懂球帝
2025-05-03 23:38:35
幾乎全是假貨!成本不到50元卻賣500美金,為何消費者還爭相瘋搶

幾乎全是假貨!成本不到50元卻賣500美金,為何消費者還爭相瘋搶

寒士之言本尊
2025-05-03 16:22:48
爽得我頭皮發麻國產劇也太敢寫臺詞了??

爽得我頭皮發麻國產劇也太敢寫臺詞了??

暖心萌阿菇涼
2025-05-03 01:40:51
平民醫生公開否認“4+4”:花14年讀書,仍沒能留在協和體系內

平民醫生公開否認“4+4”:花14年讀書,仍沒能留在協和體系內

熙熙說教
2025-05-03 21:16:40
澤連斯基:烏無法保障赴俄參與閱兵的外賓安全

澤連斯基:烏無法保障赴俄參與閱兵的外賓安全

桂系007
2025-05-03 21:26:57
趙今麥真是“自救女主”賽道的神 ??

趙今麥真是“自救女主”賽道的神 ??

君笙的拂兮
2025-05-03 02:05:21
交火96小時后,印度“天塌了”,外媒:中國FD-2000已部署邊境

交火96小時后,印度“天塌了”,外媒:中國FD-2000已部署邊境

科技虎虎
2025-05-03 23:06:05
美烏礦產協議終簽署,還有一個資源大國也想仿效

美烏礦產協議終簽署,還有一個資源大國也想仿效

第一財經資訊
2025-05-03 16:00:13
美黃石公園附近發生重大車禍,致中國公民5死8傷 收治醫院之一:已有三人出院

美黃石公園附近發生重大車禍,致中國公民5死8傷 收治醫院之一:已有三人出院

紅星新聞
2025-05-03 16:01:09
慫了!上海鼻涕姐逼店老板道歉后,新地址被扒,哀求大家別再罵了

慫了!上海鼻涕姐逼店老板道歉后,新地址被扒,哀求大家別再罵了

美美談情感
2025-05-03 21:21:00
網友三亞購買水果9斤變6斤?官方:屬實,擬罰5萬元

網友三亞購買水果9斤變6斤?官方:屬實,擬罰5萬元

界面新聞
2025-05-03 16:45:25
登上熱搜!胖東來創始人于東來最新消息

登上熱搜!胖東來創始人于東來最新消息

FM93浙江交通之聲
2025-05-03 18:20:58
2025-05-04 04:47:00
至頂頭條 incentive-icons
至頂頭條
記錄和推動數字化創新
11474文章數 49629關注度
往期回顧 全部

科技要聞

特朗普下手,英偉達對華“特供版”要改

頭條要聞

加州州長:我們不是美國 向中國伸出開放之手

頭條要聞

加州州長:我們不是美國 向中國伸出開放之手

體育要聞

北京請神馬布里?許利民真有“玄學”!

娛樂要聞

金秀賢遭多家品牌起訴 索賠近60億韓元

財經要聞

巴菲特談貿易、AI、股市、房地產!

汽車要聞

易三方科技體驗日·北京站上演硬核駕控

態度原創

本地
健康
數碼
公開課
軍事航空

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

唇皰疹和口腔潰瘍是"同伙"嗎?

數碼要聞

小米五月黃金服務周開啟,旗艦平板曝光

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國將于6月14日舉行閱兵式

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 武夷山市| 勐海县| 余江县| 大关县| 阿勒泰市| 北流市| 阿合奇县| 拉孜县| 岳普湖县| 方正县| 丁青县| 抚远县| 陇川县| 丹江口市| 勐海县| 澄江县| 徐州市| 凤台县| 阜城县| 黑龙江省| 密云县| 兰溪市| 汉川市| 涟源市| 商南县| 乐业县| 象山县| 子长县| 三门县| 肃南| 松滋市| 措美县| 永仁县| 乌拉特后旗| 兴化市| 望城县| 永年县| 象州县| 通州区| 惠东县| 邢台市|