99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

并行革命,32倍吞吐量躍升!英偉達Helix架構突破百萬Token推理瓶頸

0
分享至


新智元報道

編輯:peter東 英智

【新智元導讀】長期以來,大模型受限于有限的上下文窗口,在處理長任務或對話時不得不忘記早期信息,英偉達近日推出的Helix并行技術受DNA結構啟發,分割顯存和處理任務,顯著提升大模型的上下文長度,并發能力,并可降低響應延遲。

想象一個使用大模型的任務,需要一次處理百萬字符的文檔,例如從百科全書中獲取信息,或是分析數百頁的法律卷宗,異或追蹤持續數月的對話記錄,都需要越來越長的上下文。

而大模型生成的每個詞都需要掃描存儲在所謂的KV緩存中存儲的過去標記。

反復讀取這個緩存會消耗GPU內存帶寬。大模型還需要從內存中重新加載大量的前饋網絡(FFN)權重來處理每個新詞。

這個過程會減慢效應速度,從而導致用戶與大模型對話時出現卡頓。

傳統的解決方案,是使用張量并行(Tensor Parallelism, TP)將此負載分散到多個GPU上。但這僅能起到一定作用。

當規模超過一定限度后,GPU開始復制KV緩存,導致內存壓力進一步增大。

而Helix這一英偉達針對其最新的Blackwall開發的并行策略,通過將模型Transformer層的注意力機制和前饋網絡部分分開處理來解決卡頓問題。

Helix受DNA雙螺旋結構的啟發,Helix將KV、張量和專家等多個維度的并行性交織到一個統一的執行循環中。

每個階段在其自身的瓶頸配置下運行,同時復用相同的GPU池。


論文鏈接:https://d1qx31qr3h6wln.cloudfront.net/publications/Helix_0.pdf

Helix是怎么做到百萬上下文不卡頓

在注意力階段,Helix使用一種名為KV并行(KVP)的新方法,將龐大的KV緩存分散到多個GPU上。

當TP超過KV頭的數量時,張量并行會進行復制,從而增加了內存和帶寬開銷,如圖1a到c描述的過程。

Helix通過將TP=2與KVP=2相結合,形成2D布局來避免內存和帶寬開銷的增加,對應圖1d。


圖1:傳統的張量并行(TP)與Helix的不同注意力分片策略KVP的對比示意圖

同時,由于KVP GPU持有與其本地KV頭相關聯的所有查詢頭,并冗余地計算QKV投影。

這使得每個KV分片能夠進行完全本地的FlashAttention,確保了模型的推理精度。

之后KVP GPU之間沿著查詢頭維度進行單對單的全連接通信,通信的成本和KV緩存的大小無關,因此大模型的上下文長度即使擴展到百萬token,也不會影響查詢效率。

此外,Helix還通過重疊通信和計算,一旦計算出一個token的注意力輸出,Helix就會啟動該token的全對全交換,同時計算下一個token的注意力。

這種緊密的重疊將通信延遲隱藏在有用的工作之后,保持GPU利用率高,并進一步加速實時解碼。

圖2中上圖的八個請求會同步執行注意力計算。隨后進行順序的全對全通信。

圖2表底部對應使用HOP-B時,一個請求的通信與下一個請求的計算重疊,通過細粒度流水線減少了token間的延遲。


圖2:Helix通過細粒度流水線技術加速大模型的響應

引入Helix帶來的高并發和低延遲

根據英偉達官網給出的計算,使用DeepSeek-R1 671B模型,在給定延遲下,當并發的用戶數增大時,Helix相比傳統方法體現出優勢。

而到了圖中第一個箭頭標注的點時,其單GPU產出的token數是傳統方法的32倍,這意味著可以將并發用戶數量提高高達32倍。


圖3:使用100萬上下文長度的DeepSeek-R1,評估使用經過最新NVIDIA GB200 NVL72(Blackwell)在固定延遲下的并發能力

在低并發設置下,Helix可以通過減token與token間的最低延遲時間,來提高用戶交互體驗,如圖3右下方的對比所示。

該研究的參與者St-Maurice指出「Helix正在重塑我們處理LLM交互和設計的方式。」

他指出,Helix并行處理和優化的KV緩存分片正在為大模型提供可擴展的顯存外掛,這與開發者改進舊處理器(如奔騰)的方式高度相似。

該技術能允許大模型應用擴展其用戶規模的同時,保證其快速響應。

對于虛擬助手、法律機器人以及AI Copolit等應用,Helix的引入可以做到既處理大量工作負載,同時還保持低延遲響應能力。

Helix是否為畫靶射箭的爭論

對于這項技術突破,西北人工智能咨詢公司的首席執行官兼聯合創始人Wyatt Mayham表示:「英偉達的數百萬個token的上下文窗口是一項令人印象深刻的工程里程碑,但對于大多數公司來說,它是一個尋找問題的解決方案,它解決了現有模型如長上下文推理和二次擴展等真實限制,但技術可能性和實際實用性之間存在差距。」

Mayham承認Helix在特定領域中很有用,例如需要完整文檔保真度的合規性強的行業,或醫療系統一次性分析患者終身病史。

但這只是部分特例,大多數組織最好是構建更智能的流水線,而不是購買helix所需的Blackwell架構下的GB200機架。

且通常情況下,檢索增強生成(RAG)系統能夠在百萬個token的范圍內,表現的比將上下文長度提升到100k更好。

而Info-Tech研究集團技術顧問Justin St-Maurice則指出:在當今世界,為人類生成百科全書大小的回答并不是勝利。

相反,關鍵在于使大模型的輸出對其他人工智能相關且可用。

這種能力可能成為未來智能體進步的推手。

有了當大模型的輸出能具有對應的認知框架,智能體可以保持更豐富的內部狀態,參與更復雜、更長時間的聊天,并執行更深入文檔分析。

St-Maurice指出:Helix帶來的長上下文窗口,能夠支持context engineer(上下文工程)在龐大的上下文窗口中管理和優化信息,以最大限度地提高智能體的有效性和可靠性。

憑借在擴展的上下文窗口中處理和交換更大數據量的能力,AI智能體可以以以前不切實際的方式溝通和協作,從而改變多智能體應用的設計框架。

參考資料:

https://research.nvidia.com/publication/2025-07_helix-parallelism-rethinking-sharding-strategies-interactive-multi-million

https://www.computerworld.com/article/4019170/new-nvidia-technology-provides-instant-answers-to-encyclopedic-length-questions.html

https://d1qx31qr3h6wln.cloudfront.net/publications/Helix_0.pdf

https://interestingengineering.com/innovation/nvidia-helix-breakthrough-long-context-ai?utm_source=chatgpt.com

https://developer.nvidia.com/blog/asking-an-encyclopedia-sized-question-how-to-make-the-world-smarter-with-multi-million-token-real-time-inference/?utm_source=chatgpt.com


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
人社部明確做好養老金調整,2025年養老金調整,有地方未補可查

人社部明確做好養老金調整,2025年養老金調整,有地方未補可查

興史興談
2025-07-23 14:53:54
17輪僅首發1次 當年和韋世豪齊名 如今慘遭塞蒂恩冷落淪為雞肋

17輪僅首發1次 當年和韋世豪齊名 如今慘遭塞蒂恩冷落淪為雞肋

零度眼看球
2025-07-24 14:03:19
徹底傻眼了!宗澤后深夜發長文情緒失控,詛咒誹謗他老母親的網友

徹底傻眼了!宗澤后深夜發長文情緒失控,詛咒誹謗他老母親的網友

美美談情感
2025-07-23 02:20:36
孩子媽媽錯把36E低胸吊帶自拍發家長群,群內截圖流出被老司機玩壞了哈哈

孩子媽媽錯把36E低胸吊帶自拍發家長群,群內截圖流出被老司機玩壞了哈哈

經典段子
2025-06-19 23:20:08
把李小璐弄到住院?拍戲只為獵艷女主角,他憑實力把自己作涼了

把李小璐弄到住院?拍戲只為獵艷女主角,他憑實力把自己作涼了

小乘說
2025-07-24 10:16:09
85年我在新疆救下一名藏族女子,退伍前夜,首長突然叫住了我

85年我在新疆救下一名藏族女子,退伍前夜,首長突然叫住了我

今天說故事
2025-07-21 17:26:36
反轉!宗慶后一生都未和施幼珍離婚,證據曝光,宗澤后被打臉了!

反轉!宗慶后一生都未和施幼珍離婚,證據曝光,宗澤后被打臉了!

古希臘掌管松餅的神
2025-07-24 12:14:42
大瓜!李天一豪賭輸千萬,夢鴿被限制出境,84歲李雙江被坑慘了?

大瓜!李天一豪賭輸千萬,夢鴿被限制出境,84歲李雙江被坑慘了?

壹月情感
2025-07-01 21:52:02
55年老紅軍被免職回鄉,不在授銜名單里,朱、彭、陳下令必須有他

55年老紅軍被免職回鄉,不在授銜名單里,朱、彭、陳下令必須有他

歷史茶坊
2025-07-24 13:20:10
“上海編制隨便上岸!”卻幾乎無人報考,考生:限制條件太多!

“上海編制隨便上岸!”卻幾乎無人報考,考生:限制條件太多!

知曉科普
2025-07-24 10:00:09
鄧文迪和默多克離婚12年后,依舊活躍在名利場,貝佐斯婚禮搶風頭

鄧文迪和默多克離婚12年后,依舊活躍在名利場,貝佐斯婚禮搶風頭

毒舌小紅帽
2025-07-23 21:11:12
1966年福州3個戰士駕船逃往臺灣,周總理下令打下來,結果如何?

1966年福州3個戰士駕船逃往臺灣,周總理下令打下來,結果如何?

驚視
2025-06-22 15:33:19
再發聲反罷免!羅大佑怒批“大罷免搞得像大清洗”:藍營別上這個當

再發聲反罷免!羅大佑怒批“大罷免搞得像大清洗”:藍營別上這個當

環球網資訊
2025-07-24 13:17:47
全網震怒!陳可辛踩紅線邀“港獨”藝人,香港票房僅48萬血本無歸

全網震怒!陳可辛踩紅線邀“港獨”藝人,香港票房僅48萬血本無歸

草莓解說體育
2025-07-24 08:18:29
蔣介石赴臺后沒有為難閻錫山,而為難了小諸葛白崇禧?

蔣介石赴臺后沒有為難閻錫山,而為難了小諸葛白崇禧?

河山歷史
2025-07-23 21:18:43
有后悔藥嗎?郭斌與王楠,腸子都悔青了:這塊蛋糕本該我的啊

有后悔藥嗎?郭斌與王楠,腸子都悔青了:這塊蛋糕本該我的啊

夕落秋山
2025-07-24 12:18:30
7年賠光2個億,中年返貧的鄒市明,終究還是向生活低頭了

7年賠光2個億,中年返貧的鄒市明,終究還是向生活低頭了

娛小北
2025-07-10 08:54:33
駐中央組織部紀檢組原組長,受賄數額特別巨大!今年首個副部級“內鬼”是他

駐中央組織部紀檢組原組長,受賄數額特別巨大!今年首個副部級“內鬼”是他

上觀新聞
2025-07-24 14:02:12
特納社媒發布靈魂拷問:你和另一伴約會時,坐她旁邊還是跟她面對面

特納社媒發布靈魂拷問:你和另一伴約會時,坐她旁邊還是跟她面對面

雷速體育
2025-07-24 13:28:09
庫明加引爆7263萬罰款!致霍福德無法簽約,勇士遭土豪線七重絞殺

庫明加引爆7263萬罰款!致霍福德無法簽約,勇士遭土豪線七重絞殺

奕辰說球
2025-07-23 14:05:58
2025-07-24 14:52:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
13127文章數 66103關注度
往期回顧 全部

科技要聞

利潤暴跌42%,馬斯克坦言:特斯拉正處難關

頭條要聞

藝人張藝洋殺害16歲女友被執行槍決 最后一條微博披露

頭條要聞

藝人張藝洋殺害16歲女友被執行槍決 最后一條微博披露

體育要聞

兒薩夢成真!巴薩曬視頻 拉什福德笑得合不攏嘴

娛樂要聞

37歲闞清子官宣懷孕,自曝已胖了30斤

財經要聞

中國,這一步棋實在太厲害

汽車要聞

外觀/內飾/智能全面升級 新款吉利博越正式發布

態度原創

教育
旅游
藝術
數碼
時尚

教育要聞

孩子考上海軍航空大學,爸爸陪我追夢

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

無需安裝、啟動秒玩:努比亞平板 Pro 云游戲功能上線

歲月不敗美人,58歲的妮可·基德曼比20歲的她更好看

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 镇康县| 社旗县| 庆城县| 锡林郭勒盟| 北碚区| 东海县| 上思县| 陈巴尔虎旗| 安平县| 双峰县| 盐津县| 日土县| 鄂温| 南汇区| 德安县| 诸暨市| 旅游| 正蓝旗| 宜春市| 通河县| 乾安县| 忻州市| 桐庐县| 疏勒县| 岳阳县| 太仓市| 泰和县| 耒阳市| 奉新县| 余江县| 靖边县| 布拖县| 衡阳县| 临湘市| 咸丰县| 仙居县| 同心县| 阳春市| 长乐市| 霍城县| 临高县|