99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

并行革命,32倍吞吐量躍升!英偉達Helix架構突破百萬Token推理瓶頸

0
分享至


新智元報道

編輯:peter東 英智

【新智元導讀】長期以來,大模型受限于有限的上下文窗口,在處理長任務或對話時不得不忘記早期信息,英偉達近日推出的Helix并行技術受DNA結構啟發,分割顯存和處理任務,顯著提升大模型的上下文長度,并發能力,并可降低響應延遲。

想象一個使用大模型的任務,需要一次處理百萬字符的文檔,例如從百科全書中獲取信息,或是分析數百頁的法律卷宗,異或追蹤持續數月的對話記錄,都需要越來越長的上下文。

而大模型生成的每個詞都需要掃描存儲在所謂的KV緩存中存儲的過去標記。

反復讀取這個緩存會消耗GPU內存帶寬。大模型還需要從內存中重新加載大量的前饋網絡(FFN)權重來處理每個新詞。

這個過程會減慢效應速度,從而導致用戶與大模型對話時出現卡頓。

傳統的解決方案,是使用張量并行(Tensor Parallelism, TP)將此負載分散到多個GPU上。但這僅能起到一定作用。

當規模超過一定限度后,GPU開始復制KV緩存,導致內存壓力進一步增大。

而Helix這一英偉達針對其最新的Blackwall開發的并行策略,通過將模型Transformer層的注意力機制和前饋網絡部分分開處理來解決卡頓問題。

Helix受DNA雙螺旋結構的啟發,Helix將KV、張量和專家等多個維度的并行性交織到一個統一的執行循環中。

每個階段在其自身的瓶頸配置下運行,同時復用相同的GPU池。


論文鏈接:https://d1qx31qr3h6wln.cloudfront.net/publications/Helix_0.pdf

Helix是怎么做到百萬上下文不卡頓

在注意力階段,Helix使用一種名為KV并行(KVP)的新方法,將龐大的KV緩存分散到多個GPU上。

當TP超過KV頭的數量時,張量并行會進行復制,從而增加了內存和帶寬開銷,如圖1a到c描述的過程。

Helix通過將TP=2與KVP=2相結合,形成2D布局來避免內存和帶寬開銷的增加,對應圖1d。


圖1:傳統的張量并行(TP)與Helix的不同注意力分片策略KVP的對比示意圖

同時,由于KVP GPU持有與其本地KV頭相關聯的所有查詢頭,并冗余地計算QKV投影。

這使得每個KV分片能夠進行完全本地的FlashAttention,確保了模型的推理精度。

之后KVP GPU之間沿著查詢頭維度進行單對單的全連接通信,通信的成本和KV緩存的大小無關,因此大模型的上下文長度即使擴展到百萬token,也不會影響查詢效率。

此外,Helix還通過重疊通信和計算,一旦計算出一個token的注意力輸出,Helix就會啟動該token的全對全交換,同時計算下一個token的注意力。

這種緊密的重疊將通信延遲隱藏在有用的工作之后,保持GPU利用率高,并進一步加速實時解碼。

圖2中上圖的八個請求會同步執行注意力計算。隨后進行順序的全對全通信。

圖2表底部對應使用HOP-B時,一個請求的通信與下一個請求的計算重疊,通過細粒度流水線減少了token間的延遲。


圖2:Helix通過細粒度流水線技術加速大模型的響應

引入Helix帶來的高并發和低延遲

根據英偉達官網給出的計算,使用DeepSeek-R1 671B模型,在給定延遲下,當并發的用戶數增大時,Helix相比傳統方法體現出優勢。

而到了圖中第一個箭頭標注的點時,其單GPU產出的token數是傳統方法的32倍,這意味著可以將并發用戶數量提高高達32倍。


圖3:使用100萬上下文長度的DeepSeek-R1,評估使用經過最新NVIDIA GB200 NVL72(Blackwell)在固定延遲下的并發能力

在低并發設置下,Helix可以通過減token與token間的最低延遲時間,來提高用戶交互體驗,如圖3右下方的對比所示。

該研究的參與者St-Maurice指出「Helix正在重塑我們處理LLM交互和設計的方式。」

他指出,Helix并行處理和優化的KV緩存分片正在為大模型提供可擴展的顯存外掛,這與開發者改進舊處理器(如奔騰)的方式高度相似。

該技術能允許大模型應用擴展其用戶規模的同時,保證其快速響應。

對于虛擬助手、法律機器人以及AI Copolit等應用,Helix的引入可以做到既處理大量工作負載,同時還保持低延遲響應能力。

Helix是否為畫靶射箭的爭論

對于這項技術突破,西北人工智能咨詢公司的首席執行官兼聯合創始人Wyatt Mayham表示:「英偉達的數百萬個token的上下文窗口是一項令人印象深刻的工程里程碑,但對于大多數公司來說,它是一個尋找問題的解決方案,它解決了現有模型如長上下文推理和二次擴展等真實限制,但技術可能性和實際實用性之間存在差距。」

Mayham承認Helix在特定領域中很有用,例如需要完整文檔保真度的合規性強的行業,或醫療系統一次性分析患者終身病史。

但這只是部分特例,大多數組織最好是構建更智能的流水線,而不是購買helix所需的Blackwell架構下的GB200機架。

且通常情況下,檢索增強生成(RAG)系統能夠在百萬個token的范圍內,表現的比將上下文長度提升到100k更好。

而Info-Tech研究集團技術顧問Justin St-Maurice則指出:在當今世界,為人類生成百科全書大小的回答并不是勝利。

相反,關鍵在于使大模型的輸出對其他人工智能相關且可用。

這種能力可能成為未來智能體進步的推手。

有了當大模型的輸出能具有對應的認知框架,智能體可以保持更豐富的內部狀態,參與更復雜、更長時間的聊天,并執行更深入文檔分析。

St-Maurice指出:Helix帶來的長上下文窗口,能夠支持context engineer(上下文工程)在龐大的上下文窗口中管理和優化信息,以最大限度地提高智能體的有效性和可靠性。

憑借在擴展的上下文窗口中處理和交換更大數據量的能力,AI智能體可以以以前不切實際的方式溝通和協作,從而改變多智能體應用的設計框架。

參考資料:

https://research.nvidia.com/publication/2025-07_helix-parallelism-rethinking-sharding-strategies-interactive-multi-million

https://www.computerworld.com/article/4019170/new-nvidia-technology-provides-instant-answers-to-encyclopedic-length-questions.html

https://d1qx31qr3h6wln.cloudfront.net/publications/Helix_0.pdf

https://interestingengineering.com/innovation/nvidia-helix-breakthrough-long-context-ai?utm_source=chatgpt.com

https://developer.nvidia.com/blog/asking-an-encyclopedia-sized-question-how-to-make-the-world-smarter-with-multi-million-token-real-time-inference/?utm_source=chatgpt.com


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
裁判文書網發布強奸案!男方強制女友:和狗性交、下體塞入冰柱

裁判文書網發布強奸案!男方強制女友:和狗性交、下體塞入冰柱

社會醬
2025-07-20 19:08:59
張韶涵“渣女站姿”刷屏網絡,腿縫近乎為零觀眾眼睛都直了 服了

張韶涵“渣女站姿”刷屏網絡,腿縫近乎為零觀眾眼睛都直了 服了

界史
2025-07-21 11:08:24
男子連買三臺小米汽車,稱永久不會賣!雷軍發文祝賀:“尊敬的小米車主,祝你喜提第三輛”

男子連買三臺小米汽車,稱永久不會賣!雷軍發文祝賀:“尊敬的小米車主,祝你喜提第三輛”

魯中晨報
2025-07-21 09:44:10
人民日報說,建議大家重新稱呼“同志”

人民日報說,建議大家重新稱呼“同志”

黑噪音
2025-07-20 11:02:57
無視警告怒炸波蘭工廠,普京殺雞儆猴,北約集體沉默

無視警告怒炸波蘭工廠,普京殺雞儆猴,北約集體沉默

智觀科技
2025-07-20 22:07:11
“奧巴馬被捕”視頻瘋傳!特朗普也轉了

“奧巴馬被捕”視頻瘋傳!特朗普也轉了

環球時報國際
2025-07-21 17:34:15
印度“戰略性失敗”!世界最大雅魯藏布江電站開工,影響力多大?

印度“戰略性失敗”!世界最大雅魯藏布江電站開工,影響力多大?

溫讀史
2025-07-21 14:30:55
凌志峰履新公安部副部長,近半年內公安部多位部領導調整

凌志峰履新公安部副部長,近半年內公安部多位部領導調整

南方都市報
2025-07-21 19:52:06
國務院:任命謝遠生為工信部副部長,凌志峰為公安部副部長

國務院:任命謝遠生為工信部副部長,凌志峰為公安部副部長

界面新聞
2025-07-21 17:57:59
16位中央巡視組組長,已全部確定

16位中央巡視組組長,已全部確定

新京報政事兒
2025-07-21 18:52:49
今天凌晨,曾志偉公開道歉

今天凌晨,曾志偉公開道歉

東方不敗然多多
2025-07-21 10:02:02
廣東一高校堪稱爆冷之王,缺額超6300人,個別專業組竟無人報考

廣東一高校堪稱爆冷之王,缺額超6300人,個別專業組竟無人報考

百家論大學
2025-07-20 14:00:02
22歲女生在重慶爬樓送外賣6天瘦10斤,精致打扮被指炒作,當事人回應質疑

22歲女生在重慶爬樓送外賣6天瘦10斤,精致打扮被指炒作,當事人回應質疑

瀟湘晨報
2025-07-21 17:51:23
懇請甘肅省委省政府調查組公布與顏料有關的更多信息

懇請甘肅省委省政府調查組公布與顏料有關的更多信息

老頭和你隨便聊聊
2025-07-21 14:42:09
碭山父子雙雙遇難!貨物價值3千萬,前妻已再婚,出事前曾招司機

碭山父子雙雙遇難!貨物價值3千萬,前妻已再婚,出事前曾招司機

史書無明
2025-07-21 07:44:32
歐盟剛想妥協,特朗普就提出了更高要求,中方的話逐步應驗!

歐盟剛想妥協,特朗普就提出了更高要求,中方的話逐步應驗!

科技有趣事
2025-07-21 10:46:54
男子因臆想被嘲笑,深夜潛入女同事家中傷人:我要拍下她害怕的樣子

男子因臆想被嘲笑,深夜潛入女同事家中傷人:我要拍下她害怕的樣子

瀟湘晨報
2025-07-21 18:20:21
男大學生電腦存700多張女性裸露色情照片,又一機構回應

男大學生電腦存700多張女性裸露色情照片,又一機構回應

大象新聞
2025-07-21 15:32:03
娃哈哈宗慶后遺產糾紛案最新進展!法院11天后將宣布決定

娃哈哈宗慶后遺產糾紛案最新進展!法院11天后將宣布決定

每日經濟新聞
2025-07-20 19:45:03
余杭自來水事件驚天反轉!上市公司硬剛:誰傳謠,告到傾家蕩產!

余杭自來水事件驚天反轉!上市公司硬剛:誰傳謠,告到傾家蕩產!

詩與星空
2025-07-21 08:00:09
2025-07-21 21:15:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
13110文章數 66102關注度
往期回顧 全部

科技要聞

OpenAI自嗨“國際奧數金牌”遭官方怒斥

頭條要聞

男大學生電腦存700多張女性裸露色情照片 機構回應

頭條要聞

男大學生電腦存700多張女性裸露色情照片 機構回應

體育要聞

這四位大兄弟,你們真敢要3000萬吶

娛樂要聞

五哈全員為寶石老舅送祝福

財經要聞

炒港美股"補稅潮"突襲?一文了解始末

汽車要聞

勞斯萊斯前設計師全新力作 榮威M7正式亮相

態度原創

健康
教育
房產
藝術
時尚

呼吸科專家破解呼吸道九大謠言!

教育要聞

招募丨歡迎各專業學長學姐加入我們,領取你的第一桶金!

房產要聞

歷時15年!廣州最難拆的一條村,也終于走到了句點

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

被嘲普,卻艷壓熱巴、楊超越?她憑什么成為時裝周收割機?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 苏尼特右旗| 辽源市| 吉首市| 聂荣县| 邢台县| 汤阴县| 海南省| 东乡| 佛山市| 五家渠市| 广元市| 尉犁县| 承德市| 益阳市| 华宁县| 木里| 深圳市| 洪雅县| 韩城市| 闸北区| 文山县| 兰州市| 伽师县| 张家口市| 含山县| 济宁市| 余干县| 郸城县| 镇平县| 辉县市| 阿鲁科尔沁旗| 准格尔旗| 涿鹿县| 合水县| 五指山市| 松江区| 前郭尔| 卓尼县| 濮阳县| 忻州市| 镇原县|