網易首頁 > 網易號 > 正文申請入駐

并行革命，32倍吞吐量躍升！英偉達Helix架構突破百萬Token推理瓶頸

2025-07-21 16:20:39　來源: 新智元

北京舉報

分享至

新智元報道

編輯：peter東英智

【新智元導讀】長期以來，大模型受限于有限的上下文窗口，在處理長任務或對話時不得不忘記早期信息，英偉達近日推出的Helix并行技術受DNA結構啟發，分割顯存和處理任務，顯著提升大模型的上下文長度，并發能力，并可降低響應延遲。

想象一個使用大模型的任務，需要一次處理百萬字符的文檔，例如從百科全書中獲取信息，或是分析數百頁的法律卷宗，異或追蹤持續數月的對話記錄，都需要越來越長的上下文。

而大模型生成的每個詞都需要掃描存儲在所謂的KV緩存中存儲的過去標記。

反復讀取這個緩存會消耗GPU內存帶寬。大模型還需要從內存中重新加載大量的前饋網絡（FFN）權重來處理每個新詞。

這個過程會減慢效應速度，從而導致用戶與大模型對話時出現卡頓。

傳統的解決方案，是使用張量并行（Tensor Parallelism, TP）將此負載分散到多個GPU上。但這僅能起到一定作用。

當規模超過一定限度后，GPU開始復制KV緩存，導致內存壓力進一步增大。

而Helix這一英偉達針對其最新的Blackwall開發的并行策略，通過將模型Transformer層的注意力機制和前饋網絡部分分開處理來解決卡頓問題。

Helix受DNA雙螺旋結構的啟發，Helix將KV、張量和專家等多個維度的并行性交織到一個統一的執行循環中。

每個階段在其自身的瓶頸配置下運行，同時復用相同的GPU池。

論文鏈接：https://d1qx31qr3h6wln.cloudfront.net/publications/Helix_0.pdf

Helix是怎么做到百萬上下文不卡頓

在注意力階段，Helix使用一種名為KV并行（KVP）的新方法，將龐大的KV緩存分散到多個GPU上。

當TP超過KV頭的數量時，張量并行會進行復制，從而增加了內存和帶寬開銷，如圖1a到c描述的過程。

Helix通過將TP=2與KVP=2相結合，形成2D布局來避免內存和帶寬開銷的增加，對應圖1d。

圖1：傳統的張量并行（TP）與Helix的不同注意力分片策略KVP的對比示意圖

同時，由于KVP GPU持有與其本地KV頭相關聯的所有查詢頭，并冗余地計算QKV投影。

這使得每個KV分片能夠進行完全本地的FlashAttention，確保了模型的推理精度。

之后KVP GPU之間沿著查詢頭維度進行單對單的全連接通信，通信的成本和KV緩存的大小無關，因此大模型的上下文長度即使擴展到百萬token，也不會影響查詢效率。

此外，Helix還通過重疊通信和計算，一旦計算出一個token的注意力輸出，Helix就會啟動該token的全對全交換，同時計算下一個token的注意力。

這種緊密的重疊將通信延遲隱藏在有用的工作之后，保持GPU利用率高，并進一步加速實時解碼。

圖2中上圖的八個請求會同步執行注意力計算。隨后進行順序的全對全通信。

圖2表底部對應使用HOP-B時，一個請求的通信與下一個請求的計算重疊，通過細粒度流水線減少了token間的延遲。

圖2：Helix通過細粒度流水線技術加速大模型的響應

引入Helix帶來的高并發和低延遲

根據英偉達官網給出的計算，使用DeepSeek-R1 671B模型，在給定延遲下，當并發的用戶數增大時，Helix相比傳統方法體現出優勢。

而到了圖中第一個箭頭標注的點時，其單GPU產出的token數是傳統方法的32倍，這意味著可以將并發用戶數量提高高達32倍。

圖3：使用100萬上下文長度的DeepSeek-R1，評估使用經過最新NVIDIA GB200 NVL72（Blackwell）在固定延遲下的并發能力

在低并發設置下，Helix可以通過減token與token間的最低延遲時間，來提高用戶交互體驗，如圖3右下方的對比所示。

該研究的參與者St-Maurice指出「Helix正在重塑我們處理LLM交互和設計的方式。」

他指出，Helix并行處理和優化的KV緩存分片正在為大模型提供可擴展的顯存外掛，這與開發者改進舊處理器（如奔騰）的方式高度相似。

該技術能允許大模型應用擴展其用戶規模的同時，保證其快速響應。

對于虛擬助手、法律機器人以及AI Copolit等應用，Helix的引入可以做到既處理大量工作負載，同時還保持低延遲響應能力。

Helix是否為畫靶射箭的爭論

對于這項技術突破，西北人工智能咨詢公司的首席執行官兼聯合創始人Wyatt Mayham表示：「英偉達的數百萬個token的上下文窗口是一項令人印象深刻的工程里程碑，但對于大多數公司來說，它是一個尋找問題的解決方案，它解決了現有模型如長上下文推理和二次擴展等真實限制，但技術可能性和實際實用性之間存在差距。」

Mayham承認Helix在特定領域中很有用，例如需要完整文檔保真度的合規性強的行業，或醫療系統一次性分析患者終身病史。

但這只是部分特例，大多數組織最好是構建更智能的流水線，而不是購買helix所需的Blackwell架構下的GB200機架。

且通常情況下，檢索增強生成（RAG）系統能夠在百萬個token的范圍內，表現的比將上下文長度提升到100k更好。

而Info-Tech研究集團技術顧問Justin St-Maurice則指出：在當今世界，為人類生成百科全書大小的回答并不是勝利。

相反，關鍵在于使大模型的輸出對其他人工智能相關且可用。

這種能力可能成為未來智能體進步的推手。

有了當大模型的輸出能具有對應的認知框架，智能體可以保持更豐富的內部狀態，參與更復雜、更長時間的聊天，并執行更深入文檔分析。

St-Maurice指出：Helix帶來的長上下文窗口，能夠支持context engineer（上下文工程）在龐大的上下文窗口中管理和優化信息，以最大限度地提高智能體的有效性和可靠性。

憑借在擴展的上下文窗口中處理和交換更大數據量的能力，AI智能體可以以以前不切實際的方式溝通和協作，從而改變多智能體應用的設計框架。

參考資料：

https://research.nvidia.com/publication/2025-07_helix-parallelism-rethinking-sharding-strategies-interactive-multi-million

https://www.computerworld.com/article/4019170/new-nvidia-technology-provides-instant-answers-to-encyclopedic-length-questions.html

https://d1qx31qr3h6wln.cloudfront.net/publications/Helix_0.pdf

https://interestingengineering.com/innovation/nvidia-helix-breakthrough-long-context-ai?utm_source=chatgpt.com

https://developer.nvidia.com/blog/asking-an-encyclopedia-sized-question-how-to-make-the-world-smarter-with-multi-million-token-real-time-inference/?utm_source=chatgpt.com

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.