99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

并行革命,32倍吞吐量躍升!英偉達(dá)Helix架構(gòu)突破百萬Token推理瓶頸

0
分享至


新智元報(bào)道

編輯:peter東 英智

【新智元導(dǎo)讀】長期以來,大模型受限于有限的上下文窗口,在處理長任務(wù)或?qū)υ挄r(shí)不得不忘記早期信息,英偉達(dá)近日推出的Helix并行技術(shù)受DNA結(jié)構(gòu)啟發(fā),分割顯存和處理任務(wù),顯著提升大模型的上下文長度,并發(fā)能力,并可降低響應(yīng)延遲。

想象一個(gè)使用大模型的任務(wù),需要一次處理百萬字符的文檔,例如從百科全書中獲取信息,或是分析數(shù)百頁的法律卷宗,異或追蹤持續(xù)數(shù)月的對(duì)話記錄,都需要越來越長的上下文。

而大模型生成的每個(gè)詞都需要掃描存儲(chǔ)在所謂的KV緩存中存儲(chǔ)的過去標(biāo)記。

反復(fù)讀取這個(gè)緩存會(huì)消耗GPU內(nèi)存帶寬。大模型還需要從內(nèi)存中重新加載大量的前饋網(wǎng)絡(luò)(FFN)權(quán)重來處理每個(gè)新詞。

這個(gè)過程會(huì)減慢效應(yīng)速度,從而導(dǎo)致用戶與大模型對(duì)話時(shí)出現(xiàn)卡頓。

傳統(tǒng)的解決方案,是使用張量并行(Tensor Parallelism, TP)將此負(fù)載分散到多個(gè)GPU上。但這僅能起到一定作用。

當(dāng)規(guī)模超過一定限度后,GPU開始復(fù)制KV緩存,導(dǎo)致內(nèi)存壓力進(jìn)一步增大。

而Helix這一英偉達(dá)針對(duì)其最新的Blackwall開發(fā)的并行策略,通過將模型Transformer層的注意力機(jī)制和前饋網(wǎng)絡(luò)部分分開處理來解決卡頓問題。

Helix受DNA雙螺旋結(jié)構(gòu)的啟發(fā),Helix將KV、張量和專家等多個(gè)維度的并行性交織到一個(gè)統(tǒng)一的執(zhí)行循環(huán)中。

每個(gè)階段在其自身的瓶頸配置下運(yùn)行,同時(shí)復(fù)用相同的GPU池。


論文鏈接:https://d1qx31qr3h6wln.cloudfront.net/publications/Helix_0.pdf

Helix是怎么做到百萬上下文不卡頓

在注意力階段,Helix使用一種名為KV并行(KVP)的新方法,將龐大的KV緩存分散到多個(gè)GPU上。

當(dāng)TP超過KV頭的數(shù)量時(shí),張量并行會(huì)進(jìn)行復(fù)制,從而增加了內(nèi)存和帶寬開銷,如圖1a到c描述的過程。

Helix通過將TP=2與KVP=2相結(jié)合,形成2D布局來避免內(nèi)存和帶寬開銷的增加,對(duì)應(yīng)圖1d。


圖1:傳統(tǒng)的張量并行(TP)與Helix的不同注意力分片策略KVP的對(duì)比示意圖

同時(shí),由于KVP GPU持有與其本地KV頭相關(guān)聯(lián)的所有查詢頭,并冗余地計(jì)算QKV投影。

這使得每個(gè)KV分片能夠進(jìn)行完全本地的FlashAttention,確保了模型的推理精度。

之后KVP GPU之間沿著查詢頭維度進(jìn)行單對(duì)單的全連接通信,通信的成本和KV緩存的大小無關(guān),因此大模型的上下文長度即使擴(kuò)展到百萬token,也不會(huì)影響查詢效率。

此外,Helix還通過重疊通信和計(jì)算,一旦計(jì)算出一個(gè)token的注意力輸出,Helix就會(huì)啟動(dòng)該token的全對(duì)全交換,同時(shí)計(jì)算下一個(gè)token的注意力。

這種緊密的重疊將通信延遲隱藏在有用的工作之后,保持GPU利用率高,并進(jìn)一步加速實(shí)時(shí)解碼。

圖2中上圖的八個(gè)請(qǐng)求會(huì)同步執(zhí)行注意力計(jì)算。隨后進(jìn)行順序的全對(duì)全通信。

圖2表底部對(duì)應(yīng)使用HOP-B時(shí),一個(gè)請(qǐng)求的通信與下一個(gè)請(qǐng)求的計(jì)算重疊,通過細(xì)粒度流水線減少了token間的延遲。


圖2:Helix通過細(xì)粒度流水線技術(shù)加速大模型的響應(yīng)

引入Helix帶來的高并發(fā)和低延遲

根據(jù)英偉達(dá)官網(wǎng)給出的計(jì)算,使用DeepSeek-R1 671B模型,在給定延遲下,當(dāng)并發(fā)的用戶數(shù)增大時(shí),Helix相比傳統(tǒng)方法體現(xiàn)出優(yōu)勢。

而到了圖中第一個(gè)箭頭標(biāo)注的點(diǎn)時(shí),其單GPU產(chǎn)出的token數(shù)是傳統(tǒng)方法的32倍,這意味著可以將并發(fā)用戶數(shù)量提高高達(dá)32倍。


圖3:使用100萬上下文長度的DeepSeek-R1,評(píng)估使用經(jīng)過最新NVIDIA GB200 NVL72(Blackwell)在固定延遲下的并發(fā)能力

在低并發(fā)設(shè)置下,Helix可以通過減token與token間的最低延遲時(shí)間,來提高用戶交互體驗(yàn),如圖3右下方的對(duì)比所示。

該研究的參與者St-Maurice指出「Helix正在重塑我們處理LLM交互和設(shè)計(jì)的方式。」

他指出,Helix并行處理和優(yōu)化的KV緩存分片正在為大模型提供可擴(kuò)展的顯存外掛,這與開發(fā)者改進(jìn)舊處理器(如奔騰)的方式高度相似。

該技術(shù)能允許大模型應(yīng)用擴(kuò)展其用戶規(guī)模的同時(shí),保證其快速響應(yīng)。

對(duì)于虛擬助手、法律機(jī)器人以及AI Copolit等應(yīng)用,Helix的引入可以做到既處理大量工作負(fù)載,同時(shí)還保持低延遲響應(yīng)能力。

Helix是否為畫靶射箭的爭論

對(duì)于這項(xiàng)技術(shù)突破,西北人工智能咨詢公司的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Wyatt Mayham表示:「英偉達(dá)的數(shù)百萬個(gè)token的上下文窗口是一項(xiàng)令人印象深刻的工程里程碑,但對(duì)于大多數(shù)公司來說,它是一個(gè)尋找問題的解決方案,它解決了現(xiàn)有模型如長上下文推理和二次擴(kuò)展等真實(shí)限制,但技術(shù)可能性和實(shí)際實(shí)用性之間存在差距。」

Mayham承認(rèn)Helix在特定領(lǐng)域中很有用,例如需要完整文檔保真度的合規(guī)性強(qiáng)的行業(yè),或醫(yī)療系統(tǒng)一次性分析患者終身病史。

但這只是部分特例,大多數(shù)組織最好是構(gòu)建更智能的流水線,而不是購買helix所需的Blackwell架構(gòu)下的GB200機(jī)架。

且通常情況下,檢索增強(qiáng)生成(RAG)系統(tǒng)能夠在百萬個(gè)token的范圍內(nèi),表現(xiàn)的比將上下文長度提升到100k更好。

而Info-Tech研究集團(tuán)技術(shù)顧問Justin St-Maurice則指出:在當(dāng)今世界,為人類生成百科全書大小的回答并不是勝利。

相反,關(guān)鍵在于使大模型的輸出對(duì)其他人工智能相關(guān)且可用。

這種能力可能成為未來智能體進(jìn)步的推手。

有了當(dāng)大模型的輸出能具有對(duì)應(yīng)的認(rèn)知框架,智能體可以保持更豐富的內(nèi)部狀態(tài),參與更復(fù)雜、更長時(shí)間的聊天,并執(zhí)行更深入文檔分析。

St-Maurice指出:Helix帶來的長上下文窗口,能夠支持context engineer(上下文工程)在龐大的上下文窗口中管理和優(yōu)化信息,以最大限度地提高智能體的有效性和可靠性。

憑借在擴(kuò)展的上下文窗口中處理和交換更大數(shù)據(jù)量的能力,AI智能體可以以以前不切實(shí)際的方式溝通和協(xié)作,從而改變多智能體應(yīng)用的設(shè)計(jì)框架。

參考資料:

https://research.nvidia.com/publication/2025-07_helix-parallelism-rethinking-sharding-strategies-interactive-multi-million

https://www.computerworld.com/article/4019170/new-nvidia-technology-provides-instant-answers-to-encyclopedic-length-questions.html

https://d1qx31qr3h6wln.cloudfront.net/publications/Helix_0.pdf

https://interestingengineering.com/innovation/nvidia-helix-breakthrough-long-context-ai?utm_source=chatgpt.com

https://developer.nvidia.com/blog/asking-an-encyclopedia-sized-question-how-to-make-the-world-smarter-with-multi-million-token-real-time-inference/?utm_source=chatgpt.com


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國駐印度大使:希望印方同中方一道,采取更多有利于雙方經(jīng)貿(mào)往來的措施

中國駐印度大使:希望印方同中方一道,采取更多有利于雙方經(jīng)貿(mào)往來的措施

界面新聞
2025-07-22 07:25:27
《掃毒風(fēng)暴》最愚蠢的角色,不是被拋棄的吳燕萍!而是不識(shí)相的他

《掃毒風(fēng)暴》最愚蠢的角色,不是被拋棄的吳燕萍!而是不識(shí)相的他

露珠聊影視
2025-07-21 17:35:49
“色鬼”宗慶后的墮落之路:從對(duì)女員工下手開始,就一發(fā)不可收拾

“色鬼”宗慶后的墮落之路:從對(duì)女員工下手開始,就一發(fā)不可收拾

熱點(diǎn)菌本君
2025-07-21 12:04:20
戰(zhàn)艦啟航!Shams:老將克里斯-保羅回歸快船 生涯最后一季

戰(zhàn)艦啟航!Shams:老將克里斯-保羅回歸快船 生涯最后一季

直播吧
2025-07-21 23:18:12
不想IPO,汽水之王賣身美國

不想IPO,汽水之王賣身美國

投資家
2025-07-22 20:56:41
西安出土李建成墓,墓志僅55個(gè)字,揭露李世民對(duì)待兄長的真實(shí)心態(tài)

西安出土李建成墓,墓志僅55個(gè)字,揭露李世民對(duì)待兄長的真實(shí)心態(tài)

文史達(dá)觀
2024-04-09 19:45:33
當(dāng)年官宣有多爺們?nèi)缃裾渲妇陀卸喟詺猓÷龟辖K于撕破關(guān)曉彤體面

當(dāng)年官宣有多爺們?nèi)缃裾渲妇陀卸喟詺猓÷龟辖K于撕破關(guān)曉彤體面

娛樂小丸子
2025-07-22 08:28:48
長沙一小區(qū)精裝房交付兩月超百戶業(yè)主發(fā)現(xiàn)自家房梁受損 當(dāng)?shù)匾盐袡z測 開發(fā)商回應(yīng)

長沙一小區(qū)精裝房交付兩月超百戶業(yè)主發(fā)現(xiàn)自家房梁受損 當(dāng)?shù)匾盐袡z測 開發(fā)商回應(yīng)

紅星新聞
2025-07-22 11:20:17
53歲中國游客泰國遇難,剛退休,現(xiàn)場慘烈當(dāng)場砸死,目擊者曝內(nèi)幕

53歲中國游客泰國遇難,剛退休,現(xiàn)場慘烈當(dāng)場砸死,目擊者曝內(nèi)幕

泠泠說史
2025-07-22 18:07:56
恒大負(fù)債1萬億降至2596億,房企巨頭清債680億

恒大負(fù)債1萬億降至2596億,房企巨頭清債680億

李橑在北漂
2025-07-09 16:38:37
一口氣刷全集,Netflix又出一部生猛新劇

一口氣刷全集,Netflix又出一部生猛新劇

來看美劇
2025-07-22 21:36:54
天津?qū)O大爺遺產(chǎn)風(fēng)波 姐弟倆為爭300萬遺產(chǎn)發(fā)現(xiàn)均非親生

天津?qū)O大爺遺產(chǎn)風(fēng)波 姐弟倆為爭300萬遺產(chǎn)發(fā)現(xiàn)均非親生

大象新聞
2025-07-22 07:16:03
情商低?韋世豪風(fēng)波后王大雷評(píng)論其妻子:我們餃子最棒!網(wǎng)友狠批

情商低?韋世豪風(fēng)波后王大雷評(píng)論其妻子:我們餃子最棒!網(wǎng)友狠批

我愛英超
2025-07-22 15:17:38
女子與多名高僧炸裂視頻流出,膚白貌美身材傲人,難怪把持不住

女子與多名高僧炸裂視頻流出,膚白貌美身材傲人,難怪把持不住

寒士之言本尊
2025-07-17 23:03:22
湖北省體育局慰問鄭欽文的父親,向其表達(dá)了對(duì)鄭欽文術(shù)后的關(guān)切

湖北省體育局慰問鄭欽文的父親,向其表達(dá)了對(duì)鄭欽文術(shù)后的關(guān)切

直播吧
2025-07-22 14:00:45
30萬鎊周薪!紐卡神鋒索頂薪讓俱樂部很為難 利物浦做好打劫準(zhǔn)備

30萬鎊周薪!紐卡神鋒索頂薪讓俱樂部很為難 利物浦做好打劫準(zhǔn)備

雪狼侃體育
2025-07-22 22:29:43
棋高一著!宗慶后早有預(yù)料,3大信息揭露,宗馥莉并非最大贏家

棋高一著!宗慶后早有預(yù)料,3大信息揭露,宗馥莉并非最大贏家

探源歷史
2025-07-22 14:17:00
足協(xié)杯不是冷門溫床!中甲獨(dú)苗出局,八強(qiáng)魔咒延續(xù)8年

足協(xié)杯不是冷門溫床!中甲獨(dú)苗出局,八強(qiáng)魔咒延續(xù)8年

奧拜爾
2025-07-22 21:58:59
又反轉(zhuǎn)了?宗澤后深夜發(fā)長文揭露事實(shí),宗馥莉才是“萬惡之源”

又反轉(zhuǎn)了?宗澤后深夜發(fā)長文揭露事實(shí),宗馥莉才是“萬惡之源”

大笑江湖史
2025-07-22 22:37:38
正部級(jí)齊扎拉,搞“形象工程”“政績工程”,長期搞迷信活動(dòng),家風(fēng)不正

正部級(jí)齊扎拉,搞“形象工程”“政績工程”,長期搞迷信活動(dòng),家風(fēng)不正

政知新媒體
2025-07-22 10:14:36
2025-07-22 23:40:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13115文章數(shù) 66103關(guān)注度
往期回顧 全部

科技要聞

李開復(fù)推企業(yè)級(jí)Agent,誓要打造"超級(jí)員工"

頭條要聞

烏克蘭20歲模特:逃離迪拜性派對(duì)遭富豪虐待 監(jiān)控沒了

頭條要聞

烏克蘭20歲模特:逃離迪拜性派對(duì)遭富豪虐待 監(jiān)控沒了

體育要聞

兩度身患癌癥,她完成了一次不可能的撲救

娛樂要聞

葉珂復(fù)播 自曝產(chǎn)女后與黃曉明徹底分手

財(cái)經(jīng)要聞

宗馥莉掌控離岸公司 遺產(chǎn)爭奪或早有布局

汽車要聞

看著像保時(shí)捷?賓利首款純電動(dòng)車諜照曝光

態(tài)度原創(chuàng)

手機(jī)
數(shù)碼
健康
房產(chǎn)
公開課

手機(jī)要聞

冷靜穩(wěn)定輸出 OPPO K13 Turbo系列開啟預(yù)售

數(shù)碼要聞

小米米家運(yùn)動(dòng)健康產(chǎn)品升級(jí)雙平臺(tái)接入,支持?jǐn)?shù)據(jù)互通

呼吸科專家破解呼吸道九大謠言!

房產(chǎn)要聞

新增2500個(gè)學(xué)位!海口又一超級(jí)學(xué)校來了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 安吉县| 游戏| 永嘉县| 刚察县| 遂宁市| 灵丘县| 洛浦县| 佛山市| 桂东县| 丽水市| 赤水市| 延寿县| 沈丘县| 牟定县| 清水县| 车险| 北海市| 麻江县| 新巴尔虎右旗| 昌黎县| 漾濞| 黄龙县| 北海市| 克什克腾旗| 阳高县| 罗江县| 廉江市| 游戏| 宣恩县| 罗源县| 丰镇市| 财经| 龙陵县| 临沂市| 恩平市| 彰化县| 鲁甸县| 德安县| 星座| 丹巴县| 佳木斯市|