99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

突破擴散LLM瓶頸,英偉達港大提全新Fast-dLLM,推理加速27.6倍!

0
分享至


新智元報道

編輯:定慧

【新智元導讀】英偉達聯合港大提出全新Fast-dLLM,模型跳脫自回歸生成方式,借助KV Cache和并行解碼,將Diffusion LLM推理加速達27.6倍。

如果你看過電影《降臨》,一定記得「七肢桶」在空氣中揮灑墨霧、一次性寫下整圈「七文」的震撼場景——


那是一種把整句話、整段意思同時呈現出來的語言:沒有先后順序,開頭和結尾在同一瞬間顯現,仿佛作者早已知曉過去和未來,一并落墨。

Diffusion LLM就像大模型世界里的「七肢桶」——它不像自回歸模型,按字面順序逐詞輸出,而是把整條句子先「浸」進噪聲,然后在一連串并行去噪的瞬間,讓所有Tokens一起成形,上下文和前后邏輯全都同時握在手里。

雖然聽起來很美好,但是Diffusion LLM天然有個問題,那就是輸出速度慢——主要是由于原生Diffusion因無KVCache,并且需要多次迭代

英偉達、港大和麻省理工的研究者們提出了全新的Fast-dLLM框架,讓Diffusion LLM得到27.6倍加速!


論文地址:https://nvlabs.github.io/Fast-dLLM/paper/fast_dllm.pdf

這是一張來自Fast?dLLM論文的綜合性能圖,分成(a)、(b)、(c)三個小面板,直觀展示了在GSM8K推理任務上,給擴散大模型(LLaDA?和?Dream)外掛KVCache與并行解碼之后,速度飆升而準確率幾乎不掉


首先是推理吞吐量和準確率(a),可以看到在推理速度幾倍數的加快的同時,準確率幾乎沒有下降,同時使用KVCache和并行解碼的LLaDA速度達到最快;加速后,吞吐量大幅右移,而準確率幾乎保持平行下降1?%以內——說明「跑得快」且「答得準」。

其次是每步生成Token數和吞吐量(b),原生LLaDA只能1?token/step;KV?Cache不改變解碼步長,并行解碼把解碼步長提到~3?tokens/step,不過需要注意的是并行單獨用時解碼步長變大,卻因仍需全序列注意力,吞吐只到16.5?token/s。

而兩者疊加則解碼步長大,且延遲小,吞吐沖到54.4?token/s。只有把KVCache和并行解碼一起用,才能把速度優勢最大化

最后是端到端推理時間拆解,純并行時靠減少步數提速?13.3倍,PrefixCache(只存提示)再快?1.4倍,DualCache(提示+已確定塊都緩存)再快?2.1倍,累計提速27.6?×!

而并行解碼顯著加快了生成過程,同時保持了序列的質量。基于置信度感知的并行解碼方法,該方法允許在每一步中并行解密多個可信的 token。顏色圖例表示每個token的生成步驟。


左:標準解碼(LLaDA)。右:置信度感知的并行解碼。

只要給擴散大模型插上「KVCache+并行解碼」兩扇「渦輪」,就能把推理速度最高提升近30?倍,同時幾乎不犧牲推理正確率,僅僅從77.3%下降到76%,幾乎可以忽略。

在詳細解釋Fast-dLLM是如何做到前,先從最基本的擴散LLM說起。

擴散(Diffusion)LLM是什么?

大語言模型(LLM)的自回歸架構(AR,autoregressive)大放異彩,ChatGPT等大模型在各領域表現出強大能力。

自回歸模型采用Transformer解碼器逐詞順序生成文本,每個詞都條件依賴于前面已生成的詞。

這種方式保證了語義的連貫性,但無法并行生成,生成長序列時速度受到限制。

此外,一旦早期生成出錯,后續文本往往難以糾正錯誤。

擴散大語言模型(Diffusion LLM,簡稱DLM)則是一種新興的生成范式,受到圖像擴散模型的啟發,引入了逐步噪聲銷毀和去噪的過程。

簡單來說,Diffusion LLM并非從左到右逐詞生成,而是先將一句話的部分Tokens隨機掩蓋或替換為噪聲標記,然后訓練模型學習如何一步步還原這些被破壞的詞。

整個句子的所有Tokens可以在每個擴散步驟中同時得到更新,模型通過多次迭代逐漸將噪聲句子還原為連貫文本。

這種并行生成使模型擁有雙向注意力:在去噪過程中,任一位置的詞都能參考句子中左右兩側的上下文,有助于全局一致性和長程依賴的處理。

同時,擴散過程允許全局糾錯:模型可以在后續迭代中修改任何位置的錯誤Tokens,而不像自回歸模型那樣一旦生成就固定下來。

聽起來很美好,然而擴散LLM也有明顯短板。

首先,推理速度是個問題:擴散模型通常需要多次迭代(例如幾十到上百步)才能得到最終結果,每一步都要對整句做一次前向計算,計算開銷巨大。

相比之下,自回歸模型雖然一次只能生成一個詞,但不用重復整個序列的計算,并且可以利用KVCache來復用以往步驟的計算結果,大幅加速推理。

KV Cache(Key-Value Cache)是一種在自回歸Transformer中常用的加速技巧:緩存過去每個生成步的注意力鍵/值張量,使得下一步推理時無需重復計算先前tokens的注意力表示。

這使得自回歸模型在長文本生成時效率大大提升。

然而,擴散模型由于并非單向生成而是雙向迭代,理論上「下一步」并沒有固定的新token位置,所有位置的表示每步都在變化,因而無法直接沿用自回歸模型的KV Cache策略。

現有的開源擴散LLM(如Dream-7B、LLaDA-8B等)在推理速度上明顯慢于同規模的自回歸模型,主要原因正是無法使用KV Cache以及并行解碼時為了加速減少擴散步數會導致生成質量下降。

其次,并行生成的質量問題也困擾擴散LLM。

如果模型在一步中同時生成多個Tokens,由于假設這些詞條件獨立,可能出現不協調的情況——簡單來說,就是各個詞各自看起來概率很高,但組合起來句子不通順,或語義沖突。

自回歸模型一次只生成一個詞并將其并入上下文,確保了下一個詞能看到之前所有已生成Tokens,極大降低了不一致的風險。

而擴散模型每一步對所有未確定Tokens并行預測,它打破了Tokens之間的順序依賴,在減少迭代步數以求加速時,這種不一致現象會更加明顯。

條件獨立假設成了并行擴散生成質量下降的罪魁禍首——模型在并行預測多個Tokens時,無法充分確保它們之間邏輯和語法的一致性。

Diffusion LLM提供了有別于自回歸的新思路:并行+雙向帶來潛在效率和效果優勢,但要真正與自回歸LLM競爭,其推理加速和生成質量穩定性必須改進。

Fast-dLLM的工作正是在這種背景下提出:無需重新訓練,通過巧妙的緩存近似和新并行解碼策略,大幅提升擴散LLM的推理速度,同時保持生成質量不打折扣。

Fast-dLLM方法論

Fast-dLLM構建于MaskedDiffusionModel(MDM)架構之上,旨在實現高效且高質量的序列生成。

為了加快推理速度,該方法融合了兩項核心策略:一是通過Key-Value(KV)緩存(Cache)實現高效注意力計算,二是基于預測置信度的并行解碼方案。

具體來說,采用基于塊的解碼方式,并結合KV Cache,以便在多個解碼步驟中重復使用注意力激活,從而顯著減少冗余計算。

在每個塊內部,進一步提出了「置信度感知并行解碼」方法,根據預測的置信度分數選擇性地更新token,提高效率的同時保持輸出質量。

通過整合上述策略,Fast-dLLM顯著加快了MDM的推理速度,同時對生成性能的影響幾乎可以忽略。

用于塊級解碼的Key-Value緩存機制


如圖所示,采用塊級解碼策略來支持Key-Value(KV)緩存的使用。

在推理開始時,會首先對提示(prompt)計算并存儲KV Cache,該緩存在Block0的整個解碼過程中都會被重復使用。

在每個塊內部,同一個緩存可用于多個解碼步驟。在一個塊解碼完成后,我們會對所有token的緩存進行統一更新(而非僅更新新生成的token)。

該緩存更新可以與解碼步驟同步進行,因此相比不使用緩存的方式,幾乎不會帶來額外的計算開銷。

這種做法形成了一種近似的解碼過程,這是由于掩碼擴散模型中的注意力機制使用了全局注意力所致。

這種近似KV Cache方法的有效性來源于一個關鍵觀察:在推理過程中,鄰近步驟之間的KV激活值具有高度相似性。


如圖所示,在圖a中紅色方框區域標出了一個塊內的相似性評分,這些評分普遍接近1,說明在塊內解碼時前綴的key和value之間差異很小,因此可以安全地重復使用緩存而不會對準確性造成明顯影響。

此外,還實現了一種雙向版本的KV Cache機制,稱為DualCache。該機制不僅緩存前綴token,還緩存后綴token。根據塊級解碼方案,后綴token全部是被掩碼的token。

DualCache能進一步加快推理速度。圖3b中的紅色方框區域進一步驗證了這一點:在塊內解碼過程中,后綴部分的key和value差異也非常小,幾乎可以忽略。

這意味著不僅可以安全地重用前綴緩存,對于后綴緩存也同樣適用,從而實現更高效的解碼過程。

這樣,模型在處理后面的塊時,可以直接復用前面已經完成塊的計算,不必每次迭代都對整句所有位置計算完整注意力。

相比每次全序列擴散,這種「分塊逐段生成+緩存」的方法顯著減少了每步計算量。

報告在7B參數的Dream模型上,單靠這種塊級KVCache策略就實現了最高約5倍的加速,而精度損失可以控制在很小范圍內。

并行解碼新策略:置信度感知

Fast-dLLM引入了一種置信度感知的并行解碼方案,而非按順序逐個解碼頭部。

在每一步中,并行地僅對置信度高于閾值的頭部進行解碼,而置信度較低的頭部則保持掩碼狀態,留待后續步驟處理。

這種選擇性方法在解碼效率與輸出質量之間實現了有效平衡,并且理論上得到了我們的并行解碼定理對高置信度預測的支持。


與LLaDA等方法選擇固定數量的Token進行解碼不同,Fast-dLLM根據Token的預測置信度(例如,最大Softmax概率)來動態選擇哪些Token可以安全地同時解碼。

只有置信度超過特定閾值的Token才會在當前步驟被解碼,其余Token仍保持MASKED狀態,并在后續步驟中重新考慮。

如果所有Token的置信度都低于閾值,模型會強制解碼置信度最高的Token,以確保生成過程前進并避免死循環。

顯著的速度提升與精度保持

Fast-dLLM在多個開源擴散LLMs(LLaDA3和Dream4)以及GSM8K、MATH、HumanEval、MBPP等四個主流基準測試上進行了充分實驗。

實驗結果表明,Fast-dLLM持續實現了數量級的速度提升,同時對精度影響極小甚至沒有。



單獨引入KV Cache機制通常能帶來2×到3.6×的速度提升。

單獨應用并行解碼策略也能進一步加速,對于特定設置,速度提升可達4×–6×22。

當這兩種技術結合時,改進更為顯著。

在LLaDA上,結合KV Cache和并行解碼方法可以將吞吐量提高高達11×(GSM8K,長度512)和9.2×(MBPP,長度512),相對于標準基線。

在Dream-Base上,最大的吞吐量提升出現在MBPP(長度512時為7.8×)和GSM8K(長度512時為5.6×)。

這表明兩種方法不僅單獨有效,而且高度互補。

Fast-dLLM在較長的生成長度(1024)下實現了更高的加速(高達27.6×),例如在8-shot的GSM8K任務上。

重要的是,這些效率提升幾乎沒有犧牲精度。

在所有基準測試和設置中,加速方法的精度保持在基礎模型精度的1-2個百分點以內,在某些情況下甚至略有提高。

更長的序列,在Few-shot和代碼生成場景中很常見,由于有更大的緩存重用和批量計算機會,從Fast-dLLM的技術中受益更多。

Fast-dLLM的改進適用于不同的模型架構(LLaDA和Dream)和任務類型(數學推理、程序合成等),證明了其通用性和實用價值。

研究人員還進行了大量消融實驗,以深入理解Fast-dLLM中不同組件對性能的具體影響,重點分析了預填充長度、生成長度、緩存機制的不同版本、緩存塊大小以及置信度閾值等因素。

預填充長度與生成長度對加速效果的影響

從表3和表4可以看出,預填充長度(n-shot)和生成長度都會顯著影響整體加速效果。

具體來說,當預填充從5-shot增加到8-shot時,兩種KV Cache版本的加速比都有顯著提升(例如,在生成長度為1024的情況下,DualCache的加速比從19.6×提高到27.6×)。

同樣地,生成長度越長,緩存的重復利用潛力越大,加速效果越明顯。特別是在8-shot設置下,DualCache的加速比從生成長度256時的9.4×,提升到了生成長度1024時的27.6×。

這一現象符合理論預期:在更長序列上攤銷計算成本,效率提升更為顯著。


總的來說,Fast-dLLM作為對擴散LLM的一次重要加速突破,讓我們看到了非自回歸大模型的潛力

在推理效率不再成為障礙后,擴散LLM所具備的并行生成、全局一致性等優點有望被充分發揮。或許下一個時代的LLM,將不僅僅是自回歸獨領風騷,而是多種范式百花齊放

Fast-dLLM通過引入為雙向擴散模型量身定制的塊級近似KV Cache機制和解決并行解碼中依賴性問題的置信度感知并行解碼策略,成功克服了擴散LLMs在推理效率方面的關鍵限制。

廣泛的實驗結果證明,Fast-dLLM實現了高達27.6倍的加速,同時精度損失極小。這為在實際應用中部署擴散LLMs作為自回歸模型的有力替代方案鋪平了道路。

有理由期待,在不遠的將來,會出現更多類似的創意方法,進一步縮小不同模型范式之間的差距,推動大模型技術走向新的高度。

參考資料:

https://nvlabs.github.io/Fast-dLLM/


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗亮出滅國威脅,以色列人被嚇哭,前國王鼓動百萬大軍揭竿而起

伊朗亮出滅國威脅,以色列人被嚇哭,前國王鼓動百萬大軍揭竿而起

大白話瞰世界
2025-06-21 11:28:19
《吸血鬼日記》的頂流女主到失業演員?她的反轉讓全網刮目

《吸血鬼日記》的頂流女主到失業演員?她的反轉讓全網刮目

何以雜談
2025-06-21 01:30:04
39歲博士失業送外賣?馬化騰:什么都沒錯,唯一的錯是我們老了!

39歲博士失業送外賣?馬化騰:什么都沒錯,唯一的錯是我們老了!

風起講堂
2025-06-22 08:33:55
龍東:皇馬球衣本身就體現著偉大;我們必須全力以赴

龍東:皇馬球衣本身就體現著偉大;我們必須全力以赴

懂球帝
2025-06-22 09:56:21
什么叫人走茶涼?看看小楊哥倆兄弟和他徒弟們現狀就明白了

什么叫人走茶涼?看看小楊哥倆兄弟和他徒弟們現狀就明白了

玫瑰講娛
2025-06-20 14:39:10
戴一天輻射劑量相當于拍117次胸片?這5種首飾盡量別戴!

戴一天輻射劑量相當于拍117次胸片?這5種首飾盡量別戴!

溫讀史
2025-06-11 10:14:23
扎心質問!同樣是病人,為何他能坐上ecmo的救護車,而我爸不能?

扎心質問!同樣是病人,為何他能坐上ecmo的救護車,而我爸不能?

火山詩話
2025-06-21 16:38:14
豐厚!熱火隊交易杜蘭特報價曝光,比火箭強多了,太陽或已動心

豐厚!熱火隊交易杜蘭特報價曝光,比火箭強多了,太陽或已動心

老王大話體育
2025-06-23 00:52:44
敘利亞首都一教堂發生自殺式襲擊造成至少13人死亡

敘利亞首都一教堂發生自殺式襲擊造成至少13人死亡

新華社
2025-06-23 01:47:06
中國女籃迎來新生代!“五虎將”強勢接班,未來可期

中國女籃迎來新生代!“五虎將”強勢接班,未來可期

慢歌輕步謠
2025-06-22 16:44:30
“包月 800、只上門不談戀愛?”新型保姆爆火市場,越年輕越搶手

“包月 800、只上門不談戀愛?”新型保姆爆火市場,越年輕越搶手

史行途
2025-06-21 16:09:02
世俱杯首輪各洲球隊表現如何?

世俱杯首輪各洲球隊表現如何?

耀陽體育
2025-06-19 22:03:42
英國和歐盟“呼吁伊朗重返談判桌”,伊外長:伊朗怎么回到它從未離開過的地方?

英國和歐盟“呼吁伊朗重返談判桌”,伊外長:伊朗怎么回到它從未離開過的地方?

環球網資訊
2025-06-22 17:37:25
伊朗有2款中國造雷達,JY26和JY10都很強,為何F35還能自由行動?

伊朗有2款中國造雷達,JY26和JY10都很強,為何F35還能自由行動?

一頁史書
2025-06-20 13:56:20
造假18年,收割4萬人,700億灰飛煙滅,受害者沒有一個是窮人!

造假18年,收割4萬人,700億灰飛煙滅,受害者沒有一個是窮人!

北緯的咖啡豆
2025-06-16 08:45:07
多名院士呼吁停止食用,比肥肉還傷血管,轉告父母,趁早撤下餐桌

多名院士呼吁停止食用,比肥肉還傷血管,轉告父母,趁早撤下餐桌

溫讀史
2025-06-14 11:49:31
人民日報痛批特權!那爾那茜事件再升級:除名 刪宣傳照,拒合作

人民日報痛批特權!那爾那茜事件再升級:除名 刪宣傳照,拒合作

椰青美食分享
2025-06-22 12:43:53
深圳樓市扔出了一顆重磅炸彈,房地產市場怕是真的要變天了

深圳樓市扔出了一顆重磅炸彈,房地產市場怕是真的要變天了

流蘇晚晴
2025-06-22 18:46:04
澳洲華人感嘆:已連敗三場

澳洲華人感嘆:已連敗三場

澳洲紅領巾
2025-06-22 14:18:44
“受命于天,既壽永昌”的傳國玉璽,是被誰搞丟的?

“受命于天,既壽永昌”的傳國玉璽,是被誰搞丟的?

爆史君帶你讀歷史
2025-06-21 21:51:10
2025-06-23 02:59:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12929文章數 66077關注度
往期回顧 全部

科技要聞

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

體育要聞

中國女排0-3意大利 香港站3勝1負收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預售 嵐圖FREE+正式下線

態度原創

時尚
家居
親子
教育
數碼

伊姐周日熱推:電視劇《完美的救贖》;電視劇《書卷一夢》......

家居要聞

山水之間 墨染風雨云間

親子要聞

我與兒子與同學之間的稱呼

教育要聞

2026qs排名完整名單公布后,申請難度會暴漲的幾所英國大學!

數碼要聞

曝索尼PS6將采用全新AMD架構:光追、AI性能翻倍

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 阳曲县| 太仓市| 商都县| 开平市| 布尔津县| 太和县| 营山县| 永新县| 紫金县| 沁阳市| 昌邑市| 齐齐哈尔市| 灌南县| 阿克陶县| 玛曲县| 江北区| 南漳县| 招远市| 行唐县| 汉沽区| 沐川县| 松阳县| 内丘县| 罗定市| 鞍山市| 扶风县| 泰宁县| 介休市| 德昌县| 资溪县| 宁强县| 抚顺县| 卫辉市| 志丹县| 文昌市| 滦平县| 德州市| 南部县| 平乐县| 牟定县| 大关县|