99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型推理無損加速6.5倍!EAGLE-3碾壓一切、延續Scaling Law能力

0
分享至




自回歸解碼已然成為大語言模型的推理標準。大語言模型每次前向計算需要訪問它全部的參數,但只能得到一個 token,導致其生成昂貴且緩慢。

近日,EAGLE 團隊的新作《EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test》通過一系列優化解鎖了投機采樣的 Scaling Law 能力,可以將大語言模型的推理速度提高 6.5 倍,同時不改變大語言模型的輸出分布,確保無損。同時,隨著訓練數據的增加,加速比還能進一步提高。



  • 論文標題:EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test
  • arXiv 地址:https://arxiv.org/abs/2503.01840
  • 項目地址:https://github.com/SafeAILab/EAGLE
  • SGLang 版本:https://github.com/sgl-project/sglang/pull/4247

EAGLE-3 的加速效果(DeepSeek-R1-Distill-LLaMA 8B 在數學推理數據集 GSM8K 上測試,其他模型在多輪對話數據集 MT-bench 上測試):



不同方法的生成速度對比:

背景

投機采樣使用一個小的模型快速生成草稿,一次生成多個 token。目標大語言模型通過一次前向計算并行驗證草稿的正確性,輸出正確的草稿,并確保無損。EAGLE 系列是投機采樣的最快實現。

EAGLE-1 在更有規律的特征層面而不是 token 層面進行自回歸,同時輸入采樣結果(超前一個時間步的 token)消除了不確定性,明顯提升了草稿模型的準確率。EAGLE-2 利用草稿模型的置信度近似接受率,據此動態地調整草稿樹的結構,進一步提升了投機采樣的效率。

機器之心之前已經報道了 EAGLE-1 和 EAGLE-2 的工作:

  • EAGLE-1:大模型推理效率無損提升3倍,滑鐵盧大學、北京大學等機構發布EAGLE
  • EAGLE-2:無損加速最高5x,EAGLE-2讓RTX 3060的生成速度超過A100

最新的大模型通過使用越來越多的訓練數據以取得更好的性能。比如說,對于 LLaMA 系列 7B(8B)大小的模型,LLaMA 1、LLaMA 2 和 LLaMA 3 分別使用了 1T、2T、15T token 訓練數據,模型結構和推理成本基本不變的前提下各項指標取得了明顯提升。

EAGLE-3 的作者們希望通過增加草稿模型的訓練數據量以提高接受率和加速比(藍色曲線)。遺憾的是, EAGLE-1 從訓練數據增加中得到的提升非常有限(紅色曲線)。

EAGLE-1 和 EAGLE-3 的加速比隨著訓練數據的增加而變化的趨勢:



動機

EAGLE 在特征層進行自回歸,再使用目標模型的分類頭得到草稿 token。這種方式利用了目標模型的中間結果和信息,相比 token 層自回歸有更好的性能。因為草稿模型的最終任務是預測草稿 token,EAGLE 的損失函數包括兩部分,一部分是特征預測損失,另一部分是 token 預測損失。特征預測損失也可以被認為是一種約束,限制了模型的表達能力。

EAGLE-3 的作者們進行了實驗驗證,觀察第一個草稿 token 的接受率 0-α,在數據集較小時,特征預測損失在訓練數據較少時可以提高性能,但嚴重損害了草稿模型的 scaling up 能力。



不過,不使用特征預測損失會導致生成后續草稿 token 時的輸入偏離訓練分布,導致第二個草稿 token 的接受率 1-α 嚴重下降。為了解決這一問題,EAGLE-3 使用 “訓練時測試” 模擬多步生成,從而兼顧了模型的 scaling up 能力和生成多個草稿 token 的能力



EAGLE、Medusa 等投機采樣方法都重用目標模型的最后一層特征作為草稿模型的提示,但 EAGLE-3 的作者們發現這存在缺陷。大語言模型的最后一層特征經過線性變換就能得到下一個 token 的分布。對于滿秩的分類頭,最后一層特征和下一個 token 的分布一一對應。最后一層特征只有下一個 token 的信息,失去了目標模型的全局性質。

因此,EAGLE-3 不再使用目標模型的最后一層特征作為輔助信息,而是混合目標模型的低層、中層、高層信息來作為草稿模型的輸入。

方法

與其他投機采樣方法一致,EAGLE-3 交替執行草稿階段和驗證階段。

草稿階段以下圖為例。在預填充或者上一個驗證階段,EAGLE-3 記錄模型的低、中、高層特征序列,分別記為 l、m 和 h,拼接 k 維向量 l、m 和 h 得到 3k 維向量,然后通過一個全連接層將其降維到 k 維,就得到融合了不同層級信息的特征 g,其中 k 為目標模型的隱藏層維度。目標是生成以 “How can I” 為前綴的草稿 token 序列,只輸入 g_how 和 g_can,草稿模型無法感知隨機的采樣過程。

因此 EAGLE-3 引入采樣結果 I 的詞向量嵌入 e_I。將 g 與對應的超前一個時間步的嵌入 e 拼接,即 g_how 與 e_can 拼接,g_can 和 e_I 拼接。將拼接后的向量通過全連接層降到 k 維,并將其輸入進一個單層的 transformer 得到 a。然后,將 a 輸入分類頭,采樣得到第一個草稿 token “do”。

在 step 1,以 “How can” 為前綴時,EAGLE-3 重用了來自目標模型的 g_how 和 g_can。

在 step 2,前綴是 “How can I”。理想的方式是重用來自目標模型的 g_how、g_can 和 g_I。但這是不可能的,因為 token “I” 還沒有被目標模型檢查,無法獲取 g_I。EAGLE-3 用上一個 step 草稿模型的輸出 a_I 替代 g_I,拼接 a_I 與采樣結果 “do” 的詞向量嵌入作為草稿模型 step2 的輸入。

在 step 3,同樣無法獲得 g_do,所以使用 a_do 代替,拼接 a_do 與 e_it 作為草稿模型的輸入。之后的 step 同理。



實驗

EAGLE-3 在多輪對話、代碼、數學推理、指令遵循、總結五項任務上分別使用 MT-bench、Humaneval、GSM8K、Alpaca、CNN/DM 數據集進行了實驗,并與 7 種先進的投機采樣方法(SpS、PLD、Medusa、Lookahead、Hydra、EAGLE、EAGLE-2)進行了比較。

該實驗分別在 Vicuna (V), LLaMA-Instruct 3.1 (L31), LLaMA-Instruct 3.3 (L33), DeepSeek-R1-Distill-LLaMA (DSL) 上進行。



表格中的 Speedup 為加速比,τ 為平均接受長度,也就是目標模型每次前向計算能生成的 token 數。EAGLE-3 每次前向計算能生成大約 4-7 個 token,而自回歸解碼每次生成 1 個 token,因此 EAGLE-3 明顯加速了大語言模型的生成,加速比為3.1x-6.5x

在所有任務和模型上,EAGLE-3 的加速比和平均接受長度都是最高的,明顯優于其他方法。

應用

EAGLE-3 發布第一天就被集成到 SGLang 中。在生產級框架中,EAGLE-3 也有數倍加速效果。以下實驗由 SGLang 團隊提供并以 LLaMA 3.1 8B(batch size=1, 1x H100)為例。



投機采樣往往被認為在大 batch size 下會降低吞吐量。但是在 SGLang 這一生產級框架下,EAGLE-3 在 batch size 為 64 時仍可以提高 38% 的吞吐量,而 EAGLE 在 batch size 為 24 時就導致吞吐量下降。這里 1.00x 以 SGLang (w/o speculative) 的吞吐量作為基準。以下實驗由 SGLang 團隊提供并以 LLaMA 3.1 8B(1x H100)為例。



作者介紹

李堉暉:北京大學智能學院碩士,滑鐵盧大學訪問學者,受張弘揚老師和張超老師指導,研究方向為大模型加速和對齊。

魏芳蕓:微軟亞研院研究員,研究方向為具身智能、圖像生成和 AI agents。

張超:北京大學智能學院研究員,研究方向為計算機視覺和大模型加速。

張弘揚:滑鐵盧大學計算機學院、向量研究院助理教授,研究方向為大模型推理加速、AI 安全和世界模型。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
小米汽車確認:“已停止推送”

小米汽車確認:“已停止推送”

都市快報橙柿互動
2025-05-03 19:02:23
深觀察丨“新關稅政策帶來的痛苦會是上一次的50倍”

深觀察丨“新關稅政策帶來的痛苦會是上一次的50倍”

國際在線
2025-05-04 18:17:06
48歲趙薇“女兒”因長得太好看,被全網“禁止整容”,如今17歲變化大到不敢認!

48歲趙薇“女兒”因長得太好看,被全網“禁止整容”,如今17歲變化大到不敢認!

美芽
2025-04-12 12:04:23
日方當著全球向中方喊出一句話!

日方當著全球向中方喊出一句話!

風華講史
2025-05-04 10:24:19
張穎穎疑諷馬筱梅:“艷照滿天飛,55分身材有什么好驕傲的?”

張穎穎疑諷馬筱梅:“艷照滿天飛,55分身材有什么好驕傲的?”

聯友說娛
2025-05-04 10:28:18
陳奕迅日本演唱會現場 播放空投炸彈畫面引爭議

陳奕迅日本演唱會現場 播放空投炸彈畫面引爭議

看看新聞Knews
2025-05-04 23:02:54
婚禮當天新娘和談了5年戀愛的前男友告別了20分鐘,新郎就把婚禮給取消了

婚禮當天新娘和談了5年戀愛的前男友告別了20分鐘,新郎就把婚禮給取消了

張曉磊
2025-05-04 08:12:32
帕奎塔染黃疑似落淚,妻子:沒有任何證據指向他,希望人們尊重他

帕奎塔染黃疑似落淚,妻子:沒有任何證據指向他,希望人們尊重他

直播吧
2025-05-05 07:09:08
佟大為回本溪老家參加婚禮,穿衣樸素很低調,坐京A牌車劃痕搶眼

佟大為回本溪老家參加婚禮,穿衣樸素很低調,坐京A牌車劃痕搶眼

鋭娛之樂
2025-04-22 16:33:42
媒體人熱議:克雷桑這個停賽多不值得,非要賽后采訪直接對著鏡頭開炮

媒體人熱議:克雷桑這個停賽多不值得,非要賽后采訪直接對著鏡頭開炮

雷速體育
2025-05-04 13:49:07
英國一糖果店有隱藏通道,游客給近9000元才能進去,里面都是假貨

英國一糖果店有隱藏通道,游客給近9000元才能進去,里面都是假貨

瀟湘晨報
2025-05-04 11:30:10
街拍瑜伽褲姐妹,身材好

街拍瑜伽褲姐妹,身材好

東方不敗然多多
2025-04-13 13:04:26
史上最慘! 達頓失業! 所有華人區全沒選他! 24年政治生涯毀了! 他, 三招葬送自由黨...“遠離特朗普!”

史上最慘! 達頓失業! 所有華人區全沒選他! 24年政治生涯毀了! 他, 三招葬送自由黨...“遠離特朗普!”

澳洲紅領巾
2025-05-04 14:02:08
上海67歲大爺去朝鮮看望初戀,相見后,竟發現自己已有兒孫

上海67歲大爺去朝鮮看望初戀,相見后,竟發現自己已有兒孫

蘭姐說故事
2025-04-30 15:00:12
王思聰在韓國蹦迪被偶遇,網友發現被牽手的不是懶懶

王思聰在韓國蹦迪被偶遇,網友發現被牽手的不是懶懶

情感大頭說說
2025-05-04 11:28:39
層高3米,當代頂級陽謀:未來80%的二手房,正在淪為時代的炮灰

層高3米,當代頂級陽謀:未來80%的二手房,正在淪為時代的炮灰

暖心的小屋
2025-05-04 17:48:13
曼聯3-4無緣英超前十51年最差!德里赫特又受傷,阿莫林有一收獲

曼聯3-4無緣英超前十51年最差!德里赫特又受傷,阿莫林有一收獲

羅米的曼聯博客
2025-05-05 09:19:57
兩個人過日子,憑的全是良心!

兩個人過日子,憑的全是良心!

加油丁小文
2025-05-03 10:33:27
兒子兒媳都躺平了,不生娃,點外賣,我負氣窮游30天回家,愣住了

兒子兒媳都躺平了,不生娃,點外賣,我負氣窮游30天回家,愣住了

情感大使館
2025-05-04 09:59:28
美媒曬36歲威少投射進化:約基奇無腦信任換頂級3D 馬龍真被冤枉

美媒曬36歲威少投射進化:約基奇無腦信任換頂級3D 馬龍真被冤枉

顏小白的籃球夢
2025-05-04 20:54:39
2025-05-05 09:40:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10436文章數 142301關注度
往期回顧 全部

科技要聞

ChatGPT催生的百萬年薪崗位,大廠不愿意招了

頭條要聞

解放軍儀仗隊紅場高唱抗日歌曲 留學生舉日本投降號外

頭條要聞

解放軍儀仗隊紅場高唱抗日歌曲 留學生舉日本投降號外

體育要聞

有我們在,蘇杯冠軍,包的老弟

娛樂要聞

55歲王菲跟“李亞鵬時期”完全不同!

財經要聞

一個時代的結束!巴菲特年底將卸任

汽車要聞

小米SU7大優惠!5月限時購車權益送輔助駕駛

態度原創

手機
健康
親子
房產
公開課

手機要聞

華為nova14系列再曝,多款新機待發布

唇皰疹和口腔潰瘍是"同伙"嗎?

親子要聞

【起底】北京代孕公司試管供卵機構|NCD

房產要聞

最強書包官宣落位!??谶@個片區,將徹底引爆!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宜兰县| 海城市| 睢宁县| 新乡市| 寿阳县| 同仁县| 乌什县| 介休市| 吉安市| 额敏县| 安岳县| 阳曲县| 阿克苏市| 石台县| 阿城市| 肥西县| 宜丰县| 桂林市| 巴南区| 潮安县| 万盛区| 民县| 营山县| 平武县| 咸宁市| 新干县| 左云县| 元阳县| 佛山市| 凤山县| 忻城县| 永康市| 扎赉特旗| 景谷| 镇巴县| 廉江市| 垣曲县| 城口县| 永春县| 滦平县| 禄丰县|