“端云并發”,這個詞用來形容當前的大模型應用情況再恰當不過了。
從2022年OpenAI發布GPT-3.5開始,連續幾年,大模型應用都是云側模型的時代,滿足端側算力的模型一是數量太少,二是性能太弱。
DeepSeek的出現改變了這個現狀,開源模型性能越來越強,針對不同端側算力的開源模型數量也越來越多。
但不論是端側還是云側,兩者都離不開高效的大模型推理機制支撐。
2025年的GTC大會上,英偉達CEO黃仁勛也表示,大模型正從側重預訓練(pre-train) 轉向以推理(inference)為中心的發展階段。AI推理計算需求正呈爆發式增長,如何在性能、成本和響應速度間取得平衡成為關鍵挑戰。
尤其在PC端 ,CPU、GPU、NPU 三類異構處理器的算力、架構差異顯著,開源模型部署本地后,推理速度直接決定了應用場景的可用情況。
SpecEE推理引擎框架,就是為了解決端側計算、存儲與異構處理器協同挑戰而生。相關研究被收錄于ISCA 2025(International Symposium on Computer Architecture,計算機體系結構領域的頂級會議)。
在了解SpecEE之前,我們可以簡單的了解一下當前大模型推理加速的主流方法——“Early Exiting“(提前退出),打個比方,我們讓AI去解決一個復雜的問題,它就像是在爬一座很高的樓梯,必須爬完所有的樓梯,才能給出最終答案?!疤崆巴顺觥本拖袷墙oAI裝上了一個“直覺雷達”,在爬樓梯的過程中,AI會不斷地用這個雷達掃描,一旦它覺得“嗯,我已經八九不離十地知道答案了”,它就可以提前從某個樓梯口“溜”出來,不必非得爬到頂層。
但不同于傳統的Early Exiting技術,SpecEE從搜索空間的角度探索Early Exiting的優化策略,并提出基于推測模型對Early Exiting搜索空間進行縮減,推動精度與速度的帕累托前沿。在AIPC場景下,可以獲得超過2倍的性能提升。由于其角度的獨特性,SpecEE的算法可以無感兼容任何輕量化優化技術。
研究背景:產學結合下的前沿探索
SpecEE由無問芯穹和上海交大聯合推出,團隊成員在大模型推理優化領域已有多項積累。論文于2025年4月在arXiv 發布,背后獲得了國家自然科學基金、上海市優秀青年人才計劃以及多家企業的支持 。
研究團隊聚焦于在不改動原始模型參數的前提下,實現推理加速,這一目標既契合云端大規模服務商的成本需求,也滿足移動和邊緣設備對流暢體驗的追求。
核心成果:讓模型更聰明地"早退"
SpecEE的核心思想其實很好理解。
想象你正在看一本推理小說,有些讀者需要看完整本書才能猜出兇手,而閱讀經驗豐富的人可能看到一半就已經知道答案了。SpecEE就是讓大語言模型變成那個經驗豐富的讀者,在"明白答案"的時候就停止繼續閱讀,從而節省時間和計算資源。
研究團隊發現了一個關鍵問題:現有的早退出技術效率不高。
當模型需要預測是否可以提前退出時,它需要在整個詞匯表(vocabulary)中進行搜索,而像Llama2這樣的模型詞匯量高達3萬個左右,這個搜索過程就占用了約20%的推理延遲。
這就像是你要在一個裝滿3萬個單詞的大箱子里找出一個正確的單詞,太費時間了!SpecEE的第一個巧妙之處就是引入了"推測模型",把這個搜索范圍從3萬個縮小到了大約3個。這相當于有人提前告訴你:"別在大箱子里找了,答案很可能是這3個單詞中的一個。"這樣就能將搜索空間減少10,000倍!
具體來說,SpecEE提出了三個層次的優化技術:
首先是算法層面的"基于推測的輕量級預測器設計"。他們發現,當模型在某一層可以提前給出正確答案時,對應的詞匯概率分布會出現一個明顯的"概率躍遷"(probability shift)——正確詞的概率會突然大幅上升?;谶@個發現,他們設計了一個只需要考慮幾個候選詞的輕量級預測器,而不是全部詞匯表。這個預測器結構也很精簡,只是一個兩層的小型神經網絡,但效果驚人,僅此一項就帶來了約1.12倍的加速。
其次是系統層面的"兩級啟發式預測器調度"。研究團隊發現,不是所有神經網絡層都需要安裝預測器,因為早退出通常集中在某些特定的層。更有趣的是,他們注意到一個"上下文相似性"現象:當前詞的退出層位置與前幾個詞的退出層位置有約80%的概率很接近(相差不超過2層)。基于這些發現,他們設計了離線和在線兩級調度機制,進一步將模型加速到約1.21倍。
最后是映射層面的"上下文感知合并映射"。當SpecEE與"推測解碼"(speculative decoding)相結合時,會出現一個"令牌樹"結構。傳統方法需要為樹中每個路徑分別判斷是否早退出,計算復雜度呈指數增長。SpecEE巧妙地將每條路徑合并為一個"超級令牌"(hyper-token),把指數級復雜度降為線性,實現了約1.66倍的加速。
綜合這三項技術,SpecEE在云端場景下讓Llama2-7B模型實現了2.25倍的加速,在個人電腦場景下達到了2.43倍的加速,而且準確率幾乎沒有損失。關鍵是,SpecEE可以應用于任何大語言模型,預訓練開銷很小,不需要改變模型原有參數。
技術方案剖析:巧妙與簡潔并存
深入分析SpecEE的技術方案,我們會發現它的巧妙之處在于找到了一個關鍵洞察:詞匯表不僅是模型輸出的來源,也是早退出預測器的搜索空間。
傳統早退出技術如AdaInfer需要遍歷整個詞匯表(約3萬個詞)來獲取預測特征,這導致了高達30%的計算開銷和15%的推理延遲。
這就像是每走一步路都要檢查一遍全世界的地圖,太浪費時間了。
SpecEE的突破在于利用推測模型(如EAGLE)生成的候選詞作為縮小的搜索空間。這個推測模型只占用原始模型約3%的內存和推理開銷,訓練也只需要約48小時。這就像是請了一個經驗豐富的向導,快速告訴你幾個最可能的方向,而不用自己去探索整個地圖。
在具體實現上,SpecEE的預測器設計也很精巧。與使用傳統SVM模型的AdaInfer不同,SpecEE采用了更適合GPU并行計算的兩層MLP結構,輸入特征也經過了精心選擇,包括推測詞的logits值、局部概率和概率變化,總維度僅為12(4個推測詞×3種特征)。這個極度輕量級的設計將預測器的參數和計算量減少了約100倍。
系統層面的兩級調度也展現了研究者的洞察力。統計數據顯示,早退出位置呈偏斜分布,約50%的層退出概率低于3.2%的平均值,這意味著大部分預測器都是不必要的。離線調度根據歷史數據預先挑選高頻退出層,在線調度則利用上下文相似性動態激活預測器。這種方法平均只需激活約10.2個預測器,大大優于固定數量預測器的方案。
映射層面的創新解決了在推測解碼中應用早退出的關鍵挑戰。推測解碼生成的令牌樹會導致早退出判斷的指數級復雜度增長。SpecEE提出的"超級令牌"抽象將復雜性降至線性,同時還設計了高效的GPU實現,使其能夠充分利用硬件并行能力。
盡管SpecEE取得了顯著成果,但它也存在一些局限性。推測模型質量對性能影響較大,如果推測模型生成的候選詞中不包含正確答案,早退出就無法發揮作用。
雖然SpecEE訓練開銷小,但仍需要一定的預訓練過程。
在較小的模型或簡單任務上,加速效果可能不如在大模型或復雜任務上明顯。
值得一提的是,SpecEE具有很好的正交性,可以與現有的其他加速技術(如量化、稀疏激活等)結合使用。
研究者將SpecEE與AWQ量化技術結合,在云端場景取得了更好的性能;與Powerinfer稀疏激活技術結合,在PC場景也表現出色。這種組合能力極大地拓展了其應用場景。
結論:更快、更省、更智能的AI未來
SpecEE的價值不僅在于具體的技術突破,更在于開辟了LLM加速的新范式。它證明通過優化"計算路徑"而非單純壓縮計算量,同樣能獲得顯著收益。這種思路對邊緣計算場景尤為重要。
在經濟效益上,SpecEE不僅提高了推理速度,還降低了能耗。實驗數據顯示,SpecEE能夠將GPU平均功率從201W降至182W,實現約10%的功率減少和約1.57倍的能效提升。對于像OpenAI這樣每天能源成本高達2.6萬美元的公司,這意味著巨大的成本節約。
用戶體驗方面,更快的響應速度意味著更自然的人機交互。當我們與AI對話時,它能像人類一樣快速回應,而不再是等待數秒甚至更長時間。這對于實時應用場景(如AI客服、輔助寫作工具)尤為重要。
從更廣泛的技術視角看,SpecEE代表了一種新的思路:將搜索空間減少作為優化核心。這一思路不僅適用于早退出,也可能啟發其他機器學習架構和系統設計的創新。研究者明確指出,這種方法論可以擴展到進一步研究機器學習架構和系統設計中考慮搜索空間減少的領域。
實際應用場景中,SpecEE的價值體現在多個方面:
對于云服務提供商,它可以提高服務器利用率,支持更多并發用戶,同時降低運營成本。一個2.25倍的加速意味著同樣的硬件可以處理兩倍多的請求,或者說達到同樣性能只需要不到一半的硬件投入。
對于個人設備上的AI應用,2.43倍的加速可以極大改善用戶體驗,降低電池消耗,甚至讓一些原本在個人電腦上難以流暢運行的大模型變得可行。這將促進AI的普及和邊緣計算的發展。
從行業趨勢看,隨著大語言模型規模持續增長,SpecEE這類加速技術的重要性會進一步提升。它不僅是應對當前挑戰的解決方案,也是未來大模型可持續發展的重要支撐。
未來,SpecEE還有很多潛在的發展方向,優化推測模型本身以提高推測質量;探索更多特征和預測器結構以提高早退出精度;開發更智能的動態調度算法以適應不同任務特點;或者設計專用硬件加速器以進一步發揮其性能潛力。
至頂AI實驗室洞見:于細微處見真章
我們認為SpecEE代表了一種極具啟發性的思路轉變。
面對大模型推理加速這樣一個老大難的技術問題,很多研究的思路可能會更加側重于從模型本身的底層結構進行大刀闊斧的修改,或者是從硬件層面去尋求顛覆性的突破,而SpecEE則不是簡單追求更大的模型或更快的硬件,而是思考如何讓模型"更聰明地工作"。這與人類思維非常相似——我們并不總是用盡全部腦力去解決每個問題,而是會根據問題難度調整思考深度。
SpecEE的另一個可貴之處在于它的實用性和普適性。它不需要重新訓練大模型,適用于各種架構,并且可以與其他加速技術協同工作。在AI落地應用日益增多的今天,這種"即插即用"的優化方案顯得尤為珍貴。
未來的AI系統不應該是固定的計算方式,而應該是能夠根據輸入動態調整計算資源分配的智能體。
論文地址:https://arxiv.org/pdf/2504.08850
本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.