網易首頁 > 網易號 > 正文申請入駐

LLM省錢大測評！48塊GH200，首個百億級參數量實證

2025-05-29 12:49:15　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST 好困

【新智元導讀】EfficientLLM項目聚焦LLM效率，提出三軸分類法和六大指標，實驗包攬全架構、多模態、微調技術，可為研究人員提供效率與性能平衡的參考。

近年來，大型語言模型（LLM）如GPT系列取得了革命性進展，在自然語言處理、內容創作、多語言翻譯乃至科學研究等眾多領域展現出驚人能力。

然而，模型參數量（如DeepseekR1的671B參數）和上下文窗口的急劇膨脹，帶來了巨大的計算力（GPT-3訓練約需3640Petaflop/s-days）、能源消耗和資金投入（GPT-3訓練成本估計超460萬美元）。

高昂的成本已成為制約LLM進一步發展和廣泛應用的關鍵瓶頸。

EfficientLLM項目應「效率測評」需求而生，也是首個針對LLM效率技術進行端到端、百億級參數規模的系統性實證研究。

項目詳情：https://dlyuangod.github.io/EfficientLLM/

模型庫：https://huggingface.co/Tyrannosaurus/EfficientLLM

研究人員在配備了48塊GH200和8塊H200 GPU的生產級集群上執行效率測評，確保了對真實世界中LLM性能與能耗權衡的精確測量。

EfficientLLM的核心目標是為學術界和工業界的研發人員提供一個清晰、數據驅動的導航圖，幫助研究人員在下一代基礎模型的「效率-性能」復雜地貌中找到最佳路徑。

EfficientLLM的三維評測框架與核心指標

研究人員創新性地提出了一個統一的三軸分類法來系統評估LLM效率，覆蓋模型生命周期的關鍵階段：

架構預訓練(Architecture Pretraining)

此部分專注于為模型設計者和研究者在構建新型LLM架構時，提供關于計算資源和能源成本預算的精確分析，并深入評估了多種高效注意力機制變體（如多查詢注意力MQA、分組查詢注意力GQA、多頭潛在注意力MLA、原生稀疏注意力NSA）以及稀疏混合專家模型（MoE）的效率表現。

微調(Fine-tuning)

針對需要將預訓練基礎模型適配到特定下游任務或專業領域的實踐者，研究人員提供了參數高效微調（PEFT）方法的效率基準。評估涵蓋了LoRA、RSLORA、DoRA等主流PEFT技術。

位寬量化(Bit-width Quantization)

面向模型部署工程師，研究人員評估了如何通過模型壓縮技術（特別是無需重訓即可直接部署的訓練后量化方法，如int4和float16）有效降低服務成本和推理延遲。

評估指標

為全面刻畫效率，EfficientLLM還引入了六個相互正交的細粒度評估指標：

1. 平均內存利用率(Average-Memory-Utilization,AMU)

2. 峰值計算利用率(Peak-Compute-Utilization,PCU)

3. 平均延遲(Average-Latency,AL)

4. 平均吞吐量(Average-Throughput,AT)

5. 平均能耗(Average-Energy-Consumption,AEC)

6. 模型壓縮率(Model-Compression-Rate,MCR)這些指標共同捕捉了硬件飽和度、延遲與吞吐量的平衡，以及碳排放成本等關鍵因素。

基準測試涵蓋了超過100個「模型-技術」組合，納入從0.5B到72B參數規模的多種LLM。

EfficientLLM的三大核心洞見

效率優化是「沒有免費午餐」的量化權衡(Efficiency Involves Quantifiable Trade-offs)

百余項實驗清晰地表明，不存在一種能在所有維度上都達到最優的通用效率技術。

每一種被評估的方法，在提升至少一個效率指標的同時，幾乎總會在其他某個或某些指標上有所妥協。

以稀疏混合專家模型(MoE)為例，能有效降低推理時的FLOPs（浮點運算次數）并提升下游任務的準確率，但其代價是峰值顯存需求增加約40%（因為需要存儲所有專家網絡的參數）。

int4量化技術則展現了另一面：可以將模型的內存占用和能耗降低高達3.9倍，模型壓縮率表現優異，但根據實測數據，通常伴隨著約3-5%的任務平均得分下降。

最優效率策略高度依賴于具體任務和模型規模(Optima are Task- and Scale-Dependent)

效率的「最優解」并非一成不變，而是高度依賴于應用場景、模型規模和硬件環境。

高效注意力機制：在架構預訓練階段，對于內存資源極度受限的設備（如端側推理），MQA(多查詢注意力)因其共享鍵值頭設計，展現出最佳的內存占用和延遲特性。

而當追求極致的語言生成質量時（以困惑度PPL為衡量標準），MLA(多頭潛在注意力)則表現更優。若目標是最低能耗部署，NSA(原生稀疏注意力)則是首選。

PEFT方法的規模效應：在微調階段，對于1B到3B參數規模的較小模型，LoRA及其變體(如DoRA，統稱LoRA-plus）在特定的內存約束下能達到最低的性能損失（即最佳的任務表現）。

然而，當模型規模擴展到14B參數以上時，RSLORA在效率上反超LoRA，展現出更低的延遲和功耗。

對于超大規模模型的微調，參數凍結（僅更新部分層或組件）策略雖然可能犧牲少量任務精度，但能提供最佳的端到端微調延遲。

量化精度選擇：在推理階段，測試（涵蓋Llama-3,DeepSeek,Qwen等1.5B至34B模型）表明，int4訓練后量化能顯著提升資源效率。

內存占用減少接近理論上的4倍，吞吐量（每秒處理詞元數）在內存受限條件下可提升三倍，而平均任務性能得分僅有小幅下降（例如DeepSeek-R1-Distill-Qwen-14B的平均分從bf16的0.4719降至int4的0.4361）。

在16位浮點格式中，bfloat16在Hopper架構GPU(GH200/H200)上，相較于float16，始終在平均延遲和能耗方面表現更優，這得益于現代NVIDIA GPU對bfloat16運算的原生硬件加速。

LLM效率技術可廣泛遷移至跨模態模型(Broad ApplicabilityAcrossModalities)

研究人員將EfficientLLM的評估框架成功擴展到了大型視覺模型(LVMs)和視覺語言模型(VLMs)，如Stable Diffusion3.5、Wan2.1和Qwen2.5-VL等。

實驗結果令人鼓舞：在LLM上得到驗證的效率技術，如MQA/GQA等高效注意力機制，能夠有效地遷移并改進LVM的生成質量（以FID分數為衡量標準）；PEFT方法同樣在LVM和VLM上取得了良好的性能-效率權衡，表明針對LLM的效率優化研究成果具有更廣泛的適用性。

開放共享，賦能未來

研究人員即將開源完整的評估流程代碼以及排行榜，在為全球的學術研究者和企業工程師在探索下一代基礎模型的效率與性能平衡時，提供一個堅實的、可復現的、值得信賴的「指南針」。

研究成果可以為從業者提供基于嚴謹實證數據的可操作建議，幫助研究人員在具體的任務需求和資源限制下，做出更明智、更高效的模型和技術選型決策，而不是僅僅依賴理論推演或有限的經驗。

LLM的效率優化是一個持續演進的系統工程，EfficientLLM的探索也僅是其中的一部分，諸如訓練基礎設施優化、基于強化學習的訓練后對齊、測試時擴展策略等重要議題，開發團隊計劃在未來進行深入研究。

參考資料：

https://dlyuangod.github.io/EfficientLLM/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

科學家開展貝爾非局域性物理檢驗，有望消除量子非局域性矛盾觀點

DeepTech深科技 2025-05-30 18:19:42
0 跟貼 0
三維地圖講解——太子李承乾謀反，及侯君集的怨恨

地圖里的歷史 2025-05-30 14:13:47
0 跟貼 0

買什么空調擋風，隔尿墊它不香嗎？又學會了一個省錢小妙招

老兵說事兒 2025-05-28 18:22:15
0 跟貼 0

我國首個“沙戈荒”光伏實證基地投用

財聯社 2025-05-30 09:13:15
1 跟貼 1
女生省錢式做頭發，花費個便宜的價錢做頭發，網友：這算不算逃單？

逛吃青島 2025-05-30 18:26:24
0 跟貼 0

北京當地導游單請多少錢一天？故宮旅行必去的景點推薦|省錢攻略

快樂旅行家nice 2025-05-29 13:26:45
1 跟貼 1

月均200元！窮養貓的6個省錢神器，寵物店看了都直呼內行

萌貓控 2025-05-30 21:35:05
0 跟貼 0
通勤省錢王，長途不慌張！長安UNI-Z插混 8.69萬起

波帆說車 2025-05-29 12:17:06
3 跟貼 3

Excel立體三維餅圖來了，讓老板眼前一亮，只需3分鐘搞定！

Excel從零到一 2025-05-27 20:33:10
8 跟貼 8
盤點生活中的那些省錢小妙招，換個名打破信息差，感覺能省一個億

甜心搞笑盤點 2025-05-30 07:29:42
0 跟貼 0
一個月壞甲唰唰掉，這個省錢妙招快收好！

天晴綠海 2025-05-30 17:12:07
1 跟貼 1
比坐公交還省錢，紅旗H5 PHEV怎么做到的？

邱小鋮 2025-05-31 00:42:12
4 跟貼 4
盤點生活中的省錢小妙招

五月漫游記 2025-05-30 10:42:30
0 跟貼 0
三維解密你不知道的阿壩（建議收藏）

三維地圖看世界 2025-05-29 20:32:52
8 跟貼 8
三維地圖講解——王世充與李密對戰，及瓦崗軍發生內訌

地圖里的歷史 2025-05-27 14:53:53
0 跟貼 0
日本六代機模型剛亮相，特朗普強推F47，盟友國產戰機夢又要碎

泛舟碧波湖水 2025-05-30 19:17:38
0 跟貼 0
三維地圖講解——李承乾和李祐謀反，及李治被立為太子

地圖里的歷史 2025-05-29 14:19:28
0 跟貼 0
河北保定蠡縣縣委書記陳偉已跨市調任廊坊三河市委書記

澎湃新聞 2025-05-30 10:42:27
4715 跟貼 4715
三維地圖講解——李世民進兵關中，及李淵拒絕稱帝

地圖里的歷史 2025-05-26 15:55:39
0 跟貼 0
中國正在武器研發上趕超美國！美專家警告：決策程序必須改變

情系域農小哥 2025-05-29 11:18:41
0 跟貼 0
第15集-通過廢棄架構改造成一座讓家人居住的莊園

一縷欣光的荒野生存 2025-05-29 21:34:16
6 跟貼 6
萬松因公犧牲，年僅50歲

新京報 2025-05-30 22:39:18
50 跟貼 50
華爾街分析師創造新術語“TACO交易”，特朗普回應：這是談判策略

中國國情 2025-05-30 08:45:52
0 跟貼 0
王勵勤突然實施新決策！美國大滿貫國乒名單公布，錢天一意外入圍

國足未贏夠 2025-05-30 08:47:28
2 跟貼 2
比亞迪選擇趙心童作為冠軍形象大使，確實是一項頗具眼光的決策

開關Monarch 2025-05-28 11:33:14
0 跟貼 0
AI僅憑“自信”學會推理，浙大校友復刻DeepSeek長思維鏈涌現

量子位 2025-05-29 14:06:14
6 跟貼 6
三維地圖講解——驍果軍陰謀叛亂，及隋煬帝被縊身亡

地圖里的歷史 2025-05-28 15:07:35
0 跟貼 0
殲20參數大調整，對戰F22局勢一邊倒，勝率超95%%%%！

金夢軍情檔案 2025-05-30 17:06:15
0 跟貼 0
銷量承壓下寶馬重回"價格戰" 5系裸車價最低跌至26萬

新京報 2025-05-30 14:52:15
1327 跟貼 1327
溫州葉志遠（女，39歲），被公開懸賞

溫百君 2025-05-30 20:53:50
0 跟貼 0
大量赴美貨船計劃取消美國最繁忙港口訂單放緩

財聯社 2025-05-30 17:08:18
182 跟貼 182
蘋果 iPhone 17 Air 配件參數曝光

簡科技 2025-05-29 12:48:44
6 跟貼 6
瑞幸咖啡，突然被曝！網友炸了

魯中晨報 2025-05-30 15:41:10
814 跟貼 814
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
距離遠物資少管理亂美以支持的物資分發點亂象頻出

北青網-北京青年報 2025-05-30 14:39:03
2533 跟貼 2533
史詩級提升！iPhone17標準版屏幕曝光：變大至6.27英寸，首次支持高刷

瀟湘晨報 2025-05-30 09:29:15
1256 跟貼 1256
尊界 S800 首搭 HUAWEI ADS 4 智駕系統，實現全模態感知

IT之家 2025-05-30 21:06:15
5 跟貼 5
鄭欽文法網第四輪將戰薩姆索諾娃，此前交手記錄鄭欽文2勝3負

極目新聞 2025-05-30 20:38:53
1 跟貼 1
特朗普親口承認高關稅是談判策略，這小胖子是會砍價的，電商策略

萌城少年強 2025-05-30 06:53:11
0 跟貼 0
蘇州女子莫名收到20多條驗證碼，隔天6萬元沒了

瀟湘晨報 2025-05-30 09:08:08
858 跟貼 858

為什么現在單親媽媽越來越多？網友：她以為離婚后會很搶手?。?/a> 美好客棧大掌柜

2025-01-28 00:15:02

新智元

AI產業主平臺領航智能+時代

12792文章數 66047關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

藝術

時尚

數碼

教育

手機 / 數碼

房產 / 家居

LLM省錢大測評！48塊GH200，首個百億級參數量實證

尊界S800上市 指導價70.8萬起 8月中旬交車

小伙睡夢中被貸款5萬：看手機在自己輸密碼頭皮都麻了

小伙睡夢中被貸款5萬：看手機在自己輸密碼頭皮都麻了

唐斯的媽媽，一定會感到驕傲的

趙麗穎新劇撲街？演技扛劇能力遭質疑

向松祚:不必擔憂美債高企 美可無限發債

新增配色+動力升級 粵港澳車展探館新款smart #1

態度原創

熱聞|清明假期將至，熱門目的地有哪些?

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

今年夏天，穿得越放松越好看！

蘋果 Vision Pro 首部長篇沉浸式紀錄片上線，其他平臺也可看

最高法“六一”公眾開放日：師生同上法治課

LLM省錢大測評！48塊GH200，首個百億級參數量實證

尊界S800上市指導價70.8萬起 8月中旬交車

趙麗穎新劇撲街？演技扛劇能力遭質疑

向松祚:不必擔憂美債高企美可無限發債

新增配色+動力升級粵港澳車展探館新款smart #1

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

今年夏天，穿得越放松越好看！

蘋果 Vision Pro 首部長篇沉浸式紀錄片上線，其他平臺也可看