網易首頁 > 網易號 > 正文申請入駐

14款大模型能耗爆炸：DeepSeek竟然第一

2025-06-20 20:41:17　來源: 智東西

北京舉報

分享至

智東西
編譯陳駿達
編輯 Panken

跟AI聊天，究竟會消耗多少能源？

智東西6月20日報道，生成式AI正以前所未有的速度滲透進我們的日常生活，但鮮少有人關注其背后的環境代價。OpenAI CEO Sam Altman曾透露，ChatGPT單次查詢平均消耗0.34瓦時能源，相當于烤箱運行1秒多的耗電量，但憑借AI公司偶爾披露的零星數據，研究者無法對模型的能耗進行系統性評估。

昨日，一項針對DeepSeek、Qwen、Llama、Cogito等14個開源大模型的研究，填補了這一空白，讓業內直觀看到了不同類型、不同參數規模的模型在能耗、碳排量和性能之間的差異。

在回答同類問題時，具備推理能力的模型能耗與碳排量為非推理模型的4-6倍，然而，這并未給模型答題的準確率帶來對應的提升，輕量級模型反而在某些簡單任務上展示出更高的能效。

在所有模型中，DeepSeek-R1 70B的平均碳排放量是最高的，其回答1道抽象代數問題會排放4.8g二氧化碳，相當于使用了0.01度電，能讓一只5W的燈泡持續亮燈2小時。來自硅谷新銳AI創企Deep Cogito的混合推理模型，在能耗和準確率上取得了不錯的平衡。

研究還用真實數據，揭示了AI“過度思考”的問題。推理模型在回答不同難度的問題時都會傾向于生成更多token、使用更多的計算資源，這導致了更高的排放量。同時，像抽象代數這樣的符號化和抽象領域對計算的需求更高，且準確率更低。

這一研究于昨日發表在國際期刊《通信前沿》上，研究者讓上方14款開源大模型各自回答了1000道問題，涉及抽象代數、高中數學、高中世界歷史、國際法、哲學這5個領域的內容，記錄了每個模型所使用的能源，并將其換算為碳排量。

論文鏈接：https://www.frontiersin.org/journals/communication/articles/10.3389/fcomm.2025.1572947/full

這篇論文的主要作者Maximilian Dauner稱：“我們并不總是需要最大、最密集的模型來回答簡單的問題，目標應該是為正確的任務選擇正確的模型。”

為評估模型能耗，研究者在本地的英偉達A100集群上部署了14款開源大模型，并使用高性能計算應用能源基準測試Perun框架對其能耗進行測量。研究者還將能耗按照480 gCO?/kWh的排放因子進行換算，以計算對應的碳排量，這一因子代表了目前全球的平均值。

研究使用的問題主要來自于MMLU基準測試，涵蓋了不同教育水平、不同領域。在多項選擇和自由回答兩類問題上，參數規模更大的模型始終保持了領先優勢。開啟推理模式的Cogito 70B的正確率排名第一，而DeepSeek-R1 70B的正確率排名第二。

除了不同模型的準確性之外，這一研究還分析了模型在回答問題時產生的token數量。在多項選擇題中，模型平均每題生成37.7個token，而推理模型則需要額外使用543.5個token。

按學科劃分，高中數學題的答案最長，而抽象代數則需要最高的思考開銷（平均每題865.5個toekn）。研究中記錄到的最大推理長度（6716個token）來自于Deepseek-R1 7B模型在回答一道抽象代數問題時的思考。

下圖則反映了模型回答問題時的平均碳排量，這一數字從1.2克到1325.1克不等，模型的參數規模、是否開啟推理模式，都會直接影響平均碳排量。總體而言，推理模型的碳排量明顯高于非推理模型。

同時，研究者還將碳排量與準確性放到了同一張圖表上進行關聯研究。隨著模型規模的增加，準確性往往有所提高。然而，這種提升也與二氧化碳當量排放量和生成token數量的顯著增長密切相關。

最小的模型Qwen 7B擁有最低的碳足跡，但準確率僅為32.9%。相反，最大的推理模型Deepseek-R1 70B碳排量最高，但準確率達到78.9%。

值得注意的是，開啟推理模式的Cogito 70B展現出了性能和效率之間的平衡，實現了最高的84.9%準確率，同時碳排放還比DeepSeek-R1 70B模型少34.3%。這表明為大模型添加推理組件可以在不大幅增加碳排量的情況下顯著提高準確性。

結語：追求智能提升之外，推理效率提升不容忽視

研究者承認，這一研究尚未覆蓋千億參數規模的大模型，測試排放量時使用的GPU型號也并非當下最新、能效比最高的，因此研究結論無法直接外推到其他AI系統上。數據中心所使用的能源類型也會對碳排放量有明顯影響。

盡管這項研究存在局限性，但它仍然讓業界看到了能耗與模型準確性之間的關系。研究者稱，優化推理效率和回答的簡潔性，尤其是在像抽象代數這樣具有挑戰性的學科中，對于推動更可持續、更環保的AI技術發展至關重要。

目前，業內已有企業在探索“推理預算”、混合推理模型等能夠對模型推理長度做出一定限制的方法，但這些方法究竟能帶來多少能效的提升，仍有待進一步觀察。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.