網易首頁 > 網易號 > 正文申請入駐

端側模型又“瘦身成功”！220倍極限提速、8B模型超過Gemma3-12B，面壁智能甩出“性能大小王”

2025-06-07 20:59:29　來源: 智東西

北京舉報

分享至

智東西
作者 ZeR0
編輯漠影

智東西6月7日報道，在2025智源大會期間，北京大模型創企面壁智能發布開源模型MiniCPM 4.0的兩個新版本（0.5B、8B），代號「前進四」。

MiniCPM4-0.5B訓練開銷僅為Qwen3-0.6B的2.7%，以一半參數量實現翻倍性能，綜合得分平均分為52.06分，遠超同類模型。面壁科技還發布了一個0.5B的三級量化版本，平均得分是56分，是非常好的成績。

MiniCPM4-8B訓練開銷僅22%，加了長下文稀疏化版本，做到同等參數、性能更強，綜合得分對標Qwen3-8B、超越Gemma3-12B，在下列同類端側模型排行榜中分數排名第一。

面壁智能CEO李大?？偨Y說，MiniCPM4模型最大的特點就是快。

在端側跑140K上下文，需要很大的端側內存，屬于極端場景。在Jetson Orin AGX（64G）或RTX 4090（24G）硬件上運行128K長文本時，像Qwen3-8B這樣沒做過上下文稀疏化的模型，顯存不夠用，需要用CPU內存，offload導致速度急速下降；而MiniCPM4-8B做了快速稀疏化工作，可將占用的低長文本緩存降至1/4，在常規場景里至少可以取得3-5倍的速度優勢。

在顯存受限的極限場景中，MiniCPM4的測試數據甚至可以快到220倍。

面壁智能的MiniCPM4-MCP模型，在端側利用MCP協議，支持15個主流應用，取得了很高的綜合評測表現得分。另一個MiniCPM4-Survey端側版可在AI PC上構建Deep Research（深度研究）服務，是一個離線可用的隨身研究報告利器，有助于保護本地隱私數據。

面壁智能與英特爾緊密合作，首次端側解鎖128K長上下文窗口，在英特爾平臺上基于InfLLM 2.0稀疏注意力結構已實現3.8倍加速的推理優化效果。同時，MiniCPM4已經可以在華為昇騰、聯發科、高通等主流芯片上流暢運行，也支持vLLM、AutoGPT等推理框架，歐拉版正在積極適配中。

又快又好，是怎么做到的？

李大海分享了背后的技術細節——行業首個全開源系統級上下級稀疏化高效創新。

一、架構：混合稀疏注意力機制，稀疏與稠密方案靈活切換

傳統Transformer模型每token需和序列中所有token進行相關性計算逐字重復計算，效率低下。在稀疏注意力機制下，稀疏度越高，計算量越小，速度越快。

MiniCPM4采用了InfLLM 2.0混合稀疏注意力結構。該架構采用類似于檢索的思路，對文本分塊分區域處理，只對最具相關性重點區域進行注意力計算“抽查”，更加高效。通過這種方式，面壁智能可將稀疏度降到5%，將計算量降到10%。

同時，面壁智能還創新地采用了高效的自動雙頻換擋技術，長文本用稀疏方案，短文本用稠密方案。

二、推理：自研全套端側高性能推理框架，90%瘦身 2倍速度提升

端側生態豐富，兼容是一件成本較高的事。面壁智能希望盡可能簡化端側模型部署的復雜度，自研了“三級火箭”推理框架。

（1）自研端側高性能推理框架CPM.cu：實現稀疏、投機和量化的高效結合，通過FR-Spec輕量化投機采樣，相比原始模型提速2倍，讓小模型給大模型當實習生，給小模型減負加速，速度提升超5倍。

（2）極致低位寬量化BitCPM：端側低內存容量部署友好，4bit量化達到業界SOTA等級，3倍量化，可瘦身90%。

（3）自研跨平臺部署框架Arkinfer：面向多平臺端側芯片極致優化，跨平臺高效投機采樣和限制解碼，支持端側多平臺Model Zoo的絲滑使用，速度提升2倍。

三、學習：多維度訓練策略優化，FP8低精度提升訓練速度

在高效訓練方面，面壁智能也做了很多探索。

（1）模型風洞Model Wind Tunnel v2：用小模型給大模型探路，通過高效訓練小模型，尋求大模型訓練最佳配置，將學習率、批大小等移至大模型訓練，完成最優配置搜索。

（2）Chunk-wise Rollout負載均衡強化學習：強化學習訓練中，單一數據過長時，將在GPU上產生大量空泡，導致負載不均，因此將長數據分段采樣，使其在下一階段繼續生成，以此實現GPU資源的高效分配。

（3）工程優化：采用FP8訓練，以低精度加速模型計算，提升訓練效率；采用MTP監督信號，提供更稠密的監督信號，提升模型數據利用率。

四、數據：用8T高質量數據訓練，表現不輸36T競品數據

MiniCPM4模型還有一個重要優勢：只用了非常少的高質量訓練語料。

好數據才能跑出好性能。8T的面壁高質量數據，與36T競品數據的模型訓練效果相當。

（1）Ultra-FineWeb：高效數據嚴格篩選機制，可構建萬億高質量數據集，通過“半成品加工法”高效驗證，先訓一個’半熟”模型，再用新數據快速微調，能夠將成本降低90%；用fastText工具進行大語言模型質檢，處理15萬億數據只需1000小時CPU。

（2）UltraChat-v2：高能力密度數據合成，可構建大規模知識密集型、推理密集型、指令遵循型、長文本處理型、工具調用型等多樣化的有監督微調數據。

結語：以更低成本實現更高智能，端側模型走向普及普惠

總體來看，MiniCPM4以更少參數量實現出色性能的背后，是面壁智能從架構層、系統層、推理層到數據層的層層優化。而用更少的數據和算力做出同等性能的模型，意味著降低成本，能將時間和資源用于做更多、更有價值的事。

作為國內端側模型代表，面壁智能旗下模型矩陣已覆蓋基座模型MiniCPM、旗艦多模態模型MiniCPM-V、旗艦全模態模型MiniCPM-o，全球下載量超千萬。

面壁智能計劃通過MiniCPM持續推進密度定律。李大海相信，接下來數年會涌現出越來越聰明的智能硬件和終端，搭載像MiniCPM這樣的端側模型，更好地為大眾服務。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.