智東西
作者 ZeR0
編輯 漠影
智東西6月7日報道,在2025智源大會期間,北京大模型創企面壁智能發布開源模型MiniCPM 4.0的兩個新版本(0.5B、8B),代號「前進四」。
MiniCPM4-0.5B訓練開銷僅為Qwen3-0.6B的2.7%,以一半參數量實現翻倍性能,綜合得分平均分為52.06分,遠超同類模型。面壁科技還發布了一個0.5B的三級量化版本,平均得分是56分,是非常好的成績。
MiniCPM4-8B訓練開銷僅22%,加了長下文稀疏化版本,做到同等參數、性能更強,綜合得分對標Qwen3-8B、超越Gemma3-12B,在下列同類端側模型排行榜中分數排名第一。
面壁智能CEO李大??偨Y說,MiniCPM4模型最大的特點就是快。
在端側跑140K上下文,需要很大的端側內存,屬于極端場景。在Jetson Orin AGX(64G)或RTX 4090(24G)硬件上運行128K長文本時,像Qwen3-8B這樣沒做過上下文稀疏化的模型,顯存不夠用,需要用CPU內存,offload導致速度急速下降;而MiniCPM4-8B做了快速稀疏化工作,可將占用的低長文本緩存降至1/4,在常規場景里至少可以取得3-5倍的速度優勢。
在顯存受限的極限場景中,MiniCPM4的測試數據甚至可以快到220倍。
面壁智能的MiniCPM4-MCP模型,在端側利用MCP協議,支持15個主流應用,取得了很高的綜合評測表現得分。另一個MiniCPM4-Survey端側版可在AI PC上構建Deep Research(深度研究)服務,是一個離線可用的隨身研究報告利器,有助于保護本地隱私數據。
面壁智能與英特爾緊密合作,首次端側解鎖128K長上下文窗口,在英特爾平臺上基于InfLLM 2.0稀疏注意力結構已實現3.8倍加速的推理優化效果。同時,MiniCPM4已經可以在華為昇騰、聯發科、高通等主流芯片上流暢運行,也支持vLLM、AutoGPT等推理框架,歐拉版正在積極適配中。
又快又好,是怎么做到的?
李大海分享了背后的技術細節——行業首個全開源系統級上下級稀疏化高效創新。
一、架構:混合稀疏注意力機制,稀疏與稠密方案靈活切換
傳統Transformer模型每token需和序列中所有token進行相關性計算逐字重復計算,效率低下。在稀疏注意力機制下,稀疏度越高,計算量越小,速度越快。
MiniCPM4采用了InfLLM 2.0混合稀疏注意力結構。該架構采用類似于檢索的思路,對文本分塊分區域處理,只對最具相關性重點區域進行注意力計算“抽查”,更加高效。通過這種方式,面壁智能可將稀疏度降到5%,將計算量降到10%。
同時,面壁智能還創新地采用了高效的自動雙頻換擋技術,長文本用稀疏方案,短文本用稠密方案。
二、 推理:自研全套端側高性能推理框架,90%瘦身 2倍速度提升
端側生態豐富,兼容是一件成本較高的事。面壁智能希望盡可能簡化端側模型部署的復雜度,自研了“三級火箭”推理框架。
(1)自研端側高性能推理框架CPM.cu:實現稀疏、投機和量化的高效結合,通過FR-Spec輕量化投機采樣,相比原始模型提速2倍,讓小模型給大模型當實習生,給小模型減負加速,速度提升超5倍。
(2)極致低位寬量化BitCPM:端側低內存容量部署友好,4bit量化達到業界SOTA等級,3倍量化,可瘦身90%。
(3)自研跨平臺部署框架Arkinfer:面向多平臺端側芯片極致優化,跨平臺高效投機采樣和限制解碼,支持端側多平臺Model Zoo的絲滑使用,速度提升2倍。
三、學習:多維度訓練策略優化,FP8低精度提升訓練速度
在高效訓練方面,面壁智能也做了很多探索。
(1)模型風洞Model Wind Tunnel v2:用小模型給大模型探路,通過高效訓練小模型,尋求大模型訓練最佳配置,將學習率、批大小等移至大模型訓練,完成最優配置搜索。
(2)Chunk-wise Rollout負載均衡強化學習:強化學習訓練中,單一數據過長時,將在GPU上產生大量空泡,導致負載不均,因此將長數據分段采樣,使其在下一階段繼續生成,以此實現GPU資源的高效分配。
(3)工程優化:采用FP8訓練,以低精度加速模型計算,提升訓練效率;采用MTP監督信號,提供更稠密的監督信號,提升模型數據利用率。
四、數據:用8T高質量數據訓練,表現不輸36T競品數據
MiniCPM4模型還有一個重要優勢:只用了非常少的高質量訓練語料。
好數據才能跑出好性能。8T的面壁高質量數據,與36T競品數據的模型訓練效果相當。
(1)Ultra-FineWeb:高效數據嚴格篩選機制,可構建萬億高質量數據集,通過“半成品加工法”高效驗證,先訓一個’半熟”模型,再用新數據快速微調,能夠將成本降低90%;用fastText工具進行大語言模型質檢,處理15萬億數據只需1000小時CPU。
(2)UltraChat-v2:高能力密度數據合成,可構建大規模知識密集型、推理密集型、指令遵循型、長文本處理型、工具調用型等多樣化的有監督微調數據。
結語:以更低成本實現更高智能,端側模型走向普及普惠
總體來看,MiniCPM4以更少參數量實現出色性能的背后,是面壁智能從架構層、系統層、推理層到數據層的層層優化。而用更少的數據和算力做出同等性能的模型,意味著降低成本,能將時間和資源用于做更多、更有價值的事。
作為國內端側模型代表,面壁智能旗下模型矩陣已覆蓋基座模型MiniCPM、旗艦多模態模型MiniCPM-V、旗艦全模態模型MiniCPM-o,全球下載量超千萬。
面壁智能計劃通過MiniCPM持續推進密度定律。李大海相信,接下來數年會涌現出越來越聰明的智能硬件和終端,搭載像MiniCPM這樣的端側模型,更好地為大眾服務。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.