端側(cè)模型又“瘦身成功”！220倍極限提速、8B模型超過Gemma3-12B，面壁智能甩出“性能大小王”

2025-06-07 20:59:29　來源: 智東西

北京舉報(bào)

分享至

智東西
作者 ZeR0
編輯漠影

智東西6月7日報(bào)道，在2025智源大會(huì)期間，北京大模型創(chuàng)企面壁智能發(fā)布開源模型MiniCPM 4.0的兩個(gè)新版本（0.5B、8B），代號「前進(jìn)四」。

MiniCPM4-0.5B訓(xùn)練開銷僅為Qwen3-0.6B的2.7%，以一半?yún)?shù)量實(shí)現(xiàn)翻倍性能，綜合得分平均分為52.06分，遠(yuǎn)超同類模型。面壁科技還發(fā)布了一個(gè)0.5B的三級量化版本，平均得分是56分，是非常好的成績。

MiniCPM4-8B訓(xùn)練開銷僅22%，加了長下文稀疏化版本，做到同等參數(shù)、性能更強(qiáng)，綜合得分對標(biāo)Qwen3-8B、超越Gemma3-12B，在下列同類端側(cè)模型排行榜中分?jǐn)?shù)排名第一。

面壁智能CEO李大海總結(jié)說，MiniCPM4模型最大的特點(diǎn)就是快。

在端側(cè)跑140K上下文，需要很大的端側(cè)內(nèi)存，屬于極端場景。在Jetson Orin AGX（64G）或RTX 4090（24G）硬件上運(yùn)行128K長文本時(shí)，像Qwen3-8B這樣沒做過上下文稀疏化的模型，顯存不夠用，需要用CPU內(nèi)存，offload導(dǎo)致速度急速下降；而MiniCPM4-8B做了快速稀疏化工作，可將占用的低長文本緩存降至1/4，在常規(guī)場景里至少可以取得3-5倍的速度優(yōu)勢。

在顯存受限的極限場景中，MiniCPM4的測試數(shù)據(jù)甚至可以快到220倍。

面壁智能的MiniCPM4-MCP模型，在端側(cè)利用MCP協(xié)議，支持15個(gè)主流應(yīng)用，取得了很高的綜合評測表現(xiàn)得分。另一個(gè)MiniCPM4-Survey端側(cè)版可在AI PC上構(gòu)建Deep Research（深度研究）服務(wù)，是一個(gè)離線可用的隨身研究報(bào)告利器，有助于保護(hù)本地隱私數(shù)據(jù)。

面壁智能與英特爾緊密合作，首次端側(cè)解鎖128K長上下文窗口，在英特爾平臺上基于InfLLM 2.0稀疏注意力結(jié)構(gòu)已實(shí)現(xiàn)3.8倍加速的推理優(yōu)化效果。同時(shí)，MiniCPM4已經(jīng)可以在華為昇騰、聯(lián)發(fā)科、高通等主流芯片上流暢運(yùn)行，也支持vLLM、AutoGPT等推理框架，歐拉版正在積極適配中。

又快又好，是怎么做到的？

李大海分享了背后的技術(shù)細(xì)節(jié)——行業(yè)首個(gè)全開源系統(tǒng)級上下級稀疏化高效創(chuàng)新。

一、架構(gòu)：混合稀疏注意力機(jī)制，稀疏與稠密方案靈活切換

傳統(tǒng)Transformer模型每token需和序列中所有token進(jìn)行相關(guān)性計(jì)算逐字重復(fù)計(jì)算，效率低下。在稀疏注意力機(jī)制下，稀疏度越高，計(jì)算量越小，速度越快。

MiniCPM4采用了InfLLM 2.0混合稀疏注意力結(jié)構(gòu)。該架構(gòu)采用類似于檢索的思路，對文本分塊分區(qū)域處理，只對最具相關(guān)性重點(diǎn)區(qū)域進(jìn)行注意力計(jì)算“抽查”，更加高效。通過這種方式，面壁智能可將稀疏度降到5%，將計(jì)算量降到10%。

同時(shí)，面壁智能還創(chuàng)新地采用了高效的自動(dòng)雙頻換擋技術(shù)，長文本用稀疏方案，短文本用稠密方案。

二、推理：自研全套端側(cè)高性能推理框架，90%瘦身 2倍速度提升

端側(cè)生態(tài)豐富，兼容是一件成本較高的事。面壁智能希望盡可能簡化端側(cè)模型部署的復(fù)雜度，自研了“三級火箭”推理框架。

（1）自研端側(cè)高性能推理框架CPM.cu：實(shí)現(xiàn)稀疏、投機(jī)和量化的高效結(jié)合，通過FR-Spec輕量化投機(jī)采樣，相比原始模型提速2倍，讓小模型給大模型當(dāng)實(shí)習(xí)生，給小模型減負(fù)加速，速度提升超5倍。

（2）極致低位寬量化BitCPM：端側(cè)低內(nèi)存容量部署友好，4bit量化達(dá)到業(yè)界SOTA等級，3倍量化，可瘦身90%。

（3）自研跨平臺部署框架Arkinfer：面向多平臺端側(cè)芯片極致優(yōu)化，跨平臺高效投機(jī)采樣和限制解碼，支持端側(cè)多平臺Model Zoo的絲滑使用，速度提升2倍。

三、學(xué)習(xí)：多維度訓(xùn)練策略優(yōu)化，F(xiàn)P8低精度提升訓(xùn)練速度

在高效訓(xùn)練方面，面壁智能也做了很多探索。

（1）模型風(fēng)洞Model Wind Tunnel v2：用小模型給大模型探路，通過高效訓(xùn)練小模型，尋求大模型訓(xùn)練最佳配置，將學(xué)習(xí)率、批大小等移至大模型訓(xùn)練，完成最優(yōu)配置搜索。

（2）Chunk-wise Rollout負(fù)載均衡強(qiáng)化學(xué)習(xí)：強(qiáng)化學(xué)習(xí)訓(xùn)練中，單一數(shù)據(jù)過長時(shí)，將在GPU上產(chǎn)生大量空泡，導(dǎo)致負(fù)載不均，因此將長數(shù)據(jù)分段采樣，使其在下一階段繼續(xù)生成，以此實(shí)現(xiàn)GPU資源的高效分配。

（3）工程優(yōu)化：采用FP8訓(xùn)練，以低精度加速模型計(jì)算，提升訓(xùn)練效率；采用MTP監(jiān)督信號，提供更稠密的監(jiān)督信號，提升模型數(shù)據(jù)利用率。

四、數(shù)據(jù)：用8T高質(zhì)量數(shù)據(jù)訓(xùn)練，表現(xiàn)不輸36T競品數(shù)據(jù)

MiniCPM4模型還有一個(gè)重要優(yōu)勢：只用了非常少的高質(zhì)量訓(xùn)練語料。

好數(shù)據(jù)才能跑出好性能。8T的面壁高質(zhì)量數(shù)據(jù)，與36T競品數(shù)據(jù)的模型訓(xùn)練效果相當(dāng)。

（1）Ultra-FineWeb：高效數(shù)據(jù)嚴(yán)格篩選機(jī)制，可構(gòu)建萬億高質(zhì)量數(shù)據(jù)集，通過“半成品加工法”高效驗(yàn)證，先訓(xùn)一個(gè)’半熟”模型，再用新數(shù)據(jù)快速微調(diào)，能夠?qū)⒊杀窘档?0%；用fastText工具進(jìn)行大語言模型質(zhì)檢，處理15萬億數(shù)據(jù)只需1000小時(shí)CPU。

（2）UltraChat-v2：高能力密度數(shù)據(jù)合成，可構(gòu)建大規(guī)模知識密集型、推理密集型、指令遵循型、長文本處理型、工具調(diào)用型等多樣化的有監(jiān)督微調(diào)數(shù)據(jù)。

結(jié)語：以更低成本實(shí)現(xiàn)更高智能，端側(cè)模型走向普及普惠

總體來看，MiniCPM4以更少參數(shù)量實(shí)現(xiàn)出色性能的背后，是面壁智能從架構(gòu)層、系統(tǒng)層、推理層到數(shù)據(jù)層的層層優(yōu)化。而用更少的數(shù)據(jù)和算力做出同等性能的模型，意味著降低成本，能將時(shí)間和資源用于做更多、更有價(jià)值的事。

作為國內(nèi)端側(cè)模型代表，面壁智能旗下模型矩陣已覆蓋基座模型MiniCPM、旗艦多模態(tài)模型MiniCPM-V、旗艦全模態(tài)模型MiniCPM-o，全球下載量超千萬。

面壁智能計(jì)劃通過MiniCPM持續(xù)推進(jìn)密度定律。李大海相信，接下來數(shù)年會(huì)涌現(xiàn)出越來越聰明的智能硬件和終端，搭載像MiniCPM這樣的端側(cè)模型，更好地為大眾服務(wù)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.