智東西
作者 ZeR0
編輯 漠影
智東西6月7日報(bào)道,在2025智源大會(huì)期間,北京大模型創(chuàng)企面壁智能發(fā)布開源模型MiniCPM 4.0的兩個(gè)新版本(0.5B、8B),代號「前進(jìn)四」。
MiniCPM4-0.5B訓(xùn)練開銷僅為Qwen3-0.6B的2.7%,以一半?yún)?shù)量實(shí)現(xiàn)翻倍性能,綜合得分平均分為52.06分,遠(yuǎn)超同類模型。面壁科技還發(fā)布了一個(gè)0.5B的三級量化版本,平均得分是56分,是非常好的成績。
MiniCPM4-8B訓(xùn)練開銷僅22%,加了長下文稀疏化版本,做到同等參數(shù)、性能更強(qiáng),綜合得分對標(biāo)Qwen3-8B、超越Gemma3-12B,在下列同類端側(cè)模型排行榜中分?jǐn)?shù)排名第一。
面壁智能CEO李大海總結(jié)說,MiniCPM4模型最大的特點(diǎn)就是快。
在端側(cè)跑140K上下文,需要很大的端側(cè)內(nèi)存,屬于極端場景。在Jetson Orin AGX(64G)或RTX 4090(24G)硬件上運(yùn)行128K長文本時(shí),像Qwen3-8B這樣沒做過上下文稀疏化的模型,顯存不夠用,需要用CPU內(nèi)存,offload導(dǎo)致速度急速下降;而MiniCPM4-8B做了快速稀疏化工作,可將占用的低長文本緩存降至1/4,在常規(guī)場景里至少可以取得3-5倍的速度優(yōu)勢。
在顯存受限的極限場景中,MiniCPM4的測試數(shù)據(jù)甚至可以快到220倍。
面壁智能的MiniCPM4-MCP模型,在端側(cè)利用MCP協(xié)議,支持15個(gè)主流應(yīng)用,取得了很高的綜合評測表現(xiàn)得分。另一個(gè)MiniCPM4-Survey端側(cè)版可在AI PC上構(gòu)建Deep Research(深度研究)服務(wù),是一個(gè)離線可用的隨身研究報(bào)告利器,有助于保護(hù)本地隱私數(shù)據(jù)。
面壁智能與英特爾緊密合作,首次端側(cè)解鎖128K長上下文窗口,在英特爾平臺上基于InfLLM 2.0稀疏注意力結(jié)構(gòu)已實(shí)現(xiàn)3.8倍加速的推理優(yōu)化效果。同時(shí),MiniCPM4已經(jīng)可以在華為昇騰、聯(lián)發(fā)科、高通等主流芯片上流暢運(yùn)行,也支持vLLM、AutoGPT等推理框架,歐拉版正在積極適配中。
又快又好,是怎么做到的?
李大海分享了背后的技術(shù)細(xì)節(jié)——行業(yè)首個(gè)全開源系統(tǒng)級上下級稀疏化高效創(chuàng)新。
一、架構(gòu):混合稀疏注意力機(jī)制,稀疏與稠密方案靈活切換
傳統(tǒng)Transformer模型每token需和序列中所有token進(jìn)行相關(guān)性計(jì)算逐字重復(fù)計(jì)算,效率低下。在稀疏注意力機(jī)制下,稀疏度越高,計(jì)算量越小,速度越快。
MiniCPM4采用了InfLLM 2.0混合稀疏注意力結(jié)構(gòu)。該架構(gòu)采用類似于檢索的思路,對文本分塊分區(qū)域處理,只對最具相關(guān)性重點(diǎn)區(qū)域進(jìn)行注意力計(jì)算“抽查”,更加高效。通過這種方式,面壁智能可將稀疏度降到5%,將計(jì)算量降到10%。
同時(shí),面壁智能還創(chuàng)新地采用了高效的自動(dòng)雙頻換擋技術(shù),長文本用稀疏方案,短文本用稠密方案。
二、 推理:自研全套端側(cè)高性能推理框架,90%瘦身 2倍速度提升
端側(cè)生態(tài)豐富,兼容是一件成本較高的事。面壁智能希望盡可能簡化端側(cè)模型部署的復(fù)雜度,自研了“三級火箭”推理框架。
(1)自研端側(cè)高性能推理框架CPM.cu:實(shí)現(xiàn)稀疏、投機(jī)和量化的高效結(jié)合,通過FR-Spec輕量化投機(jī)采樣,相比原始模型提速2倍,讓小模型給大模型當(dāng)實(shí)習(xí)生,給小模型減負(fù)加速,速度提升超5倍。
(2)極致低位寬量化BitCPM:端側(cè)低內(nèi)存容量部署友好,4bit量化達(dá)到業(yè)界SOTA等級,3倍量化,可瘦身90%。
(3)自研跨平臺部署框架Arkinfer:面向多平臺端側(cè)芯片極致優(yōu)化,跨平臺高效投機(jī)采樣和限制解碼,支持端側(cè)多平臺Model Zoo的絲滑使用,速度提升2倍。
三、學(xué)習(xí):多維度訓(xùn)練策略優(yōu)化,F(xiàn)P8低精度提升訓(xùn)練速度
在高效訓(xùn)練方面,面壁智能也做了很多探索。
(1)模型風(fēng)洞Model Wind Tunnel v2:用小模型給大模型探路,通過高效訓(xùn)練小模型,尋求大模型訓(xùn)練最佳配置,將學(xué)習(xí)率、批大小等移至大模型訓(xùn)練,完成最優(yōu)配置搜索。
(2)Chunk-wise Rollout負(fù)載均衡強(qiáng)化學(xué)習(xí):強(qiáng)化學(xué)習(xí)訓(xùn)練中,單一數(shù)據(jù)過長時(shí),將在GPU上產(chǎn)生大量空泡,導(dǎo)致負(fù)載不均,因此將長數(shù)據(jù)分段采樣,使其在下一階段繼續(xù)生成,以此實(shí)現(xiàn)GPU資源的高效分配。
(3)工程優(yōu)化:采用FP8訓(xùn)練,以低精度加速模型計(jì)算,提升訓(xùn)練效率;采用MTP監(jiān)督信號,提供更稠密的監(jiān)督信號,提升模型數(shù)據(jù)利用率。
四、數(shù)據(jù):用8T高質(zhì)量數(shù)據(jù)訓(xùn)練,表現(xiàn)不輸36T競品數(shù)據(jù)
MiniCPM4模型還有一個(gè)重要優(yōu)勢:只用了非常少的高質(zhì)量訓(xùn)練語料。
好數(shù)據(jù)才能跑出好性能。8T的面壁高質(zhì)量數(shù)據(jù),與36T競品數(shù)據(jù)的模型訓(xùn)練效果相當(dāng)。
(1)Ultra-FineWeb:高效數(shù)據(jù)嚴(yán)格篩選機(jī)制,可構(gòu)建萬億高質(zhì)量數(shù)據(jù)集,通過“半成品加工法”高效驗(yàn)證,先訓(xùn)一個(gè)’半熟”模型,再用新數(shù)據(jù)快速微調(diào),能夠?qū)⒊杀窘档?0%;用fastText工具進(jìn)行大語言模型質(zhì)檢,處理15萬億數(shù)據(jù)只需1000小時(shí)CPU。
(2)UltraChat-v2:高能力密度數(shù)據(jù)合成,可構(gòu)建大規(guī)模知識密集型、推理密集型、指令遵循型、長文本處理型、工具調(diào)用型等多樣化的有監(jiān)督微調(diào)數(shù)據(jù)。
結(jié)語:以更低成本實(shí)現(xiàn)更高智能,端側(cè)模型走向普及普惠
總體來看,MiniCPM4以更少參數(shù)量實(shí)現(xiàn)出色性能的背后,是面壁智能從架構(gòu)層、系統(tǒng)層、推理層到數(shù)據(jù)層的層層優(yōu)化。而用更少的數(shù)據(jù)和算力做出同等性能的模型,意味著降低成本,能將時(shí)間和資源用于做更多、更有價(jià)值的事。
作為國內(nèi)端側(cè)模型代表,面壁智能旗下模型矩陣已覆蓋基座模型MiniCPM、旗艦多模態(tài)模型MiniCPM-V、旗艦全模態(tài)模型MiniCPM-o,全球下載量超千萬。
面壁智能計(jì)劃通過MiniCPM持續(xù)推進(jìn)密度定律。李大海相信,接下來數(shù)年會(huì)涌現(xiàn)出越來越聰明的智能硬件和終端,搭載像MiniCPM這樣的端側(cè)模型,更好地為大眾服務(wù)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.