2025智源大會,新一代「面壁小鋼炮」 MiniCPM4.0 端側(cè)模型發(fā)布。一款 8B 稀疏閃電版,帶來端側(cè)性能創(chuàng)新式大躍升;一款 0.5B 實力演繹以小博大,適配廣泛終端場景。
第四代小鋼炮推出了首個原生稀疏模型,5%的極高稀疏度加持系統(tǒng)級創(chuàng)新技術(shù)的大爆發(fā),讓長文本、深思考在端側(cè)真正跑起來,宣告了端側(cè)長文本時代到來!220倍極限加速,一半?yún)?shù)翻倍性能的強(qiáng)悍表現(xiàn),一如既往帶來端側(cè)基模最極致表現(xiàn)。
一
代號「前進(jìn)四」,小鋼炮 MiniCPM4.0 樹立起新一代端側(cè)基礎(chǔ)模型標(biāo)桿,帶來超預(yù)期的速度、性能、存儲與端側(cè)部署表現(xiàn)。
前進(jìn)四,代表極致的速度提升:面對此前端側(cè)模型長文本「龜速推理」業(yè)界難題,MiniCPM 4-8B 「閃電稀疏版」,采用了新一代上下文稀疏高效架構(gòu),相較于 Qwen-3-8B、Llama-3-8B、GLM-4-9B等同等參數(shù)規(guī)模端側(cè)模型,實現(xiàn)了長文本推理速度 5 倍常規(guī)加速以及最高 220 倍加速(顯存受限極限場景下測出),真正讓端側(cè)模型長文本推理實現(xiàn)了「快如閃電」的質(zhì)變。此外,注意力機(jī)制上實現(xiàn)了高效雙頻換擋,長文本用稀疏,短文本用稠密,切換快如流。
前進(jìn)四,代表性能的大迸發(fā):MiniCPM 4.0 推出端側(cè)性能“大小王”組合,擁有 8B 、0.5B 兩種參數(shù)規(guī)模,延續(xù)「以小博大」特性,實現(xiàn)了同級最佳的模型性能。其中,MiniCPM 4.0-8B 模型為稀疏注意力模型,在MMLU、CEval、MATH500、HumanEval等基準(zhǔn)測試中,以僅 22% 的訓(xùn)練開銷,性能比肩 Qwen-3-8B、超越Gemma-3-12B。MiniCPM 4.0-0.5B 在性能上,也展現(xiàn)出驚人的以小博大—— 相較更大的Qwen-3-0.6B、Llama 3.2, 僅2.7%的訓(xùn)練開銷,一半?yún)?shù)性能翻倍,并實現(xiàn)了最快 600 Token/s 的極速推理速度。
前進(jìn)四,代表端側(cè)部署的極致優(yōu)化:MiniCPM 4.0 持續(xù)衛(wèi)冕全球最強(qiáng)端側(cè)模型,并進(jìn)一步實現(xiàn)了長文本緩存的大幅銳減,在 128K 長文本場景下,MiniCPM 4.0-8B 相較于 Qwen3-8B 僅需 1/4 的緩存存儲空間。量化版身輕如燕,高達(dá)90%的模型瘦身,性能依然十分穩(wěn)健。在速度、性能飆升的同時,又做到了模型極致壓縮,讓端側(cè)算力不再有壓力,成為業(yè)界最為友好的端側(cè)模型。
在應(yīng)用上,端側(cè)長文本的突破帶來更多可能?;?8B 版本,團(tuán)隊微調(diào)出兩個特定能力模型,分別可以用做 MCP Client 和純端側(cè)性能比肩 Deep Research 的研究報告神器 MiniCPM4-Surve。
與此同時,面壁智能也攜手諸多行業(yè)伙伴,持續(xù)推動 MiniCPM 4.0 模型適配及應(yīng)用拓展。截止目前,MiniCPM 4.0 已實現(xiàn) Intel、高通、MTK、華為昇騰等主流芯片的適配。此外, MiniCPM 4.0可在 vLLM、SGLang、llama.cpp、LlamaFactory、XTuner等開源框架部署。同時加強(qiáng)了對 MCP的支持,且性能超過同尺寸開源模型( Qwen-3-8B),進(jìn)一步拓展了模型開發(fā)、應(yīng)用潛力。
二
首個原生稀疏模型的發(fā)布,讓長文本、深思考在端側(cè)奔跑真正成為可能。由于傳統(tǒng)稠密模型的上下文窗口受限,長文本又提出比較高的內(nèi)存和算力需求,過去在端側(cè)場景幾乎不可用。對這一問題的解決,至關(guān)重要,又比較艱難,需要貫穿架構(gòu)層、算法層、系統(tǒng)層、數(shù)據(jù)層的系統(tǒng)級層層優(yōu)化。
長文本是模型發(fā)展的重要技術(shù)發(fā)力點,可以保證生成文本的連貫性和一致性。在端側(cè)需求更甚,因為用戶終端上有大量的用戶個人信息上下文,只有處理好這些上下文,才能真正做出最懂用戶的個人助理產(chǎn)品。而這些個人信息上下文,隱私性非常高,譬如聊天記錄、位置信息等,只有完全端側(cè)實現(xiàn)才能保證個人信息安全。終端設(shè)備對世界的感知,也同樣需要在端側(cè)發(fā)生,典型的案例是輔助(自動)駕駛,光學(xué)攝像頭和其它傳感器的感知信號必須要在本地處理和理解,避免延遲和丟包。而感知所需要的多模態(tài)模型能力,對長上下文的要求是極其夸張的,模型想要記住一路攝像頭 10 分鐘之類的連續(xù)視覺信號,供實時推理使用,就已經(jīng)需要超過 100K 的上下文長度了,還不考慮多路及聲音和其它傳感器所代表的模態(tài)信號。
這次行業(yè)首例全開源的系統(tǒng)級上下文稀疏化高效創(chuàng)新,具體來說是基于新一代稀疏注意力架構(gòu) InfLLM 做了模型創(chuàng)新,并通過自研端側(cè)推理三級火箭,自研 CPM.cu 極速端側(cè)推理框架,從 投機(jī)采樣創(chuàng)新、模型壓縮量化創(chuàng)新、端側(cè)部署框架創(chuàng)新 幾方面,帶來 90% 的模型瘦身和極致速度提升,最終實現(xiàn)端側(cè)推理從天生到終生的高效絲滑。同時,在綜合性能的極限推進(jìn)上,點滴領(lǐng)先背后都是「十年之功」的積累,新一代模型的發(fā)布也是研究團(tuán)隊技術(shù)創(chuàng)新的集大成呈現(xiàn)。
1、【架構(gòu)高效】新一代稀疏注意力架構(gòu) InfLLM ,速度準(zhǔn)度雙效提升
引入稀疏注意力架構(gòu)為什么在當(dāng)下如此重要?一是長文本處理、深度思考能力成為人們對大模型愈來愈迫切的需求,而傳統(tǒng)稠密模型上下文窗口受限;二是稀疏度越高,計算量越小,速度越快越高效。DeepSeek等明星項目以稀疏模型架構(gòu)撬動的“高效低成本”收益愈益得到認(rèn)可。端側(cè)場景天然因算力限制,對效率提升與能耗降低要求則更加迫切。
傳統(tǒng) Transformer 模型的相關(guān)性計算方式是每個詞元都需要和序列中所有 詞元進(jìn)行相關(guān)性計算,造成了較高的計算代價。MiniCPM 4.0 模型采用的 InfLLMv2 稀疏注意力架構(gòu)改變了傳統(tǒng) Transformer 模型的相關(guān)性計算方式,到分塊分區(qū)域高效「抽查」——即對文本進(jìn)行分塊分區(qū)域處理后,通過智能化選擇機(jī)制,只需對最有相關(guān)性的重點區(qū)域進(jìn)行注意力計算“抽查”,擺脫了逐字重復(fù)計算的低效。InfLLMv2 通過將稀疏度從行業(yè)普遍的40%-50%,降至極致的 5%,注意力層僅需1/10的計算量即可完成長文本計算。且對算子底層重寫,進(jìn)一步加速提升,并使得對文本相關(guān)性精準(zhǔn)性大大提升。
值得一提的是,DeepSeek 使用的長文本處理架構(gòu) NSA(Native Sparse Attention)也引用并采用了與InfLLM相同的分塊注意力計算思路,但其對于短文本的推理較慢,InfLLMv2 則很好的解決了NSA在短文本推理上的短板。
針對單一架構(gòu)難以兼顧長、短文本不同場景的技術(shù)難題,MiniCPM 4.0-8B 采用「高效雙頻換擋」機(jī)制,能夠根據(jù)任務(wù)特征自動切換注意力模式:在處理高難度的長文本、深度思考任務(wù)時,啟用稀疏注意力以降低計算復(fù)雜度,在短文本場景下切換至稠密注意力以確保精度與速度,實現(xiàn)了長、短文本切換的高效響應(yīng)。
2. 【推理高效】推理高效三級火箭,自研全套端側(cè)高性能推理框架
在推理層面,MiniCPM 4.0 通過 CPM.cu 自研推理框架、BitCPM 極致低位寬量化、ArkInfer自研跨平臺部署框架等技術(shù)創(chuàng)新,實現(xiàn)了極致的端側(cè)推理加速。
CPM.cu 端側(cè)自研推理框架,做到了稀疏、投機(jī)、量化的高效組合,最終實現(xiàn)了 5 倍速度提升。其中,F(xiàn)R-Spec 輕量投機(jī)采樣類似于小模型給大模型當(dāng)“實習(xí)生”,并給小模型進(jìn)行詞表減負(fù)、計算加速。通過創(chuàng)新的詞表裁剪策略,讓小模型專注于高頻基礎(chǔ)詞匯的草稿生成,避免在低頻高難度詞匯上浪費算力,再由大模型進(jìn)行驗證和糾正。
BitCPM 量化算法,實現(xiàn)了業(yè)界SOTA級別的 4-bit 量化,并成功探索了 3 值量化(1.58bit)方案。通過精細(xì)的混合精度策略和自適應(yīng)量化算法,模型在瘦身 90%后,仍能保持出色的性能表現(xiàn)。
ArkInfer自研跨平臺部署框架,面向多平臺端側(cè)芯片極致優(yōu)化,實現(xiàn)了大平臺的高效投機(jī)采樣和限制編碼,確保端側(cè)多平臺 Model zoo 絲滑使用。
3、【訓(xùn)練+數(shù)據(jù)高效】打造大模型光刻機(jī),優(yōu)化科學(xué)化建模產(chǎn)線
為什么面壁總能帶來同等參數(shù)、性能更強(qiáng),同等性能、參數(shù)更小的先進(jìn)模型?大模型制程看得見的領(lǐng)先背后,是無數(shù)看不見的技術(shù)積累與嚴(yán)苛標(biāo)準(zhǔn);是點點滴滴細(xì)節(jié)的精益求精。
區(qū)別于業(yè)界普遍采用的“大力出奇跡”路線,面壁智能堅持以「高效」為核心的技術(shù)路徑。對大模型科學(xué)化的探索,貫穿從數(shù)據(jù)、訓(xùn)練、學(xué)習(xí)、推理等層層流程,實現(xiàn)了研發(fā)投入產(chǎn)出比的最大化。
好數(shù)據(jù)才有好模型,高效構(gòu)建高質(zhì)量數(shù)據(jù),是高質(zhì)量模型的基本盤。面壁在這一領(lǐng)域擁有諸多創(chuàng)新方法,并且悉數(shù)開源。譬如,Ultra-FineWeb 高知識密度數(shù)據(jù)篩選機(jī)制,用“半成品加工法”來構(gòu)造萬億數(shù)據(jù),通過先訓(xùn)一個“半熟”模型, 再用新數(shù)據(jù)快速微調(diào),如同預(yù)制菜快出成果,最終實現(xiàn) 90% 的驗證成本降低。在大規(guī)模數(shù)據(jù)質(zhì)檢方面,利用輕量化的 FastText 工具,處理 15 萬億 token 數(shù)據(jù)僅需 1000 小時 CPU 時間。同時,UltraChat-v2 合成了包含數(shù)百億詞元的高質(zhì)量對齊數(shù)據(jù),在知識類、指令遵循、長文本、工具使用等關(guān)鍵能力上進(jìn)行定向強(qiáng)化。在高質(zhì)量數(shù)據(jù)與高效訓(xùn)練策略的加持下,相比同尺寸開源模型,MiniCPM 4.0-8B 僅用 22% 的訓(xùn)練開銷,即可達(dá)到相同能力水平。
在訓(xùn)練策略上,MiniCPM 4.0 應(yīng)用了迭代升級后的風(fēng)洞 2.0 方案(Model Wind Tunnel v2),通過在 0.01B-0.5B 小模型上進(jìn)行高效實驗,搜索最優(yōu)的超參數(shù)配置并遷移到大模型,相比此前的 1.0 版本,風(fēng)洞 2.0 將配置搜索的實驗次數(shù)降低 50%。針對強(qiáng)化學(xué)習(xí)訓(xùn)練中的負(fù)載不均問題,Chunk-wise Rollout 技術(shù)通過分段采樣策略,確保 GPU 資源的高效利用。工程層面還采用了 FP8 訓(xùn)練和 MTP 監(jiān)督信號等前沿技術(shù),進(jìn)一步提升訓(xùn)練效率。
此次 MiniCPM 4.0 的發(fā)布,是面壁智能持續(xù)探索高效大模型道路上的又一重要里程碑,通過多維度、高密度的優(yōu)化,真正做到行業(yè)唯一的端側(cè)可落地的系統(tǒng)級軟硬件稀疏化高效創(chuàng)新。這也是面壁獲得來自社區(qū)廣泛認(rèn)同的本因。截至目前,面壁小鋼炮 MiniCPM 系列全平臺下載量累計破 1000 萬。未來,面壁智能還將基于「大模型密度定律 Densing Law」,持續(xù)提高大模型的知識密度與智能水平,推動端側(cè)智能高效發(fā)展與規(guī)?;a(chǎn)業(yè)應(yīng)用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.