99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

端側(cè)模型又“瘦身成功”!220倍極限提速、8B模型超過Gemma3-12B,面壁智能甩出“性能大小王”

0
分享至


智東西
作者 ZeR0
編輯 漠影

智東西6月7日報(bào)道,在2025智源大會(huì)期間,北京大模型創(chuàng)企面壁智能發(fā)布開源模型MiniCPM 4.0的兩個(gè)新版本(0.5B、8B),代號「前進(jìn)四」。

MiniCPM4-0.5B訓(xùn)練開銷僅為Qwen3-0.6B的2.7%,以一半?yún)?shù)量實(shí)現(xiàn)翻倍性能,綜合得分平均分為52.06分,遠(yuǎn)超同類模型。面壁科技還發(fā)布了一個(gè)0.5B的三級量化版本,平均得分是56分,是非常好的成績。

MiniCPM4-8B訓(xùn)練開銷僅22%,加了長下文稀疏化版本,做到同等參數(shù)、性能更強(qiáng),綜合得分對標(biāo)Qwen3-8B、超越Gemma3-12B,在下列同類端側(cè)模型排行榜中分?jǐn)?shù)排名第一。


面壁智能CEO李大海總結(jié)說,MiniCPM4模型最大的特點(diǎn)就是快。

在端側(cè)跑140K上下文,需要很大的端側(cè)內(nèi)存,屬于極端場景。在Jetson Orin AGX(64G)或RTX 4090(24G)硬件上運(yùn)行128K長文本時(shí),像Qwen3-8B這樣沒做過上下文稀疏化的模型,顯存不夠用,需要用CPU內(nèi)存,offload導(dǎo)致速度急速下降;而MiniCPM4-8B做了快速稀疏化工作,可將占用的低長文本緩存降至1/4,在常規(guī)場景里至少可以取得3-5倍的速度優(yōu)勢。


在顯存受限的極限場景中,MiniCPM4的測試數(shù)據(jù)甚至可以快到220倍。

面壁智能的MiniCPM4-MCP模型,在端側(cè)利用MCP協(xié)議,支持15個(gè)主流應(yīng)用,取得了很高的綜合評測表現(xiàn)得分。另一個(gè)MiniCPM4-Survey端側(cè)版可在AI PC上構(gòu)建Deep Research(深度研究)服務(wù),是一個(gè)離線可用的隨身研究報(bào)告利器,有助于保護(hù)本地隱私數(shù)據(jù)。


面壁智能與英特爾緊密合作,首次端側(cè)解鎖128K長上下文窗口,在英特爾平臺上基于InfLLM 2.0稀疏注意力結(jié)構(gòu)已實(shí)現(xiàn)3.8倍加速的推理優(yōu)化效果。同時(shí),MiniCPM4已經(jīng)可以在華為昇騰、聯(lián)發(fā)科、高通等主流芯片上流暢運(yùn)行,也支持vLLM、AutoGPT等推理框架,歐拉版正在積極適配中。


又快又好,是怎么做到的?

李大海分享了背后的技術(shù)細(xì)節(jié)——行業(yè)首個(gè)全開源系統(tǒng)級上下級稀疏化高效創(chuàng)新。


一、架構(gòu):混合稀疏注意力機(jī)制,稀疏與稠密方案靈活切換

傳統(tǒng)Transformer模型每token需和序列中所有token進(jìn)行相關(guān)性計(jì)算逐字重復(fù)計(jì)算,效率低下。在稀疏注意力機(jī)制下,稀疏度越高,計(jì)算量越小,速度越快。

MiniCPM4采用了InfLLM 2.0混合稀疏注意力結(jié)構(gòu)。該架構(gòu)采用類似于檢索的思路,對文本分塊分區(qū)域處理,只對最具相關(guān)性重點(diǎn)區(qū)域進(jìn)行注意力計(jì)算“抽查”,更加高效。通過這種方式,面壁智能可將稀疏度降到5%,將計(jì)算量降到10%。

同時(shí),面壁智能還創(chuàng)新地采用了高效的自動(dòng)雙頻換擋技術(shù),長文本用稀疏方案,短文本用稠密方案。


二、 推理:自研全套端側(cè)高性能推理框架,90%瘦身 2倍速度提升

端側(cè)生態(tài)豐富,兼容是一件成本較高的事。面壁智能希望盡可能簡化端側(cè)模型部署的復(fù)雜度,自研了“三級火箭”推理框架。


(1)自研端側(cè)高性能推理框架CPM.cu:實(shí)現(xiàn)稀疏、投機(jī)和量化的高效結(jié)合,通過FR-Spec輕量化投機(jī)采樣,相比原始模型提速2倍,讓小模型給大模型當(dāng)實(shí)習(xí)生,給小模型減負(fù)加速,速度提升超5倍。

(2)極致低位寬量化BitCPM:端側(cè)低內(nèi)存容量部署友好,4bit量化達(dá)到業(yè)界SOTA等級,3倍量化,可瘦身90%。

(3)自研跨平臺部署框架Arkinfer:面向多平臺端側(cè)芯片極致優(yōu)化,跨平臺高效投機(jī)采樣和限制解碼,支持端側(cè)多平臺Model Zoo的絲滑使用,速度提升2倍。

三、學(xué)習(xí):多維度訓(xùn)練策略優(yōu)化,F(xiàn)P8低精度提升訓(xùn)練速度

在高效訓(xùn)練方面,面壁智能也做了很多探索。

(1)模型風(fēng)洞Model Wind Tunnel v2:用小模型給大模型探路,通過高效訓(xùn)練小模型,尋求大模型訓(xùn)練最佳配置,將學(xué)習(xí)率、批大小等移至大模型訓(xùn)練,完成最優(yōu)配置搜索。

(2)Chunk-wise Rollout負(fù)載均衡強(qiáng)化學(xué)習(xí):強(qiáng)化學(xué)習(xí)訓(xùn)練中,單一數(shù)據(jù)過長時(shí),將在GPU上產(chǎn)生大量空泡,導(dǎo)致負(fù)載不均,因此將長數(shù)據(jù)分段采樣,使其在下一階段繼續(xù)生成,以此實(shí)現(xiàn)GPU資源的高效分配。

(3)工程優(yōu)化:采用FP8訓(xùn)練,以低精度加速模型計(jì)算,提升訓(xùn)練效率;采用MTP監(jiān)督信號,提供更稠密的監(jiān)督信號,提升模型數(shù)據(jù)利用率。

四、數(shù)據(jù):用8T高質(zhì)量數(shù)據(jù)訓(xùn)練,表現(xiàn)不輸36T競品數(shù)據(jù)

MiniCPM4模型還有一個(gè)重要優(yōu)勢:只用了非常少的高質(zhì)量訓(xùn)練語料。

好數(shù)據(jù)才能跑出好性能。8T的面壁高質(zhì)量數(shù)據(jù),與36T競品數(shù)據(jù)的模型訓(xùn)練效果相當(dāng)。

(1)Ultra-FineWeb:高效數(shù)據(jù)嚴(yán)格篩選機(jī)制,可構(gòu)建萬億高質(zhì)量數(shù)據(jù)集,通過“半成品加工法”高效驗(yàn)證,先訓(xùn)一個(gè)’半熟”模型,再用新數(shù)據(jù)快速微調(diào),能夠?qū)⒊杀窘档?0%;用fastText工具進(jìn)行大語言模型質(zhì)檢,處理15萬億數(shù)據(jù)只需1000小時(shí)CPU。

(2)UltraChat-v2:高能力密度數(shù)據(jù)合成,可構(gòu)建大規(guī)模知識密集型、推理密集型、指令遵循型、長文本處理型、工具調(diào)用型等多樣化的有監(jiān)督微調(diào)數(shù)據(jù)。

結(jié)語:以更低成本實(shí)現(xiàn)更高智能,端側(cè)模型走向普及普惠

總體來看,MiniCPM4以更少參數(shù)量實(shí)現(xiàn)出色性能的背后,是面壁智能從架構(gòu)層、系統(tǒng)層、推理層到數(shù)據(jù)層的層層優(yōu)化。而用更少的數(shù)據(jù)和算力做出同等性能的模型,意味著降低成本,能將時(shí)間和資源用于做更多、更有價(jià)值的事。

作為國內(nèi)端側(cè)模型代表,面壁智能旗下模型矩陣已覆蓋基座模型MiniCPM、旗艦多模態(tài)模型MiniCPM-V、旗艦全模態(tài)模型MiniCPM-o,全球下載量超千萬。

面壁智能計(jì)劃通過MiniCPM持續(xù)推進(jìn)密度定律。李大海相信,接下來數(shù)年會(huì)涌現(xiàn)出越來越聰明的智能硬件和終端,搭載像MiniCPM這樣的端側(cè)模型,更好地為大眾服務(wù)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
春蘭杯楊楷文2-1勝樸廷桓奪冠 他國內(nèi)第21名28歲成中國第25位世冠

春蘭杯楊楷文2-1勝樸廷桓奪冠 他國內(nèi)第21名28歲成中國第25位世冠

勁爆體壇
2025-06-23 16:28:15
自貢小學(xué)給學(xué)生吃臭肉細(xì)節(jié)曝光:家長圍堵送肉車保留證據(jù)

自貢小學(xué)給學(xué)生吃臭肉細(xì)節(jié)曝光:家長圍堵送肉車保留證據(jù)

映射生活的身影
2025-06-23 19:56:17
哈利伯頓受傷后 女友雙手緊扣低頭祈福!她是季后賽場邊最美風(fēng)景

哈利伯頓受傷后 女友雙手緊扣低頭祈福!她是季后賽場邊最美風(fēng)景

Emily說個(gè)球
2025-06-23 12:59:34
普京將對中國進(jìn)行罕見的四天訪問

普京將對中國進(jìn)行罕見的四天訪問

頭條爆料007
2025-06-23 11:19:50
電影節(jié)成“照妖鏡”?29歲滿臉發(fā)福的郭麒麟,被47歲黃曉明搶鏡了

電影節(jié)成“照妖鏡”?29歲滿臉發(fā)福的郭麒麟,被47歲黃曉明搶鏡了

坊聞本尊
2025-06-24 01:18:51
也門胡塞武裝:與美國達(dá)成停火協(xié)議是在其與伊朗“開戰(zhàn)”之前,我們對美國襲擊伊朗的回應(yīng)只是時(shí)間問題

也門胡塞武裝:與美國達(dá)成停火協(xié)議是在其與伊朗“開戰(zhàn)”之前,我們對美國襲擊伊朗的回應(yīng)只是時(shí)間問題

和訊網(wǎng)
2025-06-22 15:13:11
男人拿下少婦,這招很管用

男人拿下少婦,這招很管用

五月的書房
2025-06-24 00:37:37
獨(dú)家分析:美軍突襲有詐,伊朗敢將計(jì)就計(jì),打一場持久戰(zhàn)嗎?

獨(dú)家分析:美軍突襲有詐,伊朗敢將計(jì)就計(jì),打一場持久戰(zhàn)嗎?

兵國大事
2025-06-23 00:05:13
青春風(fēng)暴!國足東亞杯平均年齡23歲,備戰(zhàn)28年奧運(yùn)與30年世界杯!

青春風(fēng)暴!國足東亞杯平均年齡23歲,備戰(zhàn)28年奧運(yùn)與30年世界杯!

海浪星體育
2025-06-23 15:47:37
曝高薪加盟!你好,榜眼秀!以綠凱身份退出NBA

曝高薪加盟!你好,榜眼秀!以綠凱身份退出NBA

籃球?qū)崙?zhàn)寶典
2025-06-22 23:01:29
雷霆隊(duì)103:91步行者隊(duì),首奪總冠軍,有五個(gè)沒想到

雷霆隊(duì)103:91步行者隊(duì),首奪總冠軍,有五個(gè)沒想到

大眼瞄世界
2025-06-24 00:27:04
江西救護(hù)車收費(fèi)2.8萬事件后續(xù):醫(yī)院稱收網(wǎng)友錦旗,民心自有公斷

江西救護(hù)車收費(fèi)2.8萬事件后續(xù):醫(yī)院稱收網(wǎng)友錦旗,民心自有公斷

紅網(wǎng)論壇
2025-06-23 18:07:09
鬧大了!四川小學(xué)給學(xué)生吃臭豬肉,校長回應(yīng)被群嘲,警方已介入

鬧大了!四川小學(xué)給學(xué)生吃臭豬肉,校長回應(yīng)被群嘲,警方已介入

鋭娛之樂
2025-06-23 20:51:22
6枚巨型鉆地彈灌頂,炸穿90米巖層,伊朗幾十年努力化為烏有

6枚巨型鉆地彈灌頂,炸穿90米巖層,伊朗幾十年努力化為烏有

科羅廖夫
2025-06-22 12:18:34
毫無遮掩!杜蘭特:火箭是我點(diǎn)名要去的球隊(duì),離開太陽對大家都好

毫無遮掩!杜蘭特:火箭是我點(diǎn)名要去的球隊(duì),離開太陽對大家都好

移動(dòng)擋拆
2025-06-24 00:25:02
莫言:你細(xì)心觀察一下你的身邊人,凡是動(dòng)不動(dòng)就生氣的人,沒有一個(gè)是智者,生活多半過得一團(tuán)糟糕

莫言:你細(xì)心觀察一下你的身邊人,凡是動(dòng)不動(dòng)就生氣的人,沒有一個(gè)是智者,生活多半過得一團(tuán)糟糕

不二大叔
2025-04-30 22:20:29
以色列何去何從,歷史驚人的相似,猶太人在打中國的主意

以色列何去何從,歷史驚人的相似,猶太人在打中國的主意

回京歷史夢
2025-05-23 16:06:37
明晚開播!CCTV8黃金檔大制作劇來襲!張譯主演,10位實(shí)力派加盟

明晚開播!CCTV8黃金檔大制作劇來襲!張譯主演,10位實(shí)力派加盟

說說史事
2025-06-23 16:11:02
博主:成都中場廖力生、國安前鋒方昊夏窗將租借去長春亞泰

博主:成都中場廖力生、國安前鋒方昊夏窗將租借去長春亞泰

懂球帝
2025-06-23 18:51:16
高田理恵の筋肉圣典:當(dāng)奧運(yùn)體操魂撕裂藝能界白瘦幼神話

高田理恵の筋肉圣典:當(dāng)奧運(yùn)體操魂撕裂藝能界白瘦幼神話

生如稗草
2025-06-13 08:29:59
2025-06-24 01:59:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
10056文章數(shù) 116781關(guān)注度
往期回顧 全部

數(shù)碼要聞

iPadOS 26臺前調(diào)度適配更多機(jī)型:多任務(wù)體驗(yàn)比肩macOS

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國有 但掏空了老本

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國有 但掏空了老本

體育要聞

比起雷霆三少,他才是真正隊(duì)魂

娛樂要聞

魏大勛和秦嵐沒分手!

財(cái)經(jīng)要聞

以伊沖突升級,對經(jīng)濟(jì)和股市影響有多大?

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

汽車要聞

真香價(jià)格+質(zhì)保承諾 別克E5很難讓人拒絕了

態(tài)度原創(chuàng)

健康
本地
家居
旅游
數(shù)碼

呼吸科專家破解呼吸道九大謠言!

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

家居要聞

山水之間 墨染風(fēng)雨云間

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數(shù)碼要聞

最小的 13 代酷睿主板:AAEON de next-RAP8 發(fā)布,銀行卡大小

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 桃江县| 河南省| 平和县| 乌海市| 肇源县| 犍为县| 错那县| 翁牛特旗| 剑阁县| 东港市| 鱼台县| 彰化县| 南木林县| 兴化市| 抚州市| 枝江市| 仁寿县| 沙河市| 彰化县| 邓州市| 德庆县| 怀宁县| 界首市| 上犹县| 长乐市| 九江县| 察雅县| 府谷县| 会理县| 乡城县| 昌宁县| 平武县| 潢川县| 新干县| 上高县| 额敏县| 措美县| 宝丰县| 封丘县| 定远县| 楚雄市|