智東西
作者 程茜
編輯 漠影
端側(cè)模型的產(chǎn)業(yè)坐標(biāo)系正在被重塑!
一方面,昨日凌晨,AI濃度大大降低的蘋果WWDC中,蘋果智能(Apple Intelligence)正加速融入到系統(tǒng)各個功能中,同時蘋果宣布向所有App開放權(quán)限允許開發(fā)者直接訪問蘋果智能核心的設(shè)備端大語言模型,提出“Foundation Models框架”也引發(fā)了不小的討論;另一方面,上周面壁智能發(fā)新一代面壁小鋼炮MiniCPM4.0端側(cè)模型,0.5B模型性能超Qwen-3-0.6B、以及參數(shù)規(guī)模1B的Llama 3.2、Gemma3。
這些可以證明,端側(cè)智能從可用到能用、好用,從技術(shù)概念到人人可及的距離正在被迅速拉近。相比于云端模型,端側(cè)智能以隱私安全、響應(yīng)高效、成本可控、場景適配的天然優(yōu)勢,與我們生活中的硬件設(shè)備緊密相連。
端側(cè)AI變得無處不在的背景下,當(dāng)蘋果以生態(tài)級框架降低端側(cè)AI開發(fā)門檻時,面壁智能MiniCPM4.0的技術(shù)突破更具底層革新價值,進(jìn)一步擊穿了端側(cè)智能的性能天花板。
MiniCPM4.0的技術(shù)突破具備何等價值?其在AI應(yīng)用爆發(fā)的當(dāng)下有何重要性?我們將從端側(cè)模型發(fā)展的底層邏輯出發(fā),找到這些問題的答案。
技術(shù)報告:https://arxiv.org/pdf/2506.07900
Github模型下載鏈接:https://github.com/openbmb/minicpm
Huggingface模型下載鏈接:https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b
Model Scope模型下載鏈接:https://www.modelscope.cn/collections/MiniCPM-4-ec015560e8c84d
一、端側(cè)AI發(fā)展已成必然趨勢,技術(shù)創(chuàng)新陷入“增量困境”
端側(cè)模型部署已成為行業(yè)公認(rèn)的技術(shù)趨勢,然而當(dāng)前革命性的技術(shù)創(chuàng)新相對匱乏,且在實際應(yīng)用中面臨推理速度瓶頸、功耗控制難題以及上下文理解能力不足等多重挑戰(zhàn),這會直接影響終端用戶的交互體驗。
蘋果作為智能手機的重要玩家,其這次在WWDC上發(fā)布的Foundation Models框架,背后隱隱折射出端側(cè)AI生態(tài)即將爆發(fā)的趨勢。
Foundation Models框架的作用是讓開發(fā)者將自己的App輕松調(diào)用蘋果智能,實現(xiàn)離線運行、隱私保護且無推理成本,更直觀來說就是開發(fā)者無需支付調(diào)用云端大模型API產(chǎn)生的token費用,用戶亦無需為此支付額外成本。
可以看出,這樣的端側(cè)AI生態(tài)本質(zhì)上可以打破傳統(tǒng)云端AI的“成本-隱私-延遲”三角制約,讓技術(shù)價值在開發(fā)者、用戶等各環(huán)節(jié)實現(xiàn)高效傳導(dǎo)。
與此同時,端側(cè)AI的爆發(fā)亦體現(xiàn)到了設(shè)備覆蓋的廣泛性之上,從智能手機、筆記本電腦到智能汽車,乃至機器人品類,端側(cè)模型部署正全面滲透至各類智能終端場景。
然而,與端側(cè)AI蓬勃發(fā)展的現(xiàn)狀形成鮮明反差的是,在現(xiàn)有技術(shù)路徑下探尋端側(cè)基座模型躍升的突破口仍困難重重,類似DeepSeek在基礎(chǔ)模型領(lǐng)域引發(fā)的現(xiàn)象級突破事件更是鳳毛麟角。
如今參數(shù)規(guī)模小到足以在端側(cè)部署的模型已不在少數(shù),這些模型雖具備基礎(chǔ)的理解與生成能力,但在性能突破方面仍面臨顯著瓶頸。
這與端側(cè)設(shè)備本身的諸多特性有關(guān)。
端側(cè)設(shè)備的一大特征就是電池容量和散熱設(shè)計等硬件架構(gòu)受限,面臨嚴(yán)格的能耗約束,需動態(tài)進(jìn)行功耗管理與分配,且容錯率較云端更低。
再加上為了適配內(nèi)存,端側(cè)模型會通過剪枝、蒸餾等技術(shù)壓縮模型規(guī)模,此舉一定程度上會丟失長序列建模能力,導(dǎo)致多路對話時丟失歷史信息。
在推理速度方面,雖然端側(cè)設(shè)備距離用戶數(shù)據(jù)更近,但其芯片往往會受限于制程工藝和面積,使得典型端側(cè)算力較云端GPU相對較低。
盡管面臨這些現(xiàn)實挑戰(zhàn),但端側(cè)模型的突破,正是當(dāng)下行業(yè)將重點聚焦于AI應(yīng)用之際,使得應(yīng)用爆發(fā)的前提條件之一。正如面壁智能CEO李大海所說,端側(cè)基模是AI時代端側(cè)操作系統(tǒng)級基礎(chǔ)設(shè)施,其能力直接決定上層應(yīng)用的天花板,就像Windows之于PC應(yīng)用、Android之于移動應(yīng)用,沒有強大的基模支撐,上層應(yīng)用就難有突破。
二、首個原生稀疏模型,攻克端側(cè)長文本難題
那么,端側(cè)模型破局的關(guān)鍵突破口究竟在哪?我們可以從上周面壁智能新發(fā)的端側(cè)模型MiniCPM-4可以窺見這個問題的答案之一。
此次面壁智能發(fā)布的MiniCPM4.0共有8B和0.5B兩種參數(shù)規(guī)模,這兩個“以小搏大”的模型關(guān)鍵特性可以用廣泛覆蓋中端場景、長文本登陸端側(cè)、低開銷比肩同規(guī)模模型概括。
具體來看,稀疏注意力模型MiniCPM 4.0-8B,在MMLU、CEval、MATH500、HumanEval等基準(zhǔn)測試中,以22%的訓(xùn)練開銷,性能比肩Qwen-3-8B,超越Gemma-3-12B;MiniCPM 4.0-0.5B則以2.7%的訓(xùn)練開銷,相較Qwen-3-0.6B、1B參數(shù)規(guī)模的Llama 3.2實現(xiàn)了性能翻倍,且通過原生QAT(量化感知訓(xùn)練)技術(shù)實現(xiàn)INT4低精度量化,實現(xiàn)高達(dá)600 Tokens/秒的推理速度。
在128K長文本場景下,MiniCPM 4.0-8B相較于Qwen3-8B僅需1/4緩存存儲空間,量化版實現(xiàn)90%的模型瘦身。在顯存受限極限場景下,8B模型實現(xiàn)長文本推理速度5倍常規(guī)加速以及最高220倍加速。
同時為了保證運行流暢,其在注意力機制層面實現(xiàn)高效雙頻動態(tài)換擋,長文本自動激活稀疏計算模式,短文本智能切換稠密計算模式。
為了進(jìn)一步提升端側(cè)長文本的應(yīng)用范圍,面壁智能在8B模型之上微調(diào)出兩個特定能力模型,分別可以用做MCP Client和純端側(cè)性能比肩Deep Research的研究報告神器MiniCPM4-Survey。
值得注意的是,與云端模型處理長文本場景不同,端側(cè)模型要實現(xiàn)同等性能面臨更高技術(shù)挑戰(zhàn),此前堆參數(shù)、堆算力等路線在端側(cè)很難走通,因此技術(shù)創(chuàng)新成為端側(cè)突破瓶頸的核心驅(qū)動力。
面壁智能在架構(gòu)、推理層面的系列創(chuàng)新就驗證了這條路。
從MiniCPM4.0的前綴就可以看出長文本在端側(cè)落地的殺手锏——首個開源原生注意力稀疏模型。
模型采用的新一代InfLLMv2稀疏注意力架構(gòu),一改傳統(tǒng)Transformer模型的相關(guān)性計算方式,而是實現(xiàn)分塊分區(qū)域高效“抽查”,即將文本劃分為多個獨立區(qū)域,然后通過智能化選擇機制對最有相關(guān)性的重點區(qū)域進(jìn)行注意力計算“抽查”,可以避免逐字重復(fù)計算,適配于移動端或輕量化部署。
▲InfLLMv2稀疏注意力架構(gòu)
基于更精準(zhǔn)的上下文塊選擇算法、更細(xì)粒度的查詢詞元分組、更高效的算子實現(xiàn),InfLLMv2將稀疏度從行業(yè)普遍的40%-50%降至5%,注意力層僅需1/10的計算量即可完成長文本計算。
另一個殺手锏針對的是推理加速——自研全套端側(cè)高性能推理框架。
這同樣是面壁智能系列自研成果的體現(xiàn):CPM.cu自研推理框架、P-GPTQ前綴敏感的模型訓(xùn)練后量化、BitCPM極致低位寬量化、ArkInfer自研跨平臺部署框架等,欲補齊端側(cè)推理加速的每一塊短板。
大模型部署時要考慮計算與內(nèi)存消耗難題,同時端側(cè)芯片碎片化會導(dǎo)致多平臺適配與部署工程痛點。
在此基礎(chǔ)上,面壁智能專為端側(cè)英偉達(dá)芯片優(yōu)化了自研輕量化推理框架CPM.cu,能集成靜態(tài)內(nèi)存管理、算子融合、高效投機采樣、前綴敏感的量化算法等多種能力,高效組合稀疏、投機、量化的同時,實現(xiàn)5倍速度提升;同時采用P-GPTQ和BitCPM三值量化方法,以進(jìn)一步優(yōu)化資源消耗。
▲輕量化推理框架CPM.cu
對于芯片碎片化帶來的復(fù)雜模型適配和部署過程,面壁智能提出的ArkInfer引入跨平臺兼容的架構(gòu)設(shè)計、可復(fù)用且高效的推測采樣與約束解碼方案、可擴展的模型庫前端等解決方案。
總的來看,從投機采樣、模型壓縮量化到端側(cè)部署框架,無一不是面壁智能在算力、內(nèi)存局限性都更高的端側(cè)發(fā)力的關(guān)鍵,讓端側(cè)長文本能力實現(xiàn)從0到1的進(jìn)階。因此,李大海將MiniCPM4.0的發(fā)布定義為“其在模型架構(gòu)設(shè)計、數(shù)據(jù)治理、學(xué)習(xí)方法、軟硬協(xié)同等方面突破的一次集中成果展示,是一次創(chuàng)新的勝利”。
三、端側(cè)應(yīng)用爆發(fā)的基礎(chǔ)設(shè)施革命開啟,重構(gòu)端側(cè)應(yīng)用的場景邊界
從宏觀維度來看,端側(cè)基座模型性能的升級對于產(chǎn)業(yè)發(fā)展有兩方面重大意義。
最直觀的影響就是加速端側(cè)應(yīng)用的爆發(fā)。
基礎(chǔ)模型是一切上層應(yīng)用的發(fā)動機,但如今端側(cè)基座模型并不夠好。李大海將當(dāng)前端側(cè)的基座模型類比為19世紀(jì)的蒸汽機,其雖已在一定程度上產(chǎn)生了改變世界的基因,但效率、可靠性和普適性遠(yuǎn)未達(dá)標(biāo),距離成為推動AI普及的“萬用發(fā)動機”還有一段距離。
因此訓(xùn)練更智能、更好用的端側(cè)模型在當(dāng)下顯得更為迫切。
此外,端側(cè)模型需要更好理解長文本的整體結(jié)構(gòu)和語義才能使其精準(zhǔn)捕捉用戶需求。端側(cè)設(shè)備之上有大量涉及聊天記錄、位置、瀏覽等信息的用戶個人信息,這些信息不僅是模型發(fā)揮強大能力的關(guān)鍵,同時也承載了用戶的私人信息無法上傳到云端,因此長文本對于端側(cè)AI應(yīng)用場景的擴展至關(guān)重要。
MiniCPM4.0的長文本能力就進(jìn)一步擴展了端側(cè)模型部署、應(yīng)用開發(fā)的想象空間。
從更長遠(yuǎn)的視角來看,新行業(yè)發(fā)展機遇的破土而出,向來與技術(shù)創(chuàng)新的迭代演進(jìn)同步,行業(yè)發(fā)展共識與底層創(chuàng)新技術(shù)驅(qū)動相輔相成。
面壁智能在端側(cè)模型領(lǐng)域的布局就是很好的證明,其專注于通過科學(xué)化、成本可控的底層創(chuàng)新。區(qū)別于業(yè)界普遍采用的“大力出奇跡”路線,其從數(shù)據(jù)、訓(xùn)練、學(xué)習(xí)、推理等層層流程,均實現(xiàn)研發(fā)投入產(chǎn)出比的最大化。
上文提到的稀疏注意力研究InfLLM,正是2024年面壁智能與清華大學(xué)NLP實驗室聯(lián)合發(fā)布的研究成果,并在當(dāng)下為產(chǎn)業(yè)創(chuàng)新提供了動力,這一思路就體現(xiàn)到了DeepSeek采用的長文本處理架構(gòu)NSA(Native Sparse Attention)中,二者在稀疏注意力機制的技術(shù)本源上一脈相承。
到如今,在此基礎(chǔ)上面壁智能推出了InfLLM新版本,補齊在短文本推理的短板。
這一從基礎(chǔ)研究突破到工程化改進(jìn),再到不同場景能力擴展的技術(shù)良性循環(huán)閉環(huán),恰是當(dāng)下大模型產(chǎn)業(yè)良性發(fā)展的生動注腳。
更為底層的就是當(dāng)下大模型開源生態(tài)的爆發(fā),李大海透露,面壁智能堅持開源,小鋼炮MiniCPM系列全平臺下載量已累計破1000萬。
而此次伴隨MiniCPM4.0的發(fā)布,其開源屬性進(jìn)一步透明,從參數(shù)、高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)、稀疏加速算子和框架都實現(xiàn)了開源。
在技術(shù)創(chuàng)新與應(yīng)用場景擴展的雙重突圍下,端側(cè)AI的爆發(fā)指日可待。
回溯近兩年來大模型產(chǎn)業(yè)發(fā)展,關(guān)于大模型Scaling Law發(fā)展遇到瓶頸、互聯(lián)網(wǎng)低成本公開可用數(shù)據(jù)即將用盡的爭論頻發(fā),均使得業(yè)界開始重新思考如何實現(xiàn)AGI;今年初DeepSeek V3/R1系列高效模型全球出圈,通過技術(shù)創(chuàng)新推動模型訓(xùn)練和推理成本持續(xù)下降正逐漸成為業(yè)界共識,這些都是端側(cè)AI爆發(fā)的種子。
清華大學(xué)長聘副教授、面壁智能首席科學(xué)家劉知遠(yuǎn)認(rèn)為,智能革命的到來不可能依賴模型越大能力越強的規(guī)模法則(Scaling Law),而要通過技術(shù)創(chuàng)新提升模型能力密度,從而用更低成本構(gòu)建和使用更強智能,實現(xiàn)AI的高質(zhì)量、可持續(xù)發(fā)展。
因此,我們也可以感受到端側(cè)基礎(chǔ)模型在當(dāng)下AI發(fā)展中的重要性。他也大膽發(fā)出預(yù)測:“只要是這個世界上已經(jīng)實現(xiàn)的大模型能力,隨著時間的演進(jìn)和技術(shù)的進(jìn)步,最終都可以在主流終端如PC、手機、汽車或機器人上流暢運行。”
面壁智能正在朝著這一目標(biāo)沖刺。
結(jié)語:端側(cè)智能邁入新時代
面壁智能一直致力于將大模型技術(shù)推向端側(cè),實現(xiàn)高效的端側(cè)智能,新一代面壁小鋼炮模型MiniCPM4.0的發(fā)布更具里程碑意義,其標(biāo)志著端側(cè)智能進(jìn)入全新時代,
基于此,未來我們有望看到更多的智能設(shè)備具備強大的AI能力,伴隨著從消費級終端到行業(yè)解決方案,AI或許可以通過端側(cè)化,真正實現(xiàn)從實驗室到千家萬戶、千行百業(yè)的普惠落地,開啟人機智能協(xié)同的全新時代。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.