99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

蘋果雖遲但到,端側(cè)AI加速爆發(fā)!AI新勢力搶先圈地突圍

0
分享至


智東西
作者 程茜
編輯 漠影

端側(cè)模型的產(chǎn)業(yè)坐標(biāo)系正在被重塑!

一方面,昨日凌晨,AI濃度大大降低的蘋果WWDC中,蘋果智能(Apple Intelligence)正加速融入到系統(tǒng)各個功能中,同時蘋果宣布向所有App開放權(quán)限允許開發(fā)者直接訪問蘋果智能核心的設(shè)備端大語言模型,提出“Foundation Models框架”也引發(fā)了不小的討論;另一方面,上周面壁智能發(fā)新一代面壁小鋼炮MiniCPM4.0端側(cè)模型,0.5B模型性能超Qwen-3-0.6B、以及參數(shù)規(guī)模1B的Llama 3.2、Gemma3


這些可以證明,端側(cè)智能從可用到能用、好用,從技術(shù)概念到人人可及的距離正在被迅速拉近。相比于云端模型,端側(cè)智能以隱私安全、響應(yīng)高效、成本可控、場景適配的天然優(yōu)勢,與我們生活中的硬件設(shè)備緊密相連。

端側(cè)AI變得無處不在的背景下,當(dāng)蘋果以生態(tài)級框架降低端側(cè)AI開發(fā)門檻時,面壁智能MiniCPM4.0的技術(shù)突破更具底層革新價值,進(jìn)一步擊穿了端側(cè)智能的性能天花板

MiniCPM4.0的技術(shù)突破具備何等價值?其在AI應(yīng)用爆發(fā)的當(dāng)下有何重要性?我們將從端側(cè)模型發(fā)展的底層邏輯出發(fā),找到這些問題的答案。

技術(shù)報告:https://arxiv.org/pdf/2506.07900

Github模型下載鏈接:https://github.com/openbmb/minicpm

Huggingface模型下載鏈接:https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b

Model Scope模型下載鏈接:https://www.modelscope.cn/collections/MiniCPM-4-ec015560e8c84d

一、端側(cè)AI發(fā)展已成必然趨勢,技術(shù)創(chuàng)新陷入“增量困境”

端側(cè)模型部署已成為行業(yè)公認(rèn)的技術(shù)趨勢,然而當(dāng)前革命性的技術(shù)創(chuàng)新相對匱乏,且在實際應(yīng)用中面臨推理速度瓶頸、功耗控制難題以及上下文理解能力不足等多重挑戰(zhàn),這會直接影響終端用戶的交互體驗。

蘋果作為智能手機的重要玩家,其這次在WWDC上發(fā)布的Foundation Models框架,背后隱隱折射出端側(cè)AI生態(tài)即將爆發(fā)的趨勢。

Foundation Models框架的作用是讓開發(fā)者將自己的App輕松調(diào)用蘋果智能,實現(xiàn)離線運行、隱私保護且無推理成本,更直觀來說就是開發(fā)者無需支付調(diào)用云端大模型API產(chǎn)生的token費用,用戶亦無需為此支付額外成本。

可以看出,這樣的端側(cè)AI生態(tài)本質(zhì)上可以打破傳統(tǒng)云端AI的“成本-隱私-延遲”三角制約,讓技術(shù)價值在開發(fā)者、用戶等各環(huán)節(jié)實現(xiàn)高效傳導(dǎo)。

與此同時,端側(cè)AI的爆發(fā)亦體現(xiàn)到了設(shè)備覆蓋的廣泛性之上,從智能手機、筆記本電腦到智能汽車,乃至機器人品類,端側(cè)模型部署正全面滲透至各類智能終端場景。

然而,與端側(cè)AI蓬勃發(fā)展的現(xiàn)狀形成鮮明反差的是,在現(xiàn)有技術(shù)路徑下探尋端側(cè)基座模型躍升的突破口仍困難重重,類似DeepSeek在基礎(chǔ)模型領(lǐng)域引發(fā)的現(xiàn)象級突破事件更是鳳毛麟角。

如今參數(shù)規(guī)模小到足以在端側(cè)部署的模型已不在少數(shù),這些模型雖具備基礎(chǔ)的理解與生成能力,但在性能突破方面仍面臨顯著瓶頸。

這與端側(cè)設(shè)備本身的諸多特性有關(guān)。

端側(cè)設(shè)備的一大特征就是電池容量和散熱設(shè)計等硬件架構(gòu)受限,面臨嚴(yán)格的能耗約束,需動態(tài)進(jìn)行功耗管理與分配,且容錯率較云端更低。

再加上為了適配內(nèi)存,端側(cè)模型會通過剪枝、蒸餾等技術(shù)壓縮模型規(guī)模,此舉一定程度上會丟失長序列建模能力,導(dǎo)致多路對話時丟失歷史信息。

在推理速度方面,雖然端側(cè)設(shè)備距離用戶數(shù)據(jù)更近,但其芯片往往會受限于制程工藝和面積,使得典型端側(cè)算力較云端GPU相對較低。

盡管面臨這些現(xiàn)實挑戰(zhàn),但端側(cè)模型的突破,正是當(dāng)下行業(yè)將重點聚焦于AI應(yīng)用之際,使得應(yīng)用爆發(fā)的前提條件之一。正如面壁智能CEO李大海所說,端側(cè)基模是AI時代端側(cè)操作系統(tǒng)級基礎(chǔ)設(shè)施,其能力直接決定上層應(yīng)用的天花板,就像Windows之于PC應(yīng)用、Android之于移動應(yīng)用,沒有強大的基模支撐,上層應(yīng)用就難有突破。

二、首個原生稀疏模型,攻克端側(cè)長文本難題

那么,端側(cè)模型破局的關(guān)鍵突破口究竟在哪?我們可以從上周面壁智能新發(fā)的端側(cè)模型MiniCPM-4可以窺見這個問題的答案之一。

此次面壁智能發(fā)布的MiniCPM4.0共有8B和0.5B兩種參數(shù)規(guī)模,這兩個“以小搏大”的模型關(guān)鍵特性可以用廣泛覆蓋中端場景、長文本登陸端側(cè)、低開銷比肩同規(guī)模模型概括。

具體來看,稀疏注意力模型MiniCPM 4.0-8B,在MMLU、CEval、MATH500、HumanEval等基準(zhǔn)測試中,以22%的訓(xùn)練開銷,性能比肩Qwen-3-8B,超越Gemma-3-12B;MiniCPM 4.0-0.5B則以2.7%的訓(xùn)練開銷,相較Qwen-3-0.6B、1B參數(shù)規(guī)模的Llama 3.2實現(xiàn)了性能翻倍,且通過原生QAT(量化感知訓(xùn)練)技術(shù)實現(xiàn)INT4低精度量化,實現(xiàn)高達(dá)600 Tokens/秒的推理速度。

在128K長文本場景下,MiniCPM 4.0-8B相較于Qwen3-8B僅需1/4緩存存儲空間,量化版實現(xiàn)90%的模型瘦身。在顯存受限極限場景下,8B模型實現(xiàn)長文本推理速度5倍常規(guī)加速以及最高220倍加速

同時為了保證運行流暢,其在注意力機制層面實現(xiàn)高效雙頻動態(tài)換擋,長文本自動激活稀疏計算模式,短文本智能切換稠密計算模式。


為了進(jìn)一步提升端側(cè)長文本的應(yīng)用范圍,面壁智能在8B模型之上微調(diào)出兩個特定能力模型,分別可以用做MCP Client和純端側(cè)性能比肩Deep Research的研究報告神器MiniCPM4-Survey。

值得注意的是,與云端模型處理長文本場景不同,端側(cè)模型要實現(xiàn)同等性能面臨更高技術(shù)挑戰(zhàn),此前堆參數(shù)、堆算力等路線在端側(cè)很難走通,因此技術(shù)創(chuàng)新成為端側(cè)突破瓶頸的核心驅(qū)動力。

面壁智能在架構(gòu)、推理層面的系列創(chuàng)新就驗證了這條路。

從MiniCPM4.0的前綴就可以看出長文本在端側(cè)落地的殺手锏——首個開源原生注意力稀疏模型

模型采用的新一代InfLLMv2稀疏注意力架構(gòu),一改傳統(tǒng)Transformer模型的相關(guān)性計算方式,而是實現(xiàn)分塊分區(qū)域高效“抽查”,即將文本劃分為多個獨立區(qū)域,然后通過智能化選擇機制對最有相關(guān)性的重點區(qū)域進(jìn)行注意力計算“抽查”,可以避免逐字重復(fù)計算,適配于移動端或輕量化部署。


▲InfLLMv2稀疏注意力架構(gòu)

基于更精準(zhǔn)的上下文塊選擇算法、更細(xì)粒度的查詢詞元分組、更高效的算子實現(xiàn),InfLLMv2將稀疏度從行業(yè)普遍的40%-50%降至5%,注意力層僅需1/10的計算量即可完成長文本計算。

另一個殺手锏針對的是推理加速——自研全套端側(cè)高性能推理框架

這同樣是面壁智能系列自研成果的體現(xiàn):CPM.cu自研推理框架、P-GPTQ前綴敏感的模型訓(xùn)練后量化、BitCPM極致低位寬量化、ArkInfer自研跨平臺部署框架等,欲補齊端側(cè)推理加速的每一塊短板。


大模型部署時要考慮計算與內(nèi)存消耗難題,同時端側(cè)芯片碎片化會導(dǎo)致多平臺適配與部署工程痛點。

在此基礎(chǔ)上,面壁智能專為端側(cè)英偉達(dá)芯片優(yōu)化了自研輕量化推理框架CPM.cu,能集成靜態(tài)內(nèi)存管理、算子融合、高效投機采樣、前綴敏感的量化算法等多種能力,高效組合稀疏、投機、量化的同時,實現(xiàn)5倍速度提升;同時采用P-GPTQ和BitCPM三值量化方法,以進(jìn)一步優(yōu)化資源消耗。


▲輕量化推理框架CPM.cu

對于芯片碎片化帶來的復(fù)雜模型適配和部署過程,面壁智能提出的ArkInfer引入跨平臺兼容的架構(gòu)設(shè)計、可復(fù)用且高效的推測采樣與約束解碼方案、可擴展的模型庫前端等解決方案。

總的來看,從投機采樣、模型壓縮量化到端側(cè)部署框架,無一不是面壁智能在算力、內(nèi)存局限性都更高的端側(cè)發(fā)力的關(guān)鍵,讓端側(cè)長文本能力實現(xiàn)從0到1的進(jìn)階。因此,李大海將MiniCPM4.0的發(fā)布定義為“其在模型架構(gòu)設(shè)計、數(shù)據(jù)治理、學(xué)習(xí)方法、軟硬協(xié)同等方面突破的一次集中成果展示,是一次創(chuàng)新的勝利”。

三、端側(cè)應(yīng)用爆發(fā)的基礎(chǔ)設(shè)施革命開啟,重構(gòu)端側(cè)應(yīng)用的場景邊界

從宏觀維度來看,端側(cè)基座模型性能的升級對于產(chǎn)業(yè)發(fā)展有兩方面重大意義。

最直觀的影響就是加速端側(cè)應(yīng)用的爆發(fā)

基礎(chǔ)模型是一切上層應(yīng)用的發(fā)動機,但如今端側(cè)基座模型并不夠好。李大海將當(dāng)前端側(cè)的基座模型類比為19世紀(jì)的蒸汽機,其雖已在一定程度上產(chǎn)生了改變世界的基因,但效率、可靠性和普適性遠(yuǎn)未達(dá)標(biāo),距離成為推動AI普及的“萬用發(fā)動機”還有一段距離。

因此訓(xùn)練更智能、更好用的端側(cè)模型在當(dāng)下顯得更為迫切。

此外,端側(cè)模型需要更好理解長文本的整體結(jié)構(gòu)和語義才能使其精準(zhǔn)捕捉用戶需求。端側(cè)設(shè)備之上有大量涉及聊天記錄、位置、瀏覽等信息的用戶個人信息,這些信息不僅是模型發(fā)揮強大能力的關(guān)鍵,同時也承載了用戶的私人信息無法上傳到云端,因此長文本對于端側(cè)AI應(yīng)用場景的擴展至關(guān)重要。

MiniCPM4.0的長文本能力就進(jìn)一步擴展了端側(cè)模型部署、應(yīng)用開發(fā)的想象空間。

從更長遠(yuǎn)的視角來看,新行業(yè)發(fā)展機遇的破土而出,向來與技術(shù)創(chuàng)新的迭代演進(jìn)同步,行業(yè)發(fā)展共識與底層創(chuàng)新技術(shù)驅(qū)動相輔相成

面壁智能在端側(cè)模型領(lǐng)域的布局就是很好的證明,其專注于通過科學(xué)化、成本可控的底層創(chuàng)新。區(qū)別于業(yè)界普遍采用的“大力出奇跡”路線,其從數(shù)據(jù)、訓(xùn)練、學(xué)習(xí)、推理等層層流程,均實現(xiàn)研發(fā)投入產(chǎn)出比的最大化。


上文提到的稀疏注意力研究InfLLM,正是2024年面壁智能與清華大學(xué)NLP實驗室聯(lián)合發(fā)布的研究成果,并在當(dāng)下為產(chǎn)業(yè)創(chuàng)新提供了動力,這一思路就體現(xiàn)到了DeepSeek采用的長文本處理架構(gòu)NSA(Native Sparse Attention)中,二者在稀疏注意力機制的技術(shù)本源上一脈相承。

到如今,在此基礎(chǔ)上面壁智能推出了InfLLM新版本,補齊在短文本推理的短板。

這一從基礎(chǔ)研究突破到工程化改進(jìn),再到不同場景能力擴展的技術(shù)良性循環(huán)閉環(huán),恰是當(dāng)下大模型產(chǎn)業(yè)良性發(fā)展的生動注腳。

更為底層的就是當(dāng)下大模型開源生態(tài)的爆發(fā),李大海透露,面壁智能堅持開源,小鋼炮MiniCPM系列全平臺下載量已累計破1000萬

而此次伴隨MiniCPM4.0的發(fā)布,其開源屬性進(jìn)一步透明,從參數(shù)、高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)、稀疏加速算子和框架都實現(xiàn)了開源。

在技術(shù)創(chuàng)新與應(yīng)用場景擴展的雙重突圍下,端側(cè)AI的爆發(fā)指日可待。

回溯近兩年來大模型產(chǎn)業(yè)發(fā)展,關(guān)于大模型Scaling Law發(fā)展遇到瓶頸、互聯(lián)網(wǎng)低成本公開可用數(shù)據(jù)即將用盡的爭論頻發(fā),均使得業(yè)界開始重新思考如何實現(xiàn)AGI;今年初DeepSeek V3/R1系列高效模型全球出圈,通過技術(shù)創(chuàng)新推動模型訓(xùn)練和推理成本持續(xù)下降正逐漸成為業(yè)界共識,這些都是端側(cè)AI爆發(fā)的種子。

清華大學(xué)長聘副教授、面壁智能首席科學(xué)家劉知遠(yuǎn)認(rèn)為,智能革命的到來不可能依賴模型越大能力越強的規(guī)模法則(Scaling Law),而要通過技術(shù)創(chuàng)新提升模型能力密度,從而用更低成本構(gòu)建和使用更強智能,實現(xiàn)AI的高質(zhì)量、可持續(xù)發(fā)展

因此,我們也可以感受到端側(cè)基礎(chǔ)模型在當(dāng)下AI發(fā)展中的重要性。他也大膽發(fā)出預(yù)測:“只要是這個世界上已經(jīng)實現(xiàn)的大模型能力,隨著時間的演進(jìn)和技術(shù)的進(jìn)步,最終都可以在主流終端如PC、手機、汽車或機器人上流暢運行。”

面壁智能正在朝著這一目標(biāo)沖刺。

結(jié)語:端側(cè)智能邁入新時代

面壁智能一直致力于將大模型技術(shù)推向端側(cè),實現(xiàn)高效的端側(cè)智能,新一代面壁小鋼炮模型MiniCPM4.0的發(fā)布更具里程碑意義,其標(biāo)志著端側(cè)智能進(jìn)入全新時代,

基于此,未來我們有望看到更多的智能設(shè)備具備強大的AI能力,伴隨著從消費級終端到行業(yè)解決方案,AI或許可以通過端側(cè)化,真正實現(xiàn)從實驗室到千家萬戶、千行百業(yè)的普惠落地,開啟人機智能協(xié)同的全新時代。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中央明確:黨員干部,這些禮不能收送!

中央明確:黨員干部,這些禮不能收送!

未央看點
2025-06-23 02:15:37
偉偉道來| 美國鉆地彈炸開了戰(zhàn)爭之門,還是炸開了談判大門?

偉偉道來| 美國鉆地彈炸開了戰(zhàn)爭之門,還是炸開了談判大門?

經(jīng)濟觀察報
2025-06-23 10:51:08
全新天籟渲染圖曝光:轎跑風(fēng)、豪華內(nèi)飾,節(jié)能又省油!

全新天籟渲染圖曝光:轎跑風(fēng)、豪華內(nèi)飾,節(jié)能又省油!

車談怪杰
2025-06-23 07:44:06
你遇到過超級主動的女生是啥樣?網(wǎng)友:為什么沒有女人主動接近我

你遇到過超級主動的女生是啥樣?網(wǎng)友:為什么沒有女人主動接近我

娛樂圈人物大賞
2025-04-10 00:30:23
張含韻今日更新動態(tài)附文:今年新疆kpi,陸續(xù)達(dá)成

張含韻今日更新動態(tài)附文:今年新疆kpi,陸續(xù)達(dá)成

情感大頭說說
2025-06-23 17:48:42
絕不向中國低頭!寧愿裁員9000人公司破產(chǎn),也不接受中國的幫助?

絕不向中國低頭!寧愿裁員9000人公司破產(chǎn),也不接受中國的幫助?

近史博覽
2025-06-23 11:47:33
哈利伯頓拒絕離開!拄拐挨個抱隊友,跟兄弟們一起哭泣落淚太悲壯

哈利伯頓拒絕離開!拄拐挨個抱隊友,跟兄弟們一起哭泣落淚太悲壯

嘴炮體壇
2025-06-23 11:35:22
沖刺開業(yè),已在招商!王思聰選擇退出,此前官宣總投資37億元,還和市委書記面談!何猷君接盤,他將王思聰視作榜樣

沖刺開業(yè),已在招商!王思聰選擇退出,此前官宣總投資37億元,還和市委書記面談!何猷君接盤,他將王思聰視作榜樣

每日經(jīng)濟新聞
2025-06-23 11:51:09
紀(jì)實:69歲老太被3個15歲少年強奸,荒唐無比的真相,讓3個家庭毀了

紀(jì)實:69歲老太被3個15歲少年強奸,荒唐無比的真相,讓3個家庭毀了

談史論天地
2025-06-23 08:50:03
空襲伊朗,美軍欺騙了全世界!

空襲伊朗,美軍欺騙了全世界!

樞密院十號
2025-06-22 23:05:07
馬斯克怒批特朗普,他犯下兩戰(zhàn)略錯誤,其中一個幫了中國大忙!

馬斯克怒批特朗普,他犯下兩戰(zhàn)略錯誤,其中一個幫了中國大忙!

萬芝
2025-06-23 20:19:23
兩岸統(tǒng)一喜訊!沒等我軍出手,關(guān)鍵時刻,大陸收到一份“大禮”

兩岸統(tǒng)一喜訊!沒等我軍出手,關(guān)鍵時刻,大陸收到一份“大禮”

熒惑手心
2025-06-23 09:09:28
為期6個月!廣西正嚴(yán)打這些行為!涉及電動自行車

為期6個月!廣西正嚴(yán)打這些行為!涉及電動自行車

天氣觀察站
2025-06-23 16:36:30
女籃宮魯鳴主教練召回李夢歸隊是明智之舉 是大局意識觀的體現(xiàn)

女籃宮魯鳴主教練召回李夢歸隊是明智之舉 是大局意識觀的體現(xiàn)

kio魚
2025-06-23 00:05:15
絕不向中國低頭!寧愿裁員9000人公司破產(chǎn),也不接受中國的幫助?

絕不向中國低頭!寧愿裁員9000人公司破產(chǎn),也不接受中國的幫助?

小舟談歷史
2025-06-23 20:33:22
中美差距真相:這組數(shù)據(jù)讓14億人徹底清醒!

中美差距真相:這組數(shù)據(jù)讓14億人徹底清醒!

健身狂人
2025-06-23 04:15:02
雷軍談小米首款SUV不做6座:“彩電冰箱大沙發(fā)”很重要,駕駛體驗也應(yīng)被關(guān)注

雷軍談小米首款SUV不做6座:“彩電冰箱大沙發(fā)”很重要,駕駛體驗也應(yīng)被關(guān)注

界面新聞
2025-06-23 12:34:24
意媒:曼聯(lián)考慮支付5200萬解約金簽小基恩,本賽季已多次考察球員

意媒:曼聯(lián)考慮支付5200萬解約金簽小基恩,本賽季已多次考察球員

雷速體育
2025-06-23 21:16:28
香港鄭氏家族,靜待875億救命錢

香港鄭氏家族,靜待875億救命錢

21世紀(jì)商業(yè)評論
2025-06-23 23:36:17
毫無遮掩!杜蘭特:火箭是我點名要去的球隊,離開太陽對大家都好

毫無遮掩!杜蘭特:火箭是我點名要去的球隊,離開太陽對大家都好

移動擋拆
2025-06-24 00:25:02
2025-06-24 01:47:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
10056文章數(shù) 116781關(guān)注度
往期回顧 全部

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國有 但掏空了老本

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國有 但掏空了老本

體育要聞

比起雷霆三少,他才是真正隊魂

娛樂要聞

魏大勛和秦嵐沒分手!

財經(jīng)要聞

以伊沖突升級,對經(jīng)濟和股市影響有多大?

汽車要聞

真香價格+質(zhì)保承諾 別克E5很難讓人拒絕了

態(tài)度原創(chuàng)

教育
時尚
旅游
藝術(shù)
家居

教育要聞

老師解答難題時,全班同學(xué)認(rèn)真聽講,教室里充滿了求知的欲望

“章子怡挨打”背后的她更令人驚心

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

山水之間 墨染風(fēng)雨云間

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 清水县| 泰州市| 青州市| 柯坪县| 儋州市| 上思县| 青河县| 将乐县| 新乡县| 体育| 清水县| 乌兰察布市| 南雄市| 古交市| 安阳市| 临高县| 泰安市| 新兴县| 伊宁市| 独山县| 卓尼县| 河曲县| 衡水市| 奎屯市| 凌云县| 枣庄市| 连云港市| 出国| 错那县| 平南县| 芦溪县| 姜堰市| 麦盖提县| 黔江区| 泰安市| 文化| 蓬安县| 霞浦县| 道真| 大关县| 枣阳市|