網易首頁 > 網易號 > 正文申請入駐

蘋果在WWDC提到的本地模型，這家公司把它提速了220倍

2025-06-10 21:27:16　來源: AI進化論花生

北京舉報

分享至

你有沒有注意到，在昨晚的蘋果WWDC大會上，除了褒貶不一的新iOS系統之外，整個資本市場和開發者們真正關注的都是，蘋果下一代系統和AI之間的關系會是什么樣的。

蘋果也確實給出了他們的答案，簡單來說就是：蘋果正式開放了本地語言模型的API。

是的，那一刻起，我們手上的iPhone，不再只是一個拍照好、生態強的消費電子產品，而是真正擁有了“AI大腦”的能力。

但很快你會發現，即便蘋果這次開放的本地模型性能對標GPT-3.5，開發者要真正在端側跑起來AI應用，仍然會遇到一個老問題：慢。不只是模型體積問題，更是推理速度不夠快，尤其在處理長文本任務時，性能掉得厲害。

然而，就在幾乎同一時間，一家國產AI團隊發布了一個性能驚人的新模型——MiniCPM 4.0。他們在端側處理128K長文本時，實現了常規場景5倍提速，解碼速度最高220倍提升，并且開源了。

本地模型的黃金時代正在開啟

我們都知道云端大模型雖然強大，但也貴得離譜，AI創業者經常要面對這樣一個選擇：

用云端大模型，用戶體驗好，但成本跟著調用次數線性上漲，越火越虧錢；
用云端低成本模型，雖然能控成本，但要么模型效果差，要么依然無法解決本地運行的隱私問題，用戶留不住。

本地模型（也叫“端側模型”）則是這一局博弈中的“第三條路”：

響應快：所有計算本地完成，沒有網絡延遲。
更安全：隱私數據不出設備，天然符合合規要求。
不花錢：開發者不再為每次調用買單，邊際成本幾乎為零。

蘋果這次的發布就是在推這件事：把基礎模型塞進每臺iPhone、iPad、Mac里，直接變成AI開發的“新基建”。而這對模型廠商來說，意味著一個億級設備體量的新戰場已經打開。

MiniCPM 4.0

說回MiniCPM 4.0，它來自一家名叫面壁智能的團隊，專注做端側模型已經很多年，這次他們做出了一個極具想象力的“小鋼炮”。

在極限場景下，MiniCPM 4.0的長文本推理速度可以實現最快220倍提升，常規場景下也有5倍提速。對于端側設備來說，這不是性能優化，這是質變：

以前手機只能做簡單問答，現在可以一秒內讀懂整篇論文、分析代碼，真正成為生產力工具；
原本AI對話還會卡頓，現在你點一下模型就瞬間回你；
不需要聯網，不依賴云端，你自己的AI，離你更近了。

提速背后的秘密

要在手機、PC等端側設備上實現這么夸張的提速，我覺得實在是有點離譜，所以我很好奇MiniCPM是怎么做到的，國產大模型公司怎么會有那么多“黑科技”。

所以，為了搞懂這件事，我把面壁這次隨模型發布的43頁開源論文《MiniCPM4: Ultra-EfficientLLMson End Devices》丟給了AI，嘗試進行理解。我覺得用一句話概括就是：不是簡單“減肥”，而是“系統級瘦身 + 增強”。

他們的速度升級來自四個層面的創新：

架構層：采用升級版的稀疏注意力機制 InfLLM v2，只計算最相關的信息，大幅減少計算量；
訓練層：只用同類模型22%的訓練數據，就達到了相當甚至更強的能力；
推理層：自研 CPM.cu 推理框架，結合量化、投機解碼等技術，實現了輕量級、低延遲的本地運行；
系統層：通過 ArkInfer 框架，實現跨平臺端側部署，適配主流芯片，如高通、華為、Intel等。

這里可以特別說一句：雖然蘋果開放了模型API，但真正要把模型“跑起來”，一個高效穩定的推理框架幾乎是剛需。而這類框架在開源社區中其實非常稀缺。面壁這次隨MiniCPM 4.0一起開源的ArkInfer和CPM.cu組合，恰好補上了這個缺口——不僅跑得快、平臺適配廣，而且開發門檻低，幾行代碼就能部署到端側，這對于開發者來說是非常實用的“剛需型工具”。

簡單來說，這不是靠“堆GPU”搞出來的，而是像F1賽車一樣，每一寸系統都在為效率而生。

不止是“快”

AI開發者會知道，這種從“幾秒”到“幾百毫秒”的體驗提升，會引發三個重要變化：

首先，用AI交互變得說話一樣順暢，無論是旅行場景下的實時翻譯、智能助理還是游戲NPC，瞬時響應會成為“標配體驗”；

其次，更多AI任務可以本地完成，比如信息摘要、文檔寫作、代碼生成，對于現在少了AI幾乎就不會做任何工作的我來說，坐飛機、高鐵等網絡不穩定的場景下，我也能工作了；

最后是開發者生態被重新激活，未來不僅是手機App，還有無數穿戴設備、邊緣終端，都可以跑得動自己的AI。以我自己來說，雖然我已經用AI開發了很多產品，但少有AI產品，因為做有AI功能的產品面臨的最直接的問題就是成本問題，你需要能保證你提供的產品價值能覆蓋調用的AI API成本，而且你需要思考清楚商業策略讓用戶愿意付費，這期是難倒了一大批的獨立開發者，也會讓你做產品時很難抉擇，但是端側模型的“0成本”調用完全可以解放這部分估計，你只需要去想象創新的可能就好了。

AI在你手上

蘋果率先提供了端側AI的舞臺（估計Google為安卓系統提供的模型也快趕上了），而MiniCPM 4.0讓我們看到真正能“跑起來”的主角長什么樣。

隨著模型越來越高效、部署越來越便捷，我們正站在一個新階段的門口：

AI不再只是“線上服務”，而是像操作系統、電池一樣，成為每臺設備的內建能力。

就像智能手機點燃了App經濟那樣，下一輪AI浪潮，將由“跑得動”、“用得上”、“快到飛起”的端側模型引爆。

而MiniCPM 4.0，就是那臺準備好沖線的“AI小鋼炮”。

如果你是開發者，強烈推薦去 GitHub 看看這款模型的表現；這是個從模型參數到預訓練數據集，再到端側推理框架都開源的真開源模型；

如果你是AI產品創業者，不妨考慮下下一版是不是可以用端側方案來做出點“爽感”不一樣的體驗；

畢竟，在今天的大模型時代，“快”從來不是一個小指標，它可能是一整個產品邏輯的起點。

MiniCPM GitHub鏈接：https://github.com/OpenBMB/MiniCPM

Huggingface鏈接：https://huggingface.co/openbmb/MiniCPM4-8B

43頁開源論文：https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf

https://arxiv.org/pdf/2506.07900

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.