你有沒有注意到,在昨晚的蘋果WWDC大會上,除了褒貶不一的新iOS系統之外,整個資本市場和開發者們真正關注的都是,蘋果下一代系統和AI之間的關系會是什么樣的。
蘋果也確實給出了他們的答案,簡單來說就是:蘋果正式開放了本地語言模型的API。
是的,那一刻起,我們手上的iPhone,不再只是一個拍照好、生態強的消費電子產品,而是真正擁有了“AI大腦”的能力。
但很快你會發現,即便蘋果這次開放的本地模型性能對標GPT-3.5,開發者要真正在端側跑起來AI應用,仍然會遇到一個老問題:慢。不只是模型體積問題,更是推理速度不夠快,尤其在處理長文本任務時,性能掉得厲害。
然而,就在幾乎同一時間,一家國產AI團隊發布了一個性能驚人的新模型——MiniCPM 4.0。他們在端側處理128K長文本時,實現了常規場景5倍提速,解碼速度最高220倍提升,并且開源了。
本地模型的黃金時代正在開啟
我們都知道云端大模型雖然強大,但也貴得離譜,AI創業者經常要面對這樣一個選擇:
用云端大模型,用戶體驗好,但成本跟著調用次數線性上漲,越火越虧錢;
用云端低成本模型,雖然能控成本,但要么模型效果差,要么依然無法解決本地運行的隱私問題,用戶留不住。
本地模型(也叫“端側模型”)則是這一局博弈中的“第三條路”:
響應快:所有計算本地完成,沒有網絡延遲。
更安全:隱私數據不出設備,天然符合合規要求。
不花錢:開發者不再為每次調用買單,邊際成本幾乎為零。
蘋果這次的發布就是在推這件事:把基礎模型塞進每臺iPhone、iPad、Mac里,直接變成AI開發的“新基建”。而這對模型廠商來說,意味著一個億級設備體量的新戰場已經打開。
MiniCPM 4.0
說回MiniCPM 4.0,它來自一家名叫面壁智能的團隊,專注做端側模型已經很多年,這次他們做出了一個極具想象力的“小鋼炮”。
在極限場景下,MiniCPM 4.0的長文本推理速度可以實現最快220倍提升,常規場景下也有5倍提速。對于端側設備來說,這不是性能優化,這是質變:
以前手機只能做簡單問答,現在可以一秒內讀懂整篇論文、分析代碼,真正成為生產力工具;
原本AI對話還會卡頓,現在你點一下模型就瞬間回你;
不需要聯網,不依賴云端,你自己的AI,離你更近了。
提速背后的秘密
要在手機、PC等端側設備上實現這么夸張的提速,我覺得實在是有點離譜,所以我很好奇MiniCPM是怎么做到的,國產大模型公司怎么會有那么多“黑科技”。
所以,為了搞懂這件事,我把面壁這次隨模型發布的43頁開源論文《MiniCPM4: Ultra-EfficientLLMson End Devices》丟給了AI,嘗試進行理解。我覺得用一句話概括就是:不是簡單“減肥”,而是“系統級瘦身 + 增強”。
他們的速度升級來自四個層面的創新:
架構層:采用升級版的稀疏注意力機制 InfLLM v2,只計算最相關的信息,大幅減少計算量;
訓練層:只用同類模型22%的訓練數據,就達到了相當甚至更強的能力;
推理層:自研 CPM.cu 推理框架,結合量化、投機解碼等技術,實現了輕量級、低延遲的本地運行;
系統層:通過 ArkInfer 框架,實現跨平臺端側部署,適配主流芯片,如高通、華為、Intel等。
這里可以特別說一句:雖然蘋果開放了模型API,但真正要把模型“跑起來”,一個高效穩定的推理框架幾乎是剛需。而這類框架在開源社區中其實非常稀缺。面壁這次隨MiniCPM 4.0一起開源的ArkInfer和CPM.cu組合,恰好補上了這個缺口——不僅跑得快、平臺適配廣,而且開發門檻低,幾行代碼就能部署到端側,這對于開發者來說是非常實用的“剛需型工具”。
簡單來說,這不是靠“堆GPU”搞出來的,而是像F1賽車一樣,每一寸系統都在為效率而生。
不止是“快”
AI開發者會知道,這種從“幾秒”到“幾百毫秒”的體驗提升,會引發三個重要變化:
首先,用AI交互變得說話一樣順暢,無論是旅行場景下的實時翻譯、智能助理還是游戲NPC,瞬時響應會成為“標配體驗”;
其次,更多AI任務可以本地完成,比如信息摘要、文檔寫作、代碼生成,對于現在少了AI幾乎就不會做任何工作的我來說,坐飛機、高鐵等網絡不穩定的場景下,我也能工作了;
最后是開發者生態被重新激活,未來不僅是手機App,還有無數穿戴設備、邊緣終端,都可以跑得動自己的AI。以我自己來說,雖然我已經用AI開發了很多產品,但少有AI產品,因為做有AI功能的產品面臨的最直接的問題就是成本問題,你需要能保證你提供的產品價值能覆蓋調用的AI API成本,而且你需要思考清楚商業策略讓用戶愿意付費,這期是難倒了一大批的獨立開發者,也會讓你做產品時很難抉擇,但是端側模型的“0成本”調用完全可以解放這部分估計,你只需要去想象創新的可能就好了。
AI在你手上
蘋果率先提供了端側AI的舞臺(估計Google為安卓系統提供的模型也快趕上了),而MiniCPM 4.0讓我們看到真正能“跑起來”的主角長什么樣。
隨著模型越來越高效、部署越來越便捷,我們正站在一個新階段的門口:
AI不再只是“線上服務”,而是像操作系統、電池一樣,成為每臺設備的內建能力。
就像智能手機點燃了App經濟那樣,下一輪AI浪潮,將由“跑得動”、“用得上”、“快到飛起”的端側模型引爆。
而MiniCPM 4.0,就是那臺準備好沖線的“AI小鋼炮”。
如果你是開發者,強烈推薦去 GitHub 看看這款模型的表現;這是個從模型參數到預訓練數據集,再到端側推理框架都開源的真開源模型;
如果你是AI產品創業者,不妨考慮下下一版是不是可以用端側方案來做出點“爽感”不一樣的體驗;
畢竟,在今天的大模型時代,“快”從來不是一個小指標,它可能是一整個產品邏輯的起點。
MiniCPM GitHub鏈接:https://github.com/OpenBMB/MiniCPM
Huggingface鏈接:https://huggingface.co/openbmb/MiniCPM4-8B
43頁開源論文:https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf
https://arxiv.org/pdf/2506.07900
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.