網易首頁 > 網易號 > 正文申請入駐

0.5B以小搏大拿下端側新SOTA：長文本處理5倍常規加速丨清華&面壁

2025-06-10 15:44:34　來源: 量子位

北京舉報

分享至

清華大學&面壁智能投稿
量子位 | 公眾號 QbitAI

端側性價比之王，清華大學和面壁智能團隊開源新模型——

MiniCPM 4，提供8B、0.5B兩種參數規模，僅使用同級別開源模型22%的訓練開銷，就達到了同級別最優性能。

MiniCPM4-8B是開源首個開源的原生稀疏模型，5%的極高稀疏度加持，讓長文本、深思考在端側真正跑起來。

在MMLU、CEval、MATH500、HumanEval等基準測試中，以僅22%的訓練開銷，性能比肩 Qwen-3-8B，超越Gemma-3-12B。

MiniCPM4-0.5B在性能上，也展現出以小博大——在MMLU、CEval、BBH、HumanEval等基準測試中，MiniCPM4.0 -0.5B性能超越同級的Qwen-3-0.6B、Llama 3.2、Gemma3，并通過原生QAT技術實現幾乎不掉點的int4量化以及600Token/s的極速推理速度。

在常見端側芯片，比如Jetson AGX Orin與RTX 4090上，MiniCPM 4可實現長文本處理的5倍常規加速與極限場景下的百倍加速。

視頻鏈接：https://mp.weixin.qq.com/s/_d8yEfpkaqULxir6M3Wo2Q

目前團隊已公開發布技術報告，該模型在模型架構、推理系統、數據治理與訓練算法四個層面進行了系統級創新。

以下是技術詳情。

模型架構：InfLLM v2原生稀疏注意力模型

隨著大語言模型在長上下文處理（例如DeepResearch、倉庫級代碼理解與生成）和深度思考能力方面的廣泛應用，模型理解和生成長序列的需求變得愈發重要。

然而，自注意力機制高昂的計算和存儲開銷為在端側設備上高效處理長文檔帶來了重大挑戰。為此，MiniCPM4中采用了一種高效稀疏注意力架構，InfLLM v2，在保持模型性能的同時實現高效的長上下文處理。

面向不斷增長的高效處理長序列的需求，當前許多研究致力于設計免訓練的稀疏注意力機制，以動態選擇相關的上下文詞元進行長上下文處理。

然而，這些訓練方法由于稀疏性不夠理想，只能應用于預填充加速階段。

最近，Kimi MoBA和DeepSeek NSA在預訓練階段應用稀疏注意力來提升稀疏注意力模型的性能。但是，MoBA采用查詢塊設計，無法在解碼階段實現加速。

此外，根據團隊的觀察，相鄰詞元之間的相關上下文通常差異很大。因此，強制相鄰標記共享相同上下文可能導致次優性能，同時注意力的稀疏性也無法得到改善。NSA引入了三種不同的注意力組件來捕獲長距離信息，但這些額外的注意力組件會增加參數量，導致短序列的計算開銷增加，并使預訓練階段的鍵值存儲成本增加三倍。

為解決以上問題，基于稀疏注意力模型InfLLM，MiniCPM4設計了一種可訓練的稀疏注意力InfLLM v2，以降低預填充和解碼階段的計算和內存訪問成本。

InfLLM v2不會為注意力層引入額外參數，并在短序列處理中使用原始稠密注意力機制，因此短序列的推理速度不會受到影響。

此外，InfLLM v2設計了一種高效的Top-K上下文塊選擇方法，相比NSA可減少60%上下文選擇過程中的計算成本。

具體而言，在2024年2月，清華大學就提出了InfLLM算法。

傳統稠密注意力計算過程，每個詞元都需要與過往所有詞元進行逐一的相關性計算，帶來了巨大的計算與訪存開銷。

因此，為避免逐詞元的計算與訪問，InfLLM提出將上下文進行分塊分區域處理。

注意力層進行計算之前，對每個查詢詞元逐塊地進行上下文相關性計算，并選取少量最相關的上下文塊參與最終的注意力計算。即實現了注意力層的智能化選擇機制，只對最有相關性的重點區域進行注意力計算“抽查”。

InfLLM是一種免訓練的動態稀疏注意力機制，能夠被應用于所有的Transformer架構模型中實現長文本推理加速。

MiniCPM4中對InfLLM 算法進行進一步的改進，實現了稀疏度更高、能夠同時加速預填充與解碼階段的原生稀疏注意力機制 InfLLM v2：

1）更精準的上下文塊選擇算法：

在InfLLM中，每個上下文塊由少量代表元構成單一的語義表示。InfLLM v2引入了細粒度語義核的概念，每個上下文塊由多個細粒度語義核構成。查詢詞元與上下文塊的相關性分數為查詢詞元與該上下文塊中包含的所有語義核相關性分數最大值。該方法使得模型能夠更精準地選擇上下文塊。

2）更細粒度的查詢詞元分組：

InfLLM在預填充階段將多個查詢詞元分成一組，使該組內所有查詢詞元選擇相同的上下文塊進行注意力計算。該方法會造成模型訓練與推理的不統一。InfLLM v2中采用了更細粒度的查詢詞元分組——要求Grouped Query Attention中每組查詢頭共享相同的上下文塊。該劃分在保證了底層算子高效實現的同時，提升了模型上下文選擇的準確性。

3）更高效的算子實現：

為了InfLLM v2能夠在訓練與推理過程中充分發揮其理論加速優勢，MiniCPM4開發并開源了InfLLM v2的高效訓練與推理算子。同時，為了能夠快速地選取TopK上下文塊，MiniCPM4中提出了一種高效的LogSumExp估計算法。相比于DeepSeek NSA算法，MiniCPM4中采用的TopK上下文選擇方法，能夠節省60%的計算開銷。

推理高效：端側高性能推理與部署框架

由于移動設備和個人電腦等端側設備在計算和存儲容量方面存在嚴格限制，如何在有限的硬件資源下實現大語言模型的高效推理已成為關鍵技術挑戰。

為此，MiniCPM4中構建了輕量化高效的CUDA推理框架CPM.cu與跨平臺部署框架ArkInfer。

CPM.cu：輕量化高效CUDA推理框架

為了能夠讓MiniCPM4充分釋放速度潛力，團隊開發了一個專為端側NVIDIA芯片優化的輕量化推理框架，CPM.cu。

除了靜態內存管理和算子融合等基礎功能外，還實現了高效的投機采樣、前綴敏感的量化算法，并為InfLLM v2集成了高效的稀疏注意力算子。

FR-Spec：面向草稿模型的詞表剪枝

投機采樣是加速大模型推理速度的關鍵技術之一。

投機采樣采用“草稿-驗證”的范式，由輕量化的草稿模型生成候選詞元序列，然后由目標大模型并行驗證。

通過設計針對樹狀投機采樣的高效注意力算子并實現驗證過程的融合算子，團隊極大優化了投機采樣算法的速度。

基于該框架，團隊發現端側模型投機采樣的效率瓶頸在于草稿模型的語言模型輸出頭。

為解決這一問題，他們提出了FR-Spec，通過基于詞元出現頻率對草稿模型的輸出詞表進行剪枝，同時保留目標模型的完整詞表以保持其生成正確性。

FR-Spec利用了自然語言中詞元頻率分布的長尾特性——少數高頻詞元承載了絕大部分的語言信息。

通過將草稿模型的搜索范圍限定在按頻率排序的核心詞元子集內，FR-Spec成功將語言模型的輸出頭的計算開銷降低了75%，同時嚴格保證了驗證過程的數學等價性和最終輸出分布的準確性。

相比于原始模型，FR-Spec可以帶來2+倍的生成加速。

P-GPTQ：前綴敏感的模型訓練后量化

隨著大模型參數規模的不斷擴大，模型量化已成為實現端側部署的關鍵技術。

通過將模型參數與激活從高精度浮點數轉換為低精度整數表示，量化技術能夠顯著降低模型的存儲需求，使大模型能夠在資源受限的端側設備上高效運行。

針對端側部署中權重和激活同時量化的需求，MiniCPM4開發了前綴感知的GPTQ（P-GPTQ）方法。

該方法基于一個關鍵觀察：大模型在初始詞元位置存在顯著的激活異常值，這些異常值不僅影響激活的量化質量，還會在權重量化校準過程中引入統計偏差。

P-GPTQ的核心思想是在量化過程的Hessian矩陣計算時排除初始詞元的干擾。

實證分析發現，大模型初始位置的激活幅度比后續詞元大10倍，將嚴重影響協方差運算。MiniCPM4采用位置感知的校準策略，僅使用從第4個位置開始的穩定詞元進行量化參數計算，有效消除了初始詞元帶來的統計偏差。

該方法與現有量化技術（如Quarot旋轉方法和AWQ平滑方法）完全兼容，可無縫集成到現有量化流水線中。

實驗結果表明，在INT4量化設置下，P-GPTQ相比其他量化方法取得了最優性能，顯著減少了相對于FP16基線的性能退化。

投機采樣、量化算法、長文本處理算法的有機融合

在MiniCPM4中，團隊使用了多種加速算法。為了能夠使得投機采樣、量化、長文本處理算法能夠有機融合，團隊系統性地研究了加速算法的融合方法。

目標模型量化：在前序的研究SpecMQuant中，團隊發現量化會改變投機采樣的最優配置策略。當目標模型使用W4A16量化后，由于內存訪問瓶頸的緩解，驗證時間相對于解碼時間的增長更快，因此需要使用更少的草稿詞元來維持最佳的加速比。這一發現為量化模型的投機采樣提供了重要的配置指導。

草稿模型量化：團隊進一步對草稿模型應用量化技術，使草稿生成過程更加高效。針對傳統量化方法在草稿模型上導致接受率大幅下降的問題，采用了量化感知的后訓練方法，成功保持了投機采樣過程的平均接受長度。
長上下文場景優化：對于長上下文應用，實現了InfLLM v2稀疏注意力內核來支持目標模型的高效處理，并通過構建局部注意力掩碼和位打包技術支持樹形草稿驗證。同時，為草稿模型引入滑動窗口注意力機制，既最大程度減少了首詞元延遲的影響，又提高了草稿生成的準確性，有效解決了長上下文場景下的性能瓶頸。

ArkInfer：跨平臺部署系統

除了有限的計算資源挑戰外，端側芯片的碎片化是另一個重大障礙。

芯片碎片化要求每次發布新模型時，都需要將模型適配到多個平臺和芯片類型，導致復雜的適配和部署過程，這帶來了巨大的工程工作量。

這一問題的核心在于解耦和高效的代碼復用：如何讓單一的技術開發和工程成果自動應用于多個平臺？

為了解決這些痛點，團隊提出了ArkInfer，一個新穎的跨平臺部署系統。ArkInfer旨在通過提供高效的推理速度并作為各種模型應用的多功能跨平臺兼容層，來克服端側芯片的碎片化問題。

為此，團隊引入了三個關鍵解決方案：

1）跨平臺兼容的架構設計；

2）可復用且高效的推測采樣與約束解碼方案；

3）可擴展的模型庫前端。

跨平臺兼容的架構設計

ArkInfer的架構設計從根本上受到在碎片化的端側硬件環境中實現統一、高效部署需求的驅動。為了支持如聯發科（MediaTek）、英偉達（Nvidia）、高通（Qualcomm）和瑞芯微（Rockchip）等多樣化平臺（每個平臺都有其原生推理框架，例如NeuroPilot、Genie、RK-LLM、TensorRT-LLM以及用于CPU的llama.cpp），ArkInfer將這些框架無縫集成為可適配的后端。

ArkInfer的核心實現了一個強大的抽象層。

該層包含一個適配器系統，能夠規范化不同后端的各種API，為上層組件提供一致的接口。這確保了無論底層硬件或框架如何，都能實現無縫交互。通過統一的Tensor結構進一步簡化了數據處理，該結構封裝了不同的數據類型和維度，確保在整個系統中進行一致的操作。對于LLM效率至關重要的KV緩存管理器，則智能地編排歷史狀態的存儲和檢索，優化后續詞元的生成。

該架構的核心組件是一個抽象執行器接口，它管理所有模型相關流程的執行，其輸入和輸出由基礎張量類型定義。這種設計一方面支持了執行器粒度的異構調度，使團隊能夠充分利用多樣化的計算資源。

此外，通過追蹤執行器的執行過程，團隊可以跟蹤數據和操作的流程，這極大地促進了調試和性能分析，特別是對于端側適配中常見的痛點——關鍵階段精度對齊問題。

可復用且高效的推測采樣與約束解碼方案

高效的LLM推理技術通常分為三類：量化、稀疏性和加速自回歸過程。

前兩者（如GPTQ、MoE和InfLLM v2）通常與特定硬件或算子實現深度耦合，而像推測采樣（Speculative Decoding）和約束解碼（Constrained Decoding）這樣的加速技術則與底層硬件的耦合相對松散。

這種解耦使團隊能夠在部署框架中僅做一次實現，并在多種芯片架構上啟用它們。

因此，ArkInfer集成了推測采樣和約束解碼功能。團隊的設計理念核心是設計上的通用性，易于集成到現有的執行后端中。集成了：

加速推測解碼（Accelerated Speculative Decoding）：為了提升推理速度，ArkInfer集成了基于BiTA算法的高級推測解碼機制。選擇此技術是因為它能在無需額外草稿模型或特殊架構改動的情況下顯著提升性能，簡化了在資源受限的端側設備上的部署，同時保持高輸出質量。
約束解碼（Constrained Decoding）：為確保輸出符合特定格式（如JSON或SQL），ArkInfer采用了強大的約束解碼方法，利用了Guidance框架。選擇此方法是因為其在強制執行結構遵從性和提供確定性響應方面具有卓越能力，這對于需要結構化或精確輸出的應用至關重要。

可擴展的模型庫前端

在端側設備上部署模型的一個關鍵障礙源于不同廠商模型文件的碎片化。不同的芯片制造商通常要求各自獨特的格式和要求，導致部署流程復雜且低效。

團隊認為，最優的方法是維護一個集中式的模型庫，提供廣泛選擇的、預先適配好的模型。

為此，團隊為ArkInfer設計了一個可擴展的、跨平臺的前端。該接口允許用戶直接訪問和執行團隊模型庫中的各種模型，從而顯著簡化了MiniCPM及其他模型在多樣化設備上的部署。

除了加速模型庫的增長和維護，還創建了一個自動化模型轉換流水線。該系統能高效地將模型轉換為不同平臺所需的格式，極大地加速了團隊模型庫的持續開發。

數據高效：高能力密度數據篩選與合成

隨著大模型的快速發展，數據質量已成為提升模型性能的關鍵因素之一。

因此，為了能夠提升大模型的能力密度，團隊開展了大量的數據工程，從而使得MiniCPM4能夠僅使用8T詞元就能夠達到與用了36T詞元的Qwen3相當的效果。

UltraClean：高能力密度預訓練數據篩選

當前預訓練數據的篩選方法可被分為兩類：

一類是基于規則的篩選，通過人為制定的規則來挑選出高質量的預訓練數據，該方法覆蓋面有限，僅能夠過濾少量的低質量樣本。一類是基于模型分類器的篩選，通過訓練一個數據質量分類器來對數據進行篩選。

利用基于模型的分類器來過濾數據這類方法，面臨兩個主要挑戰：

1）缺乏高效的數據驗證策略，難以及時反饋數據質量；

2）用于訓練分類器的種子數據選擇缺乏明確標準，嚴重依賴人工經驗，引入主觀偏差。

為解決這些問題，MiniCPM4中提出了一種高知識密度數據的篩選方法。該方法中依賴高效的數據驗證策略，旨在以最小的計算成本快速評估數據對大模型訓練的實際影響。

基于此，團隊基于高質量種子數據應有助于提升大模型性能的假設，優化了種子數據中正負樣本的選擇過程，并構建了高效的數據過濾流程。

工作流程：

整體工作流程如上圖所示。團隊首先應用高效驗證策略評估初始候選種子樣本池，選擇能顯著改善訓練性能的高質量數據作為分類器訓練的正樣本種子。

同時，從原始數據池中隨機抽取負樣本，構建平衡的訓練集，訓練數據質量分類器。

為了更高效地評估分類器的實際效果，還對其過濾結果應用高效驗證策略。

基于驗證反饋，迭代更新高質量種子池，動態調整正負樣本比例，并微調分類器的訓練超參數，從而持續優化數據過濾策略。只有在高效驗證下表現穩定可靠的分類器才會用于大規模數據過濾和后續模型訓練。

高效驗證策略：

在有限的詞元訓練預算下，大模型訓練中數據帶來的性能差異往往比較微小，而訓練過程固有的不穩定性也進一步削弱了驗證結果的可靠性。

有效的預訓練數據驗證通常需要至少100B詞元。在1B參數的大語言模型上訓練100B詞元需要約1200個GPU小時，相當于64個GPU連續運行近19小時。

如此高的計算成本使得在高質量數據分類器的迭代開發過程中進行高效驗證變得不切實際。

為解決這一問題，團隊提出了一種高效驗證策略。

具體而言，他們訓練一個10億參數的大模型，總計覆蓋1.1萬億詞元。這包括1T詞元的穩定訓練階段和額外100B詞元的退火訓練階段。

在此基礎上，團隊引入兩階段退火訓練過程，首先使用原始數據進行 90B 詞元的退火訓練，并進一步在10B詞元上進行二階段退火訓練。

二階段退火訓練中30%的數據是待驗證的新數據，剩余70%使用原始的數據。與1200個GPU小時的完整訓練成本相比，該策略將訓練時間縮短至約110小時（即在32個GPU上少于3.5小時），顯著降低了計算需求，大幅提升了數據過濾流程的效率和可迭代性。

最終，利用該數據篩選策略，基于FineWeb數據，篩選得到大規模高質量數據UltraFineWeb，包含有1T+高質量的中英文預訓練語料。其中預訓練結果對比如下圖所示。

基于UltraFineWeb訓練得到的模型，能夠取得顯著的下游任務性能提升。

UltraChat-v2：高能力密度有監督微調數據合成

為了全面提升大語言模型的核心能力，團隊構建了一個針對任務能力的數據合成框架。

該框架以核心能力維度為導向，系統性地生成涵蓋多元技能的高質量問答數據，為后訓練階段提供更加精準和結構化的學習信號。

團隊圍繞五個關鍵技能領域精心設計了合成數據生成流程：知識應用、邏輯推理、指令遵循、長上下文處理和工具使用。

每類數據都深度適配其目標技能的輸入輸出特征和認知要求，生成多樣化、任務驅動且具備良好遷移性的訓練樣本。

學習高效：多維度訓練策略優化

大模型的規模法則表明，模型性能隨著訓練量的增加而提升。降低模型訓練開銷，是持續推動模型不斷Scaling的關鍵。

在MiniCPM4中，團隊從預訓練訓練前開展超參實驗、預訓練中實現工程集成與優化、后訓練強化進行框架效率優化、后訓練極致量化進行存儲優化四個方面，實現了大模型的訓練高效。

ModelTunnel v2：更高效的預訓練策略搜索

訓練大語言模型需要巨大的計算成本，因此在最小化計算資源消耗的同時最大化模型性能成為一個關鍵挑戰。

在MiniCPM1模型訓練中，團隊基于Predictable Scaling技術構建了第一版模型風洞ModelTunnel。這使其能夠在小模型上搜索訓練策略并將其遷移到大模型訓練中，從而降低為大模型確定最優訓練配置的實驗成本。

在MiniCPM4的訓練過程中，團隊復用了ModelTunnel中的相關配置，并開發了ModelTunnel v2，該版本在搜索精度與效率方面有所改進，并對搜索結果的有效性提供了系統性驗證。

（1）更可靠的觀測指標：

在MiniCPM-1中，團隊使用模型在開源預訓練語料庫上的語言模型損失作為性能指標。

然而，預訓練數據集上的損失無法準確反映模型在下游任務上的實際性能。由于涌現現象的存在，風洞中訓練的小模型參數量與數據量均有限，無法在下游任務上展現出非隨機的性能表現。

因此，團隊構建了ScalingBench評測集，建立了下游任務驗證集上推理步驟與答案的條件損失，與下游任務性能之間的函數關系。因此該指標能夠更準確地預測模型的實際表現。

（2）搜索效果驗證：

利用可預測縮放進行超參數搜索是降低實驗成本同時最大化模型性能的關鍵途徑，該方向近年來受到學術界與業界的廣泛關注。

相關研究主要分為基于架構的超參數遷移和數據驅動的超參數遷移兩類。

在MiniCPM系列模型中，團隊采用μP架構，該方法允許超參數在不同模型規模間遷移。

在MiniCPM4 中，團隊比較了μP架構與數據驅動的超參數遷移方法的性能差異。

實驗結果顯示，兩種方法在最終模型的性能上沒有顯著差異，但數據驅動的超參數遷移需要開展大量的搜索實驗，如StepLaw需要百萬的GPU機時進行超參數搜索。而MiniCPM系列模型的架構，只需要32個GPU機時即可以搜索得到最優參數，大幅降低了超參數搜索的開銷。

Chunk-wise Rollout：負載均衡的強化學習

近期研究表明，強化學習可以增強大模型的深度推理能力。然而，直接將強化學習應用于端側基座模型往往導致訓練不穩定和收斂緩慢。

因此，團隊首先使用長思維鏈數據對基礎模型進行有監督微調。這一步驟為模型提供了基本的推理能力，并為強化學習提供了更好的初始化。

隨后，他們繼續使用強化學習進一步提升模型性能。

考慮到強化學習算法極大受限于模型采樣生成的步驟，為了提高訓練效率，團隊精心篩選了訓練數據并引入了分塊推理策略，通過優化GPU利用率和減少計算浪費顯著加速了強化學習過程。

為了減輕推理階段冗長軌跡導致的推理吞吐量下降，團隊提出了分塊推理策略以最大化計算資源利用率。該策略的工作流程包含三個步驟：

（1）策略模型為所有輸入樣本生成固定分塊長度的軌跡。

（2）已完全完成或達到最大生成長度的軌跡用于訓練，對于未完成的軌跡，計算并存儲其對數概率以供后續重要性采樣使用。

（3）未完成的軌跡與下一批新輸入合并，然后流程返回步驟（1）。

通過采用這一策略，團隊顯著提高了GPU利用率，有效減少了單次推理迭代中過長輸出造成的計算浪費。

實驗結果表明，MiniCPM4中提出的分塊推理策略能夠節省70%的采樣時間，每個訓練步耗費的時間減少42%。

BitCPM：極致的三值量化

部署大模型面臨高計算和內存需求的挑戰。模型量化通過降低參數精度來解決這一問題，實現高效推理并減少資源消耗。極低比特量化近期備受關注并展現出巨大潛力。

本文介紹了一種高效的量化感知訓練方法來構建三值模型BitCPM4，證明了將高精度大模型適配為極低比特版本的可行性。

團隊訓練了兩個規模的三值模型：BitCPM4-0.5B和1B參數模型，整個訓練過程使用了350B 詞元。

實驗結果顯示，在0.5B參數級別，BitCPM4-0.5B在知識相關任務上表現優異，超過了Qwen3 0.6B全精模型；在1B參數級別，BitCPM4-1B的性能與2B參數模型相當。

由于所需詞元數量僅為同類方法的10%，證明了團隊的方法能夠以更低訓練成本提供具有競爭力的結果。

核心性能表現

效率評測

為了能夠實現極致的推理加速，在MiniCPM4中，團隊構建了稀疏注意力機制 InfLLM v2，使用了投機采樣算法 FR-Spec，提出了前綴敏感的量化算法，并搭建了自研的推理框架，從而實現在端側芯片上的極致提速。

為了驗證團隊所提出算法的有效性，在本節中，團隊在兩款典型的端側芯片上測試模型的效率。

具體而言，選定了兩款端側芯片：Jetson AGX Orin 和 RTX 4090。其中前者被廣泛應用于車載芯片、機器人等端側場景，而后者更多是PC場景下的計算設備。

評測結果如圖所示。團隊評測了 Llama3-8B、GLM4-9B、Qwen3-8B和MiniCPM4在32K到128K序列上的吞吐速度。

從結果中可以觀察到：

推理加速顯著：相比同等參數規模的開源大語言模型，在預填充和解碼場景中都能實現一致的加速。

具體而言，相比Qwen3-8B，在Jetson AGX Orin上可以實現約7倍的解碼加速，證明InfLLM v2稀疏注意力機制在端側設備上具備極高實用價值。

序列越長，加速越強：隨著文本長度增加，團隊模型的效率優勢變得更加明顯。

這是由于稀疏注意力機制能夠有效降低長文本計算與訪存開銷。隨著模型需要處理的文本長度逐漸增加，傳統稠密注意力機制的訪存開銷快速增長，而 InfLLM v2需要訪問的上下文塊數量保持不變，只有語義核的表示會隨著序列長度緩慢增長。

因此，在長序列處理中，MiniCPM4能夠始終高效地處理長文本。

標準評測

團隊在表1中展示了MiniCPM4與基線模型的評測結果。從結果中可以觀察到，MiniCPM4-0.5B和8B模型在各類任務中都取得了領先表現。

MiniCPM 4與其它開源大語言模型的評測結果：

性能領先：MiniCPM的兩款模型都在相近尺寸的模型中實現了最先進的性能，這表明了團隊訓練方法的有效性。

MiniCPM的兩款模型都能夠超越部分參數量遠超MiniCPM模型的開源大模型。例如，MiniCPM4-0.5B可以取得比Llama3.2-1B、Gemma3-1B更優的性能，即使它們的參數規模是MiniCPM4的兩倍。MiniCPM4-8B也能夠超越Gemma3-12B和Phi4-14B。

這進一步表明，利用高質量的數據和高效的學習算法，MiniCPM4能夠取得優異的性能。

訓練效率高：相比于這些開源模型，MiniCPM4 能夠使用遠低于它們的訓練開銷，取得優異的性能。

具體而言，MiniCPM4與Qwen3具有相當的性能，而Qwen3使用了36T詞元進行訓練，而MiniCPM4僅使用了8T詞元，只有Qwen3訓練數據量的22%，這充分驗證了Ultra-FineWeb數據篩選與Model Wind Tunnel v2訓練優化策略的有效性。

長上下文評測

在MiniCPM4 中，團隊使用稀疏注意力機制將上下文窗口擴展到32K。

在本節中，團隊評測MiniCPM4在長序列理解任務上的表現。具體來說，團隊遵循Ruler的方法，在大海撈針任務（RULER-NIAH）上評測其模型。應用YaRN將MiniCPM4的上下文窗口擴展到 128K，并在128K NIAH上評測 MiniCPM4。

結果如圖所示。從結果中可以觀察到：

長序列處理能力強：MiniCPM4在長序列上能夠取得令人滿意的性能，在大海撈針任務上達到100%的準確率。并且對于每個詞元，MiniCPM4只需要模型關注6K上下文詞元，這意味著在128K上下文中，MiniCPM4的稀疏度僅為 5%。

上下文外推能力強：MiniCPM4在上下文窗口外推方面具有良好的性能。即使團隊只在32K上下文上預訓練模型，MiniCPM4也能在4倍上下文長度上達到100%的準確率。

在后續章節中，團隊將MiniCPM4應用于調查報告生成任務，該任務需要模型讀取和寫入長文檔。MiniCPM4能夠取得比其他基線模型更好的性能，顯示了MiniCPM4在長序列處理方面的有效性。

應用和場景

得益于卓越的推理效率與模型能力，MiniCPM4在多個關鍵任務中展現出強大適應性。團隊重點展示兩個關鍵應用：

可信的綜述生成（MiniCPM4-Survey）：面向高質量長文檔理解與生成的典型任務，驗證了MiniCPM4在長序列處理場景下的優越性能。

MCP協議增強的工具調用（MiniCPM4-MCP）：面向Agent智能體部署，強調模型與復雜工具鏈和環境的交互能力，適用于端側智能與實際任務執行。

MiniCPM4-Survey：可信的綜述生成

在科研輔助場景中，自動化生成高質量綜述文獻是一項挑戰極大的任務，需要模型具備出色的信息整合、結構規劃和語言生成能力。

團隊提出了基于MiniCPM4-8B構建的SurveyAgent系統，采用“規劃—檢索—寫作”三階段流程，高效生成結構清晰、內容可信的長篇綜述。

團隊構建了包含規劃大綱、檢索關鍵詞、節級內容等高質量訓練數據，并設計了從監督微調（SFT）到章節級、全局級強化學習（RL）的多階段訓練策略，逐步提升模型的全局規劃性和細節深度。

同時，團隊還建立了一套完整的獎勵系統，從結構合理性、內容深度、新穎性、引用一致性等多個維度對模型能力進行評估。

在SurveyEval測試集上的評測結果表明，MiniCPM4-Survey在內容相關性、覆蓋度、深度和新穎性等方面的平均得分與OpenAI Deep Research持平，并在FactScore（事實一致性）上取得所有系統中的最高分，顯示其在本地部署、隱私保護和低成本條件下的長文處理能力具備強大競爭力。

下方表格展示了 MiniCPM4-Survey與基線模型的評測結果。“G2FT”代表Gemini-2.0-Flash-Thinking，“WTR1-7B”表示Webthinker-R1-7B。

由于Webthinker不包含引用功能，以及OpenAI Deep Research在導出結果時不提供引用，因此省略了對它們的FactScore評估。

注：粗體數值表示每列中的最佳性能。”—“條目表示未對這些方法進行Fact Score評估。

MiniCPM4-MCP：MCP協議增強的工具調用

大語言模型與外部工具的交互流程往往依賴人工構造，缺乏統一標準，導致智能體系統擴展性差、復用成本高。

為應對這一挑戰，MCP（Model Context Protocol）提供了統一的模型-工具交互協議，允許語言模型在標準化框架下調用任意外部服務。

團隊構建了MiniCPM4-MCP模型，使其具備理解MCP協議、發現并調用各類工具、完成復雜任務鏈路的能力。

團隊采用“正向生成 + 反向構造 + 數據集轉換”的方式構建訓練數據，涵蓋單工具調用、跨工具組合調用和多輪工具交互，共計約14萬條樣本，輔以人工與LLM雙重質量審核。

團隊還搭建了基于Docker的MCP工具調用環境，覆蓋辦公、出行、文件管理等多個真實服務，配合客戶端進行自動測試與適配，確保模型訓練數據與環境高度一致。

在人工標注測試集上的評測結果顯示，MiniCPM4-MCP在函數名稱、參數名和參數值填充準確率方面全面優于 Qwen3-8B，并在多個服務器上逼近甚至超越GPT-4o，證明其具備通用、多樣的工具調用能力，是構建智能體系統的理想基礎模型。

Github鏈接：https://github.com/openbmb/minicpm
技術報告鏈接：https://arxiv.org/pdf/2506.07900
Huggingface鏈接：https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b
Model Scope鏈接：https://www.modelscope.cn/collections/MiniCPM-4-ec015560e8c84d

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.